<?xml version="1.0" encoding="UTF-8" ?>
<rss version="2.0">
<channel>
<title><![CDATA[北京SEO_北京SEO培训 - 【元创SEO】]]></title> 
<link>http://www.yuan-chuang.cc/index.php</link> 
<description><![CDATA[元创拥有10多年网络营销和SEO实战经验、管理经验。 《SEO实战 - 核心技术、优化策略、流量提升》一书作者。SEO实战家、推一把联合创始人]]></description> 
<language>zh-cn</language> 
<copyright><![CDATA[北京SEO_北京SEO培训 - 【元创SEO】]]></copyright>
<item>
<link>http://www.yuan-chuang.cc/read.php/.htm</link>
<title><![CDATA[Spider抓取系统的基本框架]]></title> 
<author>元创 &lt;&gt;</author>
<category><![CDATA[百度动态]]></category>
<pubDate>Fri, 19 Dec 2014 01:50:48 +0000</pubDate> 
<guid>http://www.yuan-chuang.cc/read.php/.htm</guid> 
<description>
<![CDATA[ 
	<strong>Spider抓取系统的基本框架</strong><br/><br/> 互联网信息爆发式增长，如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游，主要负责互联网信息的搜集、保存、更新环节，它像蜘蛛一样在网络间爬来爬去，因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为：Baiduspdier、Googlebot、Sogou Web Spider等。<br/><br/>Spider抓取系统是搜索引擎数据来源的重要保证，如果把web理解为一个有向图，那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL开始，通过页面上的超链接关系，不断的发现新URL并抓取，尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统，因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能，因此，还要对spider过去抓取过的页面保持更新，维护一个URL库和页面库。<br/><br/>下图为spider抓取系统的基本框架图，其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。<br/><br/><a href="http://www.yuan-chuang.cc/attachment.php?fid=340" target="_blank"><img src="http://www.yuan-chuang.cc/attachment.php?fid=340" class="insertimage" alt="点击在新窗口中浏览此图片" title="点击在新窗口中浏览此图片" border="0"/></a><br/><br/>相关文章：<br/><a href="http://www.lxysem.cn/read.php/1004.htm">哪些网页无法建入索引库</a><br/><a href="http://www.lxysem.cn/read.php/1003.htm">百度优先建重要库的原则</a><br/><a href="http://www.lxysem.cn/read.php/1002.htm">新链接重要程度判断</a><br/><a href="http://www.lxysem.cn/read.php/1001.htm">造成Baiduspider抓取异常的原因</a><br/><a href="http://www.lxysem.cn/read.php/1000.htm">Baiduspider抓取频次原则及调整方法</a><br/><a href="http://www.lxysem.cn/read.php/999.htm">Baiduspider抓取过程中涉及的网络协议</a><br/><a href="http://www.lxysem.cn/read.php/998.htm">Baiduspider 主要抓取策略类型 </a><br/><a href="http://www.lxysem.cn/read.php/997.htm">Spider抓取系统的基本框架</a><br/><br/>Tags - <a href="http://www.yuan-chuang.cc/go.php/tags/%25E7%2599%25BE%25E5%25BA%25A6%25E6%2590%259C%25E7%25B4%25A2%25E5%25BC%2595%25E6%2593%258E%25E5%25B7%25A5%25E4%25BD%259C%25E5%258E%259F%25E7%2590%2586/" rel="tag">百度搜索引擎工作原理</a>
]]>
</description>
</item><item>
<link>http://www.yuan-chuang.cc/read.php/.htm#blogcomment</link>
<title><![CDATA[[评论] Spider抓取系统的基本框架]]></title> 
<author> &lt;user@domain.com&gt;</author>
<category><![CDATA[评论]]></category>
<pubDate>Thu, 01 Jan 1970 00:00:00 +0000</pubDate> 
<guid>http://www.yuan-chuang.cc/read.php/.htm#blogcomment</guid> 
<description>
<![CDATA[ 
	
]]>
</description>
</item>
</channel>
</rss>