标题:Spider抓取系统的基本框架 出处:北京SEO_北京SEO培训 - 【元创SEO】 时间:Fri, 19 Dec 2014 09:50:48 +0000 作者:元创 地址:http://www.yuan-chuang.cc/read.php/997.htm 内容: Spider抓取系统的基本框架 互联网信息爆发式增长,如何有效的获取并利用这些信息是搜索引擎工作中的首要环节。数据抓取系统作为整个搜索系统中的上游,主要负责互联网信息的搜集、保存、更新环节,它像蜘蛛一样在网络间爬来爬去,因此通常会被叫做“spider”。例如我们常用的几家通用搜索引擎蜘蛛被称为:Baiduspdier、Googlebot、Sogou Web Spider等。 Spider抓取系统是搜索引擎数据来源的重要保证,如果把web理解为一个有向图,那么spider的工作过程可以认为是对这个有向图的遍历。从一些重要的种子 URL开始,通过页面上的超链接关系,不断的发现新URL并抓取,尽最大可能抓取到更多的有价值网页。对于类似百度这样的大型spider系统,因为每时 每刻都存在网页被修改、删除或出现新的超链接的可能,因此,还要对spider过去抓取过的页面保持更新,维护一个URL库和页面库。 下图为spider抓取系统的基本框架图,其中包括链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider即是通过这种系统的通力合作完成对互联网页面的抓取工作。 点击在新窗口中浏览此图片 http://www.yuan-chuang.cc/attachment.php?fid=340 相关文章: 哪些网页无法建入索引库 百度优先建重要库的原则 新链接重要程度判断 造成Baiduspider抓取异常的原因 Baiduspider抓取频次原则及调整方法 Baiduspider抓取过程中涉及的网络协议 Baiduspider 主要抓取策略类型 Spider抓取系统的基本框架 Generated by Bo-blog 2.1.1 Release