北京时间4月12日消息,据国外媒体报道,Google公司4月11日表示,已经开始在全球部署旨在剔除低劣内容网站的“农夫算法”(“Farmer”),此举将给SEO(搜索引擎优化)行业和中小网站带来冲击。
“农夫算法”,顾名思义,旨在通过对排名算法的进一步优化,“根除”那些内容达不到要求、但是往往根据SEO获得靠前排名的低劣网站。一个月前,这一算法开始在Google美国网站开始部署,而从本周一开始,将部署到全球的搜索服务上。届时,全球的搜索用户将会发现“农夫算法”给结果排名带来的影响。
从美国一个月的表现来看,一些专业出版网站的排名获得提升,但是一些质量不高的网站受到较大冲击,比如“Mahalo”网站受到影响,甚至宣布了裁员。
Google团队在一篇博文中表示,新算法将部署到英文网页的搜索服务中,而Google已经开始吸纳用户的反馈意见,以便提供更理想的搜索结果。在一些领域,Google甚至开始兼顾用户的“网站封杀”反馈信息。
Google表示,优化后的“农夫算法”同时考虑到了网站的“长尾效应”,即一些中小网站,貌似整体质量不高,但长期内也能够提供有用的结果,而之前这一因素并未得到考虑。
Google称,经过吸收用户意见以及逐渐完善,“农夫算法”对于搜索排序的影响已经减小,之前美国12%的关键词搜索受到影响,但目前影响比例已经降低到了2%。
Google对于“农夫算法”的总结是,“在侦测网站质量上将达到精确水准”。(暻瑾编译)
相关文章:
[SEO技术] wordpress 中文seo 优化建议 元创 2011/03/31
[IT新闻] (收藏)网站分析应该关注的博客和学习资源 元创 2011/03/29
[seo工具] Market Samurai(关键词排名批量查询工具) -最新破解版 元创 2011/03/28
[seo工具] 竞争对手外部链接分析SEO工具(2011) 元创 2011/03/23
[seo工具] 最新链接分析工具SEOmoz Open Site Explorer SEOmoz 元创 2011/03/21
[IT新闻] 关于网站未备案的国内域名不予解析(含跳转)的通知 元创 2011/03/19
[seo工具] 《光年SEO日志分析系统2.0》免费下载 元创 2011/03/08
[SEO技术] SEO中什么是减少HTTP请求 元创 2011/03/02
[IT新闻] 谷歌大幅调整搜索算法 压低低质内容搜索排名 元创 2011/02/28
[SEO技术] 标题优化Google排名算法的新变化 元创 2011/02/27
[SEO技术] 友情链接平台大全收集(100个) 元创 2011/02/19
[网站运营] 新浪微博营销方案:国内名酒品牌新浪微博营销方案 元创 2011/02/18
[网站运营] 地方网站初期如何运营(下载) 元创 2011/02/12
[SEO技术] 谷歌教你如何改善目标网页(着陆页) 元创 2011/02/10
[网站运营] 电子商务运营核心数据模型-流量数据分析 元创 2011/01/27
[SEO技术] 如何全面分析竞争对手 元创 2011/01/23
[网站运营] 网站分析金三角 元创 2011/01/18
[网站数据分析] 新手该怎样学习网站分析? 元创 2011/01/13
[IT新闻] 百度启动智能侦测反应机制,协助侦测SEOSPAM 元创 2011/01/12
[网站运营] 淘宝MBA研究院详细分析-淘宝搜索排序之相关性 元创 2011/01/09
[SEO技术] SEO在访问日志里面出现304 0 0是什么意思? 元创 2011/01/05
[IT新闻] 高代鹏:如何通过数据进行网站分析 元创 2010/12/31
[IT新闻] SEOWHY访谈ZAC(1) 元创 2010/12/28
[SEO技术] 谷歌文本匹配定位工具 元创 2010/12/27
[网络营销分析] 淘宝搜索掌门人之鬼脚七见面会总结 元创 2010/12/27
[网络营销分析] 如何评估卖家服务质量? 元创 2010/12/20
[网站运营] 浅谈淘宝搜索排序算法 元创 2010/12/20
[网站运营] 电子商务的几个数据要记得 元创 2010/12/20
[网站运营] 百度知道开放平台 提高网站知名度与流量 元创 2010/12/17
[网站运营] 淘宝搜索作弊行为标准及解决方法 元创 2010/12/15
[网络营销分析] 淘宝网店的运营感悟 元创 2010/12/07
[SEO技术] SEO如何才能持续的发挥作用 元创 2010/12/04
[网站运营] 饰品类淘宝商城11月份量子数据分享 元创 2010/11/24
[IT新闻] 一淘网的开放与京东商城的艳照 元创 2010/11/23
[IT新闻] 国美发力电子商务 4800万控股库巴购物网 元创 2010/11/23
[seo工具] sem一家之言推出光年SEO日志分析系统下载 元创 2010/11/22
[随笔杂谈] 江礼坤:京东在“艳照门”中的表现太差 元创 2010/11/21
[网络营销分析] 电子商务:米粒之殇与淘宝商城狂欢 元创 2010/11/16
[网站运营] 如何提高电子商务网站的转化率 元创 2010/11/16
[网站建设] 淘宝:不欢迎7类搜索作弊行为 元创 2010/11/12
[SEO技术] 淘宝SEO:解读淘宝七大反搜索作弊行为 元创 2010/11/12
[网站推广方法] 淘宝排名优化八大规则揭秘 元创 2010/11/09
[SEO技术] 网站权重优化需要注意几点 元创 2010/11/07
[IT新闻] 51.LA用户数据报告,包含浏览器报告 元创 2010/11/06
[IT新闻] 金山和卡巴斯基分别宣布杀毒软件免费一年 元创 2010/11/04
[IT新闻] 腾讯公告称360扣扣保镖导致QQ宠物无法正常启动 元创 2010/11/03
[SEO技术] 高级链轮详解 元创 2010/11/03
[随笔杂谈] 简单轮链分析操作心得 元创 2010/11/03
[IT新闻] 谷歌测试在搜索结果中显示产品品牌和细节 元创 2010/11/02
[随笔杂谈] 黑帽seo案例分析,作弊站群分析 元创 2010/11/02
1、URL结构
WordPress 允许您更改默认的链接形式,以此提高 URL 的可读性和对搜索引擎的友好程度。我们选择什么样的URL没有什么特别的要求,如果是新闻类相关类等具有时效性的,个人觉得选择日期和文章名更好,这样子对用户更加明确和友好。
/%postname%/或者也可以把分类加入进来/%category%/%postname%/(注:如果你的一个文章有多个分类的话,URL会呈现多级目录的形式),同时如果是中文WordPress的话,中文标题有时会被自动显示在URL中,会导致URL的utf-8编码的URL很长(如果你选择的是utf-8的编码的话),在QQ聊天等复制URL时会很长,有时会出现被QQ系统自动截断。
当然你可以偷懒直接使用数字形式,如SEM一家之言 /archives/%post_id%,还可以选择数字加文章名的形式/%post_id%‐%postname%根据你自己的需求来选择URL
2、robots.txt 什么是robots.txt?
个人觉得WordPress本身的结构已经设计的很好,再者搜索引擎也很熟悉,可以放心大胆的使用User-agent: *
Disallow:
复制代码当然可以根据你所用的WordPress主题和蜘蛛的爬行的记录,进行合理的设置。可以用SEO日志工具
3、合理规划网站权重
首页不要全文输出,全文输出的话有种single post也就成为了首页的“部分内容”,导致single post的权重被降低,全文输出时有时你会发现搜索你的某篇文章首页是排在single post的前面的。
规划WordPress主题的sidebar
你可以使用zero介绍到的WordPress插件Widget Logic规划下sidebar,比如很多WordPress主题默认每个页面都会显示最新文章的选项,而WordPress首页本身会按时间显示最新文章,因此没有必要在设置最新文章了,把这些权重分配给你的其他想要重点优化的某些热门文章。在其他页面设置最新文章也可以保证搜索引擎爬虫不管从哪个入口可以索引我们的最新文章,帮助新文章的收录。当然还可以设置其他的比如友情链接等。
关于作者、Read More、meta功能选项的处理
很多WordPress主题默认显示作者的超链接,所有很多人会在robots.txt中把author给屏蔽掉来避免重复内容等问题,这个熟悉WordPress主题的话直接去掉主题里面的超链接就好啦,毕竟被robots.txt屏蔽掉的URL有时也还会分配权重。
还有很多人觉得在首页文章的Read more一是confuse 蜘蛛,再者这样子按照谷歌的说法锚文本过于宽泛,那么我还是直接在主题里面修改不显示就好啦就像SEM一家之言一样,或者使用之前介绍的SEO Ultimate把Read more换成标题内容的超链接。
Meta功能的功能选项,我的建议是去掉吧,WordPress登陆的URL基本都是wp-login.php很好记的,没必要每个页面都放上,浪费权重,而且老有人喜欢去点击注册,忘记admin密码重置链接啊等等
4、重复内容的处理
不可避免的WordPress也会造成一些重复内容,比如评论分页等,http://example.com/post/
http://example.com/post/comment-page-1/
http://example.com/post/comment-page-2/
复制代码那我们就不设置评论分页呗,除非你的评论确实很多,我想那时你能有这么多评论和人气,你恐怕已经不依赖SEO了吧
关于重复内容还有一个容易引起重复的地方是tag标签,很多人就不怎么使用tag,在我搜索一些关键词的过程中往往tag会经常出现在我的视线中,再者你观察蜘蛛爬行的记录的话,会发现百度蜘蛛很喜欢爬行WordPress的tag URL,既然它喜欢,就写好tag让蜘蛛爬行去吧。
很多人不写原因恐怕和这位差不多吧Zac
我博客没写tag,原因之一就是要想不同的tag,太麻烦,我干脆不写了,但有时间的童鞋,可以写,再然后,内容除了原创,这个不说了,谁都知道,还得有个性
来自站长百科访谈之SEO专家ZAC采访内容
存档页的处理
我的建议是针对以日期分类存档的页面 什么是nofollow
其他
WordPress针对中文的Ping服务
关于ping服务可以查看http://www.gnbase.com/thread-130-1.htmlhttp://ping.baidu.com/ping/RPC2
http://blogsearch.google.com/ping/RPC2
http://blog.yodao.com/ping/RPC2
http://www.feedsky.com/api/RPC2
http://www.xianguo.com/xmlrpc/ping.php
http://www.zhuaxia.com/rpc/server.php
站点地图
使用Google XML Sitemaps创建sitemap,可以将sitemap地址写到robots.txt里面,在网站管理员工具的网站地图的话就会直接识别出来很方便提交,不用手工输入提交。
很多WordPress主题自带archives的页面模板,可以当作针对用户的站点地图来使用。
网站内链
关于网站内链就使用WP Keyword Link,这款插件就是在smart link的基础上开发的,原作者推出的smart link pro版更加强大可惜太贵了,看介绍有很多很好的地方和细节处理的很到位。
网站分析是网站运营过程中的一个重要环节,其重要性不言而喻,在这里主要为大家推荐一些值得关注的博客,有没有提到的或者大家觉得蛮好的网站分析博客,希望大家回帖补充。(以下排名不分先后)
1、网站分析在中国
博客地址:http://www.chinawebanalytics.cn/
新浪围脖是:t.sina.com.cn/webanalytics
中国网站分析的布道者,目前在Omnicom Media Group任数字营销分析总监。
一直致力于:
* 把国外最有价值的,最符合中国互联网实情的Web Analytics资源介绍给中国的互联网营销从业者们。
* 扩大中国Web Analytics从业者的圈子,希望跟所有对网站分析和互联网营销感兴趣的朋友们建立联系和友谊。
* 发表个人关于Web Analytics方面的一些心得,以及把自己的一些经验与大家分享。
笃信数据,痴迷分析,不求真理,但求真相。
值得关注的文章比如有:网站分析与SEO效果的评估 http://www.chinawebanalytics.cn/use-web-analytics-to-evaluate-seo/等
2、Dave's Web analytics—郑海平网站分析与电子商务
博客网址:http://www.wachina.net/
新浪微博:http://t.sina.com.cn/davezheng
原美国新蛋总部网站分析负责人,首席网站分析师。
如果没猜错的话 网站分析大师Avinash Kaushik的新书《Web Analytics 2.0》中文版就将是由他所翻译。
3、Mars Opinion
博客网址:http://www.marsopinion.com/
新浪微薄:http://t.sina.com.cn/marsocean
他曾在上海负责中国新蛋网(Newegg.com.cn)的网络营销和网站管理。之后,他前往洛杉矶加入美国新蛋网(Newegg.com,美国第二大纯线上零售商)集团战略办公室,负责数据驱动的营销战略的制定和实施。同一时期,他开始在自己博客(MarsOpinion.com)上分享“数据驱动的电子商务和网络营销”理念和实践经验。
几个月前,他离开了新蛋集团回到中国。目前他正作为战略顾问,为多家咨询公司、网络广告公司和电子商务公司提供电子商务和网络营销方面的咨询。除此之外,目前他也作为客座教授在大学和商学院教授电子商务和网络营销相关的课程。其关于网络营销数据解读 的一系列的文章值得推荐 http://www.marsopinion.com/2010/11/29/how-to-interpret-internet-marketing-data/
4、蓝鲸的网站分析笔记
博客网址:http://bluewhale.cc/
简介:王彦平 网名: 蓝鲸
从事Web Marketing工作数年
Google Analytics(分析)个人资格
博客有很多实用的Google Analytics中高级应用技巧
5、网站数据分析
博客网址:http://webdataanalysis.net/
网站数量不多,但绝对令人印象深刻。值得关注的专题:电子商务分析、网站用户分析、用户体验分析等Update(博主joegh的论坛空间http://www.gnbase.com/space-uid-778.html)
6、KEVEN的网站分析博客
博客网址:http://www.xiaohai26.com/
博主分享了很多关于GA文章还有一些案例文章很值得推荐
7、天岸的网站分析博客
博客网址:http://we.univcite.com/scyan/
来自奥美的网站分析牛人,如果你不知道奥美的话,面壁去。
值得关注的系列文章 http://we.univcite.com/scyan/web-analytics-series-%E7%BD%91%E7%AB%99%E5%88%86%E6%9E%90%E7%B3%BB%E5%88%97
8、谷歌分析官方帮助
网址:http://www.google.com/support/analytics/
其实很多东西认真查看谷歌分析的官方帮助的话就会很有收获。
9、Cloga与网站分析
网站地址:http://www.cloga.info/
心理学及网站分析爱好者,目前为SEM从业者。
Google Analytics(分析)个人资格(GAIQ)
博客中
这是官方网站 http://www.marketsamurai.com/
1.先进入官方网站,输入你的Email地址,选择12天的免费试用,然后你的email将会收到一份邮件,包含软件的下载地址和试用注册码(如果找不到请去垃圾箱看看)
2.下载软件后安装,会提示你输入注册码,不用管,关闭软件
3.打开你的C:/windows/system32/drivers/etc/,用记事本打开hosts文件,然后在最下面添加下面这两行
213.203.216.114 http://www.marketsamurai.com
213.203.216.114 marketsamurai.com
4.下载破解补丁
.解压缩2个文件到
C:\Documents and Settings\你的用户名\Application Data\MarketSamurai.一串字符数字.1Local Store
如果是Vista或Win7用户:C:\你的用户名\AppDataRoaming\MarketSamurai.一串字符数字.1Local Store
5.断网,运行软件,等主界面出来,连接网络 (有点麻烦,但是每次运行都得这样)
Marketing Samurai主用功能简介:
1.Rank Tracker:没啥好说的,输入关键字列表,输入网站。检网站在google/yahoo/bing的排名,支持多域名查询。同时查询反链和PR。支持数据保存,生成图表
2.Keyword Research:从google keywords tool里面获取数据(需要google账号),批量一次800个词拓展,还带有分析筛选功能,而且链接adwords,可以获取单价等信息,对一些做autoblog的朋友帮助很大。缺点嘛,就是速度慢一些。
3.SEO Competition:分析对手,无非就是写收录呀,域名年龄呀,PR之类的参数对比,没啥好说的
4.Domains:需要使用domainface账号,获取域名信息。一般建站群,想在选个好域名的可以试试,反正我没用过,不做评价了
5.Monetization:貌似是为了CB,Amazon等网赚设计的功能,我不做这个,所以我也没用过也不懂。
6.Find Content:输入关键词,在一些资讯类的站点搜索内容,支持分析功能,比如follow/nofollow,关键词密度,在网上出现的次数(把原文抽一段去google搜索下看看有没有一样的)等等。
7.Publish content:只支持发wordpress。如果你是做autoblog的可以用用。不过也很烂的功能。相信大家应该有更加好的群发工具:)
8.Promotion:拓展外链,在一些web2.0,blog,forum上面找外链,功能很一般,有兴趣的还不如去群里下载我上传的footprint教程,里面全多了:),
我就差不多用到这边了。总体来说软件还不错,RIA开发,所以需要安装adobe的air包。。有心得的朋友欢迎在下面留言交流
此工具可以查出竞争对手与哪些网站做了链接,可以查到在哪些地方发布了链接,相当于雅虎查外链工具一样,这个不用打开雅虎网址,还可以显示每个域名提供了多少个连接,还是不错的SEO工具!
外部链接分析SEO工具
争对手外连外部链接分析SEO工具下载
支持网站:http://www.16ok.net/
SEOmoz不久前发布了全新的链接分析工具,Open Site Explorer。在经过几次使用对比之后,感觉这款工具出来的数据还是比较准确,在分析链接数据时也比较直观、有效,推荐各位朋友使用。
Open Site Explorer的数据来源于SEOmoz的另外一款产品Linkscape。Linkscape相当于一款互联网web数据库,通过爬虫收录各种网站、网页数据,与搜索引擎的收录原理基本类似,这里有专门的介绍。在Open Site Explorer网站的首页,我们可以看到Linkscape现在已经收录将近10兆的链接、0.4兆的网页URL和近7KW的域名数据,依靠这么庞大的数据信息,Open Site Explorer的分析结果是有一定保证的。
关于Open Site Explorer的一些基本应用这边不做详细说明,各位朋友可以体验下,使用比较简单方便。这里提示几个技巧,方便更好的使用这款链接分析工具。
OSE在链接结果页面里提供多种筛选条件,可以更清晰的对内外链数据进行区分。从图中可以显示OSE是将链接分为followed、Nofollowed和301跳转这三种状态的,通过这三种不同状态的链接和后面筛选框中的链接来源等的不同组合,我们可以对自己网站和竞争对手网站做出各种分析操作。
找出网站内部权重最高的页面
OSE有一组与Google的Pagerank类似的权重评估参数,Domain authority指网域的权重, page authority指页面的权重。使用上图的筛选条件所出的结果,我们可以知道在网站的内部链接中,哪些页面所能传递的权重价值是最高的。
分析网站内部的301跳转情况
通过查看内部链接的301跳转情况,可以发现些潜在的跳转问题。
分析竞争对手最有价值的外部链接来源
有这工具的帮助,竞争对手的外链来源和手段其实都是可以被初略归纳出来的。当然,你的竞争对手也是这么认为的。
竞争域名或者页面的外链数据和页面权重的比较
如图,OSE显示新浪和网易的域名权重虽然相同,但是新浪的链接建设做的比网易好,而且有价值的外链比较多。
在Excel里分析链接数据
OSE支持将数据以CSV格式导出,这是我最喜欢的功能,就好像Google Analytics里的导出功能一样的喜欢。这样我们可以在Excel里对所有的链接数据进行分析(最多10000条,足够满足需求了)。
譬如,我们可以将竞争对手的外链数据和自己网站的外链数据进行对比,找出竞争对手拥有的而我们没有的外链资源去分析下一步的外链措施。或者通过Excel的过滤规则和排序规则,找出竞争对后的外链的锚文本情况,等等。
Open Site Explorer的功能确实很不错,基本满足一般网站的链接数据分析工作。而且他还提供API,有技术开发基础的朋友可以讲OSE的数据进行进一步的整合以满足自己的需求。
Rand在10年的搜索营销发展趋势展望时说今年肯定会有新的链接辅助工具出台,代替即将关闭的Yahoo Site Explorer的地位。我觉得也许那时候Rand说的就是他们的Open Site Explorer吧。
尊敬的用户:
您好!
为了进一步贯彻落实工业和信息化部印发的《工业和信息化部关于进一步深入整治手机淫秽色情专项行动工作方案》(工信部电管【2009】672号)的精神,同时积极落实CNNIC近日下发的《关于落实对网站未备案的域名不予解析(含跳转)的通知》,息壤将对国内域名服务做如下调整:
对新注册的国内域名将暂停解析服务,待该域名所指向的网站备案成功并经息壤核查无误后,予以提供解析服务。
对已经注册成功的国内域名,息壤客户需要马上开始自查工作,将网站备案标识放于网站首页显著位置。如果网站尚未申请备案或未完成备案的,请尽快按照主管部门有关规定完成网站备案手续,以免对网站的正常应用及业务造成影响。
息壤将按照工信部和CNNIC政策要求,于近期开始检查息壤客户的网站备案情况,发现未备案的,息壤将按照国家主管部门的要求暂停域名解析,待用户完成网站备案手续后恢复开通。
感谢您的支持与理解!
顺祝
!
后面介绍了《光年外部链接挖掘系统》,有需要的朋友可以下载。
这是国平老师公司开发的软件,俺拿来分享了,下面先来看几个固定的分析维度,下面的数据是semyj.com我这个博客的日志分析数据。
首先是“概要分析”:
概要分析
这里有各个爬虫“访问次数”、“总停留时间”和“总抓取量”的统计。从上面这个数据可以看出,百度爬虫的抓取深度是不高的:访问1868次,抓取量是2968,平均每次抓取1.59页。这其实是百度爬虫普遍的抓取特征,在绝大部分网站上都是这个规律。抓取深度不高的话,会造成很多层级很深的页面不会被抓取到;以及造成少数页面被反反复复在抓取,浪费了爬虫的时间。这样,很多网站想要在百度上获得收录就成了问题,特别是大中型网站。我所接触的所有大中型网站,在刻意去优化之前,一年下来很多网站至少还有一半的网页没有被百度爬虫抓取到,部分网站甚至更严重。相比之下Google的抓取深度就好很多,总的抓取量也大一些。
这里面比较重要的数据是那个“总抓取量”,因为它影响网站的收录量,进而影响网站的SEO流量。在《网页加载速度是如何影响SEO效果的》一文中说明过抓取量和SEO流量的关系。这个“总抓取量”的数据是好还是坏,是要根据每个网站的实际情况来看的。就semyj.com这个网站来说,它现在有53篇文章,300多个网页,而现在google每天有16484个抓取量,百度有2968个抓取量。如果光看这个数据,那看起来这300多个网页基本上在一天之内应该是能被抓取到的。但是很多大中型网站就不一样。
这里我先要说明一个有些人会混淆的问题。为什么我上面会刻意说明一下文章数量和网页数量呢,这是因为文章数量肯定是不等于网页数量的。不过有些人去查收录量的时候就忽视了这个常识。如某网站的文章量(或称单个资讯数量)是30万,去搜索引擎用site等语法去查询收录量是29万,就觉得自己的收录量差不多了,而实际可能差得很远。
因为单个页面都会派生出很多其他页面的。如果打开某一个文章页面,去数一下里面的URL,除去那些模板上重复的,还是有那么一些URL是只有当前这个页面上才有的,也就是这个页面派生出来的。而一个URL对应一个页面,所以一个网站上拥有的页面数量是这个网站的信息量的好几倍,有时甚至是十几二十倍。
所以在看这个“总抓取量”之前,需要把自己网站内可能拥有的页面数量统计一遍。可以用lynx在线版把每一类型的页面上的URL都提取出来看一看。网页总的数量知道了,再和“总抓取量”做对比,就可以知道这个数据是好还是差了。我觉得基本上,google爬虫的抓取量要是网站页面数量的2倍以上,抓取量才算及格,baidu爬虫就需要更多了。因为实际上这个抓取量里面还有很多是重复抓取的;还有和上一天相比,每天的新增的页面抓取不是很多的。
这三个数据:“访问次数”、“总停留时间”和“总抓取量”,都是数字越高对网站越有利,所以需要想很多办法提高他们。大多数时候看他们绝对值没什么用处,而要看现在的和过去的比较值。如果你能每天去一直追踪这些数据的变化情况,就能发现很多因素是如何影响这些数据的。
以下其他数据也是如此:某个当前数据的值有时候不一定有意义的,但是长期跟踪这个数据的变化就能发现很多因素之间是如何互相影响的。
然后是“目录抓取”的数据:
目录抓取统计
这个“目录”抓取的数据是对“总抓取量”的一个细分。一个网站当中,一定是有重点页面和非重点页面的,这个数据就可以让你看看哪一类型的页面被抓取的多,及时做一些调整。
还有就是可以去搜索引擎按URL特征查询一下各个目录下的页面的收录情况,再来和这个目录下的搜索引擎的抓取数据做一个对比,就可以发现更多的问题。对于semyj.com来说,看完这个数据就知道,可能那300多个网页在一天之内还是不能全部被抓取一遍的,因为原来大部分抓取都在bbs这个目录下。(有时候就是有很多这样意外的情况发生,bbs这个目录早已经做了301跳转,没想到还有这么大的抓取量。——看数据永远能知道真相是什么。)
接着是“页面抓取”的数据:
页面抓取
这个数据把一个网站中那些被重复抓取的页面统计了出来,并分别统计是哪些爬虫分别抓取了多少次。大家多分析几个网站就会明白,百度爬虫经常是过度抓取的常客。这个数据也验证了前面的数据:因为它平均每次抓取1.59页,也就是每次来抓取都停留在表层,但是又经常来抓,所以势必导致少部分页面是经常被百度抓取的。因为有重复抓取的存在,所以一个网站光看抓取量大不大是没什么用的,还要看有多少不重复的页面被抓取到了。还有就是要想办法解决这个问题。
在“蜘蛛IP排行”数据里,统计了每个爬虫IP的访问情况:
IP排行
如果分析过很多网站,就会发现爬虫对某一个站的访问,特定时间内的IP段都会集中在某一个C段。这是由搜索引擎的原理决定的,感兴趣的朋友可以查询相关书籍。知道这个特征有时候可以用得着。
报表里有个查询IP地址的功能,可以查询那些爬虫IP是不是真的,如上图红框内的IP,就是一个伪装成google爬虫的采集者。
这个数据和上面的所有数据都一样,前后对比就可以发现更多的信息。
以下是“关键字分析”的数据:
关键词分析
“类型”这里是说明这个关键词是从网页搜索还是图片搜索或视频搜索里来的SEO流量。而“上次用关键字”,是统计用户搜索当前的关键词进入网站之前,是在搜索什么词语。这个功能只有百度有效,因为百度在url中记录了用户上次使用的关键词。 这个地方的界面还需要修改,下一版本中会完善。
“状态码分析”报告中,现在把用户碰到的状态吗和爬虫碰到的状态码分开了,其他没有什么改变:
状态码
这里每一行数据都分为两个部分,第1部分是表示哪个文件出现了这个状态码,第2部分是表示发生在哪个网页。从上面的数据可以看出,这个网站在被一些黑客工具扫描。
在《光年SEO日志分析系统》第二版中,最重要的升级是增加了“日志拆分”功能。有了这个功能,就可以用任意维度去分析网站日志了。
以下是可以拆分的日志字段:
拆分字段
只要你的网站日志是齐全的,有了日志拆分功能这个功能就相当于有了一个数据仓库。这个时候查看网站的数据,就:只有你想不到,没有它查不到的。
如:我们要查看上面那个伪装成google蜘蛛的IP采集了哪些网页,就把拆分条件定义为:ip等于222.186.24.59,agent等于googlebot,就可以把日志拆分出来了;还有要看是哪些IP在用黑客工具扫描网站时,就把拆分条件定义为:url等于MIRSERVER.RAR或等于WWWROOT.RAR等等就可以看到了。
我还建议大家多去拆分爬虫的抓取轨迹,把某一个爬虫IP的抓取路径拆分出来,观察它的抓取路径,再和网站上的URL对应,就能明白爬虫抓取的很多规律。
其实本来还应该开发一个日志合并的功能,但是这个功能实在太简单,一般我们用DOS里面的copy命令就可以解决这个问题:
Copy命令
这样,你可以把网站一星期内的、一个月内的甚至半年来的日志合并起来分析。《光年SEO日志分析系统》是支持分析无限大的日志的,只要你有时间。
在“设置”-“性能设置”里,有两个地方要注意。一个是那个“蜘蛛计算间隔”,这里表示一个蜘蛛多少时间内没有活动就算它离开了。这里要注意对比分析的时候每次都要是同一个时间,因为这里的时间按改变了,那计算爬虫来访的次数就变了。还有一个是“分析显示条数”,现在你可以自己定义在报表中要显示多少行数据,默认只有5条。
文章太长就写到这里,《光年SEO日志分析系统》
下载地址:下载