数据分析:日志分析方法概述
前面我提到过【SEO要学会数据分析很重要】,大家可以先了解一下,还有要用的日志分析工具【《光年SEO日志分析系统2.0》免费下载 】。
日志在计算机系统中是一个非常广泛的概念,在SEO分析中也非常重要。任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。
本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。
在Web日志中,每条日志通常代表着用户的一次访问行为,例如下面就是一条典型的apache日志:
211.87.152.44 – - [18/Mar/2005:12:21:42 +0800] “GET / HTTP/1.1″ 200 899 “http://www.baidu.com/” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Maxthon)”
从上面这条日志中,我们可以得到很多有用的信息,例如访问者的IP、访问的时间、访问的目标网页、来源的地址以及访问者所使用的客户端的UserAgent信息等。如果需要更多的信息,则要用其它手段去获取:例如想得到用户屏幕的分辨率,一般需要使用js代码单独发送请求;而如果想得到诸如用户访问的具体新闻标题等信息,则可能需要Web应用程序在自己的代码里输出。
为什么要分析日志
毫无疑问,Web日志中包含了大量人们——主要是产品分析人员会感兴趣的信息,最简单的,我们可以从中获取网站每类页面的PV值(PageView,页面访问量)、独立IP数(即去重之后的IP数量)等;稍微复杂一些的,可以计算得出用户所检索的关键词排行榜、用户停留时间最高的页面等;更复杂的,构建广告点击模型、分析用户行为特征等等。
既然这些数据是如此的有用,那么当然已经有无数现成的工具可以帮助我们来分析它们,例如awstats、Webalizer,都是专门用于统计分析Web服务器日志的免费程序。
另外还有一类产品,它们不分析直接日志,而是通过让用户在页面中嵌入js代码的方式来直接进行数据统计,或者说我们可以认为它是直接让日志输出到了它们的服务器。典型的代表产品——大名鼎鼎的Google Analytics,另外还有国内的cnzz、百度统计等。
很多人可能会说,既然如此,我们为什么还需要自己来分析日志,有必要吗?当然有。我们的用户(产品分析人员)需求是无穷尽的,上面说的这几类工具虽然很好很强大,但显然没办法满足全部的需求。
无论是本地分析的工具,还是在线的分析服务,它们虽然提很丰富的的统计分析功能,可以做一定程度的配置,但是依然很有限的。要进行稍复杂点的分析,或者要做基于日志的数据挖掘,依然需要自己来完成。
另外绝大多数日志分析工具都是只能用于单机的,数据量稍大就没辙了。同时那些提供在线分析的服务对于单个站点通常也都有最大流量的限制——这是很容易理解的,他们也需要考虑服务器的负载。
所以,很多时候还是得靠自己。
怎么进行日志分析
这并不是一个简单的问题。即使我们把“日志”限定为Web日志,依然包含了成千上万种可能的格式和数据,而是“分析”更是难以定义,也许是简单的统计值的计算,也许是复杂的数据挖掘算法。
下面并不打算讨论这些复杂的问题,而只是笼统的讨论如何构建进行日志分析工作的基础。有了这些基础会让基于日志的简单统计分析变得很简单,并让复杂的分析挖掘等变得可行。
前面我提到过【SEO要学会数据分析很重要】,大家可以先了解一下,还有要用的日志分析工具【《光年SEO日志分析系统2.0》免费下载 】。
日志在计算机系统中是一个非常广泛的概念,在SEO分析中也非常重要。任何程序都有可能输出日志:操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同,很难一概而论。
本文讨论的日志处理方法中的日志,仅指Web日志。其实并没有精确的定义,可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志,以及各种Web应用程序自己输出的日志。
在Web日志中,每条日志通常代表着用户的一次访问行为,例如下面就是一条典型的apache日志:
211.87.152.44 – - [18/Mar/2005:12:21:42 +0800] “GET / HTTP/1.1″ 200 899 “http://www.baidu.com/” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Maxthon)”
从上面这条日志中,我们可以得到很多有用的信息,例如访问者的IP、访问的时间、访问的目标网页、来源的地址以及访问者所使用的客户端的UserAgent信息等。如果需要更多的信息,则要用其它手段去获取:例如想得到用户屏幕的分辨率,一般需要使用js代码单独发送请求;而如果想得到诸如用户访问的具体新闻标题等信息,则可能需要Web应用程序在自己的代码里输出。
为什么要分析日志
毫无疑问,Web日志中包含了大量人们——主要是产品分析人员会感兴趣的信息,最简单的,我们可以从中获取网站每类页面的PV值(PageView,页面访问量)、独立IP数(即去重之后的IP数量)等;稍微复杂一些的,可以计算得出用户所检索的关键词排行榜、用户停留时间最高的页面等;更复杂的,构建广告点击模型、分析用户行为特征等等。
既然这些数据是如此的有用,那么当然已经有无数现成的工具可以帮助我们来分析它们,例如awstats、Webalizer,都是专门用于统计分析Web服务器日志的免费程序。
另外还有一类产品,它们不分析直接日志,而是通过让用户在页面中嵌入js代码的方式来直接进行数据统计,或者说我们可以认为它是直接让日志输出到了它们的服务器。典型的代表产品——大名鼎鼎的Google Analytics,另外还有国内的cnzz、百度统计等。
很多人可能会说,既然如此,我们为什么还需要自己来分析日志,有必要吗?当然有。我们的用户(产品分析人员)需求是无穷尽的,上面说的这几类工具虽然很好很强大,但显然没办法满足全部的需求。
无论是本地分析的工具,还是在线的分析服务,它们虽然提很丰富的的统计分析功能,可以做一定程度的配置,但是依然很有限的。要进行稍复杂点的分析,或者要做基于日志的数据挖掘,依然需要自己来完成。
另外绝大多数日志分析工具都是只能用于单机的,数据量稍大就没辙了。同时那些提供在线分析的服务对于单个站点通常也都有最大流量的限制——这是很容易理解的,他们也需要考虑服务器的负载。
所以,很多时候还是得靠自己。
怎么进行日志分析
这并不是一个简单的问题。即使我们把“日志”限定为Web日志,依然包含了成千上万种可能的格式和数据,而是“分析”更是难以定义,也许是简单的统计值的计算,也许是复杂的数据挖掘算法。
下面并不打算讨论这些复杂的问题,而只是笼统的讨论如何构建进行日志分析工作的基础。有了这些基础会让基于日志的简单统计分析变得很简单,并让复杂的分析挖掘等变得可行。
搜索引擎如何判断链接价值的 17 个因素?
搜索引擎是怎样给某个网页排名的,为什么你推荐的这些 SEO 改动会对排名的变动有影响,你在哪儿学的 SEO,你能不能给列一下你做一些比较好的 SEO 案例?当你进的项目进行到一定深度时,就会开始进行链接建设了。客户想知道为什么链接建设那么重要?你就拉出那张“影响网站排名的因素”给他看,指出外链在影响网站搜索引擎排名所占的比重后,他们就会明白了,不过他们又有了另一个问题:
在网页搜索引擎排名上,Google 是怎样决定某个链接带给这个网页多少排名分值呢?
让我们来详细回答一下这个问题。你会发现很多最重要的影响搜索引擎判断一个链接价值的因素和分析。
开始前,有一个很重要的概念需要说说:
可能你注意到了,搜索引擎已经越来越依赖对整个网站的评估多于对某个网页的评估。这就是有时你会看到某些新网页或者只有很少链接的网页排名却很高,仅仅因为它们是在一个重要的、被信任的和外链极好的网站(域名)上。在有关影响搜索引擎排名的因素调查中,我们称之为“网站的权威性”,而且这个因素被 Google 算法(按照投票集合的观点)认为是最重要的。网站(域名)权威性可能基于网站链接图来计算的,而不是基于网页的链接图,下面的列表里,一些标准可能只影响上面其中之一,一些则两个都影响。
#1 – 内部链接 VS 外部链接
当搜索引擎首次通过评价链接到的网页的受欢迎程度、重要性和相关性来判断链接的价值时,它们发现了经典的基于引用的规则——就是指其他人说你好顶过你自卖自夸说千句好要重要,也更可信。因此,内部链接虽然也会带来某些分值和权重,但外部链接带来的要多得多。
当然,这并不意味着好的内部链接架构就不重要了,或者说对内部链接做的一切(有好的锚文本,去掉不需要的链接等等)不重要了,只是说一个网站或某个网页的在排名上的表现高度依赖别的网站怎样引用和评价它们。
#2 – 锚文本
对 SEO 们来说,很明显,锚文本在搜索引擎排名公式中是最重要的因素之一,所以不要奇怪在链接的众多属性中,搜索引擎特别关照这个定位文本的属性。
我们的实验(和以往很多经验)显示,“完全匹配”的定位文本比那些只是被包含着目标关键字的定位文本要来的有益的多。个人观点,搜索引擎不会远离这个标准,尤其对于那些通用(不含品牌的)的关键短语来说,这也是造成很多对 SERPs(搜索结果页面)过于优化和修饰的原因。
#3 – PageRank
无论这个页面排名叫什么,微软叫 StaticRank,Yahoo 叫 WebRank,Google 叫 PageRank,这些都是基于一种递归的、基于马尔可夫链的链接分析算法,是所有搜索引擎排名系统的一部分。PageRank 等排名系统使用的是一种投票的算法,而且和投票网页的影响力和多少有关。
关于 Pagerank 有几点很很重要的基本概念需要知道:
每个网址天生就都被分配了一些数量的 PageRank。
如果一个网页有“n”个链接,每个链接传递出去的页面排名被那个网页的页面排名除于“n”(一个网页上链接越多,那个网页上每个链接传递出去的 PageRank 就越低)
一种通过多次的迭代算法用来计算网络的整个链接图的流向,并以此计算出某个网址的排名分数。
在 Google 的工具条上的 PageRank 数值是指数形式的页面排名,所以页面排名 4 比页面排名 3 要重要 8-10 倍。
页面排名可以通过页面层次的链接图来计算,并给出某个单独的网址 PageRank,但是页面排名也可以通过在网站(域名)级别的链接图来计算,通过计算网站间的链接来决定网站的重要性和排名。
#4 – 信任排名机制
关于信任排名机制的基本概念,请参考斯坦福的论文 – 用信任排名打击网络垃圾。信任排名的基本观点就是互联网上“好的”和“值得信赖”的网页都紧密的链接在一起,然后让垃圾网页只能在这个核心外游荡。因此,通过迭代算法和类似于页面排名的衡量标准让只有来自信任网站的源传递更多的排名权重。信任排名可以用来预报某个网页的质量高低和是否是垃圾网页。
当搜索引擎不披露有关这个衡量标准的相关数据时,有可能某种“距离可信赖信息源距离“的公式应用在页面排名的算法中。另一个有趣的地方是还有一个叫反-信任排名的指标,这个指标用来检测谁链接到那些已知的垃圾站点上,这个可能也是影响排名的一个因素。页面排名和信任排名(以及反-信任排名,reverse-trustrank)都可以在页面层面级别和网站级别来计算排名。
从以上可以直觉地得到一点:从可以信赖的网站得到外链,而且不要链接到垃圾网站。
#5 – 域名权威性
虽然“域名权威性”经常可以在 SEO 界看到(比如域名权威性在影响网站排名的因素中占有很大比重),但是一个正式的、通用的定义却还没有。大多数人都用它来描述搜索引擎根据一个网站的链接数据得来的综合链接广泛度、网站的重要性和可信赖程度。(可能有些搜索引擎还综合一个域名存在的年限因素)
搜索引擎可能通过计算链接并定量地使用评分的方法来确定一个域名(网站)的权威性,而不是只用含糊的言语来描述,所以这是一个值得留意的数据。同时,你从获得外链的域名得到的排名权重可能比单独网页得到的要重要(或重要的多)。
#6 – 外链链接源的多元性
在我们对相关数据的分析后发现,没有哪个因素比来自网站根部的外链对排名的影响大。这显示出这是一个很难控制垃圾网站的指标也显示出外链的重要性和广泛性。
虽然没有因果关系,但很多 SEO 都经验主义地建议你外链网站的多样性对你网站/网页的排名有好处。根据这个逻辑,从一个曾经已经链接到你网站再得到链接比从一个全新的网站得到链接相比,对你的排名提升没有任何价值。这同时说明,从那些本来就多样性的网站得到的链接比那些低多样性网站得到的链接有价值的多。
#7 – 外链来源和目标的唯一性
搜索引擎有自己的一套办法来判定和预测网站间的关系和拥有关系。这包括(但不限于):
大量的共享和反向链接
域名注册数据
共享域名主机 IP 地址或 IP地址的 C 段
公开的收购和关联交易信息
机器可以阅读的公开市场协议
如果搜索引擎判断两个网站间预先存在某种关系,那么可能会对两个网站间链接的“编辑性”质量做抑制处理,它们可能会选择降低分数或干脆忽略这些链接。传闻在这种“网络”中的链接传递很小的价值(尤其是利用经典的“网站范围”建设链接策略形成的链接)。
#8 – 链接在页面上的位置
微软是第一个披露搜索引擎如何处理“区块层级”的(参见微软研究所的文章VIPS : Vision-based Page Segmentation Algorithm基于视觉的网页页面区域算法)。
从那以后,许多 SEO 都报告他们在 Google 和 Yahoo!发现了同样的效果和影响。对于我们也一样,比如,在内部链接中,页脚上的链接不可能提供和页面顶部导航链接一样的效果。还有报告说,为了与不断泛滥的链接广告做斗争,搜索引擎们都降低了从边栏和页脚来的外部链接的分值(价值)。
SEO 们都趋于同意一点:从网页页面“内容”部分来的链接是最有价值的,不管从排名价值来说还是从点击流量来说。(关于页面优化和关键字定位,请参考:网页搜索引擎优化和关键字定位指南)
#9 – 主题相关性
搜索引擎有很多方法对两个网页(网站)进行内容主题分析并判断网页(网站)间是否类似和相关。几年前,Google 实验室推出一项自动分类工具,可以根据 URL(网址)来预测任何虚拟内容的分类和子分类(包括医疗、房地产、市场营销和运动等 10 多个分类)。有可能搜索引擎会使用这种自动主题分类系统来判断网页和链接的“相邻性”,并作为提高网页(网站)排名质量的一项额外措施。
我本身并不担心主题相关性的有关问题,如果你从一个和主题无关的站点( 比NYTimes.com)或一个主题明确的博客得到一个外链,我想这可能对你的排名有好处。我感觉这可能是搜索引擎为了防止垃圾链接或作弊行为说采取的一种分析手段。
#10 – Content & Context Assessment 内容和上下文评估
虽然主题相关性能给搜索引擎提供链接间关系的有用信息,那么可能源链接所在的网页页面内容和上下文更能提供用于决定此链接传给目标网页的价值。在内容和上下文分析里,搜索引擎会通过机器分析/分词来分析和辨析为什么这个链接会存在在这个网页上。
当链接被特意编辑,产生某种模式。链接通过可接受的 HTML 规范、字词用法、措辞等,嵌入到内容中,指向相关的内容来源。通过详细的模式匹配(有可能通过学习大量的数据),搜索引擎可能会分辨出“符合规范的”和“特意编辑”的链接与故意隐藏的(通过作弊)间的区别,或者分辨出哪些是符合内容规范哪些是付费链接,等等。
#11 – 地理位置
一个链接的地理位置高度依赖于这个网站所在的地理位置,不过搜索引擎,尤其是 Google,可能会通过特定的方法来分析大量的数据来精细确认某个网站根域名、子域名或子目录的地理信息。可能包括:
主机的IP地址的位置
顶级域名的后缀中的国家代码(比如.cn, .de, .co, .uk 等)
内容的语言
在本地搜索引擎或地区性网站目录中的注册情况
和具体物理地址(实际地址)相关联
指向网站(或某个栏目)链接的地理位置
从某个指定地区的网站得到外部链接可以帮助网页(或整个网站)在那个地区的搜索中排名更好。同样的,如果你的链接信息显示你强烈倾向于某个地域,那么可能你在其他地方就表现的差点,即使你网站的某些地域信息显示你是现在的地方(比如网站主机的IP地址,域名后缀等)。
#12 – Rel=”Nofollow”的使用
虽然在 SEO 的世界里,nofollow 议题好像已经出现了很久,其实这个用法开始与 2005 年的一月,从 Google 宣布她会支持新的 HTML 标签开始。非常简单,rel=“nofollow”这个标签告诉搜索引擎,这个链接不是我特意推荐和“选出”的,你不用再往前走了,这会提升这个页面本身在搜索引擎查询中独立的排名标准。今天,我们统计了一下,在互联网上大约有 3% 的链接采用了 nofollow,而且,大概有一半的网站在内部使用了 nofollow,远比用在外部链接上的多的多。
在 SEO 圈子里,对不同的搜索引擎是否、如何及怎样严格地遵守这个 nofollow 协议,大家还存在一些疑问。不过一般说来,举例来说,虽然 Wikipedia 的外部链接都采用了 nofollow 标签,但 Google 还是对这些引用外部的链接有些许的排名分数。
#13 -链接类型
链接有很多类型和形式,最大的3类是:
直接使用 HTML 文字链接
图片链接
Javascript 链接
Google 近日宣布他们不仅抓取这些链接,而且还通过他们传递排名评价分数(那些使用 Javascript 进行付费/广告链接的人对这个反复的政策有很多不爽)。多年来,他们已经把图片的 alt 属性中的文字和对待链接中的锚文字那样对待了。
但是,不是所有类型的链接都是被平等对待的。在一些闲暇的测试和样例中显示,直接的含有锚文字的 HTML 链接传递最多的排名价值,接下来就是富含关键字 alt 属性的图片链接,最后就是 javascript 链接(至少在我们的经验中,javascript 链接还是没有被平等地对待和评价的)。链接建设者们,内容审查,小工具创造者和那些有嵌入内容的人应该(我的观点),对于搜索引擎对非标准链接传递的排名价值的能力要有最坏的打算,所以,对链接类型来说,使用标准的保护锚文本的 HTML 链接是最好的优化方法。
#14 – 链接到源页面的其他链接
当页面上的链接链到外面去时,这个页面上的数量和目标也可能被作为评价因素计入传递排名价值中去。
正如我们在 3 中提到的,搜索引擎类似“页面排名”似的算法会把页面上的排名值除以链接数然后再传递出去。再补充一点,搜索引擎可能把链接到外站的数量作为一个判断这些链接的质量和价值的因素。 例如,一个页面只是链接到少数专门内容的外链资源和大量链接指向很多不同外部网站的情况在搜索引擎里可能有不同的认定情况。 不是一定说谁好谁坏坏,但搜索引擎可能会传递对链接认可,有可能来自被其认定为低价值链接来源的链接会被贬值价值。)
搜索引擎也会看链接页面还支持哪些站点。如果一个链接页面链到被认为是 spam 的低质量的页面当然由此获得的价值会比链接到高质量的域名和 URLs 所获得的要少。
#15 – 域名,页面和链接的惩罚
几乎每个 SEO 行业人的都知道,搜索引擎的惩罚会使某个网站丧失传递排名价值的能力。如果一个网站失去这个推荐链接的能力,则从这个网站获得的外链将没有搜索引擎的排名价值。有时搜索引擎会展示出政策性的惩罚结果(不能参与排名,PR 降低等等),但如果一直是惩罚状态则会影响系统获取数据。
#16 -内容/嵌入模式
由于网站内容许可和分发、网站嵌入类小工具、各类积分排名和分布式的嵌入性链接变得越来越流行,搜索引擎已经开始寻找方法以防淹没在这类技术中。我不相信搜索引擎们不想要这种大量的链接来应用于他们的系统,可能他们只是担心过度计入和过度突出某个网站。
最后,我认为内容模式探测和链接模式探测在搜索引擎如何评估链接的多样性和质量中扮演了一个重要的角色。如果搜索引看到,比如,一段有相同链接的文字存在于千百个站点上,那可能并不表示一个级别的推荐。“编辑性”的本质是高度相同的文章片段,在那些明显不同,自动生成的链接可能被打败,但是从搜索引擎的焦点看,如果能够分辨和过滤有这些属性的链接将被证明是对付人为操纵的有效方法。
#17 – 现在的/历史的数据
链接出现的时间和数据是这个列表的最后一项。当搜索引擎爬行网络查看看是否是新网站,新网页和旧的高分链接,他们使用这个数据来和垃圾网站战斗,辨认权威性和相关性甚至传递很好的新鲜信息给网页可以很容易获得很多外链。
搜索引擎如何使用这些吸引链接的模式还在辩论和观察,但是这些数据肯定是被使用、处理和用来帮助排名算法做的更好(并且减少网络上的垃圾链接在排名中的影响 – 尤其是大量的链接购买和滥用)
原文作者:randfish from SEOmoz, 原文链接。本文首发 SEM Watch,转载请注明出处,欢迎大家留言或者来信
搜索引擎是怎样给某个网页排名的,为什么你推荐的这些 SEO 改动会对排名的变动有影响,你在哪儿学的 SEO,你能不能给列一下你做一些比较好的 SEO 案例?当你进的项目进行到一定深度时,就会开始进行链接建设了。客户想知道为什么链接建设那么重要?你就拉出那张“影响网站排名的因素”给他看,指出外链在影响网站搜索引擎排名所占的比重后,他们就会明白了,不过他们又有了另一个问题:
在网页搜索引擎排名上,Google 是怎样决定某个链接带给这个网页多少排名分值呢?
让我们来详细回答一下这个问题。你会发现很多最重要的影响搜索引擎判断一个链接价值的因素和分析。
开始前,有一个很重要的概念需要说说:
可能你注意到了,搜索引擎已经越来越依赖对整个网站的评估多于对某个网页的评估。这就是有时你会看到某些新网页或者只有很少链接的网页排名却很高,仅仅因为它们是在一个重要的、被信任的和外链极好的网站(域名)上。在有关影响搜索引擎排名的因素调查中,我们称之为“网站的权威性”,而且这个因素被 Google 算法(按照投票集合的观点)认为是最重要的。网站(域名)权威性可能基于网站链接图来计算的,而不是基于网页的链接图,下面的列表里,一些标准可能只影响上面其中之一,一些则两个都影响。
#1 – 内部链接 VS 外部链接
当搜索引擎首次通过评价链接到的网页的受欢迎程度、重要性和相关性来判断链接的价值时,它们发现了经典的基于引用的规则——就是指其他人说你好顶过你自卖自夸说千句好要重要,也更可信。因此,内部链接虽然也会带来某些分值和权重,但外部链接带来的要多得多。
当然,这并不意味着好的内部链接架构就不重要了,或者说对内部链接做的一切(有好的锚文本,去掉不需要的链接等等)不重要了,只是说一个网站或某个网页的在排名上的表现高度依赖别的网站怎样引用和评价它们。
#2 – 锚文本
对 SEO 们来说,很明显,锚文本在搜索引擎排名公式中是最重要的因素之一,所以不要奇怪在链接的众多属性中,搜索引擎特别关照这个定位文本的属性。
我们的实验(和以往很多经验)显示,“完全匹配”的定位文本比那些只是被包含着目标关键字的定位文本要来的有益的多。个人观点,搜索引擎不会远离这个标准,尤其对于那些通用(不含品牌的)的关键短语来说,这也是造成很多对 SERPs(搜索结果页面)过于优化和修饰的原因。
#3 – PageRank
无论这个页面排名叫什么,微软叫 StaticRank,Yahoo 叫 WebRank,Google 叫 PageRank,这些都是基于一种递归的、基于马尔可夫链的链接分析算法,是所有搜索引擎排名系统的一部分。PageRank 等排名系统使用的是一种投票的算法,而且和投票网页的影响力和多少有关。
关于 Pagerank 有几点很很重要的基本概念需要知道:
每个网址天生就都被分配了一些数量的 PageRank。
如果一个网页有“n”个链接,每个链接传递出去的页面排名被那个网页的页面排名除于“n”(一个网页上链接越多,那个网页上每个链接传递出去的 PageRank 就越低)
一种通过多次的迭代算法用来计算网络的整个链接图的流向,并以此计算出某个网址的排名分数。
在 Google 的工具条上的 PageRank 数值是指数形式的页面排名,所以页面排名 4 比页面排名 3 要重要 8-10 倍。
页面排名可以通过页面层次的链接图来计算,并给出某个单独的网址 PageRank,但是页面排名也可以通过在网站(域名)级别的链接图来计算,通过计算网站间的链接来决定网站的重要性和排名。
#4 – 信任排名机制
关于信任排名机制的基本概念,请参考斯坦福的论文 – 用信任排名打击网络垃圾。信任排名的基本观点就是互联网上“好的”和“值得信赖”的网页都紧密的链接在一起,然后让垃圾网页只能在这个核心外游荡。因此,通过迭代算法和类似于页面排名的衡量标准让只有来自信任网站的源传递更多的排名权重。信任排名可以用来预报某个网页的质量高低和是否是垃圾网页。
当搜索引擎不披露有关这个衡量标准的相关数据时,有可能某种“距离可信赖信息源距离“的公式应用在页面排名的算法中。另一个有趣的地方是还有一个叫反-信任排名的指标,这个指标用来检测谁链接到那些已知的垃圾站点上,这个可能也是影响排名的一个因素。页面排名和信任排名(以及反-信任排名,reverse-trustrank)都可以在页面层面级别和网站级别来计算排名。
从以上可以直觉地得到一点:从可以信赖的网站得到外链,而且不要链接到垃圾网站。
#5 – 域名权威性
虽然“域名权威性”经常可以在 SEO 界看到(比如域名权威性在影响网站排名的因素中占有很大比重),但是一个正式的、通用的定义却还没有。大多数人都用它来描述搜索引擎根据一个网站的链接数据得来的综合链接广泛度、网站的重要性和可信赖程度。(可能有些搜索引擎还综合一个域名存在的年限因素)
搜索引擎可能通过计算链接并定量地使用评分的方法来确定一个域名(网站)的权威性,而不是只用含糊的言语来描述,所以这是一个值得留意的数据。同时,你从获得外链的域名得到的排名权重可能比单独网页得到的要重要(或重要的多)。
#6 – 外链链接源的多元性
在我们对相关数据的分析后发现,没有哪个因素比来自网站根部的外链对排名的影响大。这显示出这是一个很难控制垃圾网站的指标也显示出外链的重要性和广泛性。
虽然没有因果关系,但很多 SEO 都经验主义地建议你外链网站的多样性对你网站/网页的排名有好处。根据这个逻辑,从一个曾经已经链接到你网站再得到链接比从一个全新的网站得到链接相比,对你的排名提升没有任何价值。这同时说明,从那些本来就多样性的网站得到的链接比那些低多样性网站得到的链接有价值的多。
#7 – 外链来源和目标的唯一性
搜索引擎有自己的一套办法来判定和预测网站间的关系和拥有关系。这包括(但不限于):
大量的共享和反向链接
域名注册数据
共享域名主机 IP 地址或 IP地址的 C 段
公开的收购和关联交易信息
机器可以阅读的公开市场协议
如果搜索引擎判断两个网站间预先存在某种关系,那么可能会对两个网站间链接的“编辑性”质量做抑制处理,它们可能会选择降低分数或干脆忽略这些链接。传闻在这种“网络”中的链接传递很小的价值(尤其是利用经典的“网站范围”建设链接策略形成的链接)。
#8 – 链接在页面上的位置
微软是第一个披露搜索引擎如何处理“区块层级”的(参见微软研究所的文章VIPS : Vision-based Page Segmentation Algorithm基于视觉的网页页面区域算法)。
从那以后,许多 SEO 都报告他们在 Google 和 Yahoo!发现了同样的效果和影响。对于我们也一样,比如,在内部链接中,页脚上的链接不可能提供和页面顶部导航链接一样的效果。还有报告说,为了与不断泛滥的链接广告做斗争,搜索引擎们都降低了从边栏和页脚来的外部链接的分值(价值)。
SEO 们都趋于同意一点:从网页页面“内容”部分来的链接是最有价值的,不管从排名价值来说还是从点击流量来说。(关于页面优化和关键字定位,请参考:网页搜索引擎优化和关键字定位指南)
#9 – 主题相关性
搜索引擎有很多方法对两个网页(网站)进行内容主题分析并判断网页(网站)间是否类似和相关。几年前,Google 实验室推出一项自动分类工具,可以根据 URL(网址)来预测任何虚拟内容的分类和子分类(包括医疗、房地产、市场营销和运动等 10 多个分类)。有可能搜索引擎会使用这种自动主题分类系统来判断网页和链接的“相邻性”,并作为提高网页(网站)排名质量的一项额外措施。
我本身并不担心主题相关性的有关问题,如果你从一个和主题无关的站点( 比NYTimes.com)或一个主题明确的博客得到一个外链,我想这可能对你的排名有好处。我感觉这可能是搜索引擎为了防止垃圾链接或作弊行为说采取的一种分析手段。
#10 – Content & Context Assessment 内容和上下文评估
虽然主题相关性能给搜索引擎提供链接间关系的有用信息,那么可能源链接所在的网页页面内容和上下文更能提供用于决定此链接传给目标网页的价值。在内容和上下文分析里,搜索引擎会通过机器分析/分词来分析和辨析为什么这个链接会存在在这个网页上。
当链接被特意编辑,产生某种模式。链接通过可接受的 HTML 规范、字词用法、措辞等,嵌入到内容中,指向相关的内容来源。通过详细的模式匹配(有可能通过学习大量的数据),搜索引擎可能会分辨出“符合规范的”和“特意编辑”的链接与故意隐藏的(通过作弊)间的区别,或者分辨出哪些是符合内容规范哪些是付费链接,等等。
#11 – 地理位置
一个链接的地理位置高度依赖于这个网站所在的地理位置,不过搜索引擎,尤其是 Google,可能会通过特定的方法来分析大量的数据来精细确认某个网站根域名、子域名或子目录的地理信息。可能包括:
主机的IP地址的位置
顶级域名的后缀中的国家代码(比如.cn, .de, .co, .uk 等)
内容的语言
在本地搜索引擎或地区性网站目录中的注册情况
和具体物理地址(实际地址)相关联
指向网站(或某个栏目)链接的地理位置
从某个指定地区的网站得到外部链接可以帮助网页(或整个网站)在那个地区的搜索中排名更好。同样的,如果你的链接信息显示你强烈倾向于某个地域,那么可能你在其他地方就表现的差点,即使你网站的某些地域信息显示你是现在的地方(比如网站主机的IP地址,域名后缀等)。
#12 – Rel=”Nofollow”的使用
虽然在 SEO 的世界里,nofollow 议题好像已经出现了很久,其实这个用法开始与 2005 年的一月,从 Google 宣布她会支持新的 HTML 标签开始。非常简单,rel=“nofollow”这个标签告诉搜索引擎,这个链接不是我特意推荐和“选出”的,你不用再往前走了,这会提升这个页面本身在搜索引擎查询中独立的排名标准。今天,我们统计了一下,在互联网上大约有 3% 的链接采用了 nofollow,而且,大概有一半的网站在内部使用了 nofollow,远比用在外部链接上的多的多。
在 SEO 圈子里,对不同的搜索引擎是否、如何及怎样严格地遵守这个 nofollow 协议,大家还存在一些疑问。不过一般说来,举例来说,虽然 Wikipedia 的外部链接都采用了 nofollow 标签,但 Google 还是对这些引用外部的链接有些许的排名分数。
#13 -链接类型
链接有很多类型和形式,最大的3类是:
直接使用 HTML 文字链接
图片链接
Javascript 链接
Google 近日宣布他们不仅抓取这些链接,而且还通过他们传递排名评价分数(那些使用 Javascript 进行付费/广告链接的人对这个反复的政策有很多不爽)。多年来,他们已经把图片的 alt 属性中的文字和对待链接中的锚文字那样对待了。
但是,不是所有类型的链接都是被平等对待的。在一些闲暇的测试和样例中显示,直接的含有锚文字的 HTML 链接传递最多的排名价值,接下来就是富含关键字 alt 属性的图片链接,最后就是 javascript 链接(至少在我们的经验中,javascript 链接还是没有被平等地对待和评价的)。链接建设者们,内容审查,小工具创造者和那些有嵌入内容的人应该(我的观点),对于搜索引擎对非标准链接传递的排名价值的能力要有最坏的打算,所以,对链接类型来说,使用标准的保护锚文本的 HTML 链接是最好的优化方法。
#14 – 链接到源页面的其他链接
当页面上的链接链到外面去时,这个页面上的数量和目标也可能被作为评价因素计入传递排名价值中去。
正如我们在 3 中提到的,搜索引擎类似“页面排名”似的算法会把页面上的排名值除以链接数然后再传递出去。再补充一点,搜索引擎可能把链接到外站的数量作为一个判断这些链接的质量和价值的因素。 例如,一个页面只是链接到少数专门内容的外链资源和大量链接指向很多不同外部网站的情况在搜索引擎里可能有不同的认定情况。 不是一定说谁好谁坏坏,但搜索引擎可能会传递对链接认可,有可能来自被其认定为低价值链接来源的链接会被贬值价值。)
搜索引擎也会看链接页面还支持哪些站点。如果一个链接页面链到被认为是 spam 的低质量的页面当然由此获得的价值会比链接到高质量的域名和 URLs 所获得的要少。
#15 – 域名,页面和链接的惩罚
几乎每个 SEO 行业人的都知道,搜索引擎的惩罚会使某个网站丧失传递排名价值的能力。如果一个网站失去这个推荐链接的能力,则从这个网站获得的外链将没有搜索引擎的排名价值。有时搜索引擎会展示出政策性的惩罚结果(不能参与排名,PR 降低等等),但如果一直是惩罚状态则会影响系统获取数据。
#16 -内容/嵌入模式
由于网站内容许可和分发、网站嵌入类小工具、各类积分排名和分布式的嵌入性链接变得越来越流行,搜索引擎已经开始寻找方法以防淹没在这类技术中。我不相信搜索引擎们不想要这种大量的链接来应用于他们的系统,可能他们只是担心过度计入和过度突出某个网站。
最后,我认为内容模式探测和链接模式探测在搜索引擎如何评估链接的多样性和质量中扮演了一个重要的角色。如果搜索引看到,比如,一段有相同链接的文字存在于千百个站点上,那可能并不表示一个级别的推荐。“编辑性”的本质是高度相同的文章片段,在那些明显不同,自动生成的链接可能被打败,但是从搜索引擎的焦点看,如果能够分辨和过滤有这些属性的链接将被证明是对付人为操纵的有效方法。
#17 – 现在的/历史的数据
链接出现的时间和数据是这个列表的最后一项。当搜索引擎爬行网络查看看是否是新网站,新网页和旧的高分链接,他们使用这个数据来和垃圾网站战斗,辨认权威性和相关性甚至传递很好的新鲜信息给网页可以很容易获得很多外链。
搜索引擎如何使用这些吸引链接的模式还在辩论和观察,但是这些数据肯定是被使用、处理和用来帮助排名算法做的更好(并且减少网络上的垃圾链接在排名中的影响 – 尤其是大量的链接购买和滥用)
原文作者:randfish from SEOmoz, 原文链接。本文首发 SEM Watch,转载请注明出处,欢迎大家留言或者来信
日历对SEO有何影响(视频)
如果不知道日历的影响,可以先了解一下这篇文章(URL过长为什么不利于抓取和优化),你的网站上是否有一个日历表,上面的链接指向无数个过去和将来的日期(每一个链接地址都独一无二)?你的网页地址是否在加入一个&page=3563的参数之后,仍然可以返回200代码,哪怕根本没有这么多页?如果是这样的话,你的网站上就出现了所谓的“无限空间”,这种情况会浪费抓取机器人和你的网站的带宽。如何控制好“无限空间”,参考这里的一些技巧吧。
下图是以zblog为例,删除zblog中的日历
日历对SEO有何影响(视频)
如果不知道日历的影响,可以先了解一下这篇文章(URL过长为什么不利于抓取和优化),你的网站上是否有一个日历表,上面的链接指向无数个过去和将来的日期(每一个链接地址都独一无二)?你的网页地址是否在加入一个&page=3563的参数之后,仍然可以返回200代码,哪怕根本没有这么多页?如果是这样的话,你的网站上就出现了所谓的“无限空间”,这种情况会浪费抓取机器人和你的网站的带宽。如何控制好“无限空间”,参考这里的一些技巧吧。
下图是以zblog为例,删除zblog中的日历
日历对SEO有何影响(视频)
SEO你懂吗?
你只会把别人给你的词通过外链形式,使排名提高吗?
你通过发外链形式真的能是排名提高吗?
每天辛辛苦苦的发外链,为什么排名还没有提高呢?
为什么排名总是不稳定呢?
为什么网站没有做什么反而被降权呢?
网站降权后,如何解决问题呢?
选择域名与排名有影响吗?
空间稳定性与速度或换空间对排名有影响吗?
为什么选择的关键词没有流量?
为什么关键词几个月没有排名?
只有论坛发链接能提高排名吗?还有其他的方式吗?
群发是不是作弊呢?
站群,轮链是作弊吗?
网站如何诊断?
网站内部链接你真的懂吗?
网站url你知道怎么设置吗?
网站代码减肥你懂吗?
想让网站流量提升难吗?
电子商务网站,企业站你知道优化方法吗?
什么是整站优化,你懂吗?
SEO还有那些需要学习?
数据分析(SEO要学会数据分析很重要) ?高级策略?
你只会把别人给你的词通过外链形式,使排名提高吗?
你通过发外链形式真的能是排名提高吗?
每天辛辛苦苦的发外链,为什么排名还没有提高呢?
为什么排名总是不稳定呢?
为什么网站没有做什么反而被降权呢?
网站降权后,如何解决问题呢?
选择域名与排名有影响吗?
空间稳定性与速度或换空间对排名有影响吗?
为什么选择的关键词没有流量?
为什么关键词几个月没有排名?
只有论坛发链接能提高排名吗?还有其他的方式吗?
群发是不是作弊呢?
站群,轮链是作弊吗?
网站如何诊断?
网站内部链接你真的懂吗?
网站url你知道怎么设置吗?
网站代码减肥你懂吗?
想让网站流量提升难吗?
电子商务网站,企业站你知道优化方法吗?
什么是整站优化,你懂吗?
SEO还有那些需要学习?
数据分析(SEO要学会数据分析很重要) ?高级策略?
锚文字链接在网页分布中权重高低GSA测试
本次测试,主要是看一个连接在不同位置出现所提供权重是否有变化.
本次测试的页面结构模型
default.htm
|
____________________________________________________
| | | | |
1.htm 2.htm 3.htm 4.htm 5.htm
| | | | |
1-1.htm 1-2.htm 1-3.htm 1-4.htm 1-5.htm
(独立顶部外链) (正文前) (正文中) (正文尾) (独立尾部)
排序的结果
hxy-test/9/1-2.htm
hxy-test/9/1-3.htm
hxy-test/9/1-1.htm
hxy-test/9/1-5.htm
hxy-test/9/1-4.htm
看来正文最开头的外链价值是最高的.就像title一样..越靠前权重越高..
中文中间部分也是高质量的区域,因为有上下文的影响.
第三名才是 顶部独立出来的 连接....因为相对上下文缺乏,但绝对位置靠前,所有权重还是可以进前三.
第四名是结尾单独突出连接..很多朋友都说尾部反连很重要...在这里看来只能说一般..不针对BAIDU
正文尾部的链接最后一名....看里说正文中的链接都应高于尾部....但思考一下觉得...
正文尾部虽然属于正文,但是相对靠后,价值最小. 如果论总结的话..还是独立尾部更可以起到总结和扩展的意义....
外国现在流行的反连技巧就是相互在内容中增加链接....我们可以找一些实例观察下(电商圈)..
第一 正文开头
第二 正文中部
第三 独立开头索引,类似于导航栏
第四 页尾链接
第五 文章尾部
光年论坛gas测试版块!(http://www.gnbase.com/thread-80-1.html?fromuid=958)
本次测试,主要是看一个连接在不同位置出现所提供权重是否有变化.
本次测试的页面结构模型
default.htm
|
____________________________________________________
| | | | |
1.htm 2.htm 3.htm 4.htm 5.htm
| | | | |
1-1.htm 1-2.htm 1-3.htm 1-4.htm 1-5.htm
(独立顶部外链) (正文前) (正文中) (正文尾) (独立尾部)
排序的结果
hxy-test/9/1-2.htm
hxy-test/9/1-3.htm
hxy-test/9/1-1.htm
hxy-test/9/1-5.htm
hxy-test/9/1-4.htm
看来正文最开头的外链价值是最高的.就像title一样..越靠前权重越高..
中文中间部分也是高质量的区域,因为有上下文的影响.
第三名才是 顶部独立出来的 连接....因为相对上下文缺乏,但绝对位置靠前,所有权重还是可以进前三.
第四名是结尾单独突出连接..很多朋友都说尾部反连很重要...在这里看来只能说一般..不针对BAIDU
正文尾部的链接最后一名....看里说正文中的链接都应高于尾部....但思考一下觉得...
正文尾部虽然属于正文,但是相对靠后,价值最小. 如果论总结的话..还是独立尾部更可以起到总结和扩展的意义....
外国现在流行的反连技巧就是相互在内容中增加链接....我们可以找一些实例观察下(电商圈)..
第一 正文开头
第二 正文中部
第三 独立开头索引,类似于导航栏
第四 页尾链接
第五 文章尾部
光年论坛gas测试版块!(http://www.gnbase.com/thread-80-1.html?fromuid=958)
什么是规范网页?-canonical
规范网页是一组内容高度相似的网页的首选版本。
对于网站来说,包含多个列有同组产品的网页很正常。例如,一个网页可能按字母表顺序显示产品,而其他网页则按照价格或评分显示相同产品。例如:
http://www.example.com/product.php?item=swedish-fish&trackingid=1234567&sort=alpha&sessionid=5678asfasdfasfd
http://www.example.com/product.php?item=swedish-fish&trackingid=1234567&sort=price&sessionid=5678asfasdfasfd如果 Google 知道这些网页的内容相同,我们可能只会将搜索结果的一个版本编入索引。我们的算法会选择我们认为可以最好地回答用户查询的网页。不过,现在用户可以通过将 元素和 rel="canonical" 属性添加到该网页非规范版本的 部分,为搜索引擎指定规范网页。添加此链接和属性可以让网站拥有者识别出哪些网页具有相同的内容,从而向 Google 提出建议:"在内容相同的所有网页中,此网页最有用。请将该网页排在搜索结果中靠前的位置。"
如何指定规范网页?
要指定指向网页 http://www.example.com/product.php?item=swedish-fish 的规范链接,请按以下形式创建 元素:
将上述链接复制到该网页所有非规范版本的 部分,如 http://www.example.com/product.php?item=swedish-fish&sort=price。
如果您在 http://www.example.com/product.php?item=swedish-fish 和 https://www.example.com/product.php?item=swedish-fish 上都发布了内容,则可以指定该网页的规范版本。创建 元素:
将上述链接添加到 https://www.example.comproduct.php?item=swedish-fish 的 部分。
rel="canonical" 是建议还是指令?
通过此新选项,网站拥有者可以建议 Google 应将哪个网页版本视为规范版本。在确定哪些网址包含相同的内容以及计算其中关联性最强而要显示在搜索结果中的的网页时,Google 会结合其他信息考虑此建议SEO顾问。
此链接可以是相对的或是绝对的吗?
rel="canonical" 属性可与相对链接或绝对链接一起使用,但我们建议使用绝对链接,以减少可能出现的混乱或问题。如果您的文档指定了一个基础链接,则所有相对链接都会相对于该基础链接。
一组网页上的内容必须与规范版本的上内容相似吗?
是的。rel="canonical" 属性只能用来指定包含相同内容(即使存在微小差异,比如排列顺序,也无关紧要)的大量网页的首选版本。
例如,如果某网站有一组网页显示了相同型号的舞蹈鞋,只是每个网页图片中鞋的颜色有所不同,那么您可以将能突出当下最流行色彩的网页设置为规范版本,这样 Google 就比较容易将该网页显示在搜索结果中。不过,如果该网站只是想把凝胶鞋垫的网页排在鞋的网页之前,那么使用 rel="canonical" 就不合适了。
如果 rel="canonical" 指向了不存在的网页会怎样?或者如果将一组网页中的多个网页指定为规范版本会怎样?
我们会尽力使用算法确定适当的规范网页,就像我们以前所做的那样。
Google 能遵守 rel="canonical" 的一系列规定吗?
在一定程度上可以,但为了确保达到最佳规范化,我们强烈建议您将链接更新为指向单个规范网页。
rel="canonical" 可以用来在完全不同的域中建议规范网址吗?
有些情况下,设置重定向网址并非易事。如果需要迁移到新域名,而使用的网络服务器又不能创建服务器端重定向网址,就可能发生这种情况。这种情况下,可以使用 rel="canonical" 链接元素指定想要编入索引的域的确切网址。虽然 rel="canonical" 链接元素被视为一种建议而不是需要绝对服从的指令,但我们确实会尽可能予以遵循。
规范网页是一组内容高度相似的网页的首选版本。
对于网站来说,包含多个列有同组产品的网页很正常。例如,一个网页可能按字母表顺序显示产品,而其他网页则按照价格或评分显示相同产品。例如:
http://www.example.com/product.php?item=swedish-fish&trackingid=1234567&sort=alpha&sessionid=5678asfasdfasfd
http://www.example.com/product.php?item=swedish-fish&trackingid=1234567&sort=price&sessionid=5678asfasdfasfd如果 Google 知道这些网页的内容相同,我们可能只会将搜索结果的一个版本编入索引。我们的算法会选择我们认为可以最好地回答用户查询的网页。不过,现在用户可以通过将 元素和 rel="canonical" 属性添加到该网页非规范版本的 部分,为搜索引擎指定规范网页。添加此链接和属性可以让网站拥有者识别出哪些网页具有相同的内容,从而向 Google 提出建议:"在内容相同的所有网页中,此网页最有用。请将该网页排在搜索结果中靠前的位置。"
如何指定规范网页?
要指定指向网页 http://www.example.com/product.php?item=swedish-fish 的规范链接,请按以下形式创建 元素:
将上述链接复制到该网页所有非规范版本的 部分,如 http://www.example.com/product.php?item=swedish-fish&sort=price。
如果您在 http://www.example.com/product.php?item=swedish-fish 和 https://www.example.com/product.php?item=swedish-fish 上都发布了内容,则可以指定该网页的规范版本。创建 元素:
将上述链接添加到 https://www.example.comproduct.php?item=swedish-fish 的 部分。
rel="canonical" 是建议还是指令?
通过此新选项,网站拥有者可以建议 Google 应将哪个网页版本视为规范版本。在确定哪些网址包含相同的内容以及计算其中关联性最强而要显示在搜索结果中的的网页时,Google 会结合其他信息考虑此建议SEO顾问。
此链接可以是相对的或是绝对的吗?
rel="canonical" 属性可与相对链接或绝对链接一起使用,但我们建议使用绝对链接,以减少可能出现的混乱或问题。如果您的文档指定了一个基础链接,则所有相对链接都会相对于该基础链接。
一组网页上的内容必须与规范版本的上内容相似吗?
是的。rel="canonical" 属性只能用来指定包含相同内容(即使存在微小差异,比如排列顺序,也无关紧要)的大量网页的首选版本。
例如,如果某网站有一组网页显示了相同型号的舞蹈鞋,只是每个网页图片中鞋的颜色有所不同,那么您可以将能突出当下最流行色彩的网页设置为规范版本,这样 Google 就比较容易将该网页显示在搜索结果中。不过,如果该网站只是想把凝胶鞋垫的网页排在鞋的网页之前,那么使用 rel="canonical" 就不合适了。
如果 rel="canonical" 指向了不存在的网页会怎样?或者如果将一组网页中的多个网页指定为规范版本会怎样?
我们会尽力使用算法确定适当的规范网页,就像我们以前所做的那样。
Google 能遵守 rel="canonical" 的一系列规定吗?
在一定程度上可以,但为了确保达到最佳规范化,我们强烈建议您将链接更新为指向单个规范网页。
rel="canonical" 可以用来在完全不同的域中建议规范网址吗?
有些情况下,设置重定向网址并非易事。如果需要迁移到新域名,而使用的网络服务器又不能创建服务器端重定向网址,就可能发生这种情况。这种情况下,可以使用 rel="canonical" 链接元素指定想要编入索引的域的确切网址。虽然 rel="canonical" 链接元素被视为一种建议而不是需要绝对服从的指令,但我们确实会尽可能予以遵循。
WordPress就不用我来介绍了,相当不错的开源建站程序。今天来分享下WordPress优化的一些建议,欢迎大家拍砖。
1、URL结构
WordPress 允许您更改默认的链接形式,以此提高 URL 的可读性和对搜索引擎的友好程度。我们选择什么样的URL没有什么特别的要求,如果是新闻类相关类等具有时效性的,个人觉得选择日期和文章名更好,这样子对用户更加明确和友好。
/%postname%/或者也可以把分类加入进来/%category%/%postname%/(注:如果你的一个文章有多个分类的话,URL会呈现多级目录的形式),同时如果是中文WordPress的话,中文标题有时会被自动显示在URL中,会导致URL的utf-8编码的URL很长(如果你选择的是utf-8的编码的话),在QQ聊天等复制URL时会很长,有时会出现被QQ系统自动截断。
当然你可以偷懒直接使用数字形式,如SEM一家之言 /archives/%post_id%,还可以选择数字加文章名的形式/%post_id%‐%postname%根据你自己的需求来选择URL
2、robots.txt 什么是robots.txt?
个人觉得WordPress本身的结构已经设计的很好,再者搜索引擎也很熟悉,可以放心大胆的使用User-agent: *
Disallow:
复制代码当然可以根据你所用的WordPress主题和蜘蛛的爬行的记录,进行合理的设置。可以用SEO日志工具
3、合理规划网站权重
首页不要全文输出,全文输出的话有种single post也就成为了首页的“部分内容”,导致single post的权重被降低,全文输出时有时你会发现搜索你的某篇文章首页是排在single post的前面的。
规划WordPress主题的sidebar
你可以使用zero介绍到的WordPress插件Widget Logic规划下sidebar,比如很多WordPress主题默认每个页面都会显示最新文章的选项,而WordPress首页本身会按时间显示最新文章,因此没有必要在设置最新文章了,把这些权重分配给你的其他想要重点优化的某些热门文章。在其他页面设置最新文章也可以保证搜索引擎爬虫不管从哪个入口可以索引我们的最新文章,帮助新文章的收录。当然还可以设置其他的比如友情链接等。
关于作者、Read More、meta功能选项的处理
很多WordPress主题默认显示作者的超链接,所有很多人会在robots.txt中把author给屏蔽掉来避免重复内容等问题,这个熟悉WordPress主题的话直接去掉主题里面的超链接就好啦,毕竟被robots.txt屏蔽掉的URL有时也还会分配权重。
还有很多人觉得在首页文章的Read more一是confuse 蜘蛛,再者这样子按照谷歌的说法锚文本过于宽泛,那么我还是直接在主题里面修改不显示就好啦就像SEM一家之言一样,或者使用之前介绍的SEO Ultimate把Read more换成标题内容的超链接。
Meta功能的功能选项,我的建议是去掉吧,WordPress登陆的URL基本都是wp-login.php很好记的,没必要每个页面都放上,浪费权重,而且老有人喜欢去点击注册,忘记admin密码重置链接啊等等
4、重复内容的处理
不可避免的WordPress也会造成一些重复内容,比如评论分页等,http://example.com/post/
http://example.com/post/comment-page-1/
http://example.com/post/comment-page-2/
复制代码那我们就不设置评论分页呗,除非你的评论确实很多,我想那时你能有这么多评论和人气,你恐怕已经不依赖SEO了吧
关于重复内容还有一个容易引起重复的地方是tag标签,很多人就不怎么使用tag,在我搜索一些关键词的过程中往往tag会经常出现在我的视线中,再者你观察蜘蛛爬行的记录的话,会发现百度蜘蛛很喜欢爬行WordPress的tag URL,既然它喜欢,就写好tag让蜘蛛爬行去吧。
很多人不写原因恐怕和这位差不多吧Zac
我博客没写tag,原因之一就是要想不同的tag,太麻烦,我干脆不写了,但有时间的童鞋,可以写,再然后,内容除了原创,这个不说了,谁都知道,还得有个性
来自站长百科访谈之SEO专家ZAC采访内容
存档页的处理
我的建议是针对以日期分类存档的页面 什么是nofollow
其他
WordPress针对中文的Ping服务
关于ping服务可以查看http://www.gnbase.com/thread-130-1.htmlhttp://ping.baidu.com/ping/RPC2
http://blogsearch.google.com/ping/RPC2
http://blog.yodao.com/ping/RPC2
http://www.feedsky.com/api/RPC2
http://www.xianguo.com/xmlrpc/ping.php
http://www.zhuaxia.com/rpc/server.php
站点地图
使用Google XML Sitemaps创建sitemap,可以将sitemap地址写到robots.txt里面,在网站管理员工具的网站地图的话就会直接识别出来很方便提交,不用手工输入提交。
很多WordPress主题自带archives的页面模板,可以当作针对用户的站点地图来使用。
网站内链
关于网站内链就使用WP Keyword Link,这款插件就是在smart link的基础上开发的,原作者推出的smart link pro版更加强大可惜太贵了,看介绍有很多很好的地方和细节处理的很到位。
1、URL结构
WordPress 允许您更改默认的链接形式,以此提高 URL 的可读性和对搜索引擎的友好程度。我们选择什么样的URL没有什么特别的要求,如果是新闻类相关类等具有时效性的,个人觉得选择日期和文章名更好,这样子对用户更加明确和友好。
/%postname%/或者也可以把分类加入进来/%category%/%postname%/(注:如果你的一个文章有多个分类的话,URL会呈现多级目录的形式),同时如果是中文WordPress的话,中文标题有时会被自动显示在URL中,会导致URL的utf-8编码的URL很长(如果你选择的是utf-8的编码的话),在QQ聊天等复制URL时会很长,有时会出现被QQ系统自动截断。
当然你可以偷懒直接使用数字形式,如SEM一家之言 /archives/%post_id%,还可以选择数字加文章名的形式/%post_id%‐%postname%根据你自己的需求来选择URL
2、robots.txt 什么是robots.txt?
个人觉得WordPress本身的结构已经设计的很好,再者搜索引擎也很熟悉,可以放心大胆的使用User-agent: *
Disallow:
复制代码当然可以根据你所用的WordPress主题和蜘蛛的爬行的记录,进行合理的设置。可以用SEO日志工具
3、合理规划网站权重
首页不要全文输出,全文输出的话有种single post也就成为了首页的“部分内容”,导致single post的权重被降低,全文输出时有时你会发现搜索你的某篇文章首页是排在single post的前面的。
规划WordPress主题的sidebar
你可以使用zero介绍到的WordPress插件Widget Logic规划下sidebar,比如很多WordPress主题默认每个页面都会显示最新文章的选项,而WordPress首页本身会按时间显示最新文章,因此没有必要在设置最新文章了,把这些权重分配给你的其他想要重点优化的某些热门文章。在其他页面设置最新文章也可以保证搜索引擎爬虫不管从哪个入口可以索引我们的最新文章,帮助新文章的收录。当然还可以设置其他的比如友情链接等。
关于作者、Read More、meta功能选项的处理
很多WordPress主题默认显示作者的超链接,所有很多人会在robots.txt中把author给屏蔽掉来避免重复内容等问题,这个熟悉WordPress主题的话直接去掉主题里面的超链接就好啦,毕竟被robots.txt屏蔽掉的URL有时也还会分配权重。
还有很多人觉得在首页文章的Read more一是confuse 蜘蛛,再者这样子按照谷歌的说法锚文本过于宽泛,那么我还是直接在主题里面修改不显示就好啦就像SEM一家之言一样,或者使用之前介绍的SEO Ultimate把Read more换成标题内容的超链接。
Meta功能的功能选项,我的建议是去掉吧,WordPress登陆的URL基本都是wp-login.php很好记的,没必要每个页面都放上,浪费权重,而且老有人喜欢去点击注册,忘记admin密码重置链接啊等等
4、重复内容的处理
不可避免的WordPress也会造成一些重复内容,比如评论分页等,http://example.com/post/
http://example.com/post/comment-page-1/
http://example.com/post/comment-page-2/
复制代码那我们就不设置评论分页呗,除非你的评论确实很多,我想那时你能有这么多评论和人气,你恐怕已经不依赖SEO了吧
关于重复内容还有一个容易引起重复的地方是tag标签,很多人就不怎么使用tag,在我搜索一些关键词的过程中往往tag会经常出现在我的视线中,再者你观察蜘蛛爬行的记录的话,会发现百度蜘蛛很喜欢爬行WordPress的tag URL,既然它喜欢,就写好tag让蜘蛛爬行去吧。
很多人不写原因恐怕和这位差不多吧Zac
我博客没写tag,原因之一就是要想不同的tag,太麻烦,我干脆不写了,但有时间的童鞋,可以写,再然后,内容除了原创,这个不说了,谁都知道,还得有个性
来自站长百科访谈之SEO专家ZAC采访内容
存档页的处理
我的建议是针对以日期分类存档的页面 什么是nofollow
其他
WordPress针对中文的Ping服务
关于ping服务可以查看http://www.gnbase.com/thread-130-1.htmlhttp://ping.baidu.com/ping/RPC2
http://blogsearch.google.com/ping/RPC2
http://blog.yodao.com/ping/RPC2
http://www.feedsky.com/api/RPC2
http://www.xianguo.com/xmlrpc/ping.php
http://www.zhuaxia.com/rpc/server.php
站点地图
使用Google XML Sitemaps创建sitemap,可以将sitemap地址写到robots.txt里面,在网站管理员工具的网站地图的话就会直接识别出来很方便提交,不用手工输入提交。
很多WordPress主题自带archives的页面模板,可以当作针对用户的站点地图来使用。
网站内链
关于网站内链就使用WP Keyword Link,这款插件就是在smart link的基础上开发的,原作者推出的smart link pro版更加强大可惜太贵了,看介绍有很多很好的地方和细节处理的很到位。
SEO中什么是减少HTTP请求
相信经常观察大站的朋友都会发现,他们都把CSS写在HMTL页面里,一个页面的或者多个页面的背景图片,都集成到一张图片里,他们有的JS文件,也写到页面里了……也许你会迷惑,现在到处讲页面的优化,不都是要把CSS、JS都独立出来,然后掉用吗?大站这样的做法岂不是不利于SEO?难道他们真的不懂SEO吗?下面,我就给大家详细解释下其中原因。
首先,我们访问网站的时候,会对服务器发出HTTP请求,网站打开的快慢,处理与页面的大小图片大小网速等多方面的因素外,还有个重要的因素就是HTTP 的请求数。HTTP的请求数越多,网站打开的速度当然就会越慢,对服务器发出一个HTTP请求,对页面打开速度造成的延时大概是0.01秒,一个连接,一个图片都会对发出一个请求,如果HTTP请求过多,就会造成页面大量的延时,访问速度自然就慢了。
我们看到一些大站,他们页面篇幅是非常巨大的,为了加快访问的速度,他们就采用了减少HTTP请求的方法,把CSS写到HMTL文件里,而不采用外部调用的方法。同样的道理,一个页面会有很多的背景图片,背景图虽然每个体积都很小,但是首次访问的时候,会对服务器发出HTTP请求,造成延时。如果把所有的背景图,都集成到一个图片里,这样就只会对服务器发出一个HTTP请求,请求数就会大量减少,延时就小了。然后采用CSS 的 background-image 和 background-position 属性来实现所需的背景图并定位,达到页面所需要的表达效果。
对于页面不常更新的地方,一般就是采用缓存的办法来降低HTTP请求次数。有兴趣的朋友可以去查阅下资料,ASP、PHP都有相应的实现方法。 我们在进行DIV+CSS布局的时候,有的朋友喜欢把CSS分成几个部分,比如base.css、header.css、mianbody.css、footer.css这样对页面的维护和修改是比较方便的,比较清晰明朗,但是对加快服务器响应时间就存在问题了。所以一般是分开写,写好之后再合并。
所以,我们做页面设计的时候,并不是说我用DIV+CSS来设计,比table更好了,符合W3C的标准了,完全符合HMTL的语义了,HMTL的标签我也运用的精准到位了就够了,我们还要考虑到HTTP的因素在里面。一个网站40%-60%的访问者,是首次打开你的站点,如果你由于服务器的相应时间问题而影响了打开了的速度,对用户体验就会造成很大的影响。
减少HTTP请求,是从性能上来优化网站的一个非常重要部分,也是SEO中非常重要的一个部分,也就是减少HTTP请求有利于SEO。
相信经常观察大站的朋友都会发现,他们都把CSS写在HMTL页面里,一个页面的或者多个页面的背景图片,都集成到一张图片里,他们有的JS文件,也写到页面里了……也许你会迷惑,现在到处讲页面的优化,不都是要把CSS、JS都独立出来,然后掉用吗?大站这样的做法岂不是不利于SEO?难道他们真的不懂SEO吗?下面,我就给大家详细解释下其中原因。
首先,我们访问网站的时候,会对服务器发出HTTP请求,网站打开的快慢,处理与页面的大小图片大小网速等多方面的因素外,还有个重要的因素就是HTTP 的请求数。HTTP的请求数越多,网站打开的速度当然就会越慢,对服务器发出一个HTTP请求,对页面打开速度造成的延时大概是0.01秒,一个连接,一个图片都会对发出一个请求,如果HTTP请求过多,就会造成页面大量的延时,访问速度自然就慢了。
我们看到一些大站,他们页面篇幅是非常巨大的,为了加快访问的速度,他们就采用了减少HTTP请求的方法,把CSS写到HMTL文件里,而不采用外部调用的方法。同样的道理,一个页面会有很多的背景图片,背景图虽然每个体积都很小,但是首次访问的时候,会对服务器发出HTTP请求,造成延时。如果把所有的背景图,都集成到一个图片里,这样就只会对服务器发出一个HTTP请求,请求数就会大量减少,延时就小了。然后采用CSS 的 background-image 和 background-position 属性来实现所需的背景图并定位,达到页面所需要的表达效果。
对于页面不常更新的地方,一般就是采用缓存的办法来降低HTTP请求次数。有兴趣的朋友可以去查阅下资料,ASP、PHP都有相应的实现方法。 我们在进行DIV+CSS布局的时候,有的朋友喜欢把CSS分成几个部分,比如base.css、header.css、mianbody.css、footer.css这样对页面的维护和修改是比较方便的,比较清晰明朗,但是对加快服务器响应时间就存在问题了。所以一般是分开写,写好之后再合并。
所以,我们做页面设计的时候,并不是说我用DIV+CSS来设计,比table更好了,符合W3C的标准了,完全符合HMTL的语义了,HMTL的标签我也运用的精准到位了就够了,我们还要考虑到HTTP的因素在里面。一个网站40%-60%的访问者,是首次打开你的站点,如果你由于服务器的相应时间问题而影响了打开了的速度,对用户体验就会造成很大的影响。
减少HTTP请求,是从性能上来优化网站的一个非常重要部分,也是SEO中非常重要的一个部分,也就是减少HTTP请求有利于SEO。