SEO搜索引擎优化:技巧、策略与实战案例(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-17 03:03:50

点击下载

作者:陈媛先

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

SEO搜索引擎优化:技巧、策略与实战案例

SEO搜索引擎优化:技巧、策略与实战案例试读:

前言

SEO是一种利用搜索引擎的搜索规则来提高目前网站在有关搜索引擎内的自然排名的方式。

但是,搜索引擎规律的变化是非常快速的,这种变化基于互联网的飞速发展,比如微博的发展。微博不同于传统的网页,即时性和网页架构方面都有独特的地方和要求,为了对微博数据进行充分展示,搜索引擎需要在抓取和排名规律里面增加新的考虑因素;再比如视频网页,其评分机制等也会对搜索引擎提出更多的科学排名要求。

所以,尽管在很多客户面前,笔者能够提供满足需求的解决文案,但在内心深处,处理每一个SEO案例时还是如履薄冰,担心其中有的建议可能会对客户的网站造成伤害,始终抱着更多调研、更多分析的工作态度,在提供任何一个SEO建议前,能通过更多抽样的数据进行支撑,减少SEO方案的偏差。

本书是笔者对多年工作经验和感悟的总结,希望对SEO同行和致力于搜索引擎营销推广的企业有一些帮助。在本书的SEO系统设计方面,笔者参考了之前参与设计的SEO系统的素材和思想,在获得产品所在公司授权的基础上,分享给大家,希望大家能通过SEO系统的搭建方式更系统地思考SEO的工作方式和思路。

在开始本书的阅读之前,或许你已经具备一定的SEO知识,甚至已经有过SEO的实际操作经验,那么,通过本书,希望你能获得更多思路上的启发。

因为搜索引擎在不断变化,本书涉及的所有网站仅为样例,以作说明,且搜索引擎的算法在不断优化,本书所讲述的SEO的思路和技术方案可能会随着时间的推移,某些技术逐渐不再可行,请各位读者谅解。另外,每个搜索引擎都有独特的优化思路,针对搜索引擎做优化,需要针对性的研究,本书希望能通过对常用搜索引擎的优化讲解给初、中级的SEO人员提供帮助,但是,落实在某个特定的搜索引擎上,内容可能会有所欠缺,这种欠缺完全有可能来自笔者本身在某特定搜索引擎上的经验缺陷,某些优化方案如和您的实际经验有冲突,请海涵。

本书在后面案例和SEO系统章节部分,使用了大量图片资料,很多相关资料均是当年盛大创新院搜索主题院的集体成果,在此的使用已获得授权。在此,对盛大集团以及搜索主题院的前同事们深深致谢。

那么,就让我们从这里开始SEO旅程吧!第1章从零开始学SEO

技术和技巧上的精深需要理论的支撑,在SEO行业中也不例外。本章将详细介绍SEO相关基础理论知识,为后面章节的实际应用打好基础。

本章需要读者关注的重点知识如下。

·关键词的含义,以及基于关键词进行优化的锚文本方法。

·网页被搜索引擎收录的原理,以及基本的查询收录方法。

·网站流量的量化指标IP和PV。

·网站综合评价PR指数的解读和优化。

·网站综合排名Alexa的解读和优化。1.1SEO的价值和意义1.1.1 SEO的基本概念

SEO(Search Engine Optimization)即搜索引擎优化,针对搜索引擎(主要的中文搜索引擎包括百度、谷歌、雅虎、搜狗等),通过分析它们对网站网页的抓取、收录规律,运用技术,提升自己网站在搜索引擎的收录速度;通过分析搜索引擎对关键词的排名规律,优化自己的网页,同时优化外部工作,比如外链建设等,提升自己网站关键词在整体网站的排名。SEO的基本目标即增加网页收录、提高关键词排名,目的是吸引来更多流量,从而实现网站的商业目的。

SEO工作的一些基本关键概念描述如下。

1.关键词

关键词也叫关键字,英文是Keywords。比如我们在百度查找一个商品iPhone 8,在百度输入框中输入iPhone 8,然后单击“搜索”按钮即可出现iPhone 8相关信息,这里的iPhone 8就是关键词。

2.收录

收录即页面被搜索引擎收入检索库中,可以被人们通过词汇检索的办法搜索出来。比如网站有个页面是关于北汽EV200内容的,我们在百度搜索北汽EV200这个关键词,可以在搜索结果页中看到该网页,那就证明该网页被收录了。如果搜索结果页中看不到该网页,可能没有被收录,也可能是收录了,但是该网页的优化做得不好,所以排名很靠后。因为百度针对每个搜索词汇只提供排名前760个结果,如果关于北汽EV200内容的网页排名在760名以后,就看不到了。有一个最简单的办法,就是打开该网页,然后在网页的地址栏上,将网页的网址复制一份,然后到百度里面查询该网址,如果当前页面已经被收录,则会搜索到该网页;如果当前页面没有被收录,那么就搜索不到该网页。

3.流量

流量是与客户访问网站的次数相关的数据,比如IP、PV都是流量的指标。IP对应互联网上的一个特定的地址,比如112.213.101.10就是一个IP地址。在网站统计数据中,一个IP地址代表一个访问来源。比如在网站的统计数据中,有112.213.101.10这个数据,就意味着有访客的IP地址是112.213.101.10,他通过网页访问我们网站后,我们记录了此访问来源,他的访问就形成一个IP统计数据。PV(Page Vrew)是网页的浏览数据。比如来自112.213.101.10的客户访问了一个网站页面,那么就形成了一个PV;如果访问了两个页面,就形成两个PV,依次类推。通过统计访客的IP数据和PV数据,我们就可以对网站的流量进行评价,比如某网站的流量多还是少、流量集中分布在哪些地区等。1.1.2 为何需要SEO

假设你有一个销售化妆品的电商网站,你希望人们通过搜索引擎(百度、搜狗、搜搜等网站)查找到你的网站,进而到你的网站购买化妆品,此时你就需要对网站做SEO。比如你的网站的化妆品种类有防晒类、保湿类、抗皱类等。针对防晒类产品,你希望人们在搜索防晒化妆品、防晒霜、防晒乳等词汇时能搜索到你的网站,那么,防晒化妆品、防晒霜、防晒乳等词汇就是你的目标关键词。通过对网站关键词的优化(SEO工作),如果在百度中搜索防晒霜,你的网站出现在搜索结果页的前面,那就说明你的SEO工作已初见成效。

SEO是带来客户的重要渠道。从这个意义上来说,SEO是通过技术的方法来实现营销的目的。SEO的好处很多,首先是排名稳定。通过SEO的方法优化的关键词排名一般比较稳定,除非网站进行大量修改或者竞争对手异军突起,否则一般可以保持排名的时间比较长,相对于花钱做广告,停止花钱可能排名就消失,好处不言而喻。其次,SEO成本低。做过网络广告投放的人都知道,投放网络广告花费较高,比如在百度投放凤巢广告,一般一次点击至少花费2元,点击一次热门的词汇要花费5~9元,点击一次超级热门的广告花费几十元也不鲜见。因此,投放网络广告,花销不容易控制。当然,网络广告投放SEM是另外一门技术,我们暂且不讨论。相较而言,通过SEO的方法进行网络营销,确实是一个更便宜的办法,因为SEO只需要SEO人员和一些辅助落实的技术人员,没有额外的资金成本。

另外,因为SEO本质需要通过关键词等方式来吸引精准的用户,所以,SEO人员会从传播的角度对产品和网站进行深入思考,他们是真正懂产品和网站价值的人。1.1.3 SEO的经济价值

如果SEO做得好,其创造的经济价值是非常大的。我们来计算一下,比如一个大型门户网站日均IP是50万,这个数据对于大型门户来说已经非常保守了。假设当前通过SEO引过来的自然搜索流量占据20%,即日均免费的搜索量大概是10万IP(50×20%)。理想状态下,免费的自然流量占到50%也是常见的,通过SEO人员的努力,SEO的日均免费流量提升到20万IP,即增加了10万免费的流量。按照SEM投放的数据,均价1.5元一个IP已经是最低的竞价标准了,10万× 1.5元=15万元,那么一个月就是450万元(15万元×30)。这是一笔巨大的成本节省。即使维护了一个5人的SEO团队,月均20万元的人力支出,也是非常合算的。

可见,SEO对于互联网引流是至关重要的一环,任何依赖流量生存的网站都必须重视SEO工作,对SEO进行更多的资源倾斜。1.2关键词

关键词可以粗略等同于网页的定位,通过关键词的设计,对网页进行定位,再传达定位信息给搜索引擎,吸引相关的搜索客户到达页面。1.2.1 关键词的定义

关键词(Keywords)是SEO中最重要的一个词汇。关键词就是你希望能在搜索引擎的搜索结构中获得良好排名,给网站带来流量的同时能推广目标的词汇。比如,你的文章内容是对新款手机的介绍,则“手机”一词可能就是你的关键词。

关键词分为核心关键词和长尾关键词(Long-tail Keywords)。长尾关键词是相对于核心关键词的一个概念,是核心关键词的一个扩展。比如“手机”是核心关键词,那么“iPhone 6 plus手机”就是一个长尾关键词。长尾关键词可以按照很多维度进行扩展,扩展的目的是捕获更多的流量。

对于某些词汇来说,可能说法完全不一样,但也是关键词的范畴。比如“国庆节”是关键词,那么“十一黄金周”在某些程度上可以认定为相关的语义关键词,这里的语义关键字实际是基于机器智能学习自动识别的关键词。在机器识别方面,有很多不同的规则,其中一个重要的规则是依据词汇之间经常同时出现的概率计算。

在关键词优化的时候,页面应该怎么部署关键词,关键词应该出现多少次?可以用关键词密度这个概念进行量化。业界对于关键词密度的公认数值为3%~8%,密度过低,排名不好,密度过高,有作弊之嫌,很容易被搜索引擎封杀。

那么,关键词密度是怎么定义的呢?1.2.2 关键词密度

关键词密度是关键词在网页中所占比重的一种计量方式,对SEO的效果有重大影响。那么,关键词密度是怎么计算的呢?

例如,SEO是一门技术。

那么SEO的密度是多少呢?如果是网站工具,在考虑分词的情况下,实际的关键词密度计算方法如下。

分词:SEO,是,一门,技术。共4个词。

SEO出现1次,则密度=1/4=25%。

每个搜索引擎都有一套自己的分词方法,分词方法的优劣决定了搜索结果的精度。在分词的处理上,其普遍会建立一个词库,用来识别常见的词汇组合。比如“男人婆”是一个俗称,组合在一起的意思大家都很清楚,但是,搜索引擎是机器,不知道这个词的意思,很可能会将其切分成“男人”和“婆”两个字,这样,词汇原有的含义就丢失了。为了避免这种情况的发生,搜索引擎建立了一个专门的库,标识“男人婆”是一个专门的词汇,在遇到这个词的时候,不把它们切分开来。

建库是一个庞大的工作,一般通过机器学习的方式来完成。机器学习的基本原理是通过对海量网页进行分析,找到经常一起出现的词汇,把这些词汇提取出来,默认这些词是有专门意义的组合词,再通过逐步提取的方式,把基础库建立起来。

即使如此,再好的分词方法也有出错的可能,这时候就需要人工来标识辅助,逐步完善分词基本库的工作。几乎每个搜索引擎公司都有这种人工标识词库的人员,他们的工作就是不断地找出Bad Case(SEO专业术语,即坏案例),逐步优化词汇。1.2.3 关键词的关键应用:锚文本

定义关键词以后,如何使用关键词是SEO最重要的工作。关键词的一个核心应用是锚文本(Anchor Text),锚文本为带链接的关键字,比如“百度”这个关键词设置超链接指向www.baidu.com,我们认为“百度”这个词就是一个锚文本。

锚文本起到的作用可以通俗理解为告知。比如我们设置了一个关键词“洗面奶”,然后该关键词设置了链接指向http://www.abc.com/ximiannai.html(此网址为例子,并不真实存在),我们就是在告诉搜索引擎,http://www.abc.com/ximiannai.html这个链接对应的页面内容主要是和洗面奶相关的。如果在互联网中,很多地方都出现“洗面奶”这个词汇指向http://www.abc.com/ximiannai.html,搜索引擎就会认为http://www.abc.com/ximiannai.html页面就是和洗面奶相关的,那么在搜索结果的排序上,如果客户搜索“洗面奶”,http://www.abc.com/ximiannai.html这个页面就会获得更好的排名,即在排序算法中,具有锚文本支撑的关键词会获得更好的排名。

具有锚文本支撑的关键词获得更好的排名可以类比生活中的例子,比如很多人都认为张××是个热心人,那么张××获得“热心人”的印象就会更加深入。

从锚文本的设置上看,锚文本分为站内锚文本和站外锚文本。站内锚文本即一个网站内某一个页面内设置的锚文本,链接指向是同一个网站内的另一个页面。比如虚拟页面http://www.abc.com/1.html有个锚文本指向虚拟页面http://www.abc.com/2.html,这就是一个站内锚文本,因为锚文本设置的页面和锚文本指向的页面都属于http://www.abc.com这个网站。站外锚文本即网站外某一个页面内设置的锚文本,链接指向本网站内某一个页面。比如虚拟页面http://www.abc.com/1.html有个锚文本指向虚拟页面http://www.efg.com/2.html,这就是一个站外锚文本,因为锚文本设置的页面和锚文本指向的页面分别属于http://www.abc.com和http://www.efg.com两个网站。1.2.4 关键词排名

关键词排名实际是关键词所在页面的排序,也就是人们搜索一个关键词的时候,SEO所努力优化的网页在搜索结果中获得的排序。网页如果排在前面,获得点击的概率就会大大提升,反之,如果搜索结果排在后面,甚至没有排名,那么SEO工作就未见成效。努力让网页在搜索结果中获得更好的排名是SEO工作的重中之重。

考虑关键词对应页面的排名,主要针对几个大的搜索引擎,比如百度、谷歌、搜狗、360等。

每个搜索引擎都有一套关于搜索结果排序的算法,这个算法对搜索引擎公司来说是核心竞争力,因此我们不可能拿到每个搜索引擎公司的排序算法结果。但是,从公开的结果中,我们可以获得一些参考的资料。谷歌曾经发布过它的一套排序算法,从实际来看,这套发布的算法可能已经有了很大的改动,但是,并不妨碍我们依据发布的算法来推测搜索引擎在排序的时候更看重什么。1.2.5 谷歌网页排名算法

谷歌发布的网页排名算法公式如下。

谷歌得分=(关键词得分×0.3)+(域名权重×0.25)+(外链得分× 0.25)+(用户数据权重×0.1)+(内容质量得分×0.1)+(人工提分)-(人工/自动降分)。

下面是对该公式的详细分析。

关键词得分包括如下。

·网页Title。

·Hx(H1~H6)。

·文本内容。

·外链中。

·域名/网址。

域名权重包括如下。

·注册历史。

·域名年龄。

·外链权重。

·外链、给出链接相关度。

·使用历史、链接形式。

外链得分包括如下。

·链接时间。

·链接余名权重。

·锚文本。

·链接数量和权重。

·外链页面主题。

用户数据权重如下。

·搜索引擎结果页面(SERPs)的点击率。

·用户在网页上停留的时间。

·域名或统一资源定位符(URL)搜索量。

·访问量及其他谷歌可以监测到的数据,如工具条、谷歌分析(GA)等。

内容质量得分包括如下。

·流行的内容/关键词人工加分。

·谷歌投票人员。

从谷歌之前公开的公式来看,排名和几个重要的因素相关:关键词、外链、域名、用户、内容等,其中关键词、外链和内容是SEO的核心。网上盛传的SEO公式,具有一定的参考意义,该公式如下。

SEO=∫Clock=∫C1+L2+K3+O4。

公式里面的参数解释如下。(1)∫是一个积分符号,C=content(内容),L=link(链接),K=keywords(关键词),O=others(其他),Clock表示时间,即SEO就是一个长期的对“时间”的积分过程,因此,SEO不是一项急功近利的工作,希望能在1~2天就把一个关键词对应网页排到搜索引擎首页是不太可能的一件事情。(2)C1:丰富的内容是第一位的要素,按照原创、伪原创、转载依次排列内容的重要性来满足用户体验,即不断增加网站的内容,提供更好的用户体验,是SEO成功至关重要的一环。(3)L2:链接的合理与丰富是第二位的要素,即合理有效的内部链接与丰富的外部链接同等重要,而外部链接中高度相关、高PR值的页面尤为重要。(4)K3:关键词因素是第三位的要素,包括合理的标题、描述、页面关键词及相关关键词的密度与合理布局。一般认为,2%~8%的密度较为合理。(5)O4:其他因素,比如域名、站龄、服务器、网站架构、排版、邻居、URL、地图等。

这个公式将SEO概括性地阐述出来,把SEO需要注意到的要素都考虑进去了。根据这个公式,可以发现很多有价值的概念,有兴趣的朋友可以仔细品味。1.2.6 百度网页排名算法

对于中文网站来说,在百度获得好的排名就是SEO工作成功的关键。百度的排序算法异常复杂,但是依据公开的文档,大致可以归类影响网页排序的几个重要因素。

1.页面相关性

页面相关性即用户检索的词和网页内容的匹配程度,比如用户搜索“睡眠面膜”,那么排在前面的页面应该都是和睡眠面膜相关的页面,即搜索到的结果应该是和关键词密切相关的,越相关的页面,在排序方面越会获得更高的加分。如何评价一个页面是否和搜索词汇相关,从算法上来说,有几个重要的指标。

·关键词密度,即当前该关键词在页面文字分词结果中的比例。

·关键词是否出现在重要的位置,如果关键词出现在页面的标题、Meta(元素可提供相关页面的元信息)、H1~H6等位置,就认为越重要,越相关。

·关键词是否获得外部和内部的投票,比如站内、站外锚文本支持等,获得的投票越多,就会越相关。

2.权威性

主要含义如下。

·权威性包括网站域名是否为政府专用的.gov类,网站的所属权是否为权威的公司或者部门。

·是否普遍受欢迎,包括网站的点击率,即用户在所有搜索结果里面点击打开这个页面的比例;用户在网页的访问特性,比如网页访问时间、跳出时间等。正常来说,搜索引擎很难获取到网站的用户行为数据,但是,目前大部分的网站依赖搜索引擎的网站统计来做流量统计和用户行为分析,因此,搜索引擎以这些数据作为参考就很容易了。比如很多网站站长选择使用百度统计进行网站统计和分析,那么,百度通过借鉴百度统计的用户行为数据进行排序也不是一件很困难的事情了。

3.时效性

网页内容如果与信息相关,那么内容的时效性也是一个排序的依据,因为从用户角度来说,也是希望看到最新鲜的内容。但是时效性和检索词的关系很大,不能全部套用。信息相关的网页一般包括如下。

·新闻网站,各种门户网站的新闻网页,比如新浪新闻、搜狐新闻、网页新闻等。

·即时信息互动网站,比如微博类网站。在搜索引擎显示微博结果的时候,总是优先展现最新的信息,甚至直接按照时间进行倒排序。

4.准确性

页面内容是否能够满足用户检索的需求,甚至满足用户的延伸需求等。满足用户的检索需求即用户打开搜索结果页,里面的内容正是用户需要的。而延伸用户的检索需求,比如用户搜索“SPF15 防晒指数”,搜索结果页打开一看,是一个关于SPF15防晒指数的介绍页面,那么页面就具有相关性。如果该页面还有一些很实用的内容,比如SPF15和SPF30的效果相差有多大,SPF的指数是如何定义的,对于用户了解SPF来说,就非常有帮助,这类内容就属于满足用户的延伸需求的内容。

搜索引擎在对搜索结果进行排序的时候,会考虑以上重要的方面,但是整体来看,相关性是第一位的。因此,在对网站进行SEO优化时,一定不能脱离相关性这个基础。在实际网站运营中,很多门户网站会采用投机取巧的方法,利用热词来形成很多文章。比如家居类的网站,每天的新闻中会使用热词做标题,甚至以一些热点事件作为标题,但是文章的主题内容和热词没有任何关系。从短期来看,因为门户的权重比较大,这些文章的标题会吸引来大量关注热词或热点事件的访客,但是因为主题内容不相关,用户过来后会立刻离开,对用户和搜索引擎来说都是一种欺骗,这种行为注定不能持久,最终导致整个新闻或者信息频道,甚至是整个网站彻底被搜索引擎屏蔽。作为SEO人员,必须要意识到这种做法的风险性极高,避免自己做此类事情,也需要严格监督编辑人员不能做此类事情。

随着搜索算法的优化和互联网内容的丰富,以及网民的需求提升,为了能更加符合用户的搜索期望,搜索引擎目前逐渐把地域、业务领域、时效性等因素作为排名的参考依据,而不仅是参考网页的信息。

另外,地域因素在排序中逐渐加大了比例,即在对关键词排名的时候,会参考用户所在地的IP归属,尽量返回和用户目标一致的网页。比如一个用户在北京搜索“旅游”一词,会把“北京”这个地域当作参考因素,和关键词“旅游”放在一起作为参考,对网页进行过滤,因此,北京相关的旅游网页会获得更好的排名;如果在上海搜索“旅游”这个词汇,在返回的结果中,很多是上海相关的旅游网页,就不必奇怪了。

搜索引擎会通过机器学习等方法,对和地域有紧密联系的领域的词汇做专门管理,这类词汇如旅游、天气、交通、酒店、机票等。用户在搜索这些领域的词汇时,搜索引擎会把用户IP所在地域和关键词组合进行查询,返回更符合用户期望的信息。当然这里“地域”这个信息在组合条件中所在的权重,每个搜索引擎是不一样的,这也是不可公开的。在移动端搜索中,地理位置的信息可以通过Meta进行配置,通过定义省份、城市、经纬度的方式进行精准定位,关于移动端的精准定位可以参考本书移动搜索部分的内容。

时效性因素即用户查询某些领域的词汇时,返回最接近的网页数据。比如查询“奥斯卡”这个词汇,搜索引擎偏好显示最近的奥斯卡信息的网页。查询“奥运会”等信息,情况也是如此。

在判断时效性方面,可以基于不同的计算方法。比如通过获悉网页上的时间信息,或者通过分析前后页面的时间信息,来估算对应页面的时间信息。

个性化因素即用户查询词汇的时候,搜索引擎会依据用户的搜索习惯、喜好等,自动返回一些和客户喜好、习惯更相关的词汇。搜索引擎之所以能做到这一点,是因为每个客户在浏览网页的时候,会从客户端请求服务器,服务器会记录用户状态,并返回浏览器一小段文本信息,该小段文本信息就是Cookie(储存在用户本地终端上的数据)信息。主流的浏览器比如IE和Firefox等都支持Cookie的机制,即用户访问哪些网站和网页信息,实际在本地都做了记录。搜索引擎在进行结果推荐的时候,会调用Cookie的数据进行参考,判断用户的偏好,在此基础上,返回和用户偏好最相关的搜索结果,从而展现给客户的是更多个性化的内容。举个例子,某个SEO人员特别关注自己网站的某个关键词排名,可能在谷歌里天天搜索同一个关键词,然后点击自己的网站。可能有一天,当他再搜索这个关键词的时候,搜索引擎自动把他的网页放到了第一位。但是,另外一个SEO人员在同一个地区,搜索同一个关键词,上述网页的排名没有显示在前10位中,这就是Cookie记录的偏好结果的影响。目前,个性化因素已经在搜索引擎和众多商业领域中使用,都是在努力满足用户的偏好需求。

其外,小说、游戏、影视、品牌等领域的搜索引擎都开始逐步设立偏好标准。比如搜索一本小说,会尽量返回小说网站的页面,而搜索一部电视剧,会尽量返回视频网站的页面,这样做的好处是能缩短大部分用户的查询距离,使用户尽快点击搜索结果页,提升用户体验。

从SEO人员的角度来说,可以深入研究这些变化带来的影响,利用这些偏好来做更多的SEO工作。1.2.7 关键词设置

关键词优化得好不好,关系到SEO工作的成败,其中,在页面很好地部署关键词成为SEO的重中之重。关键词部署有几个小诀窍。

·保证页面的关键词密度为0.5%~3%,即页面需要出现关键词多次,但是控制在一定的程度,不能给人造成关键词堆砌的印象。

·在关键词的几个重要区域出现关键词,并且关键词出现的位置尽量靠前,这几个位如下。(1)Title(标题):关键字尽量靠前,在标题中尽量占据更大的比例。(2)Keywords(关键词):使用关键词和长尾关键词。(3)Description(描述):最好出现1~2次关键词和长尾关键词。(4)页面导航:尽量出现关键词。(5)H1~H6这些标题中巧妙融合关键词;网页正文里面第一次出现的关键词,可以加粗。

此外,在锚文本设置方面,尽量使用关键词或者长尾关键词作为锚文本的文字,这样能帮助提高关键词的排名。

可以这样说,关键词的出现、位置、密度、在锚文本中的使用,在一定程度上能决定关键词排名。1.2.8 关键词管理

正因为关键词的优化成功与否关系到网站SEO的成败,如何完整、高效地管理关键词成为很重要的SEO工作。关键词的管理包括关键词+URL的管理和关键词+排名的管理。

关键词+URL的管理即不断优化关键词列表。关键词列表主要管理两个内容:关键词本身和目标页面URL。关键词和目标页面URL一一对应,为SEO的落地提供了切实可行的基础。URL可以理解为网络上每个文件的路径,我们打开一个网站页面,在浏览器地址栏看到的一长串字母就是一个URL,如http://www.abc.com/1.html。

关键词+URL的管理设计如表1-1所示。表1-1 关键词和URL的关联表

随着网站业务的变化,关键词需要不断调整,已经不再关注的关键词需要从表格中删除,新增加的关键词需要补充到表格中。关键词对应的页面URL已经发生了变化的,需要单独更新页面URL。

关键词+排名的管理即定期更新关键词的排名信息,动态监控关键词的实际优化效果,为SEO工作的效果评估提供了切实的依据。

查看关键词的排名,最直接的办法就是在百度或者谷歌搜索这个词汇,然后手动翻阅查看并记录排名,如果目标页面排在搜索结果第一个,那么排名就是1;如果目标结果排名第二个,那么排名结果就是2;一般来说,针对单个搜索词,百度提供760个搜索结果,如果目标页面在这760个结果里面都没有找到,那么就可以认为是没有排名。手动查询+记录这个办法很耗体力,如果管理很多关键词,这是不现实的。

市场上帮助提供关键词排名查询的工具不少,只需要输入关键词,工具会自动帮助你查询在几个搜索引擎中的排名情况。这种工具的好处是能减少部分人力,但是,对于批量的关键词查询问题,还是没有解决。一些公司自己开展了批量查询的工作,但是经常被搜索引擎发现,被当作Spam(搜索引擎垃圾技术)查询而被封IP。

不管怎样,每一个关键词排名的变动,随时都牵动SEO的神经。因此,SEO需要周期性地查看关键词的排名情况,以此来定位工作重点并检验SEO方案的效果。

在查看排名情况的时候,经常需要查看在每个搜索引擎的最好排名和名次数据,如表1-2所示。表1-2 关键词排名记录表

通过这些排名数据,可以看到SEO的实际效果,如果和竞争对手进行详细比较,就可以知道自己的弱点在哪里了。1.3收录

收录是指网页被搜索引擎抓取到,然后放到搜索引擎的库里,等到人们搜索相关词汇的时候,可以在搜索结果页展示列表看到已经收录的页面及页面信息。我们所说的“网页被收录”即能在搜索结果页看到相关的页面。反之,“网页没有被收录”问题就复杂一些,因为在搜索结果页没有看到对应的页面,并不意味着网页就没在搜索引擎的库里,或者说就没有被收录,有可能是网页针对当前的搜索词汇排名不好,在760个记录之外,因此没有得到展示。

收录涉及网页被搜索引擎蜘蛛抓取,然后被编入搜索引擎的索引库,并在前端被用户搜索到这一系列的过程。对SEO人员或者希望对自己网站进行优化的非专业SEO人员来说,了解页面是如何被搜索引擎收录的,了解搜索引擎的收录原理,都是极有好处的,能帮助你在进行网站SEO的时候尽量遵循收录的规律,提高网站被收录的比例。1.3.1 搜索引擎蜘蛛的工作原理

收录的第一个环节就是抓取。抓取的过程是搜索引擎应用程序去抓取网站的网页,这里负责搜索引擎抓取网页职能的程序俗称蜘蛛(Spider),蜘蛛是一个形象的说法,因为互联网就是一张巨大的蜘蛛网,搜索引擎的程序通过网络不断地进行爬行和探索。每个互联网公司都有自己的抓取蜘蛛,比如百度蜘蛛(Baiduspider)、谷歌蜘蛛、搜狗蜘蛛等。对于百度来说,常见的蜘蛛如表1-3所示。表1-3 常见蜘蛛

蜘蛛通过网站提交的Sitemap(网页地图)或者在互联网其他地方留下的页面URL信息,爬行到网站对应页面,然后沿着网站页面其他链接一层层往下爬行,发现更多的页面。

蜘蛛抓取网页是收录页面工作的上游,通过蜘蛛对网页的抓取,发现更多页面,同时知道哪些页面已经有了更新,从而实现对互联网页面的抓取和持续更新。

关于蜘蛛抓取系统的工作原理,可以参考百度蜘蛛抓取的说明。

简而言之,蜘蛛抓取系统包括链接存储系统、链接选取系统、DNS解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。Baiduspider通过这种系统的通力合作完成对互联网页面的抓取工作。1.3.2 应对蜘蛛抓取基本策略

在蜘蛛实际抓取网页的过程中,因为网页内容的复杂性(文本、Flash、视频等)和技术实现的多样性(纯静态、动态加载等),为了更高效地利用蛛蛛资源,搜索引擎公司会置顶不同的抓取策略,作为SEO人员,可以参考搜素引擎公司对抓取策略的描述,采用最大化的SEO方法。

作为国内最大的搜索引擎公司,百度在它的官方文档中是如下这样描述抓取策略的。

互联网资源具有庞大的数量级,这就要求抓取系统尽可能高效地利用带宽,在有限的硬件和带宽资源下尽可能多地抓取到有价值的资源。这就造成了另一个问题,耗费被抓取网站的带宽造成访问压力,如果程度过大,将直接影响被抓取网站的正常用户访问行为。因此,在抓取过程中要进行一定的抓取压力控制,实现既不影响网站的正常用户访问,又能尽量多地抓取到有价值资源的目标。

通常情况下,采用的最基本的方法是基于IP的压力控制。这是因为如果基于域名,可能存在一个域名对多个IP(很多大网站)或多个域名对应同一个IP(小网站共享IP)的问题。实际工作中,往往根据IP及域名的多种条件进行压力控制。同时,站长平台也推出了压力反馈工具,站长可以人工调配对自己网站的抓取压力,这时Baiduspider将优先按照站长的要求进行抓取压力控制。

对同一个站点的抓取速度控制一般分为两类:其一,一段时间内的抓取频率;其二,一段时间内的抓取流量。同一站点不同的时间抓取速度也会不同,例如,夜深人静的时候抓取的可能就会快一些。也视具体站点类型而定,主要思想是错开正常用户访问高峰,不断地调整。对于不同站点,也需要不同的抓取速度。

上面的描述很简洁,但是从这个描述里面,我们可以得到启发,蜘蛛抓取页面是有压力控制的,对于特别大型的网站来说,不可能指望蜘蛛爬行到一个网站后,会一次性抓取到所有的网站,因此,作为SEO人员来说,尽量减少蜘蛛的压力,对网站的网页收录是有好处的。一般来说,减轻蜘蛛压力有以下两种方法。

方法一:采用Nofollow(反垃圾链接的标签)的策略,将蜘蛛引导到最有价值的页面。Nofollow标签用来告诉蜘蛛,如果遇到带着此标签的页面或者链接,就不要继续追踪了,这样蜘蛛就可以爬行到其他更加有用的页面。

方法二:在Sitemap中定义不同页面的权重和更新频率,就是在网站的Sitemap文件中,定义好每个链接的权重和更新的频率,这样,蜘蛛在爬行到这些链接和页面的时候,会识别哪些页面比较重要,可以重点抓取,哪些页面更新比较频繁,需要蜘蛛分配更多的注意力。1.3.3 应对蜘蛛页面抓取异常

搜索引擎在抓取网页的时候,可能会遇到各种情况,有的页面抓取成功,有的抓取失败。怎么显示一个页面的实际抓取结果呢?主要是通过返回码进行示意,代表抓取成功与否和遇到的问题。比如我们常见的,有时候打开一个页面,页面一片空白,上面只显示404。这里的404就是一种返回码,代表当前抓取的页面已经失效,遇到显示404的页面,如果短期内搜索,蜘蛛再发现这个URL,也不会对其进行抓取。

有时候,会返回503,503返回码代表网站临时无法访问,可能是网站服务器关闭或者其他临时措施造成的网页无法访问,一般来说,蜘蛛还会继续抓取几次。如果网站恢复正常,URL仍然被当作正常URL处理,如果服务器一直处于不可访问状态,那么搜索引擎就会将这些URL彻底从库中删除,这就要求我们必须维护网站的稳定性,尽量避免临时关闭的情况发生。返回码403是禁止访问状态,一般来说,如同503一样,如被多次访问仍处于禁止访问状态,就会被搜索引擎从库里面删除。

在返回码中,有一类需要格外注意,就是301。301代表永久性移除,当前URL被永久性重定向到另外的URL。一般来说,因为改版等原因,部分URL需要永久被替换为新的URL,就必须使用返回码301进行处理,这样能把权重等一并带过去,避免网站的流量损失。

返回码301的优化写法如下。(1)创建一个htaccess.txt文件。(2)在htaccess.txt里写好返回码301的跳转信息。

假设旧的URL为abc.com,需要重定向到www.abc.com,需在文件里写如下信息。

RewriteEngine on

RewriteCond %{http_host} ^abc.com [NC]

RewriteRule ^(.*)$ http://www.abc.com/$1 [L,R=301](3)将htaccess.txt上传到FTP,然后将htaccess.txt修改为.htaccess。

需要提醒的是目前htaccess只适用于Linux系统,并需要虚拟主机支持,因此,在考虑.htaccess文件处理返回码301的时候,需要查看虚拟主机是否完全支持。

实际上,在重定向的处理上存在多种方式,简单来说,重定向可以分为http 30x重定向、meta refresh重定向和js重定向。另外,大的搜索引擎公司,比如谷歌和百度都确认支持Canonical标签,可以通过制定一个权威页面的方式,引导蜘蛛只索引一个权威页面,从实际效果上来说,也是一种间接的重定向。在实际抓取过程中,蜘蛛会对各种重定向效果进行识别。

重定向的方法有多种,但是从SEO角度来说,如果是永久跳转的页面,尽量采用返回码301的跳转方式。另外,从时间结果来看,百度对Canonical的支持并不如谷歌好,采用Canonical未必能得到如期效果。有些网站通过不同的路径进入同一页面,可能会出现多个URL的情况,当面对这种情况时,可能需要一些处理技巧,关于Canonical的使用技术可参见本书关于Canonical的专门讲解。

外链等因素对搜索的排名是有影响的,那么在抓取环节是否也有影响呢?百度在它的抓取政策上有优先级的说明,即执行包括 “深度优先遍历策略、宽度优先遍历策略、PR优先策略、反链策略、社会化分享指导策略等”。同时,这也说明每个策略各有优劣,在实际情况中往往是多种策略结合使用才能达到最优的抓取效果。从这段官方说明里面可以看到PR优先策略、反链策略、社会化分享等字眼,我们可以认为,百度在实际抓取的时候,其实都考虑了这些因素,只是权重可能有所不同,因此,尽量提高网页PR,增加更高质量的外链,进行高质量的社会化分享,对网站的SEO工作是有积极意义的。

另外,针对互联网存在的大量“盗版”“采集”的网页情况,在抓取的过程中,蜘蛛会通过技术判断页面是否已经被抓取过,并对URL不同但是实际内容相同的页面的URL进行归一化处理,即视作一个URL。也就是告诉SEO人员,不要通过大量创建页面的方式来获得更多的搜索资源,如果页面很多,但是每个页面的内容重复性很高,或者仅是URL中包含无效参数来实现多个页面,搜索引擎仍然把这些URL当作一个URL处理,即网站页面不是越多越好,通过功利的方式拼凑网页,大量部署长尾,但是页面质量堪忧,效果会适得其反。如果大量此类页面被搜索引擎判断为低质量页面,可能会影响到整站的SEO效果。

蜘蛛在抓取的过程实际是依据链接不断往下探索的过程,如果链接之间出现短路,蜘蛛就无法往前爬了。在真实的网站运营中,我们可以看到很多网页实际潜藏在网站后端,蜘蛛是无法抓取到的,比如没有预留入口链接,或者入口链接已经失效等,这些无法抓取到的内容和信息,对于蜘蛛来说就是一个个的孤岛,对SEO人员来说就是没有完全发挥内容的引流作用。同时,因为网络环境或者网站规范等原因也可能导致蜘蛛无法爬行。

如何解决信息无法被抓取到的问题?几个可行的办法如下。

·采用搜索引擎平台提供的开发平台等数据上传通道,可以针对数据进行独立的提交。

·采用Sitemap提交方式。大型网站或者结构比较特殊的网站,沉淀了大量的历史页面,这些历史页面很多具有SEO的价值,但是蜘蛛无法通过正常的爬行抓取到,针对这些页面,建立Sitemap文件并提交给百度等搜索引擎是非常必要的。

蜘蛛在爬行网站的时候,会遵循网站的协议进行抓取,比如哪些网页可以给搜索引擎抓取,哪些不允许搜索引擎抓取。常见的协议有HTTP协议、HTTPS协议、Robots协议等。

HTTP协议规范了客户端和服务器端请求和应答的标准。客户端一般是指终端用户,服务器端指网站。终端用户通过浏览器、蜘蛛等向服务器指定端口发送HTTP请求。发送HTTP请求会返回对应的HTTP Header信息,我们可以看到包括是否成功、服务器类型、网页最近更新时间等内容。

HTTPS协议是一种加密协议,一般用户安全数据的传输。HTTPS是在HTTP下增加了SSL层,这类页面应用比较多的是和支付相关或者内部保密信息相关的网页。蜘蛛不会自动爬行该类网页。因此,从SEO角度考虑,在建站的时候,尽量对页面的性质进行区分,对非保密页面进行HTTP处理,才能实现网页的抓取和收录。1.3.4 用Robots协议引导蜘蛛对页面进行抓取

Robots协议是放在根目录下的一个协议,也是蜘蛛爬行网站的时候需要访问的第一个文件,通过解读Robots文件的策略,蜘蛛可以知道哪些页面可以爬行,哪些不可以爬行。一般来说,网站都是可以开发给蜘蛛来抓取的,某些不允许抓取的页面或者频道,只需要在Robots里面设定Disallow(禁止抓取的命令)就可以。但是在实际运营中,可能面临更复杂的情况,比如整站已经在HTTPS下,但是部分页面需要蜘蛛爬行,怎么办?有以下几个解决办法。(1)复制一份到HTTP下。(2)使用user-agent判断来访者,将蜘蛛引导到HTTP页面。

关于Robots文件,详细说明如下。(1)特定页面已经不需要蜘蛛抓取,可以进行Disallow。(2)某类集中的页面具有共同的URL参数,可以实现批量禁止抓取功能。在操作批量禁止的时候,需要避免误伤,即具有同样URL特征的功能可能并不在禁止的目的之内,无意中被禁止了。

关于同类特征的URL的一个特殊应用就是批量禁止动态URL的抓取。比如一个动态发布内容的网站,初始页面都是动态页面,从SEO角度考虑,这些动态页面全部批量生成了对应的静态页面,如下。

http://www.abc.com/?id=1

http://www.abc.com/?id=2

……(已经批量生成了如下)

http://www.abc.com/1.html

http://www.abc.com/2.html

……

如果同时被蜘蛛抓取了动态页面和对应的静态页面,那么网站就存在大量的重复页面,对SEO是不好的。可以通过Robots功能,统一禁止动态URL的抓取,比如在Robots文件里写如下内容。

Disallow:/*?*

在抓取方面,蜘蛛会依据实际情况调整对网站的抓取频次,即分配抓取定额,每天定量抓取网站内容,“定量”这个词意味着是有限的,一个大门户网站如果一次性提交10万条URL,并不意味着蜘蛛会很快把10万条数据抓取回去,因此,必须有耐心跟踪搜索蜘蛛在网站每天的爬行和收录情况。1.3.5 影响页面抓取的几个重要原因

影响蜘蛛爬行并最终影响到页面收录结果主要有几个方面的原因。

1.网站的更新情况

一般来说,网站更新很快,蜘蛛就会更快地抓取网站的内容。如果网站的内容很长时间都没有任何的更新,蜘蛛也会相应调整对网站的爬行频率。更新频率对新闻等网站来说很关键。因此,保持每天一定的更新数量,对吸引蜘蛛是非常重要的。

2.网站内容的质量

对于低质量的页面,搜索引擎一直是打击的,因此,创建高质量的内容,对于吸引蜘蛛是非常关键的,从这个角度来说,“内容制胜”是完全正确的。如果网页是低质量的,比如大量采集相同内容,页面核心内容空泛,就无法获得蜘蛛的青睐。

3.网站是否可以正常访问

网站是否可以正常访问对搜索引擎来说就是连通度。连通度要求网站不能经常访问不了,或者访问速度特别慢。从蜘蛛角度来看,希望能提供给检索客户的网页都是可以正常访问的页面,对于服务器反应速度慢或者经常死机的服务器,相关网站肯定会有负面的印象,严重的就是逐渐减少爬行,甚至剔除已经收录的页面。

在现实中,因为国内的服务器服务比较贵,另外,基于监管的要求,国内网站的建立需要有备案制度,需要经历网上上传备案信息等流程,部分中小网站的站长可能会租用国外的服务器服务,比如Godaddy(一家提供域名注册和互联网主机服务的美国公司)服务等。不过从国内访问国外服务器,距离较远的原因,访问慢或者死机情况不可避免,从长远来说,对网站的SEO效果是一个制约。如果要用心经营一个网站,还是尽量采用国内的服务器服务,可以选择一些服务比较好、界面比较友好的服务器供应商,当前多家公司推出的云服务器就是不错的选择。

此外,搜索引擎会依据网站的综合表现,对网站进行评级,这个评级不能完全等同于权重,但是,评级的高低会影响到蜘蛛对网站的抓取策略。

在抓取频次方面,搜索引擎一般都提供可以调整抓取频次设置的工具,SEO人员可以依据实际情况进行调整。对于服务请求比较多的大型网站,可以通过调整频次的工具来减轻网站的压力。

在实际抓取过程中,如果遇到无法访问的抓取异常情况,会导致搜索引擎对网站的评级大大降低,相应影响抓取、索引、排序等一系列SEO效果,最终反馈到流量的损失上。

抓取异常的原因有很多,比如服务器不稳定,服务器一直超负荷运行,或者协议出现了错误。因此,需要网站运维人员对网站的运行进行持续跟踪,确保网站稳定运行。在协议配置上,需要避免一些低级的错误,比如Robots的Disallow设置错误。曾经有一次,一个公司管理人咨询SEO人员,问他们委托外部开发人员做好网站后,在搜索引擎怎么都无法搜索到,是什么原因。SEO人员直接在URL地址栏输入他的网站Robots地址,赫然发现里面禁止了(Disallow命令)蜘蛛的爬行!

关于网站无法访问,还存在其他可能,比如网络运营商异常,即蜘蛛无法通过电信或者网通等服务商访问到网站;DNS异常,即蜘蛛无法正常解析网站IP,可能是地址错误,也可能是域名商封禁,遇到这种情况需要和域名商联系。还有的可能是网页的死链,比如当前页面已经失效或者出错等,可能部分网页已经批量下线,遇到这种情况,最好的方法是提交死链说明;如果是URL变更导致的旧的URL失效无法访问,最好设置301跳转,把旧的URL和相关权重过渡到新的页面来。当然,也可能是搜索引擎本身负荷过大,临时封禁。

针对已经抓取回来的数据,接着就是蜘蛛进行建库的环节。在这个环节里,搜索引擎会依据一些原则对链接的重要性进行判断。一般来说,判断的原则如下:内容是否原创,如果是,会获得加权;主体内容是否是鲜明的,即核心内容是否突出,如果是,会获得加权;内容是否丰富,如果内容非常丰富,会获得加权;用户体验是否好,比如页面比较流畅、广告加载少等,如果是,会获得加权等。

因此,我们在网站日常运营过程中,需要坚持如下几个原则。(1)不要抄袭。因为独特的内容是所有搜索引擎公司都喜欢的,互联网鼓励原创。很多互联网公司希望通过大量采集网络内容来组织自己的网站,从SEO角度来说,其实是不可取的行为。(2)在网页内容设计的时候,要坚持主题内容突出,就是要让搜索引擎爬过来就能知道网页要表达的内容是什么,而不是在一堆内容里去判断网站到底是做什么业务的。主题不突出,在很多经营混乱的网站里有典型案例,比如有的小说网站,800字的一章切分到8个页面,每个页面大概100字,页面其余地方都是各种广告、各种无关内容信息。还有的网站,主体内容是一个frame框架或者AJAX框架,蜘蛛能爬到的信息都是无关内容。(3)丰富的内容,即内容信息量大,内容的展示模式多样化。广告适当就是少嵌入广告,不要打开网页满屏都是花花绿绿的广告。因为广告加载时间计算在页面整体加载时间内,如果广告加载时间过长,导致页面无法完全加载,就会造成页面空而短。同时,针对大量广告影响用户体验方面,百度于2013年5月17日发布公告,宣称针对低质量网页推出了“石榴算法”,旨在打击含有大量妨碍用户正常浏览的恶劣广告的页面,尤其是弹出大量低质广告、存在混淆页面主体内容的垃圾广告的页面。目前部分大型门户网站从营收的角度考虑,还是悬挂大量的广告,作为SEO人员,需要考虑这个问题。(4)保持网页内容的可访问性。有些网页承载了很多的内容,但是使用JS、AJAX等方式进行呈现,对搜索引擎来说是无法识别的,这样就造成网页内容空而短,使网页的评级大大下降。

此外,在链接的重要程度方面,还有两个重要的判断原则:从目录层级来说,坚持浅层优先原则;从内链设计来说,坚持受欢迎页面优先原则。

所谓浅层优先,即搜索引擎在处理新链接、判断链接重要性的时候,会优先考虑URL更多的页面,即从URL组织上离首页域名更近的页面。因此,SEO在做重要页面优化的时候,一定要注意扁平化的原则,尽量缩短URL的中间环节。

既然浅层优先,那么是否可以把所有的页面平铺到网站根目录下,从而选到最好的SEO效果?肯定不是,首先,优先是一个相对的概念,如果把所有的内容都放在根目录下,就无所谓优先了,重要的内容和不重要的内容没有任何区分。另外,从SEO角度来说,URL抓取后还用来分析网站的结构,通过URL的组成,大致判断内容的分组,SEO人员可以通过URL的组成来完成关键词和关键词网页的组织。

比如www.abc.com/jiaoyu/ 可能这个组下的内容都是与教育相关的,如www.abc.com/jiaoyu/1.html。www.abc.com/lvyou/ 可能这个组下的内容都是与旅游相关的,如www.abc.com/lvyou/1.html。

目前在站内的受欢迎程度主要从以下指标反映出来。

·站内导向该页面的内链数量。

·站内通过自然浏览行为到达该页面的PV。

·该页面的点击流失率。

因此,从SEO角度来说,如果你需要快速提高一个页面的搜索排名,可以从受欢迎程度方面做一些工作,如下。

·多从其他页面做导向该页面的锚文本,特别是高PR页面。

·给该页面取一个吸引人的标题,引导更多自然浏览用户单击链接到达该页面。

·提高页面的内容质量,降低页面的流量率。1.3.6 页面收录工作列表

网页收录是SEO工作的核心之一,尽量提高网页的收录,是SEO日常工作的重点。为了提高网页的收录可能性,需要做如下的工作。

首先为网站设置一个Sitemap文件。网站的Sitemap文件就像生活中的地图一样,告诉蜘蛛网站有哪些重要的文件,获取这些文件的路径在哪里。关于Sitemap的制作可以查阅本书有关Sitemap的章节。

制作好Sitemap文件,可以把Sitemap文件上传到网站,一般放在网站的根目录下。下一步就是把“地图”提交给搜索引擎,让蜘蛛顺着“地图”过来。关于如何提交Sitemap给搜索引擎,每个搜索引擎的做法有一些差别,但是一般要求注册一个搜索引擎的站长账号,然后验证网站属于你以后,在站长管理板块有一个提交Sitemap的区域,直接提交网站Sitemap的URL就可以了,蜘蛛会顺着提交的URL爬到网站页面来。

除了提交Sitemap,为了促进收录,在网站内部设置良好的内链也非常关键。网站内部的结构就像一棵纵向的大树,不断向下植根、发散。如果页面没有良好的内链,蜘蛛就无法从一个页面爬到另外一个页面,即网站存在很多“孤岛”,搜索引擎根本无法发现这些“孤岛”的存在,也就无法把这些页面收录到索引库中来。因此,设法避免“孤岛”页面的存在,对于收录来说,是一项非常重要的工作。另外,部分良好的内链其实起到一种锚文本的作用,对于提升关键词的排名是非常重要的。

蜘蛛在爬行网页的过程中,遇到页面异常的情况,比如因为服务器原因无法访问或者页面已经不存在,会返回提示,SEO人员需要分析这些反馈信息,尽量修复导致蜘蛛无法正常爬行进而收录页面的各种异常。1.3.7 页面收录分析

收录分析是对网站的页面收录进行一个系统的分析,通过分析收录比例,可以看到SEO的空间。比如页面数量是100,而收录页面是5%,那么收录比例5%,即100个页面只有5个页面被搜索引擎收录,起不到SEO的作用,这个情况就非常不乐观。反之,如果页面数量是100,而收录页面是80%,意味着在100个页面中,被搜索引擎收录的页面总数已经达到80个,收录状态就比较理想。

收录分析可以按照两种方式进行,第一种是按照URL的层级进行分析,第二种是按照频道进行分析。

按照URL的层级进行分析的方式,如表1-4所示。表1-4 按照URL层级对页面收录数据进行统计

按照频道的方式进行分析的方式,如表1-5所示。表1-5 按照频道对页面收录数据进行统计

按频道进行分析,一般要求每个频道下的URL是唯一的,而且和别的频道URL不重合,这样分析出来的结果才比较精准。比如新闻频道下的所有页面都是/news/下的页面,而且整个网站其他页面没有在/news/下的页面。如果遇到一个频道下有多个URL模式,只能通过列举方法,统计每个频道下的URL规律,然后把相关页面进行汇总计算得到分析结果。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载