SEO深度解析:全面挖掘搜索引擎优化的核心秘密(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-14 00:19:11

点击下载

作者:痞子瑞

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

SEO深度解析:全面挖掘搜索引擎优化的核心秘密

SEO深度解析:全面挖掘搜索引擎优化的核心秘密试读:

前言

这并不是一本SEO教科书,但可以当作一本对SEO各方面进行讨论的博文合集。

通过王通、Zac、夫唯、国平等众多SEO前辈的努力,现在SEO在国内已经非常普及,至少已经揭开了SEO神秘的面纱,使得互联网从业者多多少少都了解了一些SEO知识,这些前辈对于国内SEO的发展有着不可磨灭的贡献。但一直以来,在各种SEO交流场合中,还有不少朋友会提问一些基础性的问题,或者咨询一些依靠正常简单逻辑就能推理出的问题。

笔者认为在国内关于SEO基础及概念性文章、书籍已经如此过剩的今天,还会存在以上现象的原因,应该是很多SEO人员还缺乏独立思考的习惯。或许很多SEO人员虽然已经把SEO相关的概念性、常识性的知识熟记于心,但是还没有熟练地运用这些知识、经验去思考和解决实际问题,因此当遇到稍微有些不同的问题时就不知道该如何应对了。在笔者担任百度站长平台社区版主前期,通过仔细观察大家所发布的问题,更深刻地意识到了这一点。这也是本书诞生的真正原因,本书尝试性地表达一些SEO相关的思路,而不是只注重SEO本身。

SEO本身不是一门传统的自然学科,每个人对SEO的理解和观点都会有所不同,甚至对SEO的基本概念、常用命令原理、常规SEO思路都有着不同的认识和理解。并且,除了最基本的概念之外,SEO的一切都处于动态变化中,因此笔者在这本书中尝试把每个章节的标题都当作一个问题来讨论,表达笔者对相关问题的一些观点。全书不做定性,只做讨论,也欢迎各位读者参与到讨论中来。

本书按照常规的SEO知识和工作内容,尝试性地对SEO各方面的内容、常见问题及注意事项都进行了一定的讨论。在个别名词或数据的介绍上,引用和推荐了一些行业内专业人士的观点和意见,并且在对一些细节的讨论中,也提供了一些实例和数据支持。希望本书能够为已经稍微了解一些SEO知识,但是还没有什么思路的朋友提供一些参考。

另外,本书还有两个目的:一个是为“SEO信息对称”做一些努力,把过去一些只在“小圈子”使用的方法和讨论的话题公开性地讨论一下,并尽力对一些问题、现象的原理进行深入讨论;另一个是为SEO行业的发展尽一点绵薄之力。现在已经不是随便堆砌一下关键词和无策略地狂发链接就能得到排名及流量的时代了,如果还是一味地研究如何堆砌关键词和群发外链,那你就落伍了。现在SEO人员应该以发展的眼光把研究重心向内容质量、页面相关度、链接意义、用户需求分析、数据挖掘、用户体验提升等方面转移了,希望本书能在SEO行业过渡过程中起到一些正向推动作用。主要内容

以下按照“国际惯例”,对本书的每章内容都使用总结性的一两句话来进行简单介绍。

总感觉不论怎样来定目录和内容简介都不能够完全展现书中的内容,笔者希望呈献给读者一本不一样的SEO图书,也相信只要稍微了解一点SEO的朋友都可以从中多多少少获得一些对自己有价值的内容和思路。前辈们已经出版过很多非常全面的SEO书籍,因此本书就不再去追求面面俱到,只希望所有讨论的内容对读者都是有实际价值的,能够切实帮助到一些SEO人员理清思路、更深入地了解SEO。另外,SEO是一个需要实践的工作,没有实践,一切都是空谈,希望读者能够结合本书在实践中发现更多问题,思考更多方法,总结更多经验。

虽然本书从开始写稿到最终出版已经经过了无数道审核程序,经历了无数次删减、修改和补充,但毕竟笔者水平有限,内容篇幅又有些大,直到出版前还在修改小Bug,因此书中肯定还会存在一些不足和Bug。欢迎读者通过笔者博客www.pizirui.com或邮箱pizirui@gmail.com针对书中内容进行深入沟通、交流、吐槽和轻拍砖,笔者会在博客中专门开设一个“Bug收集”页面静候大家的光临。致谢

感谢百度站长平台的运营人员曹丽丽和姜宁宁、站长平台的PM常静和张媚、百度站长社区的管理人员吴健和朱美娥、百度搜索LEE团队的王淘和熊咏志、百度移动搜索的王苏、好基友百度联盟的刘楠以及其他众多百度的朋友,在笔者写作过程中以官方开放姿态予以的帮助,以开放的态度解答了笔者针对百度站长平台产品、数据、动向及搜索的很多疑问,也从更加专业的角度帮助笔者规范了一些名词的使用等。

感谢丁建忠、乔向阳、冷风、王晓东、夜息、陈慧、张岩、周扬、姚金刚、萧涵、冯春来、潘军等小伙伴们在本书中所做的精彩分享(感谢建材网陈沛丰陈总的支持)。

感谢王玄(天天网整合营销高级经理)、姜云(云熙,太平洋电脑网SEO总监)、黄昆(ITSEO创始人)、刘拓(奏鸣网创始人)、李凯东(联友天下技术总监)、罗向(DJ小向,我爱我家SEO总监)、郝瑞琪(夏天,结信网络SEM经理)、赵然(热源传媒SEO总监)、肖洁纯(新东方高级流量运营)、邱继炼(飞翔猪,福州悦然网络总经理)、许冠英(佰策邦PM)、王丽梅(数据挖掘研究生)、任思霖(新浪网络工程师)、张博涛(河北电信网络推广)等小伙伴参与或辅助了本书的部分编写工作。

感谢宫鑫(百度营销研究院)、吴伟定(天天网)、吕英健、ZAC、夫唯(SEOWHY)、郑志平(爱站)、曾荣群(赢时代)、邱松(Chinaz)、赖文智(易登网)、图王(Admin5)、渠成(Netconcepts)、郭吉军(知名站长)、张翔(Discuz)、徐立峰(39养生堂)、郝聪(孔网在线)、阚洪岩(快乐淘宝)、小帅(京东)、王永强(爱帮)、王国辉(汽车点评&手机中国)、刘明(艺龙)、张志刚(人人)、余星妍(新东方)、王殿庆(央视网)、眼镜蛇(马可波罗)、李楠(人民网)、夜息(途牛)、彭龙(搜狐畅游)、唐世军(Admin5)、大脚(易车网)、肖俊(金花关键词工具)、Craig.Yang(Saongroup集团)、草上飞(站长帮手)、王小军(凡客)、赵辰(17K)、曹瑞宁(河北新闻网)、崔涛(蚂蜂窝)、章螂(天气网)、吴敏(19楼)、赵宜君(新浪家居)、殷谦祥(美团)、元创(推一把)、陈佳(Zol)、坏坏(嗨推)、刘斌(搜房)、王克江(GRCMS)、李锐(Wed114)、贾万兴(TomPDA)、苏志辉(河北电视人工作室)等诸多前辈、朋友、基友和小伙伴们的大力推荐,以及所提供的所有帮助。

感谢以下朋友百忙之中对本书的仔细校对,并提出了很多宝贵的意见:贾培(黄页88网SEO经理)、谢洪成(网名chromecool,运营经理,百度站长社区和BSG论坛版主)、邱冬(新浪乐居,SEO经理)、任锐(51.com SEO经理)、王阳(河北搜才网SEO)、李云姣(河北新闻网策划编辑)、孙成利(河北科技师范学院数学与信息科技专业学生)。

感谢所有朋友和“基友们”对本书的推荐,以及所提供的所有帮助。

感谢河北老乡电子工业出版社的高洪霞编辑,以及为本书出版所付出努力的出版社的所有朋友,他们的校对审核远比笔者细心得多,并为本书提出了很多优质的建议,没有他们的细心帮助,也就没有本书的诞生。

最后,感谢家人的理解和支持,尤其感谢一下我的妻子郎红岩。怀孕期间还承担了大部分家务,虽然不懂SEO,但还是帮我完整地校对了一遍书稿,并帮我改正了不少表达错误。还要特别感谢一下我刚出生不久的儿子阳阳,我一直在自我督促送给他一份特殊的出生礼物,否则我应该不会有这坚持到最后的毅力。痞子瑞2013年12月第1章 SEO是什么

互联网瞬息万变,每天都在不断上演着革新,技术更新迭代更是层出不穷,但有一门学问永远都不会落伍,那就是如何让你的网站与产品更加突出,本书不仅有基础性的SEO知识,更是将网站优化、数据分析、工具技巧等内容一一道来,相信你读过之后,对网站优化会有更深层次的理解。邱南奇(小帅)京东商城SEO负责人

我曾经跟朋友讨论过一个问题:SEO到底是职业还是技能?这么多年过去了,这个话题的答案虽然越来越模糊,但是毋庸置疑,要想在一个行业内发展好,必须掌握三方面技能:人际技能、技术技能、概念技能。过去很多的SEO书里面,几乎所有篇幅都在介绍技术技能,痞子瑞这本书让我眼前一亮,各方面技能都有提及。学习技术的同时,学习组织管理。学习的终极目标是学会寻找学习方法,所以不管读者是初级的SEO人员要学技能,还是企业相关管理人员要学团队建设,都能从本书获益匪浅。余星妍新东方教育科技集团流量运营中心负责人

随着国内SEO行业的不断发展和趋于成熟,在不同公司及在SEO行业内不同职位的朋友,对SEO都有了不同的认识和理解。在不少公司的招聘中经常会把“你理解的SEO是什么?”作为笔试或面试题之一,其实问题的答案不是唯一的,不同的人有不同的理解,然而有不少不懂SEO的面试官在网络上搜索到了一些片面的解释,然后就使用这些片面的解释来衡量应聘者是否懂得SEO,这显然有些滑稽,但这确实是普遍存在的现象。那么SEO到底是什么呢?1.1 SEO的原始含义及现实含义

在《百度搜索引擎优化指南》中,关于SEO的定义是:搜索引擎优化(Search Engine Optimization,简称SEO),指为了提升网页在搜索引擎自然搜索结果中(非商业性推广结果)的收录数量及排序位置而做的优化行为,这一行为的目的,是为了从搜索引擎中获得更多的免费流量,以及更好地展现网站形象。

简单点讲,SEO的原始含义就是想办法从搜索引擎中获取免费流量。当然,这只是停留在原始含义层面上的理解,在实际的SEO工作中,不仅要注重从搜索引擎中获取的流量数量,还要注重这些流量的质量,一般以转化率为考核指标。虽然流量质量相关的工作严格来说已经不是SEO工作层面的事情了,但由于获取流量数量和流量质量的把控是一个连贯整体的工作,所以在实际工作中SEO人员必须要考虑这些指标,因此不少公司会把除了流量数量之外的很多流量质量的指标也压在SEO人员身上。

这也就决定了在实际工作中的SEO部门往往是一职多能的角色,从搜索引擎中拉免费流量是本职工作,提高搜索流量转化率相关的用户体验、运营等工作是附加工作。一般SEO人员还需要综合考虑技术实现难度、SEO改动与产品的融合、SEO方向与销售的结合等。此外,根据公司实际情况,有些小的技术上的操作可能还需要SEO人员自己动手,有些公司还会让SEO部门管理竞价账户,尝试邮件推广、QQ群推广、微博推广等营销方法。在不少公司中,所谓的SEO部门,其实就是一个综合推广部门。也有不少公司直接把产品的一部分工作直接丢给了SEO部门,即注重用户体验,也就是现在一些文章中经常讨论的SEO的升级版UEO(用户体验优化)。

因此,现在的SEO从不同人口中讲出来的意义是不同的:有的人认为SEO就是为网站增加搜索流量;有的人认为SEO不仅要为网站增加搜索流量,还要承担很多流量相关的其他工作。在实际的工作中,SEO已经不仅仅是把流量拉到网站上就完事了,还需要对搜索流量在网站中的整个行为(PV和转化)负责。

另外,有必要提及一个与SEO相关的概念——SEM,以及SEM字面含义和现实含义的区别。SEM(Search Engine Marketing)字面意思是搜索引擎营销,既包括了SEO,也包括了付费的商业推广优化。然而在实际的工作中往往会把SEM专指在搜索引擎上的付费商业推广优化,在不少公司中都会专门设立SEM优化部门或优化小组,但其工作内容并不包括SEO,只是专门负责公司搜索引擎竞价账户的优化。所以在一些非正式场合下所提到的SEM其实并不是概念中的SEM,只需要意会,不必较真。1.2 SEO是忽悠还是技术,策略还是艺术

如本章开头所述,不同人对SEO的理解其实是不同的,每种理解都有足够的依据,所以无所谓对与错。每个人所处公司不同、所在职位不同、所接触到的SEO人员水平的不同都可以影响到其对SEO的理解。

一个屡次被一些做虚假宣传的SEO公司欺骗的人,会认为SEO就是大忽悠,因为花钱之后不是没有达到SEO公司的宣传效果,就是网站被搜索引擎降权了,对于他来说SEO就是忽悠;一个在重技术、弱编辑公司工作的SEO人员,或者本身就是技术出身的SEO人员,会认为SEO是项技术,因为SEO各方面的工作都是通过技术实现的,人工手动干预只是微调而已,对于他来说SEO就是技术;一个处在SEO管理层的人员,可能会认为SEO是策略性的工作,因为他的主要工作就是制定一系列SEO相关的策略计划,然后指导技术、编辑、数据分析及外链专员等人员进行专项的工作,对于他来说SEO就是策略;一个不论是不是靠SEO起家,但已经进入小康生活的人,玩SEO,不是为了钱,而是为了感受挑逗搜索引擎或更深入研究搜索引擎来满足其精神需要,那么对于他来说SEO可能就是一门艺术,否则连吃饭都成问题,还谈什么艺术不艺术呢?

回到本章开头提到的,当面试官问“你认为SEO是什么?”时,应聘者根据所应聘的职位和职责的不同,所给出的答案应该也是不同的。尤其是行业新人在面试时,千万不要受一些观点片面的网络软文所误导,应该根据所应聘职位的要求回答。假设一个公司招聘薪资在2000元左右的链接专员时问到这个问题,如果应聘者回答“SEO是门艺术”,我想即便不会影响面试结果,也多多少少会被嘲笑一下“受网络软文毒害不浅”,一般情况下公司应该不会招个新人来拿自己的网站当艺术玩儿的。对于这个问题,笔者认为最佳的答案应该是“对于咱们公司来说SEO应该是……”,把自己想到的该公司网站在SEO方面可能的发展方向和空间简单陈述一下。

那么SEO到底是什么呢?相信大家应该都有了自己的答案。1.3 常见的几个方向

在此,不得不提一下SEO行业内的“派别”。原来SEO行业就像华山论剑一样,在不同论坛、不同组织、不同培训机构出来的SEO人员互相攻击的现象屡见不鲜;现在随着SEO的普及,百度算法的完善,SEO行业也越来越规范,逐渐有了三个主要发展方向的SEO:技术、产品和运营,原始只懂得机械发链接和堆关键词的SEO慢慢被淘汰了,现在行业内有点像金庸小说中的华山派的剑宗和气宗了,互相之间有些瞧不起的意思。

国平老师和他的光年论坛把SEO行业推向了以数据分析为核心、偏技术的方向,确实影响了很多人,也使大家更加注重数据,而不再凭借他人“虚无”的理论和经验,拍脑袋做决定了。同时从光年论坛中走出了一大批偏技术的SEO牛人,并在继续推动SEO技术化。然而其他类型的SEO人员,除了还在讨论发链接和堆关键词等已经不是SEO主流手段话题的朋友外,更高层次偏产品和运营的SEO人员很少会出来交流。并且相对来说,技术更具讨论性,也便于传播,从而导致有些朋友开始认定SEO是侧重于技术的。

其实并不完全如此,可能懂技术的SEO人员更方便自己独立做一些东西,但是放到公司和网站中来看,SEO人员懂一些技术会省去很多麻烦,至少会减少很多鸡毛蒜皮的事都要麻烦技术部门的情况,但技术并不能支撑起SEO的全部。SEO不再只是在原有网站产品改改标题,现在SEO通过技术方便高效地收集、分析得到的数据,一般最终都会产出到新产品或老产品的改版上。从这个角度来看,技术是SEO很重要的组成部分,放到一个SEO部门中可能会是一个或几个成员,但并不是SEO部门的全部。现在的SEO部门需要收集分析数据、设计获取SEO流量的产品、通过运营提升网站留存流量和“链接广度”、并且有的还需要通过BD合作获得高质量链接和流量。其实这应该才是正途的SEO,动辄几十个链接专员的SEO团队模式已经有些过气了,BD、技术、数据、产品和运营融合成的SEO已经成了主流,可能也是国内SEO行业发展至今最为健康的状态了。身为SEO人员,虽然没必要苦学技术,但是基本的数据处理相关脚本、工具函数、基础的搜索引擎算法还是有必要稍微了解一些的,这样更有利于SEO工作中的数据处理、数据分析和产品设计。

另外,从常规网站SEO中跳出来,SEO也已经成为一种思维,淘宝、APP电子市场等有搜索的地方都有了“SEO”的身影,已经有不少从事PC端搜索引擎SEO的朋友转型到了其他平台和方向上。有了全文搜索引擎SEO的基础,只要拥有SEO思维,也会比较快地适应其他平台上和排名相关的工作。

最后再回到主题,大家各自站在自己的角度思考一下“SEO到底是什么”,相信你的答案更加明确了。第2章 搜索引擎原理

市面上太多号称“速成”的SEO资料,痞子瑞这本书是少有的一本不做“标题党”、讲实话、与时俱进的SEO学习手册。SEO就是这么复杂。夜 息途牛旅游网SEO

本书是我近年看过的诸多SEO书籍中干货最多、地气最足、本土化最强的好书,堪称国民级SEO神书!痞子瑞本人是一名中国SEO行业一线从业者,长期在国内SEO行业摸爬滚打,尤其重视对百度SEO的研究和实践,对本土SEO有深厚的知识积累和深刻的行业洞察,本书充满知识性,趣味性和实用性,在此强烈推荐国内SEO从业者人手一本!晏闯(大脚)易车网高级SEO经理

很少有书这么详细地介绍搜索引擎工作原理和反作弊算法,书中对网站降权原因也解释得非常透彻,并给予了指导建议,让朋友们对搜索引擎有更清晰的认识。除此之外,对关键词、页面优化、团队建设、业绩考核、数据分析、站长工具等细节一一做了详细的介绍,是营销SEO人员必备书籍。元 创推一把 搜索营销总监

做SEO的人应该要对搜索引擎的基本原理有一些了解,从搜索引擎发现网址到该页面拥有排名,以及后续更新整个过程中,搜索引擎到底是怎么工作的,都需要简单了解。对于专业的算法不必进行深入的研究,但是对于搜索引擎工作中的策略和算法原理要有个简单的认知,这样才能更有效地开展SEO工作,知其然也要知其所以然。当然,也有一些朋友不懂这些,照样做得有声有色,但是对于搜索引擎工作原理,懂总比不懂要好一些。

以往的SEO书籍中对这块内容的讲解都比较简单,希望在此能够尝试结合SEO实际工作和现象,更进一步剖析一下搜索引擎的工作原理,其实当你了解了搜索引擎的工作流程、策略和基本算法后,就可以在一定程度上避免因为不当操作而带来的不必要处罚,同时也可以快速分析出很多搜索引擎搜索结果异常的原因。有搜索行为的地方就有搜索引擎,站内搜索、全网搜索、垂直搜索等都会用到搜索引擎。接下来,笔者会根据从业认知,讨论一下全文搜索引擎的基本架构。百度、Google等综合搜索巨头肯定有着更为复杂的架构和检索技术,但宏观上的基本原理都差不多。

搜索引擎的大概架构如图2-1所示。可以分成虚线左右两个部分:一部分是主动抓取网页进行一系列处理后建立索引,等待用户搜索;另一部分是分析用户搜索意图,展现用户所需要的搜索结果。图2-1 搜索引擎架构示意图

搜索引擎主动抓取网页,并进行内容处理、索引部分的流程和机制一般如下。

步骤01 派出Spider,按照一定策略把网页抓回到搜索引擎服务器;

步骤02 对抓回的网页进行链接抽离、内容处理,消除噪声、提取该页主题文本内容等;

步骤03 对网页的文本内容进行中文分词、去除停止词等;

步骤04 对网页内容进行分词后判断该页面内容与已索引网页是否有重复,剔除重复页,对剩余网页进行倒排索引,然后等待用户的检索。

当有用户进行查询后,搜索引擎工作的流程机制一般如下。

步骤01 先对用户所查询的关键词进行分词处理,并根据用户的地理位置和历史检索特征进行用户需求分析,以便使用地域性搜索结果和个性化搜索结果展示用户最需要的内容;

步骤02 查找缓存中是否有该关键词的查询结果,如果有,为了最快地呈现查询结果,搜索引擎会根据当下用户的各种信息判断其真正需求,对缓存中的结果进行微调或直接呈现给用户;

步骤03 如果用户所查询的关键词在缓存中不存在,那么就在索引库中的网页进行调取排名呈现,并将该关键词和对应的搜索结果加入到缓存中;

步骤04 网页排名是根据用户的搜索词和搜索需求,对索引库中的网页进行相关性、重要性(链接权重分析)和用户体验的高低进行分析所得出的。用户在搜索结果中的点击和重复搜索行为,也可以告诉搜索引擎,用户对搜索结果页的使用体验。这块儿是近来作弊最多的部分,所以这部分会伴随着搜索引擎的反作弊算法干预,有时甚至可能会进行人工干预。

按照上述搜索引擎的架构,在整个搜索引擎工作流程中大概会涉及Spider、内容处理、分词、去重、索引、内容相关性、链接分析、判断页面用户体验、反作弊、人工干预、缓存机制、用户需求分析等模块。以下会针对各模块进行详细讨论,也会顺带着对现在行业内讨论比较多的相关问题进行原理分析。2.1 Spider

Spider也就是大家常说的爬虫、蜘蛛或机器人,是处于整个搜索引擎最上游的一个模块,只有Spider抓回的页面或URL才会被索引和参与排名。需要注意的是,只要是Spider抓到的URL,都可能会参与排名,但参与排名的网页并不一定就被Spider抓取到了内容,比如有些网站屏蔽搜索引擎Spider后,虽然Spider不能抓取网页内容,但是也会有一些域名级别的URL在搜索引擎中参与了排名(例如天猫上的很多独立域名的店铺)。根据搜索引擎的类型不同,Spider也会有不同的分类。大型搜索引擎的Spider一般都会有以下所需要解决的问题,也是和SEO密切相关的问题。

首先,Spider想要抓取网页,要发现网页抓取入口,没有抓取入口也就没有办法继续工作,所以首先要给Spider一些网页入口,然后Spider顺着这些入口进行爬行抓取,这里就涉及抓取策略的问题。抓取策略的选择会直接影响Spider所需要的资源、Spider所抓取网页占全网网页的比例,以及Spider的工作效率。那么Spider一般会采用什么样的策略抓取网页呢?

其次,网页内容也是有时效性的,所以Spider对不同网页的抓取频率也要有一定的策略性,否则可能会使得索引库中的内容都很陈旧,或者该更新的没更新,不该更新的却浪费资源更新了,甚至还会出现网页已经被删除了,但是该页面还存在于搜索结果中的情况。那么Spider一般会使用什么样的再次抓取和更新策略呢?

再次,互联网中的网页总有一部分是没有外部链接导入的,也就是常说的“暗网”,并且这部分网页也是需要呈现给广大网民浏览的,此时Spider就要想方设法针对处于暗网中的网页进行抓取。当下百度是如何来解决这个暗网问题的呢?

最后,大型搜索引擎的Spider不可能只有一个,为了节省资源,要保证多个Spider同时作业且抓取页面不重复;又由于各地区数据中心分配问题,搜索引擎一般不会把Spider服务器放置在一个地区,会多地区同时作业,这两方面就涉及分布式抓取的策略问题。那么一般搜索引擎的Spider会采用什么样的分布抓取策略呢?

接下来逐一介绍一般的搜索引擎Spider在面临以上问题时采用的是什么策略,并详细地了解一下整个搜索引擎最上游的Spider到底是如何工作的,以及一个优秀的Spider程序应该有哪些特点。2.1.1 Spider的分类

按照现在网络上所有Spider的作用及表现出来的特征,可以将其分为三类:批量型Spider、增量型Spider和垂直型Spider。1.批量型Spider

一般具有明显的抓取范围和目标,设置抓取时间的限制、抓取数据量的限制,或抓取固定范围内页面的限制等。当Spider的作业达到预先设置的目标就会停止。普通站长和SEO人员使用的采集工具或程序,所派出的Spider大都属于批量型Spider,一般只抓取固定网站的固定内容,或者设置对某一资源的固定目标数据量,当抓取的数据或者时间达到设置限制后就会自动停止,这种Spider就是很典型的批量型Spider。2.增量型Spider

增量型Spider也可以称之为通用爬虫。一般可以称为搜索引擎的网站或程序,使用的都是增量型Spider,但是站内搜索引擎除外,自有站内搜索引擎一般是不需要Spider的。增量型Spider和批量型Spider不同,没有固定目标、范围和时间限制,一般会无休止地抓取下去,直到把全网的数据抓完为止。增量型Spider不仅仅抓取尽可能全的页面,还要对已经抓取到的页面进行相应的再次抓取和更新。因为整个互联网是在不断变化的,单个网页上的内容可能会随着时间的变化不断更新,甚至在一定时间之后该页面会被删除,优秀的增量型Spider需要及时发现这种变化,并反映给搜索引擎后续的处理系统,对该网页进行重新处理。当下百度、Google网页搜索等全文搜索引擎的Spider,一般都是增量型Spider。3.垂直型Spider

垂直型Spider也可以称之为聚焦爬虫,只对特定主题、特定内容或特定行业的网页进行抓取,一般都会聚焦在某一个限制范围内进行增量型的抓取。此类型的Spider不像增量型Spider一样追求大而广的覆盖面,而是在增量型Spider上增加一个抓取网页的限制,根据需求抓取含有目标内容的网页,不符合要求的网页会直接被放弃抓取。对于网页级别纯文本内容方面的识别,现在的搜索引擎Spider还不能百分之百地进行准确分类,并且垂直型Spider也不能像增量型Spider那样进行全互联网爬取,因为那样太浪费资源。所以现在的垂直搜索引擎如果有附属的增量型Spider,那么就会利用增量型Spider以站点为单位进行内容分类,然后再派出垂直型Spider抓取符合自己内容要求的站点;没有增量型Spider作为基础的垂直搜索引擎,一般会采用人工添加抓取站点的方式来引导垂直型Spider作业。当然在同一个站点内也会存在不同的内容,此时垂直型Spider也需要进行内容判断,但是工作量相对来说已经缩减优化了很多。现在一淘网、优酷下的搜库、百度和Google等大型搜索引擎下的垂直搜索使用的都是垂直型Spider。虽然现在使用比较广泛的垂直型Spider对网页的识别度已经很高,但是总会有些不足,这也使得垂直类搜索引擎上的SEO有了很大空间。

本书主要讨论网页搜索的SEO,所以讨论的内容以增量型Spider为主,也会简单涉及垂直型Spider方面的内容,其实垂直型Spider完全可以看作是做了抓取限制的增量型Spider。2.1.2 Spider的抓取策略

在大型搜索引擎Spider的抓取过程中会有很多策略,有时也可能是多种策略综合使用。这里简单介绍一下比较简单的Spider抓取策略,以辅助大家对Spider工作流程的理解。Spider抓取网页,在争取抓取尽可能多网页的前提下,首先要注意的就是避免重复抓取,为此Spider程序一般会建立已抓取URL列表和待抓取URL列表(实际中是由哈希表来记录URL的两个状态)。在抓取到一个新页面时,提取该页面上的链接,并把提取到的链接和已抓取URL列表中的链接进行逐一对比,如果发现该链接已经抓取过,就会直接丢弃,如果发现该链接还未抓取,就会把该链接放到待抓取URL队列的末尾等待抓取。

Spider眼中的互联网网页可以分为以下四类,如图2-2所示。图2-2 Spider眼中的互联网网页(1)已经抓取过的页面,即Spider已经抓取过的页面。(2)待抓取页面,也就是这些页面的URL已经被Spider加入到了待抓取URL队列中,只是还没有进行抓取。(3)可抓取页面,Spider根据互联网上的链接关系最终是可以找到这些页面的,也就是说当下可能还不知道这些页面的存在,但是随着Spider增量型的抓取,最终会发现这些页面的存在。(4)暗网中的页面,这些网页和表层网络上的网页是脱钩的,可能这些页面中有链接指向以上三类网页,但是通过以上三类网页并不能找到这些页面,比如,网站内需要手动提交查询才能获得的网页,就属于暗网中的网页,据估计暗网要比非暗网大几个数量级。

全文搜索引擎的Spider一直致力于抓取全网的数据,现在Spider对于非暗网网页已经具备大量高效的抓取策略。对于暗网的抓取,各个搜索引擎都在努力研究自己不同的暗网Spider抓取策略,百度对此推出了“阿拉丁”计划,鼓励有优质资源的网站把站内资源直接以XML文件的形式提交给百度,百度会直接进行抓取和优先排名显示。这里主要讨论Spider针对非暗网中网页的抓取策略。

当Spider从一个入口网页开始抓取时,会获得这个页面上所有的导出链接,当Spider随机抓取其中的一个链接时,同样又会收集到很多新的链接。此时Spider面临一个抓取方式的选择:(1)先沿着一条链接一层一层地抓取下去,直到这个链接抓到尽头,再返回来按照同样的规则抓取其他链接,也就是深度优先抓取策略。(2)还是先把入口页面中的链接抓取一遍,把新发现的URL依次进行入库排列,然后对这些新发现的页面进行遍历抓取,再把最新发现的URL进行入库排列等待抓取,依次抓取下去,也就是广度优先抓取策略。

① 深度优先策略

深度优先策略即一条道走到黑,当沿着一个路径走到无路可走时,再返回来走另一条路。如图2-3所示为深度优先抓取策略的示意图,假设A页面为Spider的入口,Spider在A页面上发现了1、7、11三个页面的链接,然后Spider会按照图中数字所标示的顺序依次进行抓取。当第一条路径抓到3页面时到头了,就会返回2页面抓取第二条路径中的4页面,在4页面也抓到头了,就会返回1页面抓取第三条路径中的5页面,并顺着一路抓下去,抓到头后会按照之前的规则沿一条一条路径抓下去。图2-3 深度优先策略

② 广度优先策略

广度优先策略即Spider在一个页面上发现多个链接时,并不是一条道走到黑,顺着一个链接继续抓下去,而是先把这些页面抓一遍,然后再抓从这些页面中提取下来的链接。如图2-4所示为广度优先抓取策略的示意图,假设A页面为Spider的入口,Spider在A页面上发现了1、2、3三个页面。当抓完1网页时,只是把1网页中4和5网页的链接放入待抓取URL列表,并不会继续抓1页面中的其他链接,而是抓2页面。当b级页面抓取完成时,才会抓取从b级页面中提取到c级页面中的4、5、6、7、8、9六个页面,等c级页面抓取完成后,再抓取从c级页面中提取到的d级新页面,依次持续抓取下去。图2-4 广度优先策略

理论上Spider不论采用深度优先策略还是广度优先策略,只要时间足够,都可以把整个互联网上的网页抓取一遍。但是搜索引擎本身的资源也是有限的,快速抓取全互联网有价值的页面只是一种奢望而已,所以搜索引擎的Spider不是只使用一种策略无限地抓取新页面,而是采用两种策略相结合的方式来进行抓取。一般Spider可以在域名级别的页面使用广度优先抓取策略,尽可能地收集更多的网站。在网站内页级别一般会根据网站的权重综合使用广度和深度优先抓取策略,也就是说网站的权重越高,抓取量也会越大,刚上线的网站可能只会被抓一个首页。这也是很多新网站在一定时间内,在搜索引擎中只被索引首页的原因之一。

上面讨论的两个策略是站在Spider只是单纯想抓取全互联网数据的基础上,所需要选择的策略。实际在搜索引擎中,虽然Spider在尽力保证抓取页面的全面性,但是由于自身资源有限,所以在尽力抓取全网的同时,还要考虑对重要页面的优先抓取。这个“重要页面”的定义应该是指在互联网中比较重要的页面,该页面内容应该具有影响力比较大、需要了解该内容的网民比较多或时效传播性比较强的特点。体现到抓取策略上,就是这个页面的导入链接很多,或者是权重高的大站中的网页。总结来说,就是两个策略:重要网页优先抓取策略和大站链接优先抓取策略。(1)重要页面优先抓取策略

一般认为页面的重要性,除了受寄主站点本身的质量和权重影响以外,就看导入链接的多少和导入链接的质量了。Spider抓取层面上的“重要页面”一般由导入的链接来决定。在前面所讨论的抓取策略中,Spider一般都会把新发现的未抓取过的URL依次放到待抓取URL队列的尾端,等待Spider按顺序抓取。在重要页面优先抓取的策略中就不是这样的了,这个待抓取URL队列的顺序是在不断变化的。排序的依据一般是:页面获得的已抓取页面链接的多少和链接权重的高低。(2)大站优先策略

大站优先策略,这个思路很简单。被搜索引擎认定为“大站”的网站,一定有着稳定的服务器、良好的网站结构、优秀的用户体验、及时的资讯内容、权威的相关资料、丰富的内容类型和庞大的网页数量等特征,当然也会相应地拥有大量高质量的外链。也就是在一定程度上可以认定这些网站的内容就可以满足相当比例网民的搜索请求,搜索引擎为了在有限的资源内尽最大的努力满足大部分普通用户的搜索需求,一般就会对大站进行“特殊照顾”。因此大家可以看到新浪、网易类网站上自主发布的内容几乎都会被百度秒收,因为百度搜索的Spider在这些网站上是7×24小时不间断抓取的。如果有新站的链接出现在这些网站的重要页面上,也会相应地被快速抓取和收录。曾经有朋友试验新站秒收的策略:把新站的链接推到一些大站的首页,或挂到大站首页所推荐的页面中,效果还是很不错的。

这两个策略与前面所讨论的广度优先策略和深度优先策略相结合的抓取方式是有共通点的。比如,从另一个角度来看,如果Spider按照前两个策略抓取,一个页面获得的导入链接越多,被提前抓到的几率就越大,也就是和重要页面优先抓取是趋同的;在Spider资源有限的情况下广度优先策略和深度优先策略的结合分配本身就会以站点的大小进行区别对待,大网站的页面有着先天的高重要程度,往往也容易获得更多的链接支持。所以宏观来看,这几个策略在抓取表现上有相近之处,在实际的抓取过程中相辅相成。

相对于整个互联网的网页来说,Spider的资源再充足也是有限的,所以优秀的Spider程序应该首先保证对重要网页的抓取,然后才是尽力抓取尽可能全的互联网网页信息。由此也可以看出依靠外部链接来引导Spider和提升网站权重,以及依靠内容长期运营网站权重的重要性。2.1.3 Spider并不会“爬”

Spider抓取一个网页后会优先把网页中的URL提取出来,同时记录和计算URL的形式、位置、锚文本、当前页所赋予的权值等信息,然后把这些URL合并到抓取队列中,并根据每个URL所附有的总权值等信息进行抓取队列内排序。Spider就是根据这个不断变化顺序的URL队列来抓取网页内容的,并不是从一个页面沿着链接爬到另一个页面的抓取过程。因此严格来说Spider是不会“爬”的,站长在网站日志中也可以看到Spider对网站的访问并没有refer,都是直接访问。

以往一般会把Spider抓取网页的过程形象地描述为搜索引擎放出Spider,然后这个Spider就沿着链接不断地抓取网页,这只是一种形象的比喻而已。比如以前描述类似万年历的“蜘蛛陷阱”时,会有这样的描述“蜘蛛进入到蜘蛛陷阱后会一层一层地无限抓取下去”“蜘蛛进去就出不来了”“把蜘蛛永远留在站内了”,这类描述给大家传达的意思都是Spider沿着链接从一个网页到另一个网页的爬行过程。其实按照实际的Spider设计,“蜘蛛陷阱”并不是把Spider留在了站内“出不去了”,而是如果不加控制的话,Spider会在“蜘蛛陷阱”的网页集合中收集到无数无意义的URL并放入抓取队列中,这些URL对应的网页并没有实际有意义的内容,从而会造成Spider抓取资源的浪费。所谓的“把蜘蛛强制留在站内”对应实际的Spider抓取机制,应该是如果Spider不加限制地收集URL,就需要无限制地抓取“蜘蛛陷阱”内的URL,然而“蜘蛛陷阱”内的URL可能是无限的,并不是“一个蜘蛛掉陷阱里出不来了”。

也就是说,Spider对网页的抓取是单次访问抓取,每访问一个页面都会把页面上的信息抓取回来,而不是把一个“小蜘蛛”派到网站上,然后沿着网站的链接爬行抓取大量的页面之后再返回给服务器。2.1.4 Spider再次抓取更新策略

Spider把网页抓取到本地,该网页被分析索引并参与了排名,并不意味着Spider针对该网页的工作已经结束了。现在互联网网页内容多是动态变化的,甚至有时网页会被管理者删除。搜索引擎所抓取到的本地页面,可以看做是对已经抓取并索引过的网页做了一个镜像,也就是说理论上搜索引擎应该保证,本地“镜像”页面和对应互联网上的网页内容实时一致。但是由于搜索引擎的Spider资源有限,现阶段做不到也没有必要做到实时监测全部已索引网页的所有变化。搜索引擎只需要为Spider设置一个再次抓取和更新页面的策略,以保证当部分页面呈现到用户面前时,搜索引擎的本地索引和该网页当时的内容并没有太大的差异就可以了,这部分页面应该包含大部分网民所需要检索的内容,并且也可以满足绝大多数搜索用户的搜索请求。

如上所述,在有限资源的情况下,搜索引擎首先要保证部分网页索引的更新,这部分网页拥有大部分用户所需要的内容;也要保证所有索引页面都有一个更新机制,在该网页需要相应的新的内容索引时,Spider要进行再次抓取并更新该网页索引。站在Spider的角度,一般会根据以下四个方面来确定对已索引网页的再次抓取频率:用户体验、历史更新频率、网页类型和网页权重。1.用户体验

整个互联网的网页数量是巨大的,已被百度抓取并索引的中文网页应该也是千亿级别的了,但是用户所需要的信息只有一小部分。当用户在搜索引擎提交查询后,不论返回结果有多少,大部分用户都会在前三页找到自己所需要的信息,很少有用户会浏览第四页或者更靠后的搜索结果。本着优先更新大部分用户所需要内容的原则,所有用户提交查询结果的前几页,都是值得保证索引及时更新的。所以一般搜索引擎会搜集所有用户的搜索请求,然后统计所有搜索结果中用户可能看到的网页,继而进行优先再次抓取和更新。理论上,这些网页被搜索到的次数越多,再次被抓取的频率就会越高。2.历史更新频率

搜索引擎会尝试发现某一个网页中内容的更新频率,因为Spider的再次抓取就是为了发现已经被索引网页是否有变化,如果某个网页持续没有变化,可能搜索引擎就会降低对其抓取的频率,甚至不再对其进行再次抓取。这个策略的实施是建立在搜索引擎已经发现网页的更新频率的基础上的,所以理论上当Spider发现一个新URL抓取并索引后,会很快进行二次抓取。如果没有发现内容变动,就会降低抓取频率,这样慢慢地发现网页的更新频率,以调整到最佳的抓取频率。同时Spider注重的变化应该是网页的主体内容部分,一般会忽略主体内容周围的广告模块、导航模块及推荐链接模块的更新变动。3.网页类型

不同的网页类型有不同的更新频率。在同一个站点内网站首页、目录页、专题页和文章页的更新频率肯定是不同的。所以对于同一站点内的网页,Spider对不同类型的网页抓取频率是不同的。首页和目录页是Spider经常光顾的页面;根据专题页面的时效性或者其他特征,Spider可能会在某一时间段内进行频繁抓取,时效性过期后就会降低对其的抓取频率;对于文章页,Spider很有可能第一次来过之后就不再来了。虽然整个互联网中网页很多,但是网页类型并不多,每个类型的网页都会有自己的布局和更新规律,搜索引擎有足够的能力发现网页的类型并设置合理的再次抓取频率。网页类型归类和网页历史更新频率是被综合使用最多的,一般在同一站点内同类网页会有相同的更新频率,这也会方便Spider对网页更新频率的判断。4.网页权重

除了以上再次抓取策略外,网页权重也是决定抓取频率的重要因素。用户体验策略在一定程度上也反映了网页权重的影响。在网页类型相同、历史更新频率也差不多的情况下,肯定是权重越高的页面被抓取的频率越高。比如百度首页、好123首页、chinaz站长工具首页和普通企业站首页都可以简单归为网站首页,并且前三个“首页”长期都不会有什么更新,普通企业站首页可能偶尔还会有更新,但是前三个“首页”的百度快照一般都是最新的,而普通企业站的首页快照可能是一周前甚至一个月前的。这就反映出了网页权重在抓取频率中的作用。

在搜索引擎Spider的实际作业中,不会单独使用某一种再次抓取策略,而是会综合参考网页的用户体验、更新频率、网页类型和网页权重。并且对于不同类型的页面,着重参考的更新内容主体也是不同的。比如,列表页只有一篇新的文章进入可能就算更新了;文章页主体内容没有变,主体内容周围的所有推荐链接、广告、内容都变了,可能也不会算是有更新。

在SEO工作中为了提高某一网站的抓取频率,一般会重点为该页面的导入链接提高权重,努力加大该页面的更新频率。其实在用户体验和网页类型方面也是有工作可做的,用标题和描述吸引点击不仅可以提升排名,也能够间接增加页面被Spider抓取的频率;同时对于不同定位的关键词可以使用不同的网页类型(列表页、专题页、内容页等),这在设计页面内容和网站架构时就应该仔细地考虑,并且网页类型这部分有很多工作值得做。比如,有不少网站把整站都做成了列表页,全站没有普通意义上的内容页,内容页主体内容下方或周围也有大量和主题相关的文本内容,一般是类列表形式。不过这种手法有效时间不长,或者损害用户体验后会降低被抓取的频率。不论怎样,优秀的网站架构设计应该合理地利用Spider抓取策略的各种特性。

以上讨论的是Spider正常的抓取策略。有抓取并不代表一定有更新,当页面内容的变化值得搜索引擎更新索引时才会更新,比如,上面提到的文章页主体内容不变但是推荐链接全变了,一般搜索引擎也不会浪费资源做无意义的更新。当Spider发现已经索引的页面突然被删除,也就是服务器突然返回404状态码时,也会在短时间内增加对该页面的抓取频率。有的SEO人员就利用这一点增加Spider对自己网站的抓取,并做一些其他的“手脚”,不过这是一个走钢丝的小聪明行为,不见得长期有效,不值得冒险使用。

另外,有不少门户网站习惯对即时新闻先发布一个标题,然后再让编辑补充内容,甚至还会修改标题。但是这种网页一般都是文章页,不论从用户体验、更新频率、网页类型和网站权重哪方面来看都不会得到比较高的抓取频率,也就造成这些网站不断在报怨百度不更新如此操作的新闻网页。百度搜索官方已经表示希望以后通过百度站长平台来解决一下这个问题,但是作为SEO人员不能只是指望搜索引擎官方做出什么样的动作。仔细研究Spider的抓取和更新策略,虽然或许不能将问题解决得那么完美,但是一般都会找到比较适合自己的方法。当然最终还是期望百度官方尽快推出相应的机制或工具来解决这个问题。2.1.5 百度“阿拉丁”解决暗网抓取

前面已经介绍过暗网,这些网页和“非暗网”网页是脱钩的,也就是说Spider通过普通的抓取机制永远都不可能抓取到这些页面。用户浏览这些暗网页面一般都是通过提交条件查询或者文本框主动搜索,当然还有很多其他情况产生的暗网网页,但是普通搜索引擎的Spider考虑到很多因素是不会直接这样来操作的。由于暗网页面的数量巨大,价值也远高于非暗网页面,所以大型搜索引擎都把对暗网的抓取当成了重要研究课题,各自也有着各自的抓取策略。这里来介绍一下百度的“阿拉丁计划”。

百度的“阿拉丁计划”诞生的初衷就是挖掘出更多存在于暗网之中有价值的信息,让更多人从中受益。通过加入阿拉丁平台,可以指定关键词,把自己网站的内容更精准地呈献给目标用户;可以指定展现样式,使用更丰富、更适合资源本身的样式,而不再局限于文字;指定更新频率,也就是直接告诉百度自己资源的更新频率,以保证百度搜索结果数据和实际数据的实时同步。

由于是站长自己提交资源,所以百度可以很容易地解决一部分暗网抓取问题。这个平台对于有着独特资源的网站来说绝对是个福利,不仅使得更多使用百度搜索的网民受益,自己的网站也获得了更多的流量,重要的是非商业内容网站加入阿拉丁平台完全是免费的。不过对于大部分无独特资源的中小站长来说,这个平台会减少自己网站的展示机会。在一定角度上来说也是在鼓励站长发掘自己独有的内容和资源。当然如果网站资源比较不错,也可以通过付费的方式加入到百度阿拉丁平台,不过付费阿拉丁对资源应该有特别的要求。现在阿拉丁中的商业内容基本上都是付费的,比如房产、汽车等。

即使不能进入阿拉丁,站长自己也可以辅助百度抓取自己站内处于“暗网”中的页面。比如商城和房产类网站,把希望百度收录的交叉查询的链接全部呈现出来(如图2-5所示),或者把自己希望百度收录的页面制作成HTML和XML地图以供百度Spider抓取和收录,并且百度站长平台开通了sitemap提交功能,有比较优质资源的站长可以通过此工具提交自己网站“暗网”中的页面。百度在对暗网抓取方面比较依靠站长自己的主动配合,而没有暴力查询网站的数据库。图2-5 安居客房源交叉查询模块2.1.6 分布式Spider和“降权蜘蛛”

由于Spider所要抓取的网页太多,如果只有单一的一个Spider进行抓取作业,那么将需要非常巨大的计算能力,同时也会消耗更多的抓取时间。这里就引入了分布式计算的概念,把庞大的抓取作业任务分割成很多较小的部分,使用大量合理计算能力的服务器来承载这个任务,以完成对全互联网网页的快速抓取。现在大型搜索引擎都会使用分布式计算,同样Spider也会使用分布式计算,可以称这种Spider为分布式Spider,它遵循了分布式计算的主要规则,根据这些规则也可以解释现在站长和SEO人员关心的“降权蜘蛛”问题。

分布式计算有很多种计算方式,这里简单介绍Spider应有的分布式抓取策略。涉及分布式计算,也就涉及任务分发机制。整个分布式Spider系统需要保证所有Spider之间不会有重复抓取的情况发生,也就是要为各个Spider分配好抓取范围。当一个Spider发现一个新的URL时,会判断该URL是否在自己的抓取范围之内,如果在自己的抓取范围之内,就会把该URL放到自己待抓取URL队列中;如果不在自己的抓取范围之内,就会把该URL提交给上级服务器,由上级服务器分发给相应的Spider,并加入到该Spider的待抓取URL列表中。

要确保所有Spider的作业不重复,就要求每个Spider都有自己的抓取范围,也就是说每个Spider都会只抓取指定类型的网页。这里就要看搜索引擎是如何对网页进行分类的了,常规网页的分类方法有三种,第一种是按照优秀站点、普通站点、垃圾站点、降权站点和屏蔽(被K)站点等站点质量等级分类;第二种是按照网站首页、网站目录页、网站内容页、网站专题页、视频、图片、新闻、行业资料、其他类型的网络文件(PDF、Word、Excel等)等网页类型分类;第三种是按照站点或网页内容所在行业分类。在真正的Spider系统设计中,为了减少搜索引擎和被抓取站点服务器之间的握手次数(影响抓取效率的重要因素),站点级别相关的分类应该是被优先使用的。

Spider会严格按照自己的作业任务进行作业,由以上分类可以看出,对于大部分中小网站一般都会有一个固定的Spider进行抓取,所以很多站长和SEO人员在分析网站日志时所发现的百度Spider经常都是同一IP段的,但是不同网站之间发现的Spider的IP段并不同。理论上,如果参与研究的站点比较多,类型比较丰富,就可以比较容易地分辨出百度Spider的任务分发模式,这样通过分析日志中百度来访Spider的IP就可以判断出自己的站点在百度搜索眼中是什么样的。

针对第一种分类方式,就可能出现某一IP段的Spider只抓取权重高的网站,某一IP段的Spider只抓取已被搜索引擎降权或者屏蔽的网站。如果真的是采用这种任务分发方式,那么网络上所传的“降权蜘蛛”就可能存在。不过并不是因为这个Spider的到来使得网站降权或者屏蔽,而是因为该网站已经被百度降权或者屏蔽,百度服务器才会把对该站点的抓取任务分发给这个Spider。如果百度使用这种分布式的Spider,那么网络上对百度Spider各IP段特性的总结也是比较有意义的,不过不可全信,因为百度不可能只使用一种任务分发模式。这也可以成为站长和SEO人员的研究方向,即使可能最终一无所获。因为搜索引擎对网站和网页的分类有太多纬度了,新抓取和再次抓取所使用的纬度就可能不同,很可能各个纬度都是综合使用的。

如图2-6所示为某网友对百度Spider所使用的IP的分析,有兴趣的朋友可以百度搜索一下“百度蜘蛛IP段详解”,有不少类似的总结,看看就好,不可以绝对当真。图2-6 网络对百度Spider的分析2.1.7 Spider和普通用户的区别

所有的全文搜索引擎都表示自己的Spider对网站的抓取行为和普通用户的访问行为没有太大区别。站在普通用户的角度这句话的确没有问题,但是站在站长和SEO的角度这句话就不太对了。网页上有很多东西普通用户看不到也分辨不清,但是Spider可以;网页上也有很多东西普通用户可以看到并分辨清楚,但是Spider不可以。可以说Spider是一个既聪明又弱智的普通用户,Spider有着普通用户访问行为的大部分特性,但是也有不少差异。● Spider可以分辨出网页中是否有隐藏内容,是否被挂了黑链等,

但是不能完全了解网页中图片的内容,更不能读取JavaScript、

Iframe、Ajax和Flash中的内容,普通用户却是恰恰相反;● Spider没有Referer,对网站的抓取全部都是直接访问,而普通用

户中除了直接访问的用户外一般都是有Referer的;● Spider对网站的访问没有Cookie,但是普通用户是有的;● Spider不会主动注册登入网站,但是普通用户是可以的;原则上

Spider不会抓取和分析网站robots中已经屏蔽的内容,但是普通

用户是可以正常访问的;● Spider对于有多个动态参数网站的抓取,可能会陷入死循环,但

是普通用户是不会的;● Spider对于列表中前几页的新内容抓取可能不好,但是感兴趣的

普通用户会依次浏览;● Spider暂时还不能真正判断文章是不是原创,但是普通用户可以

通过多种方式来确定文章是原创还是采集转载等。

Spider毕竟是人为技术驱动的程序,与普通用户还是有着非常大的区别的,因此给了站长和SEO人员很大的操作空间。站长和SEO人员在充分了解到Spider和普通用户的区别后,可以更方便地优化网站,使得网站内容被充分抓取,网站整体在搜索引擎中有个良好的表现;同时也可以利用两者的区别,使得在不影响搜索引擎抓取和排名的情况下,给普通用户更友好的用户体验,比如,判断用户Referer给用户推荐内容等;当然,不排除有些站长和SEO人员会利用这些区别,采用很多极端的技术作弊手法,在普通用户感觉不到的地方,误导Spider对网站内容的判断,而恶意抢夺很多本不应该得到的搜索流量,这是不可取的。无论如何,都有必要深入了解两者的差异。2.2 内容处理、中文分词和索引

这一部分内容应该是搜索引擎原理中非常重要的一部分,并且网络上和其他SEO相关书籍中已经把这部分内容分析得很透彻,笔者并不能够对这些原理性的内容写出多么新的内容,所以在此只对重点内容进行简单分析。很多站长和SEO人员在对SEO书籍和网络文章中的这部分内容进行阅读时,都会一扫而过,其实这部分内容中有不少东西值得仔细研究思考,并运用到日常的SEO工作中。不论是白帽SEO还是黑帽SEO,在这一部分都有很多技术和逻辑上的操作空间。在以下的内容中,笔者会把对SEO工作比较有指导意义、篇幅比较大、需要详细介绍的模块抽离出来进行独立介绍。2.2.1 内容处理

内容处理即搜索引擎对Spider抓取回来的页面进行处理。处理步骤简单介绍如下。

步骤01 要判断该页面的类型首先要判断该页面的类型是普通网页,还是PDF、Word、Excel等特殊文件文档。如果是普通网页还要判断该网页的类型是普通文本内容、视频内容,还是图片内容。甚至还会对网页是普通文章页还是论坛帖子进行判断,然后有针对性地进行内容处理。

步骤02 提取网页的文本信息当下搜索引擎虽然在努力读取JavaScript、Flash、图片和视频,但是对于普通网页的索引还是以文本为主。此时还会提取页面的Title、Keywords、Description等标签中的内容,虽然一直有信息说Keywords标签已经被主流大型搜索引擎抛弃了,但是经过多人实际测试,至少百度多多少少还是会参考Keywords标签的。

步骤03 去除页面噪声如果该网页是普通网页,则搜索引擎会把与该网页内容无关的广告、导航、链接、图片、登入框、网站版权信息等内容全部剔除掉,只提取出该网页的主体内容。其实目前在这一步中,百度并不会把主体内容之外的东西全部抛弃,相关推荐的内容在一定程度上也会被算作本页的内容,或者是对本页主体内容的补充,也会在搜索排名中有直观的体现。甚至与页面不相干的链接文本也会被保留索引,比如,百度搜索“复制本页链接”向后翻几页,就会看到如图2-7所示的结果。其实“复制本页链接”只存在于这些页面按钮上,但是也被索引了,如图2-8所示。所以搜索引擎的去除噪声,并不是很严格。因此SEO人员对于网页主体内容外的推荐内容、链接、链接锚文本等一切元素也要善于利用,而不是随便堆一些不相干的内容。很多人都说SEO需要注重细节,但是这些细节又有多少站长和SEO人员真正地重视、研究和利用了呢?图2-7 百度搜索“复制本页链接”图2-8 “复制本页链接”文字所在位置

步骤04 去除内容中的停止词接下来应该是对剩余文本内容的分词处理(2.2.2节独立介绍),然后搜索引擎会剔除掉诸如“得”“的”“啊”“地”“呀”“却”之类的停止词。其实此步骤是存在疑问的,对于普通文章来说,去除这些停止词会有利于搜索引擎对内容进行分词和理解,并且可以减少搜索引擎的计算量。但是在搜索引擎中单独搜索这些词也是有丰富的搜索结果的,如图2-9所示;当搜索包含这些词的关键词时,也会有比较丰富的搜索结果,不过会弱化这些停止词对搜索结果的影响,如图2-10所示。所以搜索引擎在对普通文章的处理中应该会有此步骤,但并不是机械严格去除的,也要看这些词在页面上的作用(搜索引擎在分词的时候也会进行词性识别,同一个词在不同位置词性可能不同)。此处对SEO人员的工作并没有太多影响,所以不必深究。图2-9 百度搜索“的”图2-10 百度搜索“世界的”

经过这些处理后,Spider抓取回来的网页内容就被“洗”干净了,再经过2.2.2中独立介绍的分词处理及2.3中独立介绍的去重处理后,搜索引擎就会对已经被初步处理过且有索引价值的网页内容进行正向索引和倒排索引处理了。2.2.2 中文分词

分词是中文搜索引擎中特有的技术。在英文中以单词为单位,单词之间会有空格,并且每个单词都有特定的意思,计算机很容易理解英文语句的意思。但是中文以字为单位,只有将一句话中所有的字串联起来才能表达一个完整的意思,计算机不能直接把中文分成单个字来理解,所以就需要引入中文分词技术,把一句话切分成一个个有意义的词语来进行理解。比如把“我是一个学生”切分成“我/是/一个/学生”。

搜索引擎面对中文网页时就是这样,靠中文分词来理解网页所描述的内容。其实分词技术的基础就是拥有海量的有意义的词库(词典),搜索引擎会使用自己强大的词库来对网页内容进行拆分,或者是对内容进行机械切割,统计出出现次数最多的词。通过分词就可以使得搜索引擎明白该网页内容是与什么相关的,这会直接决定该网页出现在哪些词的搜索结果中,所以中文分词在SEO工作中也是需要潜心研究的。现在很多SEO人员只是知道有这么个技术,但是对这项技术具体是怎么进行分词的,以及中文分词是怎么运用到SEO工作中的还一无所知。

搜索引擎对于中文内容的理解和分词一直都没有太大的进步,所以搜索引擎程序在判断网页内容和关键词的相关性方面的技术,与几年前相比也并没有太大进步。现在常见的中文分词技术有两种:基于词典匹配和基于统计,也有研究基于语义分析的分词方法,但是汉语博大精深,计算机程序暂时还不能很好地支持。1.基于词典匹配

这种分词技术是使用搜索引擎自己的词典对网页内容进行拆分。按照匹配方向的不同可以分为正向匹配和逆向匹配;按照不同长度优先匹配的不同可以分为最长匹配和最小匹配。常见的三种匹配方法是正向最大匹配(由左到右)、逆向最大匹配(由右到左)和最少切分。

不论使用什么样的匹配方式,都是使用搜索引擎已有的词典,对网页内容进行拆分理解。这种分词方式的准确度取决于词典的完整性和更新情况。如果当一个新词出现时,搜索引擎没有即时把该词加入到词典中,那么就会影响最终的分词精度。尤其是在网络如此发达的今天,几乎每天都有新词出现。2.基于统计

这种分词技术不依靠词典,而是对大量文字样本进行分析,然后把相邻出现次数比较多的几个字当成一个词来处理。基于统计的分词方法在一定程度上解决了搜索引擎词典更新的问题,并且有利于消除歧义。

在当前的搜索引擎中文分词中多多少少都会存在着一些难题没有解决,这可能是因为汉语真的太博大精深了,在当下计算机根本不可能完全理解。比如,网络上流传的两句话“以前喜欢一个人,现在喜欢一个人”“以前谁都看不上,现在谁都看不上”,有些人第一眼看到这两句话也不太理解,相信搜索引擎在短期内更不会真正理解这两句话。

搜索引擎会把网页拆分出来的词按照词频进行排序,使用TF-IDF之类的算法以确定该网页主要和哪些词相关,并进行相关度计算。搜索引擎会综合各方面因素来确定当前页面主要描述的内容。分词技术指导SEO人员在进行网站内容建设和关键词布局时,可以把一个关键词分成更小的单位进行拆分布局,这样不仅可以加强网页和这个关键词的相关度,也会使得网页匹配出更多的关键词。

如图2-11所示为在百度搜索长尾词“搜索引擎优化公司”,图中自然搜索结果的第一和第三名的网页Title、Description和页面内容都没有完整出现“搜索引擎优化公司”这个词,但是依然拥有比较不错的排名。图2-11 百度搜索“搜索引擎优化公司”

如图2-12所示为这两个网页的百度快照,可见百度网页搜索把“搜索引擎优化公司”分别切割成了“搜索引擎优化”“公司”和“搜索引擎优化”“优化公司”,来进行相关度计算。在后面的搜索结果中还有很多网页都完整地出现了“搜索引擎优化公司”这个词,但是并没有排到更靠前的位置。可见如果中文分词用得好,会为网页额外增加大量可以匹配的关键词,这样就可以使网站整体获得更多的搜索展示机会和流量。图2-12 两个网页的百度快照

在这个例子中充分体现了分词技术中的正向最大匹配、逆向最大匹配及最少切分的规律。如前面所述很多SEO人员知道有中文分词这么回事,但是并不知道怎么运用。如果你还没有研究过中文分词,那么现在就开始详细研究吧,有不懂的问题就百度一下,会有很多详细的介绍资料。2.2.3 索引

搜索引擎中使用的是倒排索引,有不少朋友并不理解什么叫倒排索引。这里先来介绍一下正向索引。当用户进行查询时,如果对本地文件全面扫描用户所提交的关键词,“查询”的工作量就太大了,而且也是很消耗服务器资源的,所以搜索引擎会把已经处理过的网页先进行索引,放到数据库中等待网民的搜索查询请求。

一个网页被搜索引擎经过以上处理后,就只剩下能够体现网页主体内容的文本了,此时就可以对该网页进行索引了。正向索引指的是文件对应关键词的形式,正向索引数据结构简化示意如表2-1所示。如果使用这种索引直接参与排名,则与不分词没有太大区别,也需要对所有文件进行检索,并且如果用户提交的是长尾词,这种索引对文件内容相关度的计算也会非常消耗资源。表2-1 正向索引结构

为了使得索引文件可以直接用于排名,搜索引擎会把上面的对应关系进行转换,做成倒排索引,也就是采用关键词对应文件的形式。倒排索引的数据结构简化示意如表2-2所示。这样的索引结构就可以直接应用于搜索排名了,比如,用户搜索关键词1,那么搜索引擎只会对包含关键词1的文件进行相关度和权重计算;用户搜索“关键词1+关键词2”组合词,那么搜索引擎就会把包含关键词1且包含关键词2的文件调出,进行相关度和权重计算。这样就大大加快了呈现排名的速度。表2-2 倒排索引结构

倒排索引中不仅仅记录了包含相应关键词文件的ID,还会记录关键词频率、每个关键词对应的文档频率,以及关键词出现在文件中的位置等信息。在排名过程中,这些信息会被分别进行加权处理,并应用到最终的排名结果中。

在SEO操作中,会有相对应的加大关键词频率、尽量使核心关键词出现在网页的最前面,以及关键词用H标签和变色加粗等着重标识的操作手法,这些都会被倒排索引所记录,并参与关键词相关度的计算和搜索排名。2.3 网页去重原理

在互联网如此发达的今天,同一资料会在多个网站发布,同一新闻会被大部分媒体网站报道,再加上小站长和SEO人员孜孜不倦地网络采集,造成了网络上拥有大量的重复信息。然而当用户搜索某个关键词时,搜索引擎必定不想呈现给用户的搜索结果都是相同的内容。抓取这些重复的网页,在一定意义上就是对搜索引擎自身资源的浪费,因此去除重复内容的网页也成了搜索引擎所面临的一大问题。

在一般的搜索引擎架构中,网页去重一般在Spider抓取部分就存在了,“去重”步骤在整个搜索引擎架构中实施得越早,越可以节约后续处理系统的资源使用。搜索引擎一般会对已经抓取过的重复页面进行归类处理,比如,判断某个站点是否包含大量的重复页面,或者该站点是否完全采集其他站点的内容等,以决定以后对该站点的抓取情况或是否直接屏蔽抓取。

去重的工作一般会在分词之后和索引之前进行(也有可能在分词之前),搜索引擎会在页面已经分出的关键词中,提取部分具有代表性的关键词,然后计算这些关键词的“指纹”。每一个网页都会有个这样的特征指纹,当新抓取的网页的关键词指纹和已索引网页的关键词指纹有重合时,那么该新网页就可能会被搜索引擎视为重复内容而放弃索引。

实际工作中的搜索引擎,不仅仅使用分词步骤所分出的有意义的关键词,还会使用连续切割的方式提取关键词,并进行指纹计算。连续切割就是以单个字向后移动的方式进行切词,比如,“百度开始打击买卖链接”会被切成“百度开”“度开始”“开始打”“始打击”“打击买”“击买卖”“买卖链”“卖链接”。然后从这些词中提取部分关键词进行指纹计算,参与是否重复内容的对比。这只是搜索引擎识别重复网页的基本算法,还有很多其他对付重复网页的算法。

因此网络上流行的大部分伪原创工具,不是不能欺骗搜索引擎,就是把内容做得鬼都读不通,所以理论上使用普通伪原创工具不能得到搜索引擎的正常收录和排名。但是由于百度并不是对所有的重复页面都直接抛弃不索引,而是会根据重复网页所在网站的权重适当放宽索引标准,这样使得部分作弊者有机可乘,利用网站的高权重,大量采集其他站点的内容获取搜索流量。不过自2012年6月份以来,百度搜索多次升级算法,对采集重复信息、垃圾页面进行了多次重量级的打击。所以SEO在面对网站内容时,不应该再以伪原创的角度去建设,而需要以对用户有用的角度去建设,虽然后者的内容不一定全部是原创,一般如果网站权重没有大问题,都会得到健康的发展。关于原创问题,本书后续会在第12章进行详细讨论。

另外,不仅仅是搜索引擎需要“网页去重”,自己做网站也需要对站内页面进行去重。比如分类信息、B2B平台等UGC类的网站,如果不加以限制,用户所发布的信息必然会有大量的重复,这样不仅在SEO方面表现不好,站内用户体验也会降低很多。又如SEO人员在设计流量产品大批量产生页面时,也需要做一个重复过滤,否则就会大大降低产品质量。SEO人员所设计的流量产品常见的一般为以“聚合”为基础的索引页、专题页或目录页,“聚合”就必须有核心词,不加以过滤,海量核心词所扩展出来的页面就可能会有大量重复,从而导致该产品效果不佳,甚至会因此被搜索引擎降权。“去重”算法的大概原理一般就如上所述,有兴趣的朋友可以了解一下I-Match、Shingle、SimHash及余弦去重具体算法。搜索引擎在做“网页去重”工作之前首先要分析网页,内容周围的“噪声”对去重结果多少会有影响,做这部分工作时只对内容部分操作就可以了,相对来说会简单很多,并且可以很有效地辅助产出高质量的“SEO产品”。作为SEO人员只要了解实现原理就可以了,具体在产品中的应用,需要技术人员来实现。此外还涉及效率、资源需求等问题,并且根据实际情况“去重”工作也可以在多个环节进行(比如对核心词的分词环节),SEO人员只要稍微了解一些原理,能够为技术人员建议几个方向就很不错了(技术人员并不是万能的,也有不熟悉、不擅长的领域,在特定时刻也需要别人提供思路)。如果SEO人员能在这些方面和技术人员进行深入的交流,技术人员也会对SEO另眼相看,至少不会再认为“SEO人员就只会提改标题、改链接、改文字之类‘无聊’的需求”了。2.4 用户需求分析

用户需求分析即图2-1搜索引擎架构示意图中的“查询分析”,这里涉及两个方面:一个是用户搜索词的分析,另一个是用户搜索意图的分析。通过搜索词的分析可以返回一个可能是用户需要的结果列表,通过用户搜索意图的分析并对搜索结果进行调整,可以获得此用户更加想要的结果列表。2.4.1 搜索词分析

当用户向搜索引擎提交查询后,搜索引擎首先判断用户所提交的搜索词的类型:是普通的文本搜索、普通文本带有高级指令的搜索,还是纯高级指令的搜索。这三类搜索词会分别进行不同的索引匹配。

如果是纯高级指令的搜索,那么就会触发搜索引擎相应的结果返回机制。比如,使用site、inurl、intitle等高级指令,搜索引擎会对这种搜索词进行专门的处理。按照搜索词的要求只对索引文件的相应数据进行匹配,比如,site和inurl要求搜索引擎只匹配网页的URL,intitle要求搜索引擎只匹配网页的Title。并且当搜索引擎识别搜索词为域名或超链接时,也会触发返回固定形式结果的算法。如图2-13和图2-14所示,搜索词为URL时,百度会以不同于普通搜索词的、独有的展现形式返回结果。图2-13 百度搜索已收录的URL图2-14 百度搜索未收录的URL

如果是纯文本的搜索词,搜索引擎就会和处理网页内容一样先进行分词,去除停止词等处理。如果用户输入了明显错误的字,搜索引擎还会依次进行错误矫正,并按照矫正后的词进行检索,如图2-15所示。如果是汉字的错误矫正,一般是根据拼音进行矫正,即错误汉字和矫正后的汉字是同一拼音,否则搜索引擎不会强制矫正,如图2-16所示。图2-15 百度搜索“seo是神么意思”图2-16 百度搜索“seo是人么意思”

如果是文本加高级指令的搜索情况,那么搜索引擎首先根据高级指令限定搜索范围,然后根据用户提交的文本搜索词,在限定范围内进行检索和排名。

用户搜索词分析完毕后,就可以正常地对索引文件进行检索了。不过为了返回用户最需要的搜索结果,对于搜索意向不明显的关键词,搜索引擎会尝试分析用户的搜索意图后,再进行对索引文件的检索。2.4.2 搜索意图分析

当用户搜索一些比较宽泛的关键词时,只根据关键词本身,搜索引擎并不能知道用户确切需要什么,此时就会尝试性地分析用户的搜索意图。比如,用户搜索“霍建华”,搜索引擎并不知道用户到底是想要得到霍建华的个人简介、最新新闻,还是霍建华的相关视频、图片、音乐等。此时会触发搜索引擎的整合搜索功能,不能判断用户确切的需求,那么就把与“霍建华”相关且不同方向的内容同时呈现出来,让用户自由选择,这样也可以保证在搜索结果的首页就满足用户的检索需求。根据统计分析用户搜索该关键词时所关注的内容比率,搜索引擎也会调整这些内容的排名。

当用户搜索一些通用词汇时,搜索引擎会尝试参考用户所处地域的信息,返回可能是用户最需要的当地的相关信息。如图2-17和图2-18所示分别为在北京和嘉兴同时百度搜索“咖啡厅”所得到的结果,在北京搜索“咖啡厅”得到的搜索结果首页明显加入了“北京信息”,相对应地在嘉兴的搜索结果也加入了“嘉兴信息”。因为搜索“咖啡厅”这类关键词的用户,一般都是在寻找本地信息。这就是地域性的搜索结果,也是搜索引擎分析用户搜索意图后对常规关键词匹配搜索结果的改进,使得搜索引擎结果的用户体验更加友好。图2-17 在北京百度搜索“咖啡厅”图2-18 在嘉兴百度搜索“咖啡厅”

当一个用户多次搜索某一个宽泛关键词(含扩展及同义词)后,如果经常点击同一个网页,那么搜索引擎就会通过Cookie记录用户的这一行为习惯。当用户搜索点击的次数达到一定程度后,再搜索相关关键词时,搜索引擎会优先把用户经常浏览的网页排在前面,这就是“个性化搜索”结果。同上述地域性搜索一样,都是搜索引擎对用户搜索意图进行分析后,对常规关键词匹配搜索结果的改进。并且如果对于同一个搜索词(包含扩展和同义词)搜索结果中的同一网页,搜索点击人数比例过大,也会影响到常规的网页排序,该网页对应的该搜索词相关关键词排名都会有所提升,也就是之前提到的搜索点击率问题。

现在百度搜索推出了“框计算”,对用户搜索意图进行了更加深入地分析,比如,对火车票信息、飞机票信息、日历、简单数据计算等搜索词的分析和结果展现,都体现了百度在用户搜索意图分析方面的技术提升,本书在第11章中会简单介绍一下百度“框计算”。

搜索引擎通过对搜索词、用户属性和用户历史行为的分析,来分析用户的搜索意图,这样就可以比较明确地确定搜索用户真正的需求,从而把用户最想得到的结果提供给用户。在搜索引擎分析完用户的搜索词后,先从索引库中检索与搜索词最相关、最重要的页面,进行排序后,再引入用户搜索意图对排序结果进行调整。下面就来介绍一下内容和关键词的相关性计算。2.5 内容相关性计算

相关性是指内容和关键词的相关程度。现在搜索引擎其实并没有真正解决相关性计算的问题,只是通过关键词分词匹配、关键词在内容中的频率密度、关键词字体位置和页面外链等表面特征来进行内容相关度的计算。当下搜索引擎还不能真正理解搜索词和文章所表达的含义,所以也就使得部分内容应该有排名但实际上却没有的现象。现在搜索引擎判断相关性一般会采用关键词匹配和语义分析两种判断方法。2.5.1 关键词匹配

搜索引擎对索引库的检索过程可以简单描述如下:(1)把用户提交的搜索词分成词A和词B。(2)同时使用词A和词B在索引库中进行检索,并提出所有包含词A或者词B的文件,组成文件集合L。(3)在文件集合L中把同时包含词A和词B的文件优先提出来组成文件集合M排在前面,把只包含词A或词B的文件排在后面。(4)继续对文件集合M进行分析,把完全包含用户搜索词的文档提出来组成文件集合N,并排在前面,把内容中没有完全匹配搜索词的文件排在后面。(5)再根据搜索词在网页中出现的次数、位置、密度和形式等对文件集合N中的文件进行排序。(6)搜索引擎还会分析文件的外链数量、质量和锚文本,根据锚文本辅助分析文件和关键词的相关度、外链的数量和质量来确定文件的重要程度,以进行排序调整。

以上只是简单模拟搜索引擎的检索排序过程,为了描述方便,引入了“文件集合”。在整个检索和排名过程中,关键词匹配程度、密度、频率、位置、形式和外链情况会应用到所有文件上,而不仅仅是上文所提到的文件集合上。由以上检索排序模拟过程可以看出,搜索引擎判断一个网页或者文件与搜索词的相关度,主要根据文件中关键词出现的频率(次数)、密度(占全部内容的比例)、最终分词后关键词之间的距离(是否完全匹配)、位置和形式(是否在标题、内容比较靠前的位置以及是否黑体、变色、H标签等突出显示)、文件外链锚文本(是否和内容有统一的文本描述)等,外链的数量和质量并不是判断内容相关性的因素,只是判断文件重要程度、内容质量或可信任程度的标准。

同时在关键词匹配中,搜索引擎为了使返回的结果都是用户真正需要的,会分析判断搜索词分词后的词语,哪些是用户主要关心的,哪些是次要关心的。比如,搜索引擎会弱化搜索词中的常用或者意义不大的定语,在百度搜索“我们的航母”,搜索结果中前几页的网页内容都会完全匹配“我们的航母”这个关键词。多向后翻几页,当没有能完全匹配该搜索词的网页时,会明显感觉到后面的网页都是以“航母”为主要关键词的。2.5.2 语义分析

只根据关键词匹配和外部链接对网页的描述(锚文本),搜索引擎还不能真正理解网页的内容,比如,一篇介绍iPhone的新闻,通篇都没有提到“苹果”两个字,这个网页的外链也没有“苹果”锚文本,此时搜索引擎如果只使用关键词匹配的方法,就不能把“苹果”和“iPhone”联系起来。搜索引擎为了解决这个问题,提升内容相关性的计算强度,就引入了语义分析技术。

语义分析技术其实就是通过对海量内容的分析找出词汇之间的关系。当两个词或一组词经常出现在同一个文档中时,就可以认为这些词之间是语义相关的。最典型的例子就是“电脑”和“计算机”,还有上面提到的“苹果”和“iPhone”,搜索引擎根据对大量信息的分析,就可以判断出两个关键词在某种程度上相关或者是同义词,这样在检索索引文件时,同义词也会被适当加入检索。

内容相关性的高低会直接体现搜索引擎搜索结果质量的好坏,因此内容相关性计算一直是搜索引擎重点研究的方向。所以,增加内容和目标关键词的相关度也成了SEO人员研究的重要方向。SEO人员顺着搜索引擎判断内容相关性的思路,设计了很多让搜索引擎认为某个关键词和自己内容相关的做法,这些做法有的过分地凑“相关度”而到达了欺骗搜索引擎的程度。搜索引擎也针对这种情况推出了一系列的反作弊策略。2.6 链接分析

整个互联网上的网页因为有了链接,才被织成了一张网。网页之间的链接关系在一定程度上反映了每个网页各自的重要程度,理论上重要的网页获得的链接数量会比较多。同时链接的属性中还有锚文本,用来描述被链接页面的内容,对搜索引擎的排名也会有很大影响。如图2-19所示,为搜索某关键词时找到的京东商城的快照,由于页面上不包含搜索词,快照提示“你查询的关键词仅在网页标题或指向此网页的链接中出现”,由此可见链接锚文本的作用。当用户在搜索引擎进行搜索时,肯定想得到和自己搜索的关键词最相关、最重要的结果,因此链接分析也就成了搜索引擎排名中的一个非常重要的因素。图2-19 百度快照

在搜索引擎中有很多链接分析算法,比如PageRank算法、HITS算法、SALSA算法、PHITS算法、Hilltop算法等。其中最受关注的链接分析方法是PageRank算法,自从Google获得空前的成功后,PageRank算法也受到了主流搜索引擎的关注。由于Google推出了网页PR值查询,所以广大站长和SEO人员在很长一段时间内都把网站PR值等价成了网页或网站权重。其实PR值只是谷歌使用PageRank算法得出的一个权值而已,真正的网页权重还参考了其他很多因素。有兴趣的朋友可以百度或Google一下,了解一下这些算法更详细的介绍。

诸多链接分析算法的目的其实只有一个,为用户找到最重要、最相关的网页。而在正常的SEO工作中,链接层面上的操作并不能像这些算法一样做到这么精细的匹配。站长和SEO人员只要对搜索引擎链接分析的知识稍加了解就好。搜索引擎的链接分析算法宏观指导站长和SEO人员的工作:链接会被分为站内链接和站外链接,为自己网站不同类型的页面设计一个权值,然后按照网站运营目的和SEO方向调整站内链接布局方式,为不同目的、不同竞争强度、不同数量的页面依据设定的权值进行内部链接导向布局,这也是宏观顺应搜索引擎链接分析的一种做法;关于外部链接,只需要未被处罚、权重高、内容相关的高质量链接即可,后续外链建设部分会进行详细介绍。2.7 用户体验判断

现在的搜索引擎已经不是以链接分析为中心了,而是以用户体验为中心。在正常的内容相关性判断和链接分析基础上,网页的用户体验对于搜索排名的影响越来越大。网站的用户体验优化(UEO),严格来说应该是产品经理的工作,但是搜索引擎为了使得他们提供给用户的网页都是用户最喜欢的,浏览起来是最舒服的,采用了一系列的技术来加大这方面对网页搜索排名的影响,所以普通SEO人员也应该对用户体验优化有所了解,并且还要了解搜索引擎到底是怎样判断一个网页用户体验质量的。2.7.1 正常用户体验

用户体验并不是一个可以用简单数字表达清楚的东西,每个人的对网站的使用习惯不同,功能要求也不一样,对网站上广告的数量,弹出广告的时间等忍受程度更是千差万别。普通用户浏览网站时的用户体验,可以简单分为以下五大类。● 感官体验:呈现给用户视听上的体验,强调舒适性;● 交互体验:呈现给用户操作上的体验,强调易用、可用性;● 情感体验:呈现给用户心理上的体验,强调友好性;● 浏览体验:呈现给用户浏览上的体验,强调吸引性;● 信任体验:呈现给用户的信任体验,强调可靠性。

在这里并不是要分析如何做用户体验优化,而是要分析搜索引擎是怎么判断网页的用户体验质量的。因为搜索引擎一直在努力让自己的算法所得出的结果接近真实的用户需求,所以作为SEO人员需要先了解真实的用户在用户体验方面的需求,然后再把真实用户的需求落实到技术判断上,判断搜索引擎一般会怎么做,只要找到了这个点,SEO的本职工作在用户体验这一方面才算找到了方向。2.7.2 搜索引擎判断用户体验

站在搜索引擎的角度考虑,它一般是如何判断网页的用户体验呢?搜索引擎只能根据自己所能获取到的数据进行判断,而对网站的PV、网页的跳出率等数据是没有办法获得的,只能依靠其他辅助数据进行判断:(1)简洁的页面,广告不会干扰内容阅读,没有大量弹窗或跳转(感官体验)。(2)网站品牌、网站曝光度、网站备案(信任体验)。(3)网页在搜索结果中的点击率,用户进入该网页后又返回搜索引擎二次搜索的比率,网页内容的原创性、时效性、丰富性及更新频率,网页标题和内容的相关性(浏览体验)。(4)网页的功能性,评论数量、顶踩次数、页面分享次数等用户投票数据(交互体验)。

以上这些数据搜索引擎都是可以轻松获得的,也对应了部分真实用户体验。搜索引擎毕竟不是真正的普通用户,只能依靠这些辅助数据来判断一个网页或网站的用户体验是否良好。下面依次分析搜索引擎是怎么使用和判断这些数据的,其实在搜索引擎判断网页的用户体验过程中也有“机器学习”的参与,有兴趣的朋友可以多搜索了解一下搜索引擎中的“机器学习”。(1)针对页面的简洁,Google在2012年2月7日通过中文网站站长博客,发布了一篇页面布局算法调整的文章,详细内容如图2-20所示。改进算法的原因是“有些用户报怨说,点击搜索结果后很难找到实际的网页内容,他们对此感到很不愉快。”这是Google专门针对用户体验中页面浏览体验的算法升级。虽然百度暂时没有这方面的动态,但是处于对用户体验的重视,也应该会有这方面的算法变动,所以网站布局设计时,应该尽量保证广告不会影响到正常内容的浏览。图2-20 Google中文站长博客文章(2)网站品牌,知名度越高的网站一般会提供比较好的用户体验,不然一般不会受到用户的推崇。比如,在搜索一条新闻时,百度同时给出了新浪、搜狐和一个没听说过的网站,用户一般会选择点击新浪或搜狐的网页,因为用户信任这些网站可以带来自己所需要的信息。

网站曝光度,同品牌一样,搜索引擎认为网站曝光度越高的网站会提供比较好的用户体验,体现在技术层面大多是网站的外链数量和质量。

有备案的网站相对来说是安全的,网站备案的目的是防止利用网站从事非法活动和打击不良信息,所以有备案的网站容易受到用户的信任。这些因素就可以成为搜索引擎判断网站信任体验好坏的参考因素。当然备案到底在百度搜索算法中占有多大比例就不得而知了。不过在和360博弈的过程中,百度在搜索结果中针对医疗类信息网页进行了备案性质提示,以供用户选择相对安全真实的内容,如图2-21所示。即使这些信息没有加入到百度搜索算法中,这些提示也会影响各个网站的点击率,从而对排名起到一定的影响。图2-21 百度搜索“糖尿病医院”部分结果(3)网页在搜索结果中的点击率,可以直接反映该网页的受欢迎程度,一般标题或者描述都是比较吸引人的,有着良好的浏览体验,所以点击率越高,排名就越好,这应该是大家公认的。现在由此而诞生的排名点击器很是疯狂,百度已经升级算法打击点击器了。可见这个用户体验的因素直接影响了网页的搜索排名。

用户进入该网页后又返回搜索引擎二次搜索的比率,当用户通过搜索进入一个网页后,马上又退回搜索引擎点击其他网页,这时搜索引擎就可以判断出用户点击的第一个网站不符合其搜索需求。如果网页内容不能够满足用户,或浏览体验比较差,当有多个用户反复这么操作时,就会使得搜索引擎降低该网页的搜索排名。此处所说的“比率”指的是指定网页搜索流量的跳出率,并不是流量统计中该网页所有流量的跳出率,因为即使用户是在你的网站上快速地翻了几页后又返回的搜索引擎,也可能会被搜索引擎认为你的网站内容没有满足用户(在网站分析部分会详细介绍跳出率和退出率)。搜索引擎只能监测用户反复操作的流程,来分析用户行为。至于用户在你的网站中的行为,除非你的网站安装了搜索引擎官方的JS代码,否则搜索引擎是不能监测这个数据的,网络上所传网页的整体跳出率会影响排名的描述并不准确。

网页的原创性和更新频率不用多说,搜索引擎一直在努力监控,并且也可以反映网页的用户体验。丰富性,也就是网页内容是否图文并茂,是否有多媒体等内容,这在一定程度上也可以加强网页的用户体验,并且也是搜索引擎可以捕捉到的。

通过前面的中文分词介绍,搜索引擎可以比较容易判断网页标题和内容是不是真正相关。当用户根据搜索结果中的标题进入网站后,发现内容和标题不相关,并不是自己想要的内容,就会选择离开,所以网页标题和内容的相关性也是用户体验高低的一个体现。(4)在Web 2.0的时代,搜索引擎一直在努力挖掘网页交互的体验,并尝试性地把该因素加入到网页的搜索排名中。在利用SEO做危机公关的相关介绍中,会详细介绍这些交互数据对网页排名的影响,网页交互性越好,相关数据越高代表用户体验越高,搜索引擎对于正常的评论数、浏览数、顶踩数、甚至视频的播放次数都可以很容易地捕捉到,现在百度又推出了百度分享发力Web 2.0社会化媒体交互分享,分享次数也会成为判断该网页交互方面用户体验的一个标准。

站在产品的角度看待用户体验,可能还会有其他很多影响因素,比如,登录框的设计、注册流程的设计、Logo的设计等。但是站在SEO的角度来看,搜索引擎通过技术是不能了解到普通用户对这些细微地方的体验的。所以站在SEO角度和站在产品角度的用户体验优化是不同的,单纯地从SEO角度出发去做用户体验,只要把上述搜索引擎能够捕捉到的数据优化到位就可以了。也因此在对网站进行SEO改动时,可能会和网站产品人员发生意见分歧。

搜索引擎把以上所有的工作完成以后,理论上就可以为用户返回其最需要的搜索结果了。以上即为搜索引擎从抓取页面到按照用户检索需要,把最相关、最重要、用户体验最好的结果呈现给用户的整个工作流程的概述。下面讨论一下在这个流程中,搜索引擎为了压缩用户返回搜索结果的时间,而引入的缓存机制,以及为了使得搜索结果质量更好、更加公平而非常重视的反作弊机制。2.8 有效索引和缓存机制

现在百度抓取到本地并进行索引的网页已经以千亿计,如果每一个用户提交查询时,百度搜索从这几千亿个网页中进行检索,相信不论百度的服务器集群多么牛,都不能快速响应每天这么多网友的搜索查询。即使勉强能够应付用户的搜索,反应速度和效率也会非常低下。既为了节省资源又为了提升响应速度,搜索引擎一般会引入有效索引和缓存模块。2.8.1 有效索引

面对如此巨大数量的网页,任何一个常规关键词都可能匹配出几万、几十万甚至上亿的网页。但是大部分用户一般都只浏览搜索结果的前三页,这样搜索引擎就没有必要响应每次搜索时都对全部的索引文件进行检索,只需要对一个适当数量范围内的索引文件进行检索就可以了。并且搜索引擎一般不会把检索到的所有相关网页都呈现给用户,而只是呈现1000个左右的结果,比如,百度最多呈现760个结果,Google最多呈现1000个结果。所以搜索引擎只要建立一个能够满足大众搜索请求的小范围网页索引集合也就是有效索引就可以了。

稍微有过SEO经验的朋友应该就有这种经验:一个新网站的网页,搜索网页的URL发现百度是收录的,但是搜索网页包含网站品牌词的Title却搜索不到。对于老网站来说这是降权的现象,对于新网站来说就是这个新网页的权重比较低,并没有参与排名计算。例如在百度中搜索,笔者原创并发布在个人博客上的一篇文章的URL,如图2-22所示,百度已经收录了。但是直接搜索该页面的Title时,在百度搜索结果中却找不到这个页面,并且为了使得这个搜索词和网页建立唯一的对应关系,搜索词为网页的Title而不只是文章标题,如图2-23所示。理论上全互联网只有笔者博客上的这个网页符合搜索请求,百度既然已经索引,那么就应该在搜索结果第一的位置呈现出来,但是百度并没有这么做。图2-22 百度搜索URL图2-23 百度搜索网页Title

如果百度是在已索引的全部文件中进行检索,肯定就会把这个网页呈现出来了(权重正常的网站都可以)。搜索Title时,百度并没有呈现出这个网页,代表这个网页并没有在百度的有效索引库中。出现这种情况一般是两种原因:该网页的权重太低,或者该网站已被降权。有很多网站的首页都是这种情况,直接搜索域名是有收录的,如果只是搜索目标关键词却没有排名,那可能是算法微调或更新,但是如果搜索几乎是独一无二的Title都找不到网站,那就要小心了,可能是被降权了,或者是降权的前兆。这个例子就体现出了搜索引擎拥有“有效索引”的模块,但是搜索引擎内部可能不叫有效索引,可能是叫“一级索引数据”“初始子集”之类的名字。

从这里也可以看出搜索引擎的“有效索引”应该是和网页权重挂钩的,有效索引库中是权重正常参与搜索排名的网页,其他低权重的网页可能就被列入了“无效索引”中,以备他用。当然在真实的大型搜索引擎中的索引库级别肯定不会只有“有效”和“无效”索引库两个级别,而是有一个多级别并伴随很复杂算法的索引系统。另外,也有可能搜索引擎并没有对索引进行明确分类,而是搜索用户只需要一小部分网页,搜索引擎只需要从整个索引库中抽取按照重要程度排序后比较靠前的一些网页来进行检索、排序和呈现就可以了,也就是说有些网页没有参与到排序并不是一定被归为“无效索引”,而只是暂时权重不是很高,两者还是有本质区别的。

在SEO工作中,提升网站和网页的权重是一个很重要的工作,并且提升网站的有效收录也是一个很重要的工作方向,这里的“有效收录”指的是在搜索引擎中不仅仅搜索内容标题和网页Title有排名,搜索网页所涉及的关键词也会有相关排名,并且可以带来搜索流量的网页。2.8.2 缓存机制

缓存就是临时文件交换区,是可以进行高速数据交换的存储器,它先于内存与CPU交换数据,因此速率极快。现在为了加快用户查询的响应速度,缓存几乎成了搜索引擎的标配。搜索引擎会把一些用户经常搜索的关键词的搜索结果放入到缓存中,这样当该关键词再次被搜索时,就可以直接从内存中调取搜索结果,而不必再从索引库中进行重新检索和排名。缓存机制的引入,不仅加快了搜索引擎对用户搜索的反应速度,也减少了搜索引擎对数据的重复计算。

用户的搜索请求中,少数查询词占了查询总数的相当大比例,而大多数查询词单个出现的次数都非常少,类似于长尾理论。因此搜索引擎把用户经常查询的“少量”关键词的搜索结果存放于缓存中,就可以应对大多数用户的搜索请求了。整个搜索引擎的缓存机制中还会涉及缓存淘汰和缓存更新机制。

因为搜索引擎的缓存也不是无限的,肯定有满载的时候,此时就需要有合理的淘汰机制,把使用频率小的搜索结果剔除,补充进来使用频率大的搜索结果,来保证缓存空间中的内容可以响应及命中当下尽可能多的用户搜索请求。同时网页和索引库中的文件内容随着时间的变化也会有所变动,为了使得缓存中的结果和网页内容同步,此时就需要有合理的缓存更新机制。

解释一下缓存更新机制:搜索引擎为了节省资源,不可能对缓存中的内容进行实时更新,而是会选择在午夜等搜索请求比较少的时间段进行更新缓存,所以用户在不同时间搜索同一个关键词得到的结果可能是不同的,但是一般在较短时间内的重复搜索会得到相同的搜索结果。现在的搜索引擎会分析搜索词的属性,并根据搜索词的属性调整缓存的更新频率,比如,现在百度的“最新相关信息”“最新相关微博”等实时性搜索的缓存更新频率和普通词缓存更新频率肯定是不同的。需要说明的是,现在大型搜索引擎的缓存都不是简单地直接缓存关键词的搜索结果,而是拥有很复杂的缓存结构和数据,一般是多级结构的,同时提升搜索引擎的响应速度和缓存数据的命中搜索范围。

这里要特别注意一下“有效索引”和“缓存”这两个模块,站长和SEO人员所留意到的很多问题其实都可以在这两个模块的原理中找到答案。在第3章快照、site命令等基础内容介绍部分进行详细讨论。2.9 反作弊和人工干预

自从有搜索引擎以来,就有人不断研究搜索引擎的排名机制,进而寻找搜索引擎排名的技术和逻辑漏洞,来快速提升自己网站的搜索排名,并且获得流量和收益。也就是说自从有搜索引擎以来,作弊就没有停止过。为了保证呈献给用户的搜索结果质量,发掘真正内容优质、用户体验最佳的网页,反作弊一直都是搜索引擎研究的重要课题,但是搜索引擎一直处于被动应对地位,经常是发现搜索结果被作弊网页攻陷了,才去研究相应的反作弊对策和算法。那么搜索引擎在反作弊的过程中主要是如何操作的呢?真的会像外界猜测的那样有那么多的人工干预吗?2.9.1 反作弊算法

在搜索引擎的架构中过滤也是很重要的一环,在Spider抓取部分会过滤掉重复和垃圾页面,在进行排序和呈现时同样还会进行一次过滤,来保证搜索结果的质量。反作弊就是过滤环节中的主要组成部分。当下搜索引擎排名的重要参考因素主要有内容、链接、网站权重和用户体验,所以作弊也一般是从这几方面入手。第12章会详细讨论一下常见的作弊手法,这里主要来讨论一下搜索引擎是如何进行反作弊的,反作弊过程中是否会出现误伤,以及站长和SEO人员应该如何避免被搜索引擎误伤。

虽然搜索引擎针对每种作弊行为所做的反作弊动作和算法各不相同,但是大体上还是有一定规律可循的。搜索引擎会利用黑白名单和作弊特征研究两方面进行反作弊算法升级。1.黑白名单

搜索引擎会根据网站内容的质量、权重、品牌建立白名单,也会找出明显作弊严重的网站建立黑名单。搜索引擎会认为白名单中网站所推荐的网站都是好的、健康的网站,含有黑名单中网站链接的网站可能会存在某种问题。

如图2-24所示,链向白名单中网站的网站不一定是健康的,同时黑名单中网站链向的网站也不一定是不健康的。但是有多个白名单网站链向同一个网站,那么这个网站就很可能是健康的;同一个网站链向了多个黑名单中的网站,就可以把其认定为不健康的网站。图2-24 黑白名单示意图

在整个互联网中,黑白名单中的网站不可能和名单外的网站都有直接链接关系,所以搜索引擎会给这种白名单的链接一定的信任值,这个信任值随着链接级数的增加而逐级衰减;同样,从黑名单网站反向开始,会给最终链接指向黑名单网站的各级链接一个不信任值,这个值也是逐级递减的。对于一个黑白名单之外且和黑白名单中网站没有直接联系的网站,搜索引擎会计算它得到的信任值和不信任值,当达到或超过搜索引擎设置的阈值之后,就会把其列为健康网站或者不健康网站。

这是一种很常见的反作弊方式,在SEO工作中体现最明显的就是选择服务器和交换友情链接。选择服务器时,大家都希望自己独立使用一台服务器或者一个IP;选择虚拟空间时,也会检查相同IP的网站是否有作弊嫌疑,以免被相同IP网站连累。虽然百度官方声明不会按照IP惩罚网站,但还是远离作弊网站比较稳妥。交换友情链接时就更明显了,一般都会检查对方有无作弊嫌疑或降权嫌疑,以免自己把链接指向不健康的网站而遭到搜索引擎的惩罚。2.作弊特征研究

作弊特征研究是现在搜索引擎进行反作弊的主要手法。当发现一个对搜索结果影响很大的作弊网站或一种新的作弊手法时,一般不会只是人工地把这个或这些网站降权或者屏蔽,而是潜心研究这个网站或这些网站到底是怎么作弊的,以及钻了搜索引擎技术和逻辑上的什么漏洞。当发现漏洞后就会提升算法弥补漏洞,同时对这种作弊方法进行有针对性的打击。Google近两年所发布的算法升级都是有针对性的,不是针对操纵PR的链接作弊,就是针对网站影响用户体验行为的作弊等。百度更是如此,从2012年6月份以来的算法升级,每次都会针对特定的作弊行为。这都是研究作弊手法的特征后进行有针对性的算法升级的。

因为是针对某一特征的反作弊算法升级,也有可能会出现这种情况:某个网站没有作弊,但是也有类似作弊站的某些特征,而被搜索引擎捎带处罚了一下,视特征的符合程度遭受到的处罚程度不同。也就是说搜索引擎在反作弊的算法升级过程中,很有可能会产生误伤。这种误伤会不会产生,以及误伤程度和误伤范围要取决于搜索引擎打击作弊的力度和算法的精度。

比如,百度搜索在2012年10月23日针对超链接作弊的算法升级过程中,只是取消了作弊链接的作用,而因为有很多有着优质内容的综合门户网站也都参与了此种作弊,所以才没有对参与作弊的网站进行打击。这种反作弊算法也就是把作弊的情况整理了一下,作弊站顶多失去作弊部分所带来的排名和流量,而没有得到其他额外的惩罚,这样没有作弊的网站就更不可能得到惩罚了,顶多有几个外链的作用消失而已。

又如,百度搜索在2012年6月28日针对采集站和垃圾站的算法升级中,因为是识别垃圾和采集,又因为搜索引擎暂时不能精确地识别原创,所以就导致了一些网站被连累,产生了一定误伤。后来百度搜索部门对投诉的网站进行了详细分析,虽然只有少数的网站被确定为误伤,但是可以肯定这种算法升级有一定的负面连锁反应。

站长和SEO人员在工作中,不仅仅要尽心尽力地运营自己的网站,还要避免自己和作弊站、垃圾站有所靠近或关联,同时要尽可能地向优质高权重网站靠近或扯上关系,相信这也是大部分站长和SEO人员一直努力的方向。但是很少有朋友有心避免被反作弊算法牵连,搜索引擎的算法再精准也是人设计出来的,并不是神造的、完美无暇的,所以有作弊就会有反作弊,反作弊稍微严格一点就可能产生误伤,作为站长和SEO人员应该尽可能避免这种被误伤的情况发生。

站长和SEO人员要潜心研究搜索引擎想要打击的作弊行为的特征。比如,某种作弊行为都会选择使用一套开源CMS程序或者模版,那么你就要尽可能避免使用同一个CMS和模版;买卖链接的网站一般都会设置隐藏的链接块或文本块,并且卖的链接中经常会有医疗病种、私服、赌博或者其他暴利、高竞争的关键词,那么你就要尽可能地不使用隐藏的TAB来做友情链接,并且最好不要和搜索引擎重点打击行业的网站做友情链接等。搜索引擎打击所有的作弊行为中,肯定都会根据这种作弊行为的特征进行算法升级,那么作为一个“良民”站长或SEO人员就应该避免和这些作弊行为有相似的地方。比如,某个人长相和奥巴马一样可能会受到追捧,某人长得和“凤姐”一样就可能会受到到鄙视或嘲笑。

最后,需要了解的是,针对反作弊,搜索引擎也并不是总处于被动状态。搜索引擎也一直在研究站长作弊背后的动机和站在对立角度审视自己的各种算法,一般在算法上线之前都会设计相关算法,把站长容易操纵的作弊因素根据特征从正常的算法中过滤掉,并不是一味地亡羊补牢和处罚作弊站点。这应该也是近年来大众认为“SEO越来越难做”的原因之一。2.9.2 人工干预

在反作弊过程中,也很有可能会伴随着人工干预自然搜索排名,但是搜索引擎中的人工干预肯定不会是大众想象的那样频繁,也不是浅层次上的干预,否则搜索引擎自然排名的算法就可以丢弃了,搜索引擎也没有那么多专门来干预排名的人。但是不论多么大的搜索引擎,肯定都会有人工干预的存在。

能够让搜索引擎人工干预的站点,肯定是严重背离搜索引擎运作机制,或者严重影响到了搜索引擎的搜索结果质量,这种站点一般在搜索引擎上获得了异常多的流量,否则搜索引擎为众多网站导流量,并不会特别注意到。也就是说很多自认为遭受了人工干预的网站,或许根本就没有达到被搜索引擎人工干预的资格。在行业内,一般会认为被讨论越多的站越容易Over。虽然正规的网站在SEO上也有很多值得讨论研究的地方,但在业内远不如对于作弊站点的讨论激烈,当搜索引擎从一些途径获得这些信息后,认为该站点的作弊行为已经产生了非常不良的影响,就可能会先进行人工干预,随后研究其作弊方法。

有很多朋友都在各种站长论坛中发帖声称自己被人工干预了,如图2-25和图2-26分别是在百度和Google中搜索“百度人工干预”的结果数量。百度搜索有594000条,Google搜索有834000条,这些声称自己被人工干预的站点其实都是小站,还没有达到被人工干预的程度,真正能够逼迫搜索引擎进行人工干预的站一般都是“大佬”或者技术逻辑“高手”的站点,用特殊资源顶上去的网站,恶意抢夺了太多的流量,而这些“大佬”和偷偷赚钱的“高手”是不会到处发帖子玩儿的,一个网站被干掉后,一般会马上研究其他的项目。当然也有说因为和百度的利益关系遭到人工干预的站点,像我等这种“屌丝级”的人物是接触不到的,所以一般网站被降权后,基本不用考虑人工干预的事。图2-25 百度搜索“百度人工干预”图2-26 Google搜索“百度人工干预”

百度进行人工干预的情况应该会有以下几种:某站长发现百度算法重大漏洞,使用低质量内容抢夺了太多百度搜索流量,已经明显影响到用户的搜索体验;针对热门搜索词或敏感词,为了“不捅娄子”可能会进行人工干预,搜索结果只使用某些主流网站的内容;针对不满意的搜索结果进行各项因素的权重比例微调等。

关于百度人工干预的更多讨论,可以浏览知乎上的帖子“怎么判断一个词的搜索结果在百度被人工干预,或者网站被处罚了?”,里面有前百度人曹政曹大侠的回复,也有其他不少业内专业人员的回复,众说纷纭,自己体会和辨别吧。地址为:http://www.zhihu.com/ question/19627012。

网站在搜索引擎中的表现突然下滑,不是自己网站作弊被搜索引擎处罚了,就是因为自己网站和其他作弊网站有关系。也不排除一种可能性比较小的情况,就是被搜索引擎的反作弊算法牵连了。当发现网站在搜索引擎中突然表现得很悲催时,就从以上三点找原因吧。不过可悲的是,很多站长和SEO人员已经不把作弊当做弊了,而是把很多作弊行为都当成正规运营手段。比如,有一些SEO人员居然会发布类似“人家的内容全是高价请人伪原创的,一点作弊都没有,却被降权”的吐槽帖。2.10 本章小结

知己知彼才能百战不殆,虽然站长和SEO人员没必要一定得了解搜索引擎的详细算法,但是搜索引擎一般性的架构和逻辑还是要搞清楚的。不论是顺从搜索引擎的游戏规则而在搜索引擎中长期生存,还是对抗搜索引擎,寻找搜索引擎技术或逻辑漏洞而获得一时的暴利,搜索引擎原理都是需要了解和研究的。对搜索引擎原理越熟越精,SEO工作就越可以高效地进行。推荐大家研究一下常见的搜索引擎程序或架构,现在不少网站的站内搜索会使用Sphinx或Lucene,有能力的SEO人员可以自行简单搭建及研究一下这两个程序的工作原理,或者直接研究一下自己所负责网站的站内搜索,从而加深对搜索引擎排序工作原理的理解,也会对以后设计和搜索相关的产品大有帮助。

另外,建议有高数基础的朋友可以深入了解一下搜索引擎在内容主题词提取、链接分析、网页去重、信息归类、相关度判断等领域的常规算法及原理,这样就可以站在更高的角度去感受搜索引擎的运作原理以及更好地辅助自己设计高质、合理的SEO产品,也会使自己更深入地了解搜索引擎排名早已不会被简单堆砌关键词和滥发链接所控制了,甚至会感觉原始的SEO基础方法在当下的搜索引擎眼中已经很“小儿科”了,在阅读一些SEO低质软文时也会一笑了之。现在网络上有太多不负责任的SEO软文,把很多问题都本末倒置了,当一个SEO人员能够很容易正确判断出哪些文章是干货,哪些文章是低质软文时,也就了解SEO的真正内涵了。第3章 常见名词和指令讨论

这是一本值得所有SEO人员购买的SEO实际操作与应用的优秀作品。从基础到深入,从单个站优化到团队管理都有讲解。搜索引擎永远在变化,本书介绍了大量常用工具和使用心得,让我们从各种工具、各种指数、各种报表直观地感受搜索引擎的每一个调整,让SEO操作变得更加有迹可循,不再是在黑暗中摸索。肖 俊《金花关键词工具》《博求SEO团队管理系统》开发者

百度优化必看的一本书!

这不是一本简简单单讲述搜索引擎原理,教你如何做SEO的书,更像是作者的工作笔记,记录自己在实际操作中文网站项目的工作中遇到的各种问题及解决方法,内容也不仅仅是SEO。我们常常知其然,而不知其所以然,而痞子的这本书正是教大家不光知道SEO怎么做,更能明白为何需要这么做,有据可依。学习SEO,强烈建议看本书,当然最重要的还是反复去实践。章 螂天气网运营经理

SEO中有很多名词和指令,在网络或者其他SEO书籍中都有过很多次介绍,这里就不再浪费纸张了,对本书中提到的最基本的名词和指令有不解的朋友,就百度一下吧。这里针对一些有争议或者能够关联到其他SEO问题的名词和指令进行剖析和讨论。3.1 “权重”和“百度权重”“权重”在SEO工作中是被提及最多的一个词,自从爱站网推出“百度权重”查询工具后,“百度权重”这个概念也被炒得风风火火,那么“权重”和“百度权重”到底是什么呢?又怎么来提升自己网站的权重和“百度权重”呢?3.1.1 权重

权重是一个相对的概念,即对于统一指标而言,A和B相对比哪个更重要。在搜索引擎中一般会体现在具体数字上,比如,在Google中使用PageRank来衡量一个网页的重要程度,所以现在一般认为PR值就是网页在Google中的权重值。百度还没有公开类似Google PR的数据,但是在主流搜索引擎内部,肯定都会有对网页重要程度的数字评级。

在日常的SEO工作中,除了Google的PR值和搜狗的PR值,针对百度来说,大家经常提到的“权重”其实只是一个概念词。也就是说并没有官方承认的真正的权重数值可以参考,只是大家凭借一个网站或一个网页的其他指标进行主观判断的。除非是类似58同城的首页和58同城的信息页面进行对比,明显是前者页面的权重高。如果相对比的两个网站或者网页是同类型的,或者是不同网站中的不同类型页面,除非两者之间差异过大,否则并不能严格判断出到底哪个网站或者网页在百度中权重更高。

在一个结构正常的网站内,一般认为权重高低次序依次为:网站首页>子域名首页>顶级域名下目录>子域名下同级目录>顶级域名下内容页>子域名下内容页。这是针对正常架构的网站而言的,正常的网站架构一般是金字塔形的,在整个网站中网站首页获得的内链和外链都是最多的,其他级别的页面获得的内链、外链的数量依次递减,所以才会造成上面所说的权重高低排序情况。如果某个网站的结构是不正常的,网站首页获得的内链和外链都不是最多的,甚至都没有链接导入,而某个内容页被全站网页推荐,并且获得了大量的外链推荐,那么肯定就不是上述的排序了。站内页面权重的对比,一般是比对页面所隶属的域名情况、页面本身物理结构层级、页面所在逻辑结构层级和页面类型等。

如果是两个网站进行对比,除了参考PR值之外,一般还会看网站的收录量、首页百度快照、核心关键词排名、外链情况,以及alexa排名。一般认为权重高的网站在这些数据方面的表现会比较好,这其实不是看网站权重,而是在分析网站质量。这种观念其实没错,但是需要综合看这些数据才能确定目标网站是不是真的质量不错。比如,在查询100ye.com和qu114.com网站的相关数据的时候,以上各方面表现都不错,尤其是收录量都是几百万、几千万的,如图3-1和图3-2所示,理论上说应该是权重很高的,但是这些网站却是被百度降权过的,查看一下网站历史就可以看出来了。现在有很多这种牺牲在SEO路上的先驱网站,百度收录量特别大,用工具查看也有不少流量,但实际上是被搜索引擎降权过的,你并不能简单评价它权重的高低。所以评价一个网站的权重不能只看当下的数据,还应该想办法查询一下它的历史数据,进行一下比对。当下被降权的网站,可能各方面数据表现也比普通站点要好,瘦死的骆驼比马大嘛。网站数据只要和历史相比落差太大,就可能有问题,当然也可能过段时间就被恢复,比如qu114网基本上就原地复活了。相对于被降权过的大网站,大部分站长和SEO人员可能更倾向于和小网站进行友情链接合作。图3-1 百业网SEO数据图3-2 qu114网SEO数据3.1.2 百度权重

在百度搜索引擎系统中应该是存在“权重”这个指标的,只是没有像Google一样提供公开查询而已。现在行业内各个站长工具所推出的“百度权重”都不是百度官方的数据,是各个工具自己根据目标网站的各项数据和自己设置的公式计算出来的,所以不同站长工具所给出的“百度权重”是不同的。这些工具其实是设置了一个公式,把3.1.1节所提到的那些数据进行了加权计算,得出一个级别数值,把“权重”进行确切的数字化,方便了站长和SEO人员参考使用。不过这些数据在不同人眼中、不同网站中的重要性并不同,这些站长工具根据自己的观点设定了计算公式,可能会和一些读者朋友心中的评价标准有些出入。

爱站网因为推出和炒作“百度权重”而在国内SEO圈内走红,现在也有不少站长非常认可这个数据。虽然这个数据的参考价值很大,但是毕竟不是百度官方的数据,所以要分情况理性参考,在第7章会有对爱站网和Chinaz站长工具内“百度权重”的详细讨论。3.1.3 提升网站权重的思路

从以上讨论来看,在站长和SEO人员心中,网站在百度搜索上的权重是从表象推测出来的。站长和SEO人员首先假定:如果一个网站的权重高,那么在一些外部数据上表现就会好。然后再根据自己假定的标准去评判网站在百度搜索中的权重高低。在某种程度上权重高低和网站各方面数据的好坏是充分必要条件,所以要想提升网站权重,针对网站的主要SEO数据下手就可以了,这些数据也是很多SEO团队或部门的内部考核指标。

一般认为提升网站权重最主要的方法是建设高质量、高数量的相关链接,在搜索引擎算法还并不十分完善的今天,外链的确在很大程度上决定了网站权重的高低。不过长远地看,内外兼修才是王道,不仅仅要在外链上下功夫,而且网站内容建设、增加网站收录量、增加网站品牌知名度,以及提升网站在社交网站中的传播度也是提升网站权重的主要方法,并且几乎所有的SEO书籍都主要讨论如何提升这些数据。现在的搜索引擎已经不是单纯链接分析的那一代了,而是把重心转移到用户体验上来了,所以在决定网站权重的因素中,网站“内功”的占比将会越来越大。

除了网站“内、外功”之外,政府或标准组织机构性质的网站、百度新闻源网站等,也会在很大程度上有别于普通网站的权重评价标准。在百度搜索没有提供准确评价网站和网页权重高低的数据时,一切“权重”都是站长和SEO人员的反向主观推测,同样两个网站的对比,不同人的评价就有可能是完全相反的。但是如果现在公认网站的SEO数据表现出色,那在百度中的权重就应该比较高。不过需要注意的是,“百度权重”是第三方工具根据常规SEO数据进行的公式计算,所以可能会存在很大的作假空间,在第7章会对此进行进一步的讨论。3.2 百度快照

百度搜索帮助中心中对百度快照的介绍如下:如果无法打开某个搜索结果,或者打开速度特别慢,该怎么办?“百度快照”能帮你解决问题。每个未被禁止搜索的网页,在百度上都会自动生成临时缓存页面,称为“百度快照”。当你遇到网站服务器暂时故障或网络传输堵塞时,可以通过“快照”快速浏览页面文本内容。百度快照只会临时缓存网页的文本内容,所以那些图片、音乐等非文本信息,仍是存储于原网页。当原网页进行了修改、删除或者屏蔽后,百度搜索引擎会根据技术安排自动修改、删除或者屏蔽相应的网页快照。

百度快照本身是百度对原始网页的镜像。主要目的是:当原始网页打不开或者打开比较缓慢时,用户使用百度快照同样也可以获得相应的信息。这是面向大众网民的,在站长和SEO人员的眼中,百度快照被赋予了很多其他的含义。3.2.1 百度快照和网页权重的关系

在友情链接交换和网站分析中,站长和SEO人员一般都比较习惯看目标网站的首页或相应页面的百度快照。根据以往的SEO经验,权重越高的、更新频率越高的页面,百度快照更新频率会比较大。对于已经收录的页面,站长和SEO人员的心里最高期望就是其百度快照每天都更新,甚至快照时间就是当天。

百度快照的更新与页面或网站的权重有一定关系,但对于彼此都不是必要的条件。由搜索引擎原理中介绍的Spider抓取更新策略可知,

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载