SEO教程:搜索引擎优化入门与进阶(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-14 15:04:10

点击下载

作者:吴泽欣

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

SEO教程:搜索引擎优化入门与进阶

SEO教程:搜索引擎优化入门与进阶试读:

前言

随着互联网信息的爆炸性增长,搜索引擎作为信息查询工具得到越来越广泛的应用,其商业价值也随之被发掘,从而产生了竞价排名、关键字广告及搜索引擎优化等网络营销方式。其中,搜索引擎优化作为主要的搜索引擎营销方式,因其具有低成本、高回报等优势而得到广泛的应用。

在国内,搜索引擎优化行业正逐渐进入正规发展的新时期。为了帮助初学者及具有一定经验的读者更系统、更深入地学习搜索引擎优化技术,我将通过本书与广大读者分享从业11年来的经验,深入剖析搜索引擎优化的各个细节,包括关键字策略、URL优化、代码优化、图片优化、网页结构、网站结构、链接策略、搜索引擎优化误区及服务器的选择等。

随着时间的推移,搜索引擎的算法也会不断地完善。因此,在实际操作中我们还可能会遇到各种各样的新问题,这就要求我们要时刻关注搜索引擎的动态,总结实践经验,这样才能实现自我提升,在激烈的竞争中脱颖而出!本书结构

本书章节的顺序是根据网站优化实施的流程及步骤制定的,主要围绕搜索引擎优化的核心基础环节而展开。为了帮助读者更好地理解其中的含义,书中还引用了大量的图文例证。

本书共分为14章。第1章主要介绍SEO的概况;第2章介绍搜索引擎发展的历史、分类及工作原理等;第3~10章详细介绍了搜索引擎优化的每个基础环节及操作技巧;第11章介绍常见的搜索引擎优化作弊方式;第12章介绍几个常用的搜索引擎优化工具及使用方法;第13章和第14章,则以两个网站的优化作为案例,向读者介绍已有网站的优化流程及细节。

第1章 初探SEO

这一章详细介绍了竞价排名、关键字广告、搜索引擎联盟广告及搜索引擎优化这几种目前最主要的搜索引擎营销方式,读者还可从中了解到SEO的发展历史、现状、前景、重要性及主要的工作内容等。

第2章 搜索引擎工作原理

这一章主要介绍搜索引擎的工作原理,从搜索引擎对页面的收录、索引、分析、排序到向用户提供查询服务等多方面进行了详细的说明,这些是学习搜索引擎优化的基础。

●页面抓取:主要介绍搜索引擎抓取页面的流程及方式,以及搜索引擎对已抓取页面的存储及维护方法。

●页面分析:介绍了搜索引擎对网页分析的流程及原理,包括对网页正文信息的提取、切词及建立关键字正反向索引等。

●页面排序:介绍了决定页面排序的三大主要因素,即页面相关性、链接权重及用户行为。

●查询功能:从用户在搜索引擎中发起查询请求开始,到返回相关结果的流程及原理。

第3章 关键字

这一章介绍了与关键字相关的一系列内容,包括关键字词频、关键字密度、辅关键字、关键字在页面中的分布和表现,以及关键字的寻找、评估和筛选等。

本章首先从关键字的词频出发,结合关键字密度说明关键字词频的合理范围;然后,引进辅关键字概念,进一步说明如何利用辅关键字合理增加主关键字的词频,从而提高页面相关性;再介绍关键字在页面中分布的规则;最后,就是关键字的寻找、评估及筛选方法。

第4章 URL优化

这一章是关于URL优化,主要介绍URL各组成部分的命名及组合技巧,包括域名的选择、目录及文件的命名,以及目录名称间、目录名称与文件名称间的组合技巧。而为了实现所谓的动态页面静态化,还介绍了在Apache、IIS等环境下如何进行URL重写。

第5章 代码优化

这一章介绍了代码优化的各个细节,包括精简代码、头部优化(即页面的标题、描述及关键字标签的优化)、CSS优化、JavaScript优化、表格优化、权重标签的使用等。

第6章 图片优化

这一章主要介绍图片优化,包括图片优化的方式、图片压缩的原理,以及两个主要的图片压缩工具Image optimizer和Photoshop。

第7章 网页结构

这一章介绍的是网页结构构建的方法及技巧。首先从HTML源代码及页面布局的角度出发,说明页面重要位置的分布规律;然后,介绍几种常见的网页结构类型及构建方法;最后介绍几种常见页面的优化方法,例如Flash、隐藏层、框架等。

第8章 网站结构

这一章从网站的物理结构及逻辑结构出发,向读者介绍网站结构的构建及优化技巧。

第9章 链接策略

这一章从内部链接及外部链接的角度出发,对链接关系进行了详细的说明。此外,还介绍了几种可以有效增加高质量外部链接的方法。

第10章 服务器的选择

这一章主要介绍从搜索引擎优化的角度怎样选择服务器。

第11章 搜索引擎优化作弊

这一章介绍了几种常见的搜索引擎优化作弊方式,包括内容作弊、镜像网站、门页、伪装、302重定向及链接作弊等。此外,还介绍了网站因违规而遭到惩罚后的处理方法,以及如何举报那些正在使用违规手段操纵排名的网站。

第12章 搜索引擎优化工具

这一章介绍了常用的搜索引擎优化工具,包括关键字查询工具(如百度关键字工具)、Google 管理员工具、百度管理员工具、追词、去查网、Sitemaps生成器及SEO Administrator部分特色功能,覆盖了从关键字寻找、网站监控、链接寻找及维护到排名监控的全过程。

第13章和第14章 案例分析

这两章以作者优化过的网站作为案例,向读者介绍网站优化的全过程及细节。首先,了解网站的基本情况;然后,为网站制定符合实际的关键字策略,并根据制定的关键字策略对网站中的页面进行优化(如头部、主体内容、HTML源代码等);接着想方设法提高网站的的页面收录数,以及增加外部链接;最后,对网站进行日常维护,进一步提高网站的用户体验及搜索引擎友好性。第3版修订说明

本书第1版自2008年12月出版以来,销量理想,成为同类图书中销量最多的作品之一。为了纠正第1、2版中的一些细节错误,以及应对搜索引擎技术的更新和发展,本书对SEO相关内容进行了补充及完善,编写了第3版,新增或者修改内容如下:

●修正第2版里的细节错误;

●搜索引擎特色算法介绍;

●搜索引擎抓取策略补充及完善;

●网页更新策略说明的完善;

●搜索引擎优化作弊新方式的介绍;

●增加百度站长工具、去查、追词等工具的使用说明;

●更新Google管理员工具使用说明。读者对象

阅读本书的读者并不需要具备程序开发的知识,但需具备网页制作的能力,对HTML语言有一定的了解。

●对于搜索引擎优化初学者,可以通过本书了解搜索引擎优化的各个基础环节、实施流程及操作技巧。同时,纠正目前正在或者已经犯下的错误,以及避免将要犯下的不必要的错误。

●对于具备一定搜索引擎优化经验的读者,可以把本书的理论与自己的实践经验相结合,在技术方面实现进一步的突破。

●对于企业营销部门的管理人员,本书可以帮助他们更好地开展搜索引擎营销工作。

●对于网站管理者来说,本书可以帮助他们更好地规划网站,进一步提高网站的用户体验及搜索引擎友好性。这些人包括网站设计制作者、网站站长、网站运营策划者、网站开发者等。

●本书还可以作为各大中院校电子商务或计算机应用等专业的教材,让学生可以掌握一门实用的技能,提高竞争力。第1章初探SEO

进入信息时代,互联网从根本意义上颠覆了传统行业。传统行业从研发、生产到销售,无一不与互联网发生着紧密的联系。特别是在产品销售方面,更是发生了翻天覆地的变化。过去只能摆在货架上销售的产品,如今被搬到互联网上,通过线上、线下相结合来提高产品的销量。与线下销售相比,线上销售具有成本更低、销量更大、不受时间及地域限制等优势。

互联网凭借低成本、高回报的优势以迅雷不及掩耳之势摧毁了一家又一家商店、超市,或者把一家又一家的商店、超市收入麾下。如果你仍固步自封,不思进取的话,那么你的产品或企业将会被淹没在互联网的大潮里!在互联网高速发展的今天,我们要么顺应历史的潮流获得进一步发展的机会;要么被淘汰,别无选择!

本章内容

●网络营销

●搜索引擎营销

●关键字广告

●竞价排名

●搜索引擎联盟广告

●SEO简介1.1网络营销

随着互联网的日益普及,为了通过互联网推广自身的产品或者服务,越来越多的企业建立了网站。然而,建立网站并不意味着企业就能通过互联网向潜在客户推广自身的产品或服务。

网站只是企业展示产品、介绍服务的重要平台之一,相当于一家商店,而网站里的页面就是商店里存放商品的货架。要想让顾客购买你的产品,首先也是最重要的就是要吸引顾客走进这个商店,即访问你的网站,这就涉及网络营销的问题。

网络营销是一种通过互联网推广产品或服务的营销方式,最常见的网络营销方式包括:富媒体广告营销、搜索引擎营销、E-mail营销、效果广告、社会化媒体营销(如论坛营销、SNS)等。其中,搜索引擎营销作为一种精准的网络营销方式,由于具有投入低、回报高的优势而得到广泛的应用。接下来,先向大家简单介绍一下搜索引擎营销及其优缺点。1.2搜索引擎营销

随着互联网信息的爆炸性增长,搜索引擎作为信息查询工具得到越来越广泛的应用。使用搜索引擎寻找信息已经成为人们获取信息最主要、也是最快捷的途径。

由于用户总能在搜索引擎中找到他们所关心的信息,从而对搜索引擎产生了强烈的信任感,搜索引擎巨大的营销价值就蕴藏在用户对搜索结果信任的基础之上。如果商家的网站能在相关搜索结果中出现,那么就可以向目标客户展示他们的产品(或服务)。因为,通过搜索结果访问网站的用户极有可能就是其产品(或服务)的潜在客户。

由此可知,从搜索引擎引导过来的用户对于网站是极其重要的。然而,怎样才能从搜索引擎上引导更多的用户呢?这就是接下来将要介绍的搜索引擎营销方面的内容。

通过搜索引擎平台向潜在客户推销产品或者服务的行为,我们称之为搜索引擎营销,即SEM(Search Engine Marketing)。搜索引擎营销作为重要的网络营销方式之一,有着不可替代的优势。首先,搜索引擎覆盖范围广,是网民使用最频繁的互联网服务之一;其次,针对性强,信息的接收者就极可能是潜在客户。

例如,某个用户在搜索引擎中搜索“网站优化”,则该用户可能是在寻找与网站优化相关的资料或者提供网站优化服务的公司。如果提供网站优化服务的公司能出现在这个搜索结果中,那么就可以向目标客户推广他们的服务了。

由于在搜索引擎中,企业的产品(或服务)只能对寻找特定信息的用户进行展示,从而会错失游离在选择与非选择之间的客户。因此,搜索引擎营销并不适合品牌或产品的大型推广。

目前,最常见的搜索引擎营销方式包括关键字广告、搜索引擎联盟广告(百度联盟广告)及搜索引擎优化。前两种方式以搜索引擎为后盾,占据天时、地利;但搜索引擎优化具有低投入、高产出的独特优势,与它们展开了激烈的竞争,并占据相当重要的地位。

随着越来越多的企业加入搜索引擎广告投放阵地(传统关键字广告及联盟广告),广告的点击价格也随之水涨船高,逐渐失去其投入低、产出高的优势。尽管如此,搜索引擎广告仍然是商家目前首要的广告投放渠道,这与其天生的优势是不可分割的。1.3关键字广告

在搜索结果页面中,搜索引擎除了向用户提供与其查询内容相关的普通信息外,还会在相应的位置上附加与查询内容相关的广告信息。然后,通过统计用户点击广告的次数来收取商家相应的广告费用。在搜索结果页面的广告中,广告质量越高(客户支付的每点击费用越高,广告点击率越大,广告着陆页与关键字相关性越强),排名就越靠前,也就能向越多的潜在用户推销其产品(或服务)。这种购买关键字搜索结果页面中的广告排名位置的方式,我们称之为关键字广告。

在不同的搜索引擎中,广告展示的位置及方式会有所区别。例如,Google的广告位于搜索结果页面的右侧(如图1-1所示),而百度、搜狗则位于自然搜索结果上方及右侧(如图1-2和图1-3所示),最多时会展示10个相关的关键字广告。图1-1 Google广告展示位置图1-2 百度广告展示位置图1-3 搜狗广告展示位置1.4竞价排名

竞价排名就是指以竞价的方式拍卖搜索结果排名的行为。不管网站内容的真实、优劣与否,只要付出足够多的费用,你就可以在任意关键字上取得任意想要的排名。竞价排名是百度以前独有的盈利模式,由于严重影响用户体验,百度目前已经放弃了这种竞价排名的广告方式,转而采取关键字广告的方式。

例如,在“数码相机”的搜索结果中,名列前5位的网站都是通过竞价的方式而得以展示的,这样在搜索结果的第一页就只剩下5个自然排名结果,如图1-4所示。图1-4 百度数码相机搜索结果

关键字广告以搜索引擎为后盾,占据了天时、地利。以关键字广告方式开展搜索引擎营销,费用低,见效快。付款后即可在搜索引擎提供的广告平台上进行关键字广告投放,只要广告内容不违反搜索引擎制定的相关条款,客户又付出足够多的费用,就可以在广告区域上取得较好的排名。

在享受关键字广告给我们带来好处的同时,我们却不能避免其负面影响。

●以关键字广告的方式开展搜索引擎营销,时效是有限的,仅存在于付费推广期间。

●随着参与同一关键字广告投放的网站增多,每一点击所产生的费用也会变得越来越高。例如,在Google页面中,有的关键字每一点击甚至需要几十美元。

●不能避免无效点击。无效点击在业内已经是公开的秘密。目前除了Google能有限地进行监控以外,其他的搜索引擎都束手无策,个别搜索引擎甚至人为操纵点击数据,牟取不义之财。既然,无效点击是不能避免的,那么我们就需要为其付出高昂的代价。产生无效点击的主要原因包括以下两个。

 ○来自竞争对手的恶意点击。对于监控无效点击行为较差的搜索引擎来说,竞争对手的恶意点击所产生的费用是相当惊人的。

 ○广告与自然搜索结果混淆而导致的无效点击。每个搜索引擎都会把竞价排名与自然结果进行区分,但不同的搜索引擎区分的形式存在着明显的差别。例如,在Google中就明显标明是赞助商链接,而在百度中则能以假乱真。1.5搜索引擎联盟广告

搜索引擎联盟广告与普通的网站联盟广告类似,合作网站在自身网站上放置广告代码后即可向网站访问者显示广告主的广告内容,然后通过统计用户的点击(即CPC)、销售(即CPS)、特定行为(即CPA)等方式与广告平台进行费用分成。搜索引擎联盟广告与普通联盟广告最大的区别在于搜索引擎联盟广告基于用户的历史搜索、访问行为而在联盟网站上向特定的用户展示其关注的广告内容(即人群定向,如图1-5所示),精准性是其他联盟广告所不具备的,主要形式有以下几种。

●关键字定位:根据用户的关键字搜索记录向他展示相应的广告内容。例如,我们在投放百度联盟广告时选择了关键字“数码相机”,如果某个搜索过“数码相机”的用户访问了百度联盟的网站,那么我们的广告就会向该用户进行展示。

●主题定位:通过对当前网页主题进行定位,展示与当前网页内容相关的广告。

●到访定向:针对访问过广告主网站(或网站中特定页面)的人群展示相应的广告内容。图1-5 百度联盟推广之人群定向1.6SEO简介

通过关键字广告,很多企业都切身感受到了搜索引擎营销带来的好处,但是其高昂的费用及负面影响又让很多企业望而却步。因此,我们迫切需要另外一种成本更低、回报更高的方式来开展搜索引擎营销,这就是搜索引擎优化(SEO)。但很多人对此了解不多,甚至是一无所知。

例如,我们在百度上搜索“点击成金”,结果排在第一名的是神州培训网,而不是深圳市点击成金科技有限公司的官方网站。如果排在第一名的是一个欺骗性网站,那么就会给这个公司的品牌及形象带来极大的负面影响,如图1-6所示。图1-6 关键字“点击成金”的搜索结果

尽管有的企业已经着手进行网站优化,却知之甚少,闹出了不少笑话。例如,BMW德国网站的无知,金山软件的“憨厚”,均让人哭笑不得。

至此,相信读者对搜索引擎优化的重要性已经有所了解。接下来,将进一步介绍与搜索引擎优化相关的内容。1.6.1 SEO基本概念

SEO是Search Engine Optimization的缩写,中文为搜索引擎优化。根据操作的意图,SEO又被称为“网站优化”或者“搜索引擎最优化”。但这两个概念之间存在着本质的区别。

●网站优化是指在对网站进行调整时,以提高网站的用户体验、完善网站功能为根本出发点,最终提高网站的搜索引擎友好性。

●搜索引擎最优化则恰恰相反,以提高网站的搜索引擎友好性为根本出发点,关键时刻甚至置网站的用户体验及网站功能于不顾。

仅靠上面简单的介绍,可能部分读者对搜索引擎优化的工作性质还不太了解。下面以图书管理为例,介绍一下搜索引擎优化的主要作用及意义。

假设互联网是一个巨大的图书馆,那么搜索引擎就是图书管理员,而用户则是阅览者,一个网站就相当于一本书,搜索引擎优化者就相当于图书的责任编辑,他们在图书出版之前就对图书的内容进行完善,提高图书的可读性。一本图书只有当图书管理员或读者认为它有价值的时候,才会被图书馆收藏并放到相应书架的最佳位置。同样,如果一个网站要想被搜索引擎收录,那么它本身必须具备一定的价值或者得到一部分用户的肯定。

图书管理员对图书的管理行为取决于他的管理水平。首先,图书管理员会根据图书的名称等信息确定图书的类别;然后,再根据图书的简介、目录、内容等判断图书的内在价值;最后,综合出版社、作者知名度等因素决定图书摆放的位置。由于阅览者对书架上每个位置的关注度是不一样的,管理员会把他认为最重要的图书放到书架中最明显的位置。这样,这本图书得到阅览的机会就会大大增加。

其实图书的名称就相当于网站的名称,前言或简介就相当于首页的描述,而出版社或者作者知名度就相当于外部网站对我们网站的认可程度。如果一个网站主题明确、内容丰富、结构合理清晰,并得到大量外部权威网站的认可,那么它就可以得到更多向用户展示的机会。

图书的主题、目录及内容是由作者制定的,经过与责任编缉协商、修改后完成。经过修改后的图书主题更鲜明、目录更清晰、可阅读性更高。搜索引擎优化者也一样,对网站进行综合调整以后,使得网站对于用户及搜索引擎都更加友好,从而提高网站在搜索引擎中的表现。1.6.2 SEO与搜索引擎广告的区别

SEO与搜索引擎关键字广告有着本质的区别,搜索引擎优化是通过对网站进行必要的调整,提高网站的搜索引擎友好性,从而提高网站在某些关键字搜索结果中的排名。要了解SEO技术,我们首先要从了解SEO的历史开始。1.6.3 SEO发展历史

互联网出现的初期,人们要在茫茫的互联网中找到所需的信息就如同大海捞针,直到搜索引擎的出现,这种情况才有所改观。例如,曾经风靡一时的目录式搜索引擎雅虎,它通过人工的方式收集网站信息,再对收集回来的网站进行分类。这样,用户在寻找信息的时候,只要浏览相应的目录或者使用雅虎的目录搜索功能即可,既快捷又准确。

随着使用者的不断增加,雅虎为分类目录下的网站带去的用户越来越多。网站主显然也意识到了这一点,而且,他们还发现在分类页面中排名越靠前的网站得到用户访问的几率就越高。于是,开始对雅虎分类目录页面的排名规则进行研究,并通过相应的调整提高网站在分类页面上的排名,这就是初期的SEO。

由于分类目录的排序规则十分简单,对于网站主来说并没有太大的考验。因此,真正意义上的SEO技术出现在全文搜索引擎被广泛应用以后。大概在20世纪90年代后期,以Google为代表的全文搜索引擎日渐强大,用户数量也逐渐赶超雅虎这样的分类目录。因此,网站主也把战斗阵地从分类目录转移至全文搜索引擎中。然而,全文搜索引擎算法十分复杂,于是这些网站主就聚集起来讨论和研究。这样,SEO技术就在探索中诞生了。

由于经济、文化等各方面的差异,搜索引擎优化技术在国内出现的时间要比国外晚得多,发展也相对缓慢。

大约在2003年左右,国内出现了第一批搜索引擎优化爱好者,他们聚集在少数几个论坛上发表各自的见解,分享搜索引擎优化的经验,但以搜索引擎优化作为职业的人还是屈指可数。

2004年至2005年中,搜索引擎优化技术得到广泛的传播。在这段时间里,不少个人或者公司开始尝试商业化运作,整个行业呈现出一片“繁荣”的景象。但是,由于大部分从员人业的贪婪及无知,整个行业陷入了一片混乱,搜索引擎优化也成为了作弊的代名词。

从2005年下半年开始,由于搜索引擎算法的改进(例如,Google的佛罗里达及阿斯汀更新),搜索引擎优化行业随即掀起一次空前的大洗礼,滥竽充数者在这场竞争中被无情地淘汰,整个行业得到了一定的净化。但经历近两年的摧残,整个行业已经伤痕累累!

2005年下半年至2006年相对平静,整个行业在一定程度上得到了休养生息,从而渐渐恢复该有的生机,搜索引擎优化也渐渐地得到了更多人的认可。

2007年至2008年,“黑帽SEO”手法层出不穷,整个行业随即又陷入了一片混乱,但由于搜索引擎算法已经相当完善,尽管受到“黑帽SEO”的困扰,但没有出现像2005年那样的惨况。

自2009年开始,搜索引擎优化行业开始慢慢地朝着正规化、规模化的方向发展,涌现出不少实力强大的服务提供商,更多的人开始正确地认识和对待SEO。

2013年,随着搜索引擎技术的不断改进与完善,过去所谓的优化方法或手段已不大奏效,甚至被列为违规。因此,SEO逐渐回归本质,即以提高网站的用户体验为基础,最终达到提高网站搜索引擎友好性的目的。1.6.4 SEO优缺点

SEO能在与关键字广告的竞争中脱颖而出,受到广大客户的追捧,必定有其魅力所在。作为主要的搜索引擎营销方式,SEO除了具备搜索引擎营销的优点外,还有以下独特的优势。

●成本较低。从某个角度上看,SEO是一种“免费”的搜索引擎营销方式。对于个人网站来说,只要站长掌握一定的搜索引擎优化技术即可。而对于企业来说,成本主要来自从事搜索引优化员工的薪酬或雇用专业搜索引擎优化公司所花的费用。

●持久性。一般情况下,采用正规方法进行优化的网站,排名效果会比较稳定。除非搜索引擎算法发生重大改变或者强大的竞争对手后来居上,否则不会有太大的变化。

●不需要承担无效点击的风险。不管点击网站的是潜在客户还是竞争对手,我们都无需为此而付出任何代价。

尽管搜索引擎优化具备这么多的优势,但它毕竟是依附搜索引擎生存的,因此也会存在一些不可克服的缺点,主要表现在以下几个方面。

●施工时间长。从开始对网站进行优化到实现关键字的目标排名,一般需要2~6个月。对于竞争十分激烈的关键字,还可能需要一年甚至更长的时间(网站优化时间的长短主要取决于所选择的关键字的竞争激烈程度、优化者水平及搜索引擎等一些不确定的因素)。

●不确定性。搜索引擎优化人员并不是搜索引擎的开发者,与搜索引擎也没有什么密切关系,所以,并不能向任何人保证在指定时间内,实现某一关键字的指定排名。

●被动性。搜索引擎会不定期改进算法(甚至为了自身利益而对某些网站或者行业进行人为干预,以迫使这些用户投放关键字广告),这就要求我们要对网站进行及时调整以迎合新算法,这样才能长久享受搜索引擎带来的好处。1.6.5 SEO应用领域

1.企业网站

企业网站通过优化以后,可以大大增加了向目标客户展示产品或者服务的机会,从而提高企业的影响力,提升品牌的知名度。例如,某个生产手机的企业,如果用户在搜索“手机”的时候,该企业的网站能够出现在前几位,那么就可以得到更多用户的点击,而这些用户可能是竞争对手、潜在客户或者相关信息需求者。

2.电子商务型网站

电子商务型网站经过优化后可以通过搜索引擎向更多的潜在消费者推销自身的产品,从而节省巨额的广告费用,提高产品销量。

3.内容型网站

资讯内容型网站经过优化后,可以大大提高网站的流量,从而进一步蚕食强者的市场,最终后来居上,成为行业的领先者。1.6.6 SEO主要工作

SEO的主要工作分为内部优化及外部优化,如图1-7所示。从网站内部出发,对网站的基本要素(例如,网站结构、页面结构、关键字分布等)进行适当的调整;如果经过调整,网站在搜索引擎中的表现达到了我们的预期效果,则内部优化工作就基本完成;否则,我们还需要反复地对网站进行调整,直至达到预期效果为止。图1-7 网站优化流程

外部优化工作主要是围绕增强外部链接关系而展开的,这项工作必须贯彻优化的全过程,例如,交换友情链接、登录分类目录等。1.6.7 SEO宗旨

SEO工作应该以用户为中心,围绕提高用户体验、完善网站功能而展开,不能为了优化而优化。

你对网站调整是否只是为了优化而优化呢?反问一下自己:如果不是为了搜索引擎,我会这样做吗?这样做能给用户带来什么好处吗?这样做会影响用户体验吗?1.6.8 SEO职业道德

从事搜索引擎优化的人员是否具备良好的职业道德是决定网站优化成败的关键因素之一。在对网站进行优化的时候,应该以满足用户需求为根本出发点,不做任何欺骗搜索引擎的行为,这样才有机会长期享受搜索引擎带来的好处。第2章搜索引擎工作原理

本章主要介绍搜索引擎的工作流程及原理,覆盖了从搜索引擎对页面的收录、索引、分析、排序到关键字查询的全过程。此外,还讲述了搜索引擎各主要工作与搜索引擎优化之间的对应关系,为学习搜索引擎优化提供了理论根据。

本章内容

●搜索引擎发展历史

●搜索引擎分类

●搜索引擎工作原理

●搜索引擎特色算法

●搜索引擎介绍2.1搜索引擎发展历史

随着互联网信息的爆炸性增长,用户想要在互联网中寻找到所需信息就如同大海捞针,这时,为满足大众信息检索需求的专业搜索引擎应运而生。

现实意义上的搜索引擎是1990年由蒙特利尔大学学生Alan Emtage开发的Archie。虽然当时World Wide Web还未出现,但网络中文件传输已经相当频繁,而且由于大量的文件散布在各个不同的FTP服务器中,形成了巨量的信息源。Alan的Archie依靠脚本程序搜索网络上的文件,再对其进行索引,供使用者查询。由于Archie深受用户欢迎,受其启发,美国内华达高教系统计算服务中心于1993年开发了另一个类似的搜索工具,该搜索工具除了能索引文件外,还能检索网页。

当时,“机器人”一词十分流行,“机器人”是指快速不间断地执行某项任务的程序。由于专门用于检索信息的机器人程序像蜘蛛一样在网络间爬来爬去,因此,搜索引擎机器人程序也被称为蜘蛛程序。世界上第一个监测互联网发展规模的机器人程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用于统计互联网上服务器的数量,后来发展成为能够检索网站域名。与Wanderer相对应,Martin Koster于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用机器人程序,而是靠网站主动提交信息来建立自己的链接索引,类似雅虎分类目录。

随着互联网的快速发展,检索新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,将传统的蜘蛛程序作了改进。其设想是,既然所有网页都可能存在指向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide Web Worm(Goto的前身,也就是今天Overture,已被雅虎收购),和Repository-Based Software Engineering (RBSE) spider最负盛名。然而JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的搜索引擎。现代意义上的搜索引擎最早出现于1994年7月。当时,Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福大学的两名博士生,David Filo和美籍华人杨致远(Jerry Yang)共同创办了超级目录索引雅虎,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展的时期。目前,互联网上有名有姓的搜索引擎已达数百家,其检索的信息量也今非昔比。例如,Google号称数据库中存放的网页已达40亿!2.2搜索引擎分类

搜索引擎按照工作方式可以分为三类,分别是全文搜索引擎、目录索引类搜索引擎及元搜索引擎。2.2.1 全文搜索引擎

全文搜索引擎是名副其实的搜索引擎,国外具代表性的全文搜索引擎有Google、雅虎,而国内比较著名的全文搜索引擎有百度等。它们都通过从互联网上提取各网站的信息(以网页文字为主)建立数据库,再从这个数据库中检索与用户查询条件相匹配的相关记录,最后把这些记录按照一定的排列顺序返回给用户。

从搜索结果来源的角度,全文搜索引擎拥有自己的检索程序(Indexer),俗称蜘蛛程序或机器人程序,并自行建立网页数据库,搜索结果就直接从自身的数据库中调用。2.2.2 目录搜索引擎

目录搜索引擎虽然具备搜索功能,但严格地说并不是搜索引擎,仅仅是按照类别向用户展示相关网站列表的普通网站而已。目录搜索引擎中最具代表性的要数雅虎了(雅虎通过一轮番的并购及研发,已经跻身顶尖全文搜索引擎行列),其他还有ODP(即DMOZ)等。2.2.3 元搜索引擎

元搜索引擎在接受用户查询请求的时候,会同时在其他多个搜索引擎上进行搜索,并将结果返回给用户,著名的元搜索引擎有Dogpile、Vivisimo等。在搜索结果排列方面,有的直接按照来源排列搜索结果,例如Dogpile;有的则按照自定的规则将结果重新排列组合后再返回给用户,例如Vivisimo。

除上述三大类搜索引擎以外,还有以下两种非主流形式的搜索引擎。

●集合式搜索引擎。这一类搜索引擎与元搜索引擎类似,但区别在于不是同时调用多个搜索引擎进行搜索,而只是让用户从提供的搜索引擎中进行选择,例如,HotBot在2002年年底推出的搜索引擎。

●免费链接列表(Free For All Links,FFA)。也就是常见的链接交换系统,这类网站一般只简单地排列出网站的链接条目,少部分还会有简单的分类目录,不过规模比起雅虎这样的人工分类目录要小得多。2.3搜索引擎工作原理

搜索引擎优化的一个主要任务就是提高网站的搜索引擎友好性,因此,搜索引擎优化的每个环节都会与搜索引擎工作流程存在必然的联系,研究搜索引擎优化实际上就是对搜索引擎工作过程进行逆向推理。因此,学习搜索引擎优化应该从了解搜索引擎的工作原理开始。

搜索引擎的主要工作包括:页面抓取、页面分析、页面排序及关键字查询。

●页面抓取:就是指搜索引擎通过蜘蛛程序在互联网上抓取页面并进行存储的过程,为搜索引擎开展各项工作提供了数据支持。

●页面分析:主要是指对抓取回来的网页进行信息提取处理,包括提取页面的正文信息,并对正文信息进行分词等,为后续建立关键字索引及关键字倒排索引提供基础数据。

●页面排序:搜索引擎结合页面的内外部因素计算出页面与某个关键字的相关程度,从而得到与该关键字相关的页面排序列表。

●关键字查询:搜索引擎接收来自用户的查询请求,并对查询信息进行切词及匹配,再向用户返回相应的页面排序列表。

本章接下来将向读者介绍搜索引擎各个主要工作的流程、原理及作用,以及在对网站进行优化时应该如何应对。2.3.1 搜索引擎抓取策略

搜索引擎对网页的抓取实际上就是在互联网上进行数据采集,这是搜索引擎最基础的工作。搜索引擎的数据采集能力直接决定了搜索引擎可提供的信息量及对互联网覆盖的范围,从而影响搜索引擎查询结果的质量。因此,搜索引擎总是想方设法地提高它的数据采集能力。

本节首先会介绍搜索引擎抓取页面的流程及方式,再介绍搜索引擎对已抓取页面的存储及维护方式。

1.页面抓取流程

在互联网中,URL是每个页面的入口地址,搜索引擎蜘蛛程序就是通过URL抓取到页面的。搜索引擎蜘蛛程序从原始URL列表出发,通过URL抓取并存储原始页面;同时,提取原始页面中的URL资源并加入到URL列表中。如此不断地循环,就可以从互联网中获取到足够多的页面,如图2-1所示。图2-1 搜索引擎抓取页面简单流程

URL是页面的入口,而域名则是一个网站的入口。搜索引擎蜘蛛程序通过域名进入网站,从而展开对网站页面的抓取。换言之,搜索引擎要在互联网上抓取到页面的首要任务就是建立一个足够大的原始域名列表,再通过域名进入相应的网站,从而抓取这个网站中的页面。

而对于网站来说,如果想要被搜索引擎收录,首要的条件就是加入搜索引擎的域名列表。下面向大家介绍两种常用的加入搜索引擎域名列表的方法。

第一,利用搜索引擎提供的网站登录入口,向搜索引擎提交网站的域名。例如,Google的网站登录地址是http://www.google.com/addurl/。对于提交的域名列表,搜索引擎只会定期进行更新。因此,这种做法比较被动,从域名提交到网站被收录花费的时间也比较长。以下是主流中文搜索引擎的网站提交入口。

●百度:http://www.baidu.com/search/url_submit.htm。

●360:http://info.so.360.cn/site_submit.html。

●搜狗:http://www.sogou.com/feedback/urlfeedback.php。

●Google:http://www.google.com/addurl/(需要注册使开通站长工具才能提交)。

第二,通过与外部网站建立链接关系,使搜索引擎可以通过外部网站发现我们的网站,从而实现对网站的收录。这种做法主动权掌握在我们自己的手里(只要我们拥有足够多高质量的链接即可),而且收录速度也比向搜索引擎主动提交要快得多。视乎外部链接的数量、质量及相关性,一般情况下,2~7天左右就会被搜索引擎收录。

2.页面抓取

通过上面的介绍,相信读者已经掌握了加快网站被搜索引擎收录的方法。然而,怎样才能提高网站中页面被收录的数量呢?这就要从了解搜索引擎收录页面的工作原理开始。

如果把网站页面组成的集合看作是一个有向图,从指定的页面出发,沿着页面中的链接,按照某种特定的策略对网站中的页面进行遍历。不停地从URL列表中移出已经访问过的URL,并存储原始页面,同时提取原始页面中的URL信息;再将URL分为域名及内部URL两大类,同时判断URL是否被访问过,将未被访问过的URL加入URL列表中。递归地扫描URL列表,直至耗尽所有URL资源为止。经过这些工作,搜索引擎就可以建立庞大的域名列表、页面URL列表及存储足够多的原始页面。

3.页面抓取方式

通过以上内容,大家已经了解了搜索引擎抓取页面的流程及原理。然而,在互联网数以亿计的页面中,搜索引擎怎样才能从中抓取到更多相对重要的页面呢?这就涉及搜索引擎的页面抓取方式问题。

页面抓取方式是指搜索引擎抓取页面时所使用的策略,目的是为了能在互联网中筛选出更多相对重要的信息。页面抓取方式的制定取决于搜索引擎对网站结构的理解。如果使用相同的抓取策略,搜索引擎在同样的时间内可以在某一网站中抓取到更多的页面资源,则会在该网站上停留更长的时间,抓取的页面数自然也就更多。因此,加深对搜索引擎页面抓取方式的认识,有利于为网站建立友好的结构,增加页面被抓取的数量。

常见的搜索引擎抓取页面的方式主要有广度优先、深度优先、大站优先、高权重优先、暗网抓取及用户提交等,接下来将详细介绍这几种页面抓取方式及其优缺点。

●广度优先

如果把整个网站看作是一棵树,首页就是根,每个页面就是叶子。广度优先是一种横向的页面抓取方式,先从树的较浅层开始抓取页面,直至抓取完同一层次上的所有页面后才进入下一层。因此,在对网站进行优化的时候,我们应该把网站中相对重要的信息展示在层次较浅的页面上(例如,在首页上推荐一些热门产品或者内容)。因此,通过广度优先的抓取方式,搜索引擎就可以优先抓取到网站中相对重要的页面。

我们来看一下广度优先的抓取流程。首先,搜索引擎从网站的首页出发,抓取首页上所有链接指向的页面,形成页面集合(A),并解析出集合(A)中所有页面的链接;再跟踪这些链接抓取下一层的页面,形成页面集合(B)。就这样递归地从浅层页面中解析出链接,从而抓取深层页面,直至满足了某个设定的条件后才停止抓取进程,如图2-2所示。图2-2 广度优先抓取流程

●深度优先

与广度优先的抓取方式恰恰相反,深度优先是一种纵向的页面抓取方式,首先跟踪的是浅层页面中的某一个链接,从而逐步抓取深层次页面,直至抓取完最深层次的页面后才返回浅层页面继续向深层页面抓取。使用深度优先的抓取方式,搜索引擎可以抓取到网站中比较隐蔽、冷门的页面,这样才能满足更多用户的需求。

我们来看一下深度优先的抓取流程。首先,搜索引擎会抓取网站的首页,并提取首页中的链接;再沿着其中的一个链接抓取到页面1-1,同时提取其中的链接;接着,沿着页面1-1中的一个链接A-1抓取到页面2-1,同时提取其中的链接;再沿着页面2-1中的一个链接B-1继续抓取更深一层的页面。这样递归地执行,直至抓取到网站最深层的页面或者满足了某个设定的条件才转回到首页继续抓取,如图2-3所示。图2-3 深度优先抓取流程

●大站优先

由于大型网站比小型网站更有可能提供更多更有价值的内容,因此,如果搜索引擎优先抓取大型网站中的网页,那么就可以在更短的时间内为用户提供更有价值的信息。大站优先,顾名思义就是对互联网中大型网站的页面进行优先抓取,是搜索引擎中的一种信息抓取策略。

怎样识别所谓的大型网站呢?一是前期人工整理大站种子资源,通过大站发现其他的大站;二是对已经索引的网站进行系统的分析,从而识别那些内容丰富、规模较大、信息更新频繁的网站。

在完成大站识别后,搜索引擎就会对URL资源列表中大站的页面进行优先抓取。这也是为什么大型网站往往会比小站内容抓取更及时的原因之一。

●高权重优先

权重,简单地说就是搜索引擎对网页重要性的一种评定。所谓的重要性归根到底就是网站或者网页的信息价值。

高权重优先是对URL资源列表中的高权重网页进行优先抓取的网页抓取策略。网页权重(如Google PageRank值)高低往往是由诸多因素决定的,例如,网页的外部链接数量及质量。如果下载一个URL就重新计算所有已下载URL资源的权重值,这样的效率是极其低下的,显然是不现实的。所以,搜索引擎会倾向于每下载若干URL资源后就对已下载的URL进行权重计算(即不完全的权重计算),以此来确定这些URL资源所对应页面的权重值,从而对较高权重值的网页进行优先抓取。

由于权重计算是基于部分数据而得出的结果,可能会与真实权重有较大出入(即失真)。因此,这种高权重优先的抓取策略也有可能会对次要页面进行优先抓取。

●暗网抓取

暗网(又称作深网、不可见网、隐藏网)是指那些存储在网络数据库里、不能通过超链接访问而需要通过动态网页技术或者人工发起查询访问的资源集合,不属于那些可以被标准搜索引擎索引的信息。

1.查询组合

暗网数据普遍存在于大型网站中,最常见的表现形式就是网站的搜索功能(包括组合条件查询及文本检索)。例如,旅游网站的机票数据,由于数据量极其巨大,通过链接的方式显示所有的机票信息是不现实的。因此,该类网站通常会提供相应的搜索功能供用户使用,以便用户能够快速检索个人化的需求信息。图2-4是某旅游垂直网站的机票搜索功能,用户可以通过航程类型、出发城市、到达城市、出发时间及返回时间等多条件组合来检索机票信息。图2-4 机票搜索工具

在互联网上,暗网数据量是极其巨大的,但不是所有的暗网数据都是有价值的,这就要求搜索引擎需要有特殊的蜘蛛程序对这些暗网数据进行挖掘及识别。

例如,图2-5所示是某人才网的高级搜索功能,至少包含了8个查询条件,如果搜索引擎将每一个条件组成不同的查询组合提交给网站,这样不但会给网站的服务器带来极大的压力,而且对于蜘蛛程序来说也是一个灾难(暂且不论每种条件组合的查询条件得到的查询结果能得到有价值的信息)。图2-5 职位搜索工具1

因此,搜索引擎通常只会对有可能返回有价值信息的查询条件进行组合。如图 2-6所示,对于一些主要的条件如行业分类、职位分类、工作地点进行组合查询即可找到该站的有价值信息。图2-6 职位搜索工具2

2.文本检索

对于大多数网站而言,文本检索(即站内搜索)是最常见的搜索功能。因此,文本检索也是最常见的暗网数据获取方式之一。图2-7所示为当当网的站内搜索功能,搜索引擎通过人工整理一些种子关键字,向目标网站提交进行查询,除了抓取查询结果页面外,还会从已抓取回来的页面中提取出新的关键字,进而形成新的待查询关键字列表。图2-7 当当网搜索栏

●用户提交

为了抓取更多的网页,搜索引擎还允许网站管理员主动提交页面(如Sitemap方式提交)。网站管理员只需把网站中页面的URL按照指定的格式制作成文件,提交给搜索引擎,搜索引擎就可以通过该文件对网站中的页面进行抓取及更新。

这种由网站管理员主动提交页面的方式大大提高了搜索引擎抓取页面的效率,也大大增加了网站页面被抓取的数量(目前主流的搜索引擎都支持这种页面抓取方式,如Google、百度及搜狗等)。

说明 为了提高抓取页面的效率及质量,搜索引擎会结合多种策略去抓取页面。例如,先使用广度优先的方式,把抓取范围铺得尽可能宽,获取尽可能多的重要页面;再使用深度优先的方式,抓取更多隐蔽的页面;最后,结合暗网抓取、用户提交等方式抓取那些被遗漏的页面。

4.如何避免重复性抓取

在互联网中,信息重复是在所难免的。然而,搜索引擎是怎样识别重复信息的呢?怎样判断哪些网页的信息是原创的,哪些是复制的?又会认为哪些重复的信息是有价值的,哪些是可以舍弃的?本节将会给出这些问题的答案。

网站中的重复信息主要包括转载内容及镜像内容两大类。搜索引擎在对页面进行分析的时候,必须具备识别重复信息的能力。因为大量的重复信息不但占用巨大的服务器硬盘空间,而且还会增加用户寻找信息的时间,降低用户体验。但这并不意味着所有重复信息都是没价值的,搜索引擎认为转载内容不如原创内容重要,赋予原创内容页面更高的权重,而镜像内容则几乎忽略。

●转载页面

转载页面是指那些与原创页面正文内容相同或相近的页面。然而,搜索引擎如何识别转载页面呢?首先,它把网页正文内容分成N个区域并进行比较,如果其中有M个区域(M是搜索引擎指定的一个阈值)是相同或者相似的,则认为这些页面互为转载页面。

如图2-8所示,页面1与页面2是不同网站上的两个页面。其中,框中的A、B分别是两个不同页面上的正文内容。为了识别这两个页面是否互为转载页面,搜索引擎先把这两个页面的正文内容分成4个区域进行比较。假设这4个区域中有3个是完全相同或者相似的,那么就认为这两个页面是互为转载的。图2-8 页面正文内容对比

在确定页面的互为转载关系后,接下来,搜索引擎再结合页面的最后修改时间(搜索引擎在抓取页面时已经存储的附加信息,详见后面“页面存储”的内容)、页面权重等因素判断原创页面与转载页面。

●镜像页面

内容完全相同的页面互为镜像页面。要判断页面是否互为镜像页面,搜索引擎首先把这些页面分成N个区域进行比较,如果这N个区域的内容完全一样,则认为这些页面互为镜像页面。然后,再综合多项因素(例如页面权重值、页面最后修改时间等)来识别哪个是源页面,哪个是镜像页面。

如图2-9所示,页面1及页面2是不同网站上的两个页面。把这两个页面分成三个区域(即A-1、A-2、A-3与B-1、B-2、B-3)进行比较,如果这三个区域内容完全一样,则认为这两个网页互为镜像页面。图2-9 页面对比

●镜像网站

狭义上的镜像网站是指内容完全相同的网站,形成镜像网站主要有两种情况:第一种是多个域名或IP指向同一服务器的同一个物理目录;另外一种是整个网站内容被复制到使用不同域名或者不同IP的服务器上。

为了识别站点间是否互为镜像网站,搜索引擎首先判断这些网站的首页以及与首页直接链接的页面是否互为镜像页面。如果是,则互为镜像网站。然后,再综合多项因素(例如网站权重值、建立时间等)来识别哪个是源网站,哪个是镜像网站。这样,以后抓取页面的时候就集中在源网站中进行,这也是为什么搜索引擎对于镜像网站只抓取极少页面甚至是不抓取的原因。

5.网页更新策略

由于搜索引擎不可能一次性抓取到网站中所有的页面,而且网站中页面的数量也会不断地变化,内容也在不断地更新,因此,搜索引擎还需要对已经抓取的页面进行维护、更新,以便能及时获取页面中最新的信息,抓取更多的新页面。常见页面维护方式包括:定期抓取、增量抓取、分类定位抓取、历史更新策略及用户体验策略。

●定期抓取

定期抓取也称为周期性抓取,即搜索引擎周期性地对网站中已经抓取的页面进行全面更新。更新的时候,把抓取到的新页面替换原有的旧页面,删除不存在的页面,并存储新发现的页面。周期性更新针对的是全部已抓取的页面,因此更新周期会比较长。例如,Google一般是30~60天才会对已抓取的页面进行更新。

定期抓取算法的实现相对简单。由于每次更新涉及到网站中所有已经抓取的页面,因此页面权重的再分配也是同步进行的。这适用于维护页面比较少、内容更新缓慢的网站,例如普通的企业网站。但是,由于更新周期十分漫长,就不能及时向用户反映更新期间页面的变化情况。例如,某个页面的内容更新以后,至少需要30~60天才能在搜索引擎上有所体现。

●增量抓取

增量抓取是通过对已抓取的页面进行定时监控,实现对页面的更新及维护。但是,对网站中的每个页面都进行定时监控是不现实的。基于重要页面携带重要内容的思想以及80/20法则,搜索引擎只需对网站中部分重要页面进行定时的监控,即可获取网站中相对重要的信息。

因此,增量抓取只针对网站中某些重要的页面,而非所有已经抓取的页面,这也是为什么搜索引擎对重要页面的更新周期会更短的原因。例如,内容经常更新的页面,搜索引擎也会经常对其进行更新,从而可以及时发现新内容、新链接,并删除不存在的信息。

由于增量抓取是在原有页面的基础上进行的,因此会大大缩减搜索引擎的抓取时间,还可以及时向用户展示页面中最新的内容。

●分类定位抓取

与增量抓取由页面重要性决定不同,分类定位抓取是指根据页面的类别或性质而制定相应更新周期的页面监控方式。例如,新闻资讯类页面的更新周期可以精确到每分钟,而下载类页面的更新周期就可以定为一天或更长。

分类定位抓取对不同类别的页面进行分开处理,这样就可以节省大量的抓取时间,并大大提高页面内容的实时性,增强页面抓取的灵活性。但是,按照类别制定页面更新周期的方式比较笼统,很难跟踪页面的更新情况。因为即使是相同类别的页面,在不同的网站上内容的更新周期也会存在很大的差别。例如新闻类页面,在大型门户网站中内容的更新速度就会比其他小型网站快得多。所以,还需要结合其他的方式(例如增量抓取等)对页面进行监控和更新。

实际上,搜索引擎对网站中页面的维护也是结合多种方式进行的,相当于间接为每一个页面选择最合适的维护方式。这样,既可以减少搜索引擎的负担,又可以为用户提供及时的信息。

例如,一个网站中会存在多种不同性质的页面,常见的包括:首页、论坛页面、内容页面等。对于更新比较频繁的页面(例如首页),可以使用增量抓取方式对其进行监控,这样就可以对网站中相对重要的页面进行及时更新;而对于实时性非常高的论坛页面,则可以采用分类定位的抓取方式;为了防止遗漏网站中的某些页面,还需要采用定期抓取的方式。

●历史更新频率策略

历史更新频率策略基于这样一种思想:某个网页在过去某段时间内频繁更新,那么在将来的某个时间里也可能会频繁更新。例如,对于某网站的首页,通过对它进行的监控可以分析出它的内容更新规律,搜索引擎就可以据此调整对它的抓取频率及时间点,从而及时获得网页中的最新内容。

●用户体验策略

所谓的用户体验策略是指为了提高搜索引擎用户体验而制定的针对性的网页更新策略。衡量搜索引擎用户体验有众多指标,而网页更新的及时性是其中一项重要因素。

对于搜索引擎中的关键字搜索结果,用户通常只会点击排名前30的网页。因此,只要及时更新排名前30的网页,即可节省搜索引擎的资源,提高重要网页的更新频率,也可满足绝大部分用户获取信息的需求。

6.页面存储

通过以上内容,我们已经知道了搜索引擎对页面的抓取及维护方式,接着,我们还要了解一下搜索引擎在抓取页面后,需要存储哪些信息才能满足接下来的工作对数据的需求。

页面是搜索引擎对网站进行信息处理的基础,搜索引擎大部分工作都是在页面上开展的。但是,仅仅依靠页面中的内容并不能满足搜索引擎对数据处理的需求。搜索引擎能否在抓取页面的过程中获取到更多、更有价值的信息会直接影响搜索引擎的工作效率及排序结果的质量。所以,搜索引擎在抓取页面时,除了存储原始页面外,还会附加一系列的信息(例如,文件类型、文件大小、最后修改时间、URL、IP地址、抓取时间等),再把这些信息作为开展某项工作的依据。例如,如果某个文件过大,就可能会被搜索引擎放弃索引;而最后修改时间则暗示了页面更新的日期等。2.3.2 页面分析

页面抓取只是搜索引擎工作的一个基础环节,页面抓取回来后并不代表搜索引擎马上就可以向终端用户提供查询服务。因为用户在使用搜索引擎进行查询的时候,使用的是一个词或者短语,而到目前为止,搜索引擎仅能提供整个原始页面,不能返回与用户查询条件相匹配的信息。因此,搜索引擎还需要对原始页面进行一系列的分析和处理,以迎合用户信息查询的习惯。

如图2-10所示,搜索引擎首先对存储的原始页面建立索引,再过滤原始网页的标签信息,从中提取出网页中的正文信息;然后,对正文信息进行切词,并建立关键字索引,得到页面与关键字间的对应关系;最后,对所有关键字进行重组,从而建立关键字与页面之间的对应关系。图2-10 网页分析、处理流程

1.网页索引

为了提高页面检索的效率,搜索引擎需要对抓取回来的原始页面建立索引,由于URL就是页面的入口地址,为原始页面建立索引实际上就是为页面的URL建立索引,这样就可以实现根据URL快速定位到对应的页面。

2.网页分析

网页分析是整个网页处理中最重要的环节,包括网页正文信息的提取(即标签信息过滤)、切词、建立关键字索引列表及关键字重组这几个重要的步骤。结果形成了一个关键字对应多个原始页面的关系,即形成了与用户查询习惯相符合的信息雏形。

●正文信息提取

网页正文信息的提取实际上就是对网页中非正文信息的过滤。其中,最为重要的就是对网页中标签信息(例如,HTML标签、JavaScript标签、PHP标签)的过滤。经过标签过滤以后,搜索引擎就可以得到网页的正文信息。

●切词/分词

经过对原始页面提取正文信息后,搜索引擎就可以得到页面的实质内容。而为了得到与用户查询相关的数据,搜索引擎还需要对页面中的内容进行切分(也就是我们常说的切词或者分词),从而形成与用户查询条件相匹配的以关键字为单位的信息列表。

每个搜索引擎的切词系统都会存在或多或少的差别,切词系统的优劣主要取决于开发者对语言的理解能力。特别是在中文语言环境里,切词算法直接影响网页内容经过切词处理后会产生什么样的关键字,这些关键字是否与用户的搜索习惯一致。因而,切词的结果直接决定搜索引擎能否提供与用户查询条件相匹配的信息。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载