SEO搜索引擎优化:基础、案例与实战(第2版)(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-14 04:07:52

点击下载

作者:杨韧 肖凯 俞洋洋

出版社:人民邮电出版社有限公司

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

SEO搜索引擎优化:基础、案例与实战(第2版)

SEO搜索引擎优化:基础、案例与实战(第2版)试读:

前言

PREFACE

随着我国互联网技术的飞速发展,越来越多的企业开始利用互联网开展营销。搜索引擎营销是网络营销的一部分,企业可以通过搜索引擎将网站中的营销信息传递给用户。而要提高搜索引擎的营销效果,企业就必须对搜索引擎进行优化,即SEO。只有这样才能吸引更多的用户浏览网站,才能够使更多的用户进一步了解企业的产品,并进行咨询,最终达成交易。

为了让读者更好地了解和掌握SEO,我们曾编写了《SEO搜索引擎优化:基础、案例与实战》一书。该书自出版以来,得到了很多老师和读者的好评。但随着搜索引擎的不断发展以及排名算法的不断更新,SEO的手法也在不断发生变化。为了让广大读者更好地了解这些变化,并能将新手法和新思维运用到网站的SEO中,从而帮助读者更好地学习和掌握SEO的方法和技巧,我们在第1版的基础上,对一些内容进行了更新和调整,并增加了本章实训和课后练习板块。

※本书特色

在对众多本科院校、职业院校目前教学方式、教学内容等方面进行调研的基础上,我们有针对性地设计并编写了本书。本书特色介绍如下。

专业讲解:电子商务数据分析内容繁杂,很难厘清体系,但本书从初学者的角度出发,不仅注重理论性,更重视实用性和操作性,将难以理解的数据分析通过专业的体系结构划分和讲解,变成能够轻松阅读和上手操作的内容。

专家指导:为了帮助读者解决在学习过程中可能遇到的难点和疑点,本书设计了“专家指导”板块。该板块可以拓展相应的知识,让读者学得更多、更深。

※本书内容

本书旨在帮助读者了解SEO的基础知识,掌握网站的各种优化方法,掌握利用常见的SEO工具获取数据并进行分析的方法,掌握移动网站的SEO方法。全书共分为11章,全面且系统地对SEO进行了介绍,各章内容分别如下。

第1章:主要介绍SEO的基础知识,包括认识SEO、SEO与SEM的区别和联系等内容。

第2章:主要介绍搜索引擎的相关知识,包括认识搜索引擎、搜索引擎的工作原理和搜索引擎的使用方法等内容。

第3章:主要介绍SEO的前期准备工作,包括SEO项目分析、选择网站域名、选择网站服务器和选择网站系统等内容。

第4章:主要介绍网站关键词的优化,包括认识关键词、关键词的优化策略和关键词的优化效果评估等内容。

第5章:主要介绍网站结构的优化,包括搜索引擎友好的网站设计、网站物理结构的类型及优化、网站链接结构优化、避免“蜘蛛陷阱”、限定抓取范围、设置网站地图、URL优化和404页面等内容。

第6章:主要介绍网站页面的优化,包括网页的基础知识、网页标题优化、Meta标签优化、图片优化、H标签优化和网页代码优化等内容。

第7章:主要介绍网站内容的优化,包括SEO指导下的网站内容建设、网站内容标题的撰写、网站内容正文的撰写和网站内容的更新等内容。

第8章:主要介绍网站链接的优化,包括链接的基础知识、内部链接的优化、外部链接的优化、添加友情链接和处理死链接等内容。

第9章:主要介绍常用SEO工具的使用方法,包括SEO综合查询工具、百度统计和百度指数等的使用方法。

第10章:主要介绍数据监测与分析的知识,包括监测与分析网站流量、监测与分析用户访问数据、分析网站日志、统计与分析关键词排名等内容。

第11章:主要介绍移动网站的SEO,包括移动端网页的发展趋势、移动端网页的版式设计和移动网站的优化等内容。

※本书资源

本书为涉及的部分操作提供了二维码,读者只需使用手机扫描二维码即可观看详细视频讲解。同时,读者还可以访问人民邮电出版社人邮教育社区(http://www.ryjiaoyu.com/),搜索书名并下载相关资源。

※作者团队

本书由杨韧、肖凯、俞洋洋任主编,翟玉新、于哲、杨涛任副主编。

尽管编者在本书的编写与出版过程中精益求精,但由于水平有限,书中难免有疏漏和不足之处,敬请广大读者批评指正。编者2019年9月

第1章 SEO概述

【本章导读】

为什么网站要进行SEO?网上相关数据调查显示,80%的用户把搜索引擎作为在互联网上获取信息的主要方式。企业通过对网站进行SEO,使其网站排名更靠前,这就意味着企业抢占了互联网流量的制高点。简而言之,SEO是企业网站推广方式中低成本、有效和持久的方式。

本章将详细讲解SEO的基础知识,首先介绍SEO的定义,然后介绍适合学习SEO的群体,最后讲解SEO与SEM的区别和联系。【学习目标】

│熟悉SEO的定义

│熟悉适合学习SEO的群体

│掌握SEO的常用专业术语

│掌握SEO的基本步骤

│了解SEM的定义

│熟悉SEO与SEM的区别和联系

1.1 认识SEO

互联网时代,用户面对海量的信息常常无从选择,而搜索引擎这种根据用户需求在互联网中检索信息并反馈给用户的搜索方式,成为用户搜索信息、产品和服务的极佳方式,很多企业网站的主要用户访问来源就是搜索引擎。因此,搜索引擎优化是企业网站推广中非常重要的推广方式之一。

1.1.1 SEO的定义

搜索引擎优化(Search Engine Optimization,SEO)。SEO按照搜索引擎的检索规则对网站进行内部调整及站外优化,使网站满足搜索引擎的检索规则且对用户更友好,从而使网站更容易被搜索引擎收录,提升其在搜索结果页中的排名,并为网站带来更多的免费精准流量,产生直接营销行为或者品牌推广效果。

SEO首先需要研究搜索引擎是如何抓取互联网中的网页和文件的,还需要了解搜索引擎的排名规则,然后有针对性地对网站进行优化,从而使其有更多的内容被搜索引擎收录,并在不同的关键词中获得更高的排名,进而提高网站访问量。

SEO同时也是网络营销的一部分,它是将目标内容(广告、产品、品牌)更好地传递给目标用户的一种有效途径。

1.1.2 为什么要做SEO

SEO的主要作用是通过了解各类搜索引擎的排名规则来对网页进行相关优化,从而提高网页在搜索结果页中的排名,提高网站访问量,最终提升网站的销售能力或宣传能力。下面将从SEO的价值和SEO对网站的作用两个方面介绍网站进行SEO的意义。

1.SEO的价值

从表面上看,SEO并不会给网站带来直接收益,但这并不代表SEO不重要。恰恰相反,SEO可以为网站带来大量、稳定的用户,用户在网站中消费后就能产生直接的经济价值。归纳起来, SEO可以为网站带来以下3个方面的提升。

提升关键词搜索排名│SEO可以提升网站各方面的综合性能,从而带动网站关键词在搜索引擎中的排名。

提升网站访问流量│关键词排名的提升会带来网站访问流量的提升,进而促进流量到成交额的转化。

提升品牌知名度│网站访问流量的提升会增加网站曝光度,进而促进产品的推广宣传,提升品牌知名度。

实例1-1

例如,成都某健身中心的网站在进行SEO前,在百度等搜索引擎中的收录量很低,在搜索相应关键词时,除了该健身中心的名称外,其他关键词的排名都非常靠后,搜索引擎为网站带来的流量几乎为0。

为了解决这个问题,该健身中心对网站的关键词、结构、网页、链接、内容等进行了优化,使网站排名取得了不错的成绩。如当用户搜索“成都健身”关键词时,在搜索结果的第一页就能看到该健身中心的网站,如图1-1所示,这样用户就有可能浏览该网站,从而了解这家健身中心并进行咨询和交易。图1-1│“成都健身”关键词搜索结果此外,SEO不仅提升了该网站在搜索引擎中的排名,为网站带来了大量的流量,而且网站友好度的增加还提升了转化率,为网站带来了更大的收益。

2.SEO对各类网站的作用

目前SEO的应用领域不断扩大,已应用到各行各业的网站中,甚至对任何类型的网站都发挥着至关重要的作用。

SEO对大型网站的作用│大型网站通常会涉及很多关键词,如果花钱去购买排名,就会产生巨大的成本,而通过SEO技术几乎不用花钱就可以得到流量。

SEO对企业网站的作用│企业网站在使用SEO技术后,不仅可以提高网站的流量,还可以提高流量的质量。这些高质量的流量一般都是企业的潜在用户带来的,当潜在用户通过企业网站了解到企业的产品或服务信息后,就有可能成为该企业的直接用户。

SEO对电子商务网站的作用│电子商务网站就像是一个商店,必须要有顾客,才能形成销售。电子商务网站在使用SEO技术后,可以借助搜索引擎向更多的潜在顾客展示自己的产品,不仅可以节省巨额的广告费用,还可以提高产品销量。

SEO对个人网站的作用│个人网站由于资金有限,需要成本低、效果好的推广方式,而SEO正好可以满足这种需要。

1.1.3 什么人适合学习SEO

一谈到SEO,很多人的印象就是神秘、隐晦、深奥。实则不然,SEO实质是一门技术,并且是可以应用于各行各业的优化技术。那么,究竟什么人适合学习SEO?SEO学习者需要具备什么能力呢?下面进行详细介绍。

1.创业者把握风口“站在台风口,就是一头猪也能飞起来。”这是小米科技创始人雷军在中国企业领袖年会上做主题演讲时最早提出的一个比喻。雷军用了两年的时间带领创业团队创造了智能手机界的又一“神话”,小米手机成功打入了我国智能机市场。雷军为何会取得成功?用他自己的话来说就是遇到了“台风口”,而所谓的“台风口”就是发展的机遇。

在“流量为王”的今天,综观互联网的流量入口,主要分布在搜索引擎、电子商务平台、社交网络平台和垂直门户网站。因此创业者要把握风口,积极学习SEO技术,并且将其运用到实际的网站操作中,从而提升网站的排名、为网站带来更精准的流量、扩大网站品牌的知名度。

实例1-2

小张是北京某高校计算机专业的学生,他报名参加了学院开展的“大学生创业大赛”,参赛项目是网站SEO。

近几年,网上预约驾照学习非常热门,很多驾校也纷纷建立了自己的网站。因此,小张联系了当地几家比较知名的驾校,提出愿意免费对其网站进行SEO,以提升网站的排名。驾校负责人也欣然同意。

小张充分利用所学的知识,对网站的关键词、结构、网页、链接等进行优化,使网站排名取得了相当不错的成绩。图1-2中,搜索结果页中排名第三的网站就是小张优化的。图1-2│网站优化的效果

创业大赛的成功经验,增强了小张继续在SEO领域深造的信心。他学习“301重定向”,编写“404错误”代码,优化内链与外链⋯⋯同时,他和同学还成立了一个SEO团队,帮助本地一家论坛进行定期的网站优化和维护,不断地积累经验。在网站维护期间,该论坛把其他同类论坛远远甩在后面。

临近毕业,小张已经是小有名气的SEO专员了。直到有一天,小张接到某知名互联网企业HR的电话,邀请他参加该企业的校招面试。小张经过深思熟虑后谢绝了该企业的邀请,决定仍旧和团队自主创业。

鉴于没有雄厚的资金支持,小张不敢贸然行事,最终决定和团队以“SEO外包”的形式开启创业之路,即他们帮助网站进行维护和优化,按照实际的效果收费。由于创业形式灵活,团队分工协作能力强,SEO效果显著,他们很快就获得了创业的第一桶金。

2.管理者提升能力

企业管理者如果只掌握企业管理方面的知识,就会出现这样很尴尬的局面:当SEO人员汇报工作时,管理者完全不知所云,各类专业术语听得云里雾里;同时,也无法精准地评估员工的工作绩效。因此,管理者学习SEO是非常有必要的。

管理者学习SEO后,可以制订和审核SEO任务,做好SEO进度的把控。图1-3所示为某企业的SEO项目报表。图1-3│某企业的SEO项目报表

企业管理者对SEO管理担负全面的责任,组织、实施和监督SEO优化项目;建立和完善企业管理制度、关键绩效指标考核制度,激发和增强员工的工作动力和信心。

3.失业者再创辉煌

失业可能意味着失去了稳定的经济来源。而当下大部分失业者的想法就是找一份环境好、收入较高的工作,但是由于自身并不具备足够的知识和能力去胜任这样的工作,所以他们往往会陷入进退两难的情况。

因此,失业者可将硬性条件暂时放一放,先对自身的实际情况做出切实的定位,不断充实自己,提升自己的能力。在互联网技术高速发展的今天,网站SEO是一门相当热门的职业,失业者可通过学习SEO的知识来达到学以致用的目的,从而适应社会发展的需求。

1.1.4 SEO的常用专业术语

网站进行SEO不仅可以让其获得比较靠前的排名,还能让网站的每个页面都获得流量,产生成交转化的机会。这就需要SEO人员从细节出发。而对于新手SEO人员来说,首先要掌握与SEO相关的专业术语。接下来将介绍SEO的常用专业术语。

白帽SEO:白帽SEO是一种公正的手法,是符合主流搜索引擎发行方针的SEO优化方法。白帽SEO一直是业内公认的效果较好的SEO手法,它是在避免一切风险的情况下进行操作的,同时也避免了与搜索引擎发行方针发生任何的冲突。

黑帽SEO:黑帽SEO就是作弊的意思,所有的作弊手段或可疑手段,都可以称为黑帽SEO,比如垃圾链接、隐藏网页、桥页(也叫门页、跳页,是软件自动生成的包含大量关键词的网页)和关键词堆砌等。黑帽SEO不符合主流搜索引擎发行方针,其主要的特点是短平快,它为了短期利益而不惜采用作弊的方法,会随时因为搜索引擎算法的改变而面临惩罚。

灰帽SEO:灰帽SEO是介于白帽SEO与黑帽SEO之间的中间手法,相对于白帽SEO而言,灰帽SEO会采取一些取巧的方式来进行操作,这些操作行为不算违规,但同样也不遵守规则,属于灰色地带。

PR(Page Rank)值:PR值是Google用来标识网站等级或重要性的一个数值,级别为0~10级,10级为满分。PR值高则代表网站非常重要。例如,一个网站PR值为1级,表明这个网站不太重要,而一个PR值为7~10级的网站则极其重要。

百度权重:百度并没有公开发布每个网站在百度中的权重值,现在所谓的百度权重,是爱站网、站长工具网等网站通过检测得到网站在百度中的排名和流量等数据,再以相应的公式对这些数据进行加权计算而得出的一个数值。该数值的取值范围为0~10,数值越大,权重越高。通过该数值,用户可以很方便地了解某网站在百度中的重要程度。

1.1.5 SEO的基本步骤

网站在进行SEO前必须经过一系列的分析步骤。实际上,网站进行SEO并非简单地发送链接和更新网站的文章,而是一项比较系统的工作,需要SEO人员在优化的过程中不断总结和分析,摸索出适用于网站SEO的方法。

网站的SEO过程可以采用PDCA循环方法。PDCA循环又称为质量环,是全面质量管理和优化所要遵循的一种科学程序。

PDCA由英语单词Plan(计划)、Do(执行)、Check(检查)和Act(修正)的首字母组成。Plan指方针、目标和活动规划;Do指根据已制订的计划设计具体的方案,并进行运作,从而实现计划中的内容;Check指总结和分析执行计划的结果;Act指对总结结果的处理,对成功解决的问题加以提取、推广和标准化,将还未解决的问题提交到下一个PDCA循环中去解决。

同理,也可以将PDCA循环应用于网站SEO中,如图1-4所示。首先诊断网站目前存在的问题,并制订出相应的优化计划;接下来执行计划,且为了提升优化的效率,采用统计表的形式对任务进行细化;然后是检测网站SEO的效果,通过数据统计分析网站优化的情况;最后总结这一轮PDCA循环存在的不足,并在下一轮PDCA循环中加以补足,以不断提升网站SEO的效果。

1.第一步——制订SEO计划

制订SEO计划的基础是全面分析和衡量网站需要优化的项目,对网站目前存在的问题进行综合性的诊断。网站问题的诊断是为网站SEO而服务的。一般来说,网站问题的诊断包括5个方面,具体如图1-5所示。图1-4│网站SEO的PDCA循环图1-5│网站问题诊断项目(1)前期准备

如果要对一个全新的网站进行SEO,首先需要对整个网站进行SEO项目分析,也就是确定一个明确的目标,例如,要建设什么类型的网站、网站的关键词是什么、有什么推广目标、用户群体是哪些等;然后确定网站的域名、服务器和网站系统是否适合SEO。做好这些工作,不仅可以为后面的工作带来便利,还可以提升网站对搜索引擎的友好度,加快搜索引擎对网站页面的收录速度。(2)关键词

对于任何一个网站来说,关键词都是影响网站SEO的一个至关重要的因素。网站关键词代表了网站的市场定位,那么在进行关键词优化时就需要有合理的定位。这主要包括:影响关键词分类的因素、关键词的选择、关键词的竞争程度判断和关键词的优化效果评估等。(3)网站结构

网站结构相当于一个网站的骨架。合理的网站结构能够正确表达出网站的基本内容以及内容之间的层次关系。

要分析网站结构,首先要清楚网站结构的类别,然后才能对不同类别的网站结构进行优化。(4)网站页面

网站页面包含网页程序、内容、板块等多方面内容,对其进行优化和调整,使其符合搜索引擎的检索标准,可以提升网站在搜索引擎中的排名。网站页面问题的诊断则主要是查看标题设置得是否合理、Meta标签设置得是否到位、图片的属性是否合适以及视频设置得是否全面等。(5)网站链接

网站链接是引导用户浏览网站的路径,同时也是引导搜索引擎抓取网页的途径。网站链接能够传递网站的权重,是网站的灵魂。因此,在网站建设的过程中一定要做好链接的诊断与优化。网站链接的诊断主要是内部链接和导入链接的诊断。

综上所述,网站问题的诊断涵盖了网站SEO的各个方面,通过网站问题诊断可以使SEO人员及时了解网站存在的问题,减少因贻误时机而造成的损失,进而才能根据发现的问题制订出合理的SEO计划。

2.第二步——执行SEO计划

制订好SEO计划之后,接下来就需要执行SEO计划,即优化网站在诊断中发现的问题。

执行SEO计划就是将计划中的任务变成行为。为了提升网站SEO的效率,SEO人员可以制订一个完整的SEO任务计划表,对需要优化的指标进行细化,明确任务并且跟进优化进度。

3.第三步——检测SEO效果

网站的SEO计划设计得是否合理、目标是否完成、计划是否需要改进,都要通过实际的检测才能有明确的判断。这就是网站优化的第三步——检测SEO效果。

一般来说,SEO指标的检测是以实际的优化效果来判定的。在网站SEO过程中会有很多数据指标,主要包括网站收录、网站排名、外链检测和转化率等。

SEO人员可以创建网站流量统计表、网站关键词排名统计表等表格,记录不同时期网站的流量、关键词排名和其他业务数据,用于进行比较和分析,以发现网站目前存在的问题,并及时进行改进。

专家指导

在实际的网站指标检测过程中,有一个很大的认知误区,即单方面认为网站排名就是最终目标。实际上对于一个企业来说,网站排名只是提升网站SEO的参考指标之一,提升网站的销售业务能力才是最终目的。因此,在优化的过程中关注转化率指标的变化是非常有必要的。

4.第四步——修正SEO计划

完成SEO指标的检测之后,对于计划中效果不显著或者优化过程中出现的新问题进行总结,为展开下一轮的PDCA循环提供依据,并对SEO计划进行修正。

1.2 SEO与SEM

SEO和SEM仅有一个字母的区别,但对于刚接触SEO的新手来说,经常会混淆这两者,很难区分它们。本节将讲解SEM的相关概念,使读者充分地了解SEO与SEM的区别和联系。

1.2.1 SEM的定义

搜索引擎营销(Search Engine Marketing,SEM)。SEM是一种新的网络营销形式,它利用用户对搜索引擎的依赖和使用习惯,在用户搜索某一关键词时将与该关键词相关的信息传递给用户。搜索引擎营销的基本思路是让用户发现信息,并通过点击进入网页,进一步了解所需要的信息。SEM追求最高的性价比,以最小的投入,获得最大的来自搜索引擎的访问量,并产生商业价值。

1.2.2 SEO与SEM的区别和联系

SEO与SEM的相同点都是为了网站的推广和品牌的建设,不同的是它们的实现方法。SEO是通过纯技术手段使网站在搜索引擎中获得好的排名,而SEM是同时使用技术手段和付费手段来对网站进行推广。下面将从定义、优化效果和服务对象3个方面讲解SEO与SEM的区别和联系。

1.定义上的区别和联系

SEM与SEO既有一定关联,又有一定区别。SEM指在搜索引擎上推广网站、提高网站可见度,从而带来流量的网络营销活动。SEM包括SEO、按点击付费(Pay Per Click,PPC,如百度的搜索推广等)、精准广告(如百度的百意广告等)、付费收录等形式,它们的具体关系如图1-6所示。图1-6│搜索引擎营销的组成

SEM通过SEO技术的拓展为网站带来一定的商业价值,策划行之有效的网络营销方案,最终达到推广网站的目的,提升网站产品或服务的销售。

因此,SEO属于SEM的一部分。SEM的执行离不开SEO的相关基础知识,换而言之,SEO是实现SEM的奠基石。

2.优化效果的区别和联系

SEO的操作步骤多,优化内容烦琐,见效慢,但是优化后的效果比较持久。网站经过全方位的SEO后,排名会更靠前,并且会为网站带来大量的精准流量。

SEM的成效显著,往往只要一两天就能达到预期的排名,但是SEM的具体排名和网站推广预算相关,一旦账户余额不足,排名就会大幅度下降,具有不稳定性,并且还会出现恶意点击的情况。

3.服务对象的区别和联系

SEO和SEM最主要的区别是终极目标不同。从网络营销的角度出发,SEO主要是针对企业自身网站的优化,而SEM更多的是为客户制订和实施符合SEM的策略方案,提升网站的流量和转化率。

随着SEM在全球范围内的普遍应用,它已经成为一种非常流行的网络营销手段,也将成为电子商务发展的必经之路。SEO人员习惯于在互联网中对市场分级,建立品牌认同感,提升用户对品牌的信任度,并且逐步引导用户进入转化层,最终产生成交转化行为。

1.3 本章实训

本章主要介绍了SEO和SEM的基础理论知识,通过对本章的学习,读者可以了解SEO和SEM的基本概念、特点以及基本操作流程等。本章实训将在搜索引擎中查看SEO和SEM的效果。

1.3.1 实训要求

在百度中搜索关键词“男士西装”,然后在搜索结果页面中查看SEO和SEM的效果。

1.3.2 实训步骤

扫一扫观看视频

本实训的主要操作如下。(1)进入百度的主界面。(2)在搜索文本框中输入“男士西装”文本,按“Enter”键得到搜索结果,可以看到排在最前面的几项搜索结果的末尾都带有“广告”文本,这些都是通过SEM发布的广告,如图1-7所示。这些广告都是按点击付费的,每次点击所支付的费用越高,排名越靠前。(3)向下滚动页面,可以看到后面的几项搜索结果的末尾包含有“百度快照”文本,这些都是通过SEO获取的排名结果,如图1-8所示。通常情况下,网站的权重越高,排名越靠前。图1-7│SEM的排名结果图1-8│SEO的排名结果

1.4 课后练习

一、填空题

1.SEO的中文意思是______。SEO按照搜索引擎的______对网站进行______及______,使网站满足搜索引擎的______且对用户更______。

2.SEO可以提升企业网站的______、______和______。

3.SEM的中文意思是______。SEM是一种新的网络营销形式,它利用用户对搜索引擎的______和______,在用户搜索某一关键词时将与该关键词相关的______传递给用户。

4.SEM包括______、______、______和______等形式。

二、单项选择题

1.下列选项中,属于SEO优点的是( )。

A.成本低

B.提升排名速度快

C.广告数量庞大

D.排名位置靠上

2.下列选项中,属于SEO缺点的是( )。

A.排名规则的不确定性

B.效果差

C.成本较高

D.操作复杂

三、判断题

1.黑帽SEO是作弊手法,会随时因为搜索引擎算法的改变而面临惩罚。  (  )

2.灰帽SEO会采用一些取巧的方式来进行操作,但这些操作行为并不违规。(  )

3.百度权重是百度官方发布的网站权重数值。             (  )

四、简答题

1.简述SEO对各类网站的作用。

2.简述SEO的基本步骤。

3.简述SEO与SEM的区别和联系。

第2章 搜索引擎概述

【本章导读】

互联网在人们生活和工作的各个方面都发挥着重要的作用,而互联网上的网页不计其数,且毫无秩序,用户要想在互联网中快速高效地找到所需信息是非常困难的,这时就可以借助百度或者360搜索等搜索引擎,在其搜索框中输入需要查找的信息关键词,即可快速得到需要的搜索结果。

本章将讲解搜索引擎的相关知识,首先了解搜索引擎的定义,然后熟悉搜索引擎的工作原理,最后掌握搜索引擎的使用方法,提升搜索引擎的使用效率。【学习目标】

│了解搜索引擎的基础知识

│熟悉搜索引擎的工作原理

│掌握搜索引擎的使用方法

2.1 认识搜索引擎

在互联网发展的初期,互联网中的信息较少,信息查找也比较容易,但是随着互联网的迅速发展,信息呈现出爆炸性增长的趋势。为了使用户能够在不计其数的互联网信息中找到自己所需要的内容,专门提供互联网搜索服务的搜索引擎也就应运而生。

下面介绍搜索引擎的定义、发展史、分类,以及常用的搜索引擎等知识。

2.1.1 搜索引擎的定义

搜索引擎(Search Engine)是指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,再对信息进行组织和处理后,为用户提供检索服务,最后将用户检索的相关信息展示给用户的网站系统。简而言之,搜索引擎通过收集并整理互联网上众多网页中的关键词并进行索引,进而建立索引数据库。当用户搜索某个关键词时,所有页面内容中包含该关键词的网页都将被作为搜索结果展现出来。

例如,在百度搜索框输入关键词“布艺沙发”,在搜索结果页面中显示共有约27 900 000个搜索结果,如图2-1所示。图2-1│搜索结果展现

通常情况下,在海量的搜索结果中,搜索结果展现的位置越靠前,被用户浏览的概率越高,营销推广的效果也就越好。

2.1.2 搜索引擎的发展史

互联网还没有出现时,人们普遍使用FTP共享信息,大量的文件散布在FTP主机中,使用户查询信息非常麻烦。为了解决这个问题,1990年,加拿大麦吉尔大学(Mc Gill University)计算机学院的艾伦·埃塔奇(Alan Emtage)研发了一种搜索服务工具Archie。Archie可以定期搜集并分析FTP服务器上的文件名信息,为用户提供查找分散保存在各个FTP主机中的文件的服务。

虽然Archie搜集的信息资源不是网页,但和搜索引擎的基本工作原理是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为搜索引擎的雏形。

后来,随着互联网的出现,为了方便查询互联网中的网页信息,真正的搜索引擎也应运而生,并随着互联网的发展不断地发展和进步。总体来说,搜索引擎分为4代,下面分别进行介绍。

第一代搜索引擎:分类目录时代│分类目录时代的搜索引擎会收集互联网上各个网站的站名、网址、内容提要等信息,并将它们分门别类地编排到一个网站中,用户可以在分类目录中逐级浏览并寻找相关的网站。搜狐目录、hao123等就是典型的分类目录时代的代表。

第二代搜索引擎:文本检索时代│在文本检索时代,搜索引擎可以对用户输入的查询信息进行各种运算,进而判断其与目标网页内容相关程度的高低,并返回相关度高的网页给用户。一些早期的搜索引擎,如Alta Vista、Excite等都是这个时代的代表。

第三代搜索引擎:整合分析时代│到了整合分析时代,搜索引擎会通过外部链接的数量来判断一个网站的流行性和重要性,然后再结合网页内容的重要性和相似程度来完善反馈信息的质量,最后还会将反馈回来的海量信息,智能整合成一个门户网站形式的界面,而不是像文本检索时代返回一个没有分类的链接清单。最早使用这种整合分析的是Google,它不仅使Google大获成功,还在当时引起了学术界和其他商业搜索引擎的极度关注。

第四代搜索引擎:用户中心时代│以用户为中心就是当用户查询时,要充分挖掘用户的深层次需求,实现精准化的用户定位和营销。例如,当搜索关键词“手机”时,对于不同职业和不同年龄阶段的用户来说,他们的需求是不同的。甚至同一个用户,也会因为时间和场合的不同而有不同的需求。而要通过用户输入的简短关键词来判断用户的真正需求,就需要搜索引擎能够真正地了解用户。搜索引擎可以通过用户搜索时的大量特征,如上网的时间、操作习惯、搜索内容等,去逐渐勾勒出用户的大致特征,如性别、年龄阶段、兴趣爱好等,这些数据就是搜索引擎进行“商业数据挖掘”的巨大宝藏。

2.1.3 搜索引擎的分类

SEO人员要想提升网站的搜索效率,首先应该熟悉搜索引擎的分类,再根据网站的属性来优化网站。目前搜索引擎主要分为全文搜索引擎、目录搜索引擎、元搜索引擎和垂直搜索引擎等,下面分别进行介绍。

1.全文搜索引擎

全文搜索引擎(Full Text Search Engine)是目前应用较广泛的主流搜索引擎,国外最具代表性的全文搜索引擎是Google,国内则是百度和360搜索。全文搜索引擎从互联网中提取各个网站的信息(以网页文字为主),建立起网页数据库,并检索与用户搜索条件相匹配的记录,按一定的排列顺序返回结果。

全文搜索引擎又可以分为两类,一类是拥有自己的检索程序(通常被称为网络蜘蛛或网络机器人),能够自己从互联网中抓取网页建立数据库,从自身的数据库中调用搜索结果,如Google、百度和360搜索等。另一类则是租用其他搜索引擎的数据库,并且按照自定的格式排列搜索结果,如Lycos。由于这种搜索引擎不能够创建自己的数据库,无法满足用户的需求,现已逐渐被第一类搜索引擎所替代。

2.目录搜索引擎

目录搜索引擎(Search Index/Directory)也被称为“分类检索”,是以人工方式或者半自动方式搜索网页的内容,并根据网页的内容和性质将其归纳到不同层次的类目之下,形成一定的人工信息摘要,最终形成像图书馆目录一样的树状分类结构索引。典型的目录搜索引擎包括雅虎、网易、搜狐等。图2-2所示为目录搜索引擎的结构图。图2-2│目录搜索引擎的结构图

目录搜索引擎为树状结构,它在首页中提供了最基本的入口,用户可以逐级向下访问,直到找到所需要的类别。此外,用户也可以利用搜索引擎提供的搜索功能直接查询某个关键词。

由于目录搜索引擎只能在已经保存的站点的描述中搜索,因此网站本身的变化不会反映到搜索结果中,这也是目录搜索引擎与全文搜索引擎之间的区别。

3.元搜索引擎

元搜索引擎(Meta Search Engine)是为了弥补传统搜索引擎的不足而出现的一种辅助搜索工具,它可以使用户只搜索一次就得到在多个搜索引擎中搜索的结果。元搜索引擎在接受用户的搜索请求后,会同时在多个搜索引擎中选择和利用相对合适的搜索引擎来实现搜索操作,并且将搜索结果返回给用户。典型的元搜索引擎有Info Space、Dogpile和Vivisimo等。

元搜索引擎由3个部分组成,分别是搜索请求处理模块、搜索接口代理模块和搜索结果显示模块。搜索请求处理模块负责接收和处理用户的搜索请求,搜索接口代理模块负责将用户的搜索请求翻译成不同搜索引擎所要求的格式,搜索结果显示模块则负责对所有搜索结果进行去重、合并和显示输出。其工作原理如图2-3所示。图2-3│元搜索引擎的工作原理

4.垂直搜索引擎

垂直搜索引擎(Vertical Search Engine)更专注于特定的搜索领域和搜索需求,如图片搜索、视频搜索、法律搜索、专利搜索和论文搜索等,它是对通用搜索内容的细分。在其特定的搜索领域有更好的用户体验,如百度学术、百度文库、Google学术等都是垂直搜索引擎。图2-4所示为垂直搜索引擎的工作原理。

垂直搜索引擎最大的特点是精、准、深,且具有行业色彩。相比于其他无序化的搜索引擎,垂直搜索引擎更加专业和深入,进而保证所收录信息的完整性和及时性,且其返回的结果重复率低、相关性强、查准率高。图2-4│垂直搜索引擎的工作原理

除了上述4种搜索引擎以外,还有集合搜索引擎、门户搜索引擎、免费链接列表等搜索引擎。这些搜索引擎的应用范围相对较窄,读者只需适当了解即可。

2.1.4 常用的搜索引擎介绍

随着搜索引擎技术的不断成熟,新的搜索引擎也不断涌现。目前国内主要的搜索引擎有百度、360搜索、搜狗搜索等,国外主要的搜索引擎有Google、Yahoo等,下面分别进行介绍。

1.百度

百度是全球知名的中文搜索引擎,致力于向人们提供“简单,可依赖”的信息获取方式,其首页如图2-5所示。2000年1月,百度创立于北京中关村,百度的“百度”二字源于我国宋朝词人辛弃疾的《青玉案》诗句“众里寻他千百度”,象征着百度对中文信息检索技术的执着追求。图2-5│百度首页

百度收录的中文网页已有几百亿,并且这些网页数量还在以每天千万级的速度增长。同时,百度的服务器分布在全国各地,能直接从最近的服务器上把所搜索信息返回给当地用户,使用户享受极快的搜索体验。百度每天处理来自100多个国家超过数亿次的搜索请求,每天有超过7万用户将百度设为首页,用户通过百度搜索可以搜到世界上较新、较全面的中文信息。

2.360搜索

360搜索属于全文搜索引擎,是目前广泛应用的主流搜索引擎之一,其首页如图2-6所示。360搜索包含网页、新闻、影视等搜索产品,能为用户带来更安全、更真实的搜索服务体验。图2-6│360搜索首页

360搜索不仅掌握通用搜索技术,而且独创People Rank算法、拇指计划等创新技术。目前, 360搜索已建立由数百名工程师组成的核心搜索技术团队,拥有上万台服务器,庞大的蜘蛛爬虫系统每日抓取网页数量高达十亿,收录的优质网页数量超过数百亿,网页搜索速度和质量都非常领先。

3.搜狗搜索

搜狗搜索是搜狐公司于2004年推出的第三代互动式中文搜索引擎,其首页如图2-7所示。搜狗搜索致力于中文互联网信息的深度挖掘,帮助我国上亿互联网用户加快信息获取速度,为用户创造价值。图2-7│搜狗搜索首页

搜狗搜索的搜索产品各有特色,其中音乐搜索具有小于2%的死链率,图片搜索具有独特的组图浏览功能,新闻搜索具有能够及时反映互联网热点事件的看热闹首页,地图搜索具有全国无缝漫游功能。这些功能使得搜狗搜索极大地满足了用户的日常需求,使用户可以更加便利地畅游互联网。

4.谷歌

谷歌(Google)是目前被公认的全球最大的搜索引擎,是互联网上最受欢迎的网站之一,在全球范围内拥有无数的用户,其首页如图2-8所示。Google允许以多种语言进行搜索,有多达30余种语言可供选择。图2-8│谷歌首页

Google以简单、干净的页面设计和最相关的搜索结果赢得了用户的认同。Google每天需要处理2亿次搜索请求,数据库存有30亿个Web文件,提供常规搜索和高级搜索两种功能。但由于目前Google退出了我国市场,在国内暂时无法访问。

5.雅虎

雅虎(Yahoo)是美国著名的门户网站之一,其服务范围包括搜索引擎、电子邮件和新闻等,服务业务遍及24个国家和地区,其首页如图2-9所示。图2-9│雅虎首页

Yahoo是最早实行“分类目录”的搜索数据库,也是目前重要的搜索服务网站之一。它所收录的网站全部被人工编辑按照类目分类,且分类恰当、层次合理、收录丰富、检索精准,其数据库中注册网站的形式和内容的质量都非常高。

2.2 搜索引擎的工作原理

要想做好SEO,就必须了解搜索引擎的工作原理,知道它是如何工作的,这样才能更好地完成网站优化。搜索引擎的基本工作原理如图2-10所示,主要包括蜘蛛爬行、抓取建库、网页处理、检索服务和结果展现5个方面的内容,下面分别进行介绍。图2-10│搜索引擎的工作原理

2.2.1 蜘蛛爬行

数据抓取系统是搜索引擎重要组成系统之一,主要负责互联网信息的搜集、保存和更新等,它就像蜘蛛一样在互联网上爬来爬去,因此也被叫作网络蜘蛛(Spider)或机器人(Bot)。每个搜索引擎的蜘蛛都有各自的名称,如百度蜘蛛(Baiduspider)、搜狗蜘蛛(Sogou Web Spider)、谷歌机器人(Googlebot)和必应机器人(Bingbot)等。

搜索引擎抓取网页时会同时运行多个蜘蛛程序,从一些重要的种子网址开始,通过其网页上的超链接,网络蜘蛛不断发现新的网页并抓取,不断重复这个过程,尽最大可能抓取到更多网页。由于互联网中每时每刻都存在网页被修改、删除或出现新的链接的可能,所以对于百度这样的大型搜索引擎来说,还要不断地对过去抓取过的页面进行更新。

当网络蜘蛛爬行到某个网站时,会首先检查网站的根目录下是否存在Robots文件,如果有,则会根据其约定不抓取禁止抓取的网页。进入允许抓取的网站后,网络蜘蛛会采用深度优先、宽度优先和最佳优先3种策略爬行网站中的所有网页。

1.深度优先策略

深度优先策略是早期使用较多的网络蜘蛛爬行策略。在网站中,当网络蜘蛛发现一个链接后,网络蜘蛛就会沿着这个链接爬到下一个网页,然后在这个网页中又沿着新发现的链接爬下去,直到没有未爬行的链接,再返回到第一个网页,沿着另一条链接继续爬行。当不再有新的链接出现时,整个爬行过程结束。图2-11所示为深度优先爬行策略,其中的数字为网络蜘蛛爬行网页的顺序。图2-11│深度优先爬行策略

2.宽度优先策略

宽度优先策略指网络蜘蛛来到一个网页后,先爬行该网页上的所有链接,然后再爬行下一层网页的链接。

图2-12所示为宽度优先爬行策略,网络蜘蛛首先爬行第1层的所有页面,再爬行第2层的所有页面,然后以此类推,直到爬行完所有页面。图2-12│宽度优先爬行策略

3.最佳优先策略

最佳优先策略指网络蜘蛛到达一个网页时,将网页中的所有链接收集到地址库中,并对其进行分析,从中筛选出重要性较高的链接进行爬行。影响链接重要性的因素主要有网页权重、网站规模和反应速度等。当某个链接的网页权重值越高、网站规模越大、反应速度越快时,就越会优先被抓取。

2.2.2 抓取建库

网络蜘蛛在经过较长时间的爬行后,就可以爬行完互联网上的所有网站,但这些网站资源极其庞大,而且其中还夹杂着大量的垃圾网站,再加上搜索引擎的资源有限,通常只会抓取其中的部分网页到数据库中。

网络蜘蛛到达一个网页后,会对其内容进行检测,判断其中的信息是否为垃圾信息,如大量的重复内容、乱码以及与已收录的内容高度重复等。检测通过后,搜索引擎会对有价值的网页进行收录,将网页的信息存储到数据库中。

2.2.3 网页处理

网络蜘蛛抓取到网页数据后,由于数据量过于庞大,是不能直接进行索引服务的,还要做大量的预处理工作,如结构化网页、分词、去停止词、降噪、去重、建立索引数据库、链接分析和数据整合等,下面分别进行介绍。

1.结构化网页

网络蜘蛛抓取到的网页数据中,除了用户在浏览器上可以看到的可见文字外,还包含了HTML标签、Java Script程序、导航、友情链接、广告等无法用于排名计算的内容。结构化网页就是从网页数据中去除这些内容,保留可以用于排名的正文文本、Meta标签、锚文本、图片视频的注释等内容。

比如下面这段HTML代码。

01 

02   

03      2019年新款运动鞋

04   

05 

在经过结构化网页后,剩下的用于排名的文字为“2019年新款运动鞋”。

2.分词

分词是中文搜索引擎所特有的处理操作,这是因为英文等语言的单词与单词之间是有空格分隔的,而中文的词与词之间则没有任何分隔符,所以搜索引擎必须首先将一句话分解成若干个词语。比如“2019年新款运动鞋”将被分解为“2019”“年”“新款”“运动鞋”4个词。

分词的方法有很多,主要有基于字典的分词法、基于理解的分词法和基于统计的分词法3种。目前的主流搜索引擎通常会结合这3种方法,构成一套分词系统。(1)基于字典的分词法

基于字典的分词法指将待分析的一段文字与一个事先编制好的字典中的词条进行匹配,在待分析文字中扫描到字典中已有的词条则匹配成功,或者切分出一个单词。这种分词方法的准确度在很大程度上取决于字典的完整性。

基于字典的分词法在进行分词时,还要遵循颗粒度越大越好、非字典词越少越好、单字词越少越好、总体词数越少越好的原则。如“复仇者联盟4影评”就应该拆分为“复仇者联盟4”和“影评”两个词,而不是拆分为“复仇者”“联盟”“4”和“影评”4个词。(2)基于理解的分词法

基于理解的分词法是利用人工智能技术,并结合汉语的语法、词义以及心理学的知识让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括3个部分:分词子系统、句法语义子系统和总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,将各种语言信息组织成机器可直接读取的形式比较困难,因此目前基于理解的分词系统还处在试验阶段。(3)基于统计的分词法

基于统计的分词法指搜索引擎对大量的网页内容进行分析,计算出字与字相邻出现的概率,如果某几个字相邻出现的概率非常大,那么它们就可能形成一个单词。基于统计的方法的优势是对新出现的词反应更加快速。

3.去停止词

无论是中文还是英文,页面内容中都会有一些出现频率很高,但却对页面内容没有任何影响的词,如中文的“啊”“哈”“呀”“的”“地”“得”,英文的a、an、the、of、to等。这些词被称为停止词。因为它们对句子的主要意思没什么影响,所以搜索引擎会去掉这些词。这样就可以使索引数据的主题更为突出,也可以减少一些无谓的计算量。

4.降噪

绝大部分页面上还有一部分与页面主题没有什么关联的内容,比如版权声明文字、导航条、广告等。又如博客网页导航栏中的“文章分类”“历史存档”等导航内容,但是页面本身与“分类”“历史”这些词没有任何关系。

这些与网页主题完全不相关的内容都属于噪声,会对页面主题产生分散影响。搜索引擎需要识别并消除这些噪声,其基本方法是:根据HTML标签对页面分块,区分出页头、导航、正文、页脚、广告等区域,剔除无关区域的内容,剩下的就是页面主体内容。

5.去重

互联网中还存在大量的重复内容,这些重复内容主要是由于网站之间的相互转载以及使用网页模板产生的。如果用户的搜索结果中包含大量的相同内容,则说明用户体验太差,因此需要搜索引擎只返回其中的一篇,这就要求搜索引擎在索引前对重复内容进行识别和删除,这个过程就称为“去重”。

去重的方法是:计算页面的特征关键词指纹。其具体操作方法是从页面主体内容中选取出现频率最高的一部分关键词,然后计算这些关键词的数字指纹,如果两个页面的关键词指纹相同,就会被判定为重复内容,搜索引擎将不予收录。

简单地增加“的”“得”“地”,或调换段落顺序,是不能逃过搜索引擎的去重算法的,因为这样的操作无法改变文章的特征关键词,也不能使转载和抄袭变成原创。

专家指导

典型的数字指纹计算方法是MD5算法(信息摘要算法第五版)。这类数字指纹算法的特点是输入的特征关键词有任何微小的变化,都会导致计算出的指纹有很大的差距。

6.建立索引数据库

网页中的内容经过分词、去停止词、降噪和去重后,就可以得到能反映页面主体内容的一个关键词的集合。搜索引擎会记录每一个关键词在页面上出现的频率、次数、格式(如标题、加粗、锚文本等)、位置等信息,并根据这些信息计算出每个关键词的重要性,再按照重要性对关键词进行排序,然后将页面及其对应的关键词构建为正排索引并存储到索引数据库。例如,有6个页面,假设其内容如表2-1所示,对其中的关键词按照重要性进行排序后的结果如表2-2所示。表2-1│假设的6个页面内容表2-2│对关键词按照重要性进行排序后的结果

搜索引擎构建的正排索引简化表如表2-3所示,其中每个页面都对应一个文档ID,文件内容被表示为一串关键词ID的集合。表2-3│搜索引擎构建的正排索引简化表

通过正排索引可以快速找到一个页面中包含哪些关键词。但是在实际搜索中搜索引擎是通过关键词来查找包含它的页面,因此正排索引就需要扫描每一个页面来判断其是否包含该关键词,这样计算量就会非常大,因而无法满足实时返回排名结果的需要。

所以搜索引擎还会将正排索引重新构建为倒排索引,将页面对应到关键词的映射转换为关键词到页面的映射,表2-4所示为倒排索引简化表。表2-4│倒排索引简化表续表

7.链接分析

与在网上购物一样,我们不仅要看商家对产品的介绍,还要看消费者对产品的评论。搜索引擎在对页面进行排序时,除了考虑网页本身的关键词密度和关键词位置外,还需要引入网页以外的标准来衡量网页。在这些网页以外的标准中,链接分析是最为重要的,搜索引擎会分析链接到这个网页的所有外部链接,这些外部链接的数量和质量都能反映该网页的质量,以及和关键词的相关度。

由于互联网中的网页数量非常巨大,这些网页之间的链接关系又时刻处于更新中,因此链接分析耗时较长,所以搜索引擎在进行倒排索引前要先完成链接分析。

8.数据整合

除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT等文件类型。用户在搜索结果中也经常会看到这些文件类型。但图片、视频、Flash这类非文字内容,搜索引擎不能直接进行处理,只能通过其说明性文本进行处理。

不同格式的数据被分别存储,但是搜索引擎在建立索引以及排序时,往往又会联系与数据相关的内容,以判断其相关性与重要性,然后最终形成一个有利于搜索排名的检索数据库。

2.2.4 检索服务

搜索引擎建好检索数据库后,就可以为用户提供检索服务了。当用户输入一个搜索关键词后,搜索引擎首先会处理搜索关键词,将其进行过滤和拆分,然后从索引数据库中将与之匹配的页面提取出来,再通过不同的维度对页面的得分进行综合排序,最后再通过收集用户搜索数据对结果进行优化,此时就可以得到最终的搜索结果,其基本流程如图2-13所示。图2-13│检索服务基本流程

1.处理搜索关键词

和处理页面的关键词一样,对用户输入的搜索关键词也需要进行拆分和降噪等操作,将其拆分为关键词组,并剔除对搜索结果影响不大的词。如输入“衣服缩水了怎么办啊”,搜索引擎就会删除其中的“了”和“啊”,然后将剩余的文字拆分为“衣服”“缩水”“怎么办”3个关键词,如图2-14所示。图2-14│拆分搜索关键词

2.提取页面

确定好关键词后,搜索引擎就会从检索数据库中提取出包含有这些关键词的页面,但是这些页面并不会全部参与排名。因为搜索结果一般会有几十万甚至上千万条,全部进行排名会使计算量非常大、速度非常慢,而且用户通常也只会查看前面几页的结果,所以搜索引擎通常不会显示所有的搜索结果,只会显示权重最高的几百条搜索结果。

例如,在百度搜索“2019流行什么颜色的衣服”,百度提示找到的结果约为29 100 000个,但百度只显示了76页,即760条结果,如图2-15所示。图2-15│搜索结果页数

3.综合排序

搜索引擎会根据不同维度的得分对参与排名的页面进行综合排序,以得到最终的搜索结果。综合排序主要包括以下6个方面的内容。

相关性│相关性指页面内容与搜索关键词的匹配程度,如页面所包含搜索关键词的个数,这些关键词出现的位置,以及外部网页指向该页面所使用的锚文本等能够体现页面内容与搜索关键词的匹配程度的指标。

权威性│权威性更高的网站提供的内容更真实可靠,所以其网页排名越靠前。

时效性│时效性指页面是否为新出现的网页,且页面内容是新鲜的。目前,时效性在搜索引擎的排序中越来越重要。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载