SEO20日(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-22 19:06:39

点击下载

作者:潘雨辰 吴山 编著

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

SEO20日

SEO20日试读:

前言

几年前,我与几位朋友开始创业做网站的时候,SEO还并不是那么重要,互联网推广的概念还不那么自然,更多的是靠用户口耳相传来提高流量。当时互联网泡沫刚过,Google只不过是一个有趣而有用的东西,很少有人能预料到搜索会是网站竞争的战场。

随着投资环境的升温,Web 2.0风潮的兴起,互联网中诞生了一个又一个神话,很多人凭着一个想法,一夜暴富。这个时候人们才发现对于网站来说,用户的关注能转化为无穷的价值。

然而,用户的关注并非无限,各种各样的创意分散着人们的眼球。与互联网早期不同,此时的你,即使有一个天才的创意,如果没有被广大的用户发现,也很难从纷杂的网站中脱颖而出。这时,搜索引擎的作用就凸显出来了。

搜索引擎在现代的互联网中是如此重要,其排名直接影响了一个网站能从用户那里得到多少关注。一个站长,如果不关注自己的网站在搜索引擎上的排名,很难成功;相反,一个很合搜索引擎“胃口”的网站,往往能很快积累起用户和流量。

所以,现在的站长,不仅要考虑网站的内容是否吸引用户,还要考虑网站是否对搜索引擎友好,是否能在搜索引擎上取得很好的排名,而这就是本书要介绍的内容——SEO优化。

SEO并不是一门很严谨的技术,很多时候只是经验的总结,因为搜索引擎的排名算法往往是一个黑盒,我们只能通过一些成功的实践总结哪些行为能提高网站在搜索引擎排名上的表现。从这个意义上来说, SEO包含更多的是有用的经验和技巧,这也是本书的立足所在,即从多年的SEO经验中,提取了切实可行的优化方案,虽然它们有时看起来甚至很零散,但是在实践中却非常有效。

我们认为SEO是一个由内到外的过程,首先需要对网站的结构和内容等方面进行精心的设计,其次,要对一些周边的元素(比如关键字、链接等)进行雕琢。同时,SEO又是一个方法变化多端的领域,既有大家公认的行之有效的方式,也有剑走偏锋的独门绝招。而这些都将在本书中一一为您介绍。

需要注意的是,SEO并不是作弊,理想的SEO应该同时对用户和搜索引擎友好。所以读者在学习SEO的过程中,切忌有侥幸心理,不要期望仅仅通过 SEO优化就能化腐朽为神奇,而是应当在网站内涵和流程上下足工夫的同时,利用SEO让大家更好地认识你的优秀作品。

希望本书能为你的网站锦上添花!作者2010.01第1章SEO的基本概念

SEO不是一个新鲜词儿,只要是做网站的人对它多少都有些接触,但SEO的历史也并不悠久,10年前还没有人提及——只有当互联网的竞争到达一定阶段的时候,SEO才变得重要起来。

如今的互联网充斥了大量的各式各样的网站,但用户的注意力是稀缺的,每个站长都希望自己的网站能从众多网站中脱颖而出,得到用户的青睐。随着搜索引擎的广泛使用,搜索已经成为用户寻找信息的主要手段。搜索引擎带来的流量也成了网站访问量的主要来源,如果网站在搜索引擎上表现优异,就可大大提高网站访问量。1.1 什么是SEO

SEO(Search Engine Optimization,搜索引擎优化)是一种利用搜索引擎进行网站推广的方式。网站推广方式多种多样,比如口碑传播、广告宣传等。SEO的特点是它是依附于搜索引擎,通过提高搜索引擎中网站的排名,从而增加网站被访问的机会,进而使网站获取较高的流量。

对网站做 SEO,也就是使网站内容可以轻易地被搜索引擎获得(内容抓取的优化),且出现在搜索结果中较为优先的位置(排名优化)上。比如在Google上搜索关键字“阀门”,会出现如图1-1所示的结果页。图1-1

图中出现的网页是已经被搜索引擎收录的页面,总数大约有11900000个。这些网页的前后顺序对点击率有极大影响。统计表明,在搜索结果第一页中的前几个网站被点击的几率最高,随着排名的下降被点击的几率逐渐减少。SEO的作用就是让网站在搜索结果页中排名靠前。

搜索引擎的算法一般来说是一个黑盒,因此SEO的工作就是长期地摸索、观察,了解各类搜索引擎如何抓取页面、如何进行索引以及如何确定搜索结果的排名等,得到这些规律之后,再据此对网站进行优化,如网站的整体结构、内容布局、关键词分布及密度等,从而提高网页在搜索引擎中的排名,进而提高网站的访问量。

说明:搜索引擎的排名规则等算法一直在不断改进,且这些算法一般都是商业机密,所以SEO更像是一种经验性的技术,对网站进行SEO需要不断地尝试和调整,直至找到最合理的那个点。1.2 为什么要做SEO

流量是网站的根本,思路或模式的优劣需要通过的访问量来判定。如果网站的流量很高,则意味着此网站的信息有效、思路有吸引力,或者模式成功,在此基础上建立的盈利模式往往比较可靠,对融资等也比较有利,这在前两年的互联网世界表现得极为明显。流量高的网站(比如Youtube、ebook和Twitter)在估价时能得到出乎想象的认可,每个站长都希望网站能做好的价格,所以他们要吸引客户、增加网站流理,而搜索引擎带来的流量非常巨大,甚至是很多网站最主要的流量来源,因此SEO的作用不言而喻。

也有人认为SEO是一种作弊,是通过讨好搜索引擎来“骗取”流量的,是不可取的。笔者认为这种想法有失偏颇。一个网站如果没有用户来访问,再好的内容也不会被认同。而今,互联网上的竞争日趋激烈,网站不计其数,用户很难直接找到所需的网站,他们更倾向于使用搜索引擎,通过搜索发现需要的内容。可以说,搜索引擎已经成为了用户和信息内容的中介。所以想让网站的内容被用户赏识,则首先需要被搜索引擎“赏识”,增加呈现给用户的机会。而怎样让搜索引擎“赏识”就是SEO的主要责任。

另外,从推广的角度看,SEO能大幅降低网站的推广成本。传统的广告宣传、竞价排名等需要大量的资金投入,且带有广告性质的内容甚至会引起用户反感。相比之下,SEO的成本较小,无副作用,所以对于中小型网站而言尤为重要。

当然,SEO并不能解决所有的问题,如果网站本身没有内容,且质量很差,则很难吸引用户,即使SEO做得再成功,也无法对用户产生粘性——这就是笔者极力反对的“过度SEO”:很多站长花费很多精力去做 SEO,甚至采取不恰当的方法以求暂时取得高排名,但这种高排名没有价值,用户将会很快离开,而且网站也最终会招致搜索引擎的惩罚。所以,现实的情况是:一个内容很差的网站无法依靠SEO变成成功的网站,而一个成功的网站则需要使用SEO来被更多人发现。1.3 如何衡量SEO的成功

SEO的成功体现在两方面:第一是网站内容受到搜索引擎的喜爱,在搜索引擎上取得靠前的排名;第二是网站受到用户的青睐,有较大的用户访问量。

这两种成功都能从数据上得到反映,主要的数据包括:网站在搜索引擎上的页面收录量。网站页面在搜索引擎中的排名。网站的访问统计量,包括独立IP数和页面访问数(Page View)等。网站注册用户数。网站用户的转化率,即网站的访问者转化为网站的消费者的比例,这个数据对于销售型的网站(比如B2C类的网站)尤为重要。

SEO的正确使用,将会提升以上这些数据(这意味着网站经营者能提供更漂亮的报表,能在与投资商谈判时要求一个更高的价格)。这些数据都是有关联性的:更多的收录量一般意味着更好的排名;更好的排名能带来更多的用户访问量;更多的用户访问量能为网站带来更多的注册用户和实际消费者。

读者可能会问,这些数据到达什么标准,SEO才算成功?这里没有统一的答案,每个站长都有自己的目标,比如:一个网店希望通过SEO,增加50%的销售量。一个个人博客希望通过SEO,在半年内达到1000个RSS订阅量。一个门户网站希望通过SEO,达到每天十万以上独立IP访问量。

这些目标是根据网站本身的商业目的来确定的,比如为了增加访问量,吸引风险投资的青睐。但无论什么网站,明确的优化目标是必不可少的,比如排名优化到什么名次,访问量达到什么级别等,这些都是在做SEO之前需要确定的。确定目标后,在SEO的过程中要定期检查目标(比如一周检查一次,检验目前的SEO策略有效),并及时调整策略(比如发现Wiki类网站对优化很有帮助,则可在下一步优化中加大这方面的投入)。

注意:SEO是一个过程,不能操之过急。仅仅依靠几天或者几星期的时间,是无法立刻提升网站在搜索引擎上的排名的。优化的过程可能很漫长,中间也可能会走些弯路,此时更需要站长们的坚持和耐心,并且不断地尝试、学习新的方法,将SEO进行到底。第2章分析搜索引擎算法

搜索引擎技术是一种信息处理技术,主要包括抓取算法和排名算法。为公平起见,搜索引擎公司一般不会公开其算法的细节,因为如果公开这些算法,某些网站可能会利用它来改善其排名,搜索结果将会被网站的站长操纵,从而影响搜索结果的中立性。

搜索引擎采用的算法可以被看做是一个黑盒,但是通过多种分析之后,就可以对主要内容和策略进行推测。2.1 搜索引擎的抓取算法

搜索引擎工作的第一步就是获得互联网上的信息。现在的互联网是如此庞大,信息量每天都在飞速增长,检索和分类将是一项非常巨大的工程,必须采用自动化的方式来实现。网络内容抓取器就是这样的工具,它访问网页上的超链接,像“一传十,十传百……”一样,从少数几个网页开始,逐步延伸到互联网的其他网页。2.1.1 网络蜘蛛

网络内容抓取器常被形象地称为“蜘蛛”,而互联网就是一个蜘蛛网,蜘蛛就在这张网不断获取信息。

蜘蛛从网站中的某一个页面(通常是首页)开始,读取网页的内容,并找到该网页中的链接地址,然后通过它们寻找下一个网页,这样一直循环下去,直到把所有的网页都访问并抓取下来。

每个主流的搜索引擎都有自己的蜘蛛,例如:Googlebot(Google蜘蛛)、baiduspider(百度蜘蛛)、Yahoo Slurp(Yahoo 蜘蛛)、Msnbot (MSN 蜘蛛)、Scooter (Altavista 蜘蛛)、Lycos_Spider_( T-Rex )、FAST-WebCrawler(Alltheweb 蜘蛛)、ia_archiver(alexa 蜘蛛)Slurp (INKTOMI蜘蛛)等。2.1.2 抓取规则

1.广度优先和深度优先

在抓取的过程中可以采用两种方式:广度优先和深度优先。(1)广度优先是指先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页,以图2-1所示的网页链接结构为例,蜘蛛的抓取顺序如下:从A页面出发,首先抓取BCDEF页面。从E页面出发,抓取H页面。从F页面出发,抓取G页面。从H页面出发,抓取I页面。没有发现更多可抓取的页面,抓取过程结束。

广度优先是目前最常用的蜘蛛抓取方式,因为此方法可以并行处理,提高抓取速度。(2)深度优先是指蜘蛛从起始页开始,逐个链接跟踪下去,处理完这条线路之后再转入下一个页面,继续跟踪链接。以图2-1所示的页面链接结构为例,蜘蛛的抓取顺序如下:从A页面出发,抓取F页面。从F页面出发,抓取G页面,发现没有更多可链接的页面,于是回到F页面,发现F页面也没有更多的页面链接,于是回到A页面。从A页面出发,抓取E页面,从E页面出发抓取H页面,从H页面出发抓取I页面。回到A页面,抓取D页面。从A页面出发,抓取C页面。从A页面出发,抓取B页面。没有发现更多可抓取的页面,抓取过程结束。图2-1

深度优先的算法一般采用堆栈结构实现,其优点在于设计蜘蛛时比较容易。

2.搜索引擎容量

对于搜索引擎来说,要抓取互联网上所有的网页几乎是不可能的。从目前公布的数据来看,容量最大的搜索引擎也只能抓取整个互联网中40%左右的网页,主要原因如下:现有的抓取技术无法遍历所有的网页,有许多网页无法从其他网页的链接中找到。信息的存储技术存在瓶颈,如果按照每个页面的平均大小为20KB计算,100亿网页的容量是100×2000G字节。如此庞大的信息量,以目前的存储技术很难实现。数据量太大时,搜索过程会受到搜索效率的影响。

因此,搜索引擎的网络蜘蛛往往只抓取那些重要的网页,而评价其重要性的主要依据是该网页的链接深度。由于不可能抓取所有的网页,因此网络蜘蛛一般都设置了访问的层数。

3.蜘蛛访问限制规则

现在的网站都希望搜索引擎能更全面地抓取自己网站的网页,因为这意味着更多的访问者能通过搜索引擎找到此网站。为了让网页更全面被抓取到,网站管理员可以建立一个站点地图文件(Site Map,把网站内部所有网页的链接放在这个文件里面)。许多蜘蛛会把sitemap.htm文件作为网页抓取的入口,很方便地把整个网站抓取下来,不仅可以避免遗漏某些网页,也会减少网站服务器的负荷。

有时,站长可能希望蜘蛛只抓取某些特定部分,而另一些内容则不希望被搜索引擎收录,这样做有以下几方面的原因:网站可能包含一些隐私或敏感信息,这些信息不宜暴露在搜索引擎上。网站可能包含一些需要权限才能查看的信息。蜘蛛的抓取会增加服务器的负担。

此时可以通过以下两种方式来限制蜘蛛对页面的抓取。(1)在链接上加入rel=nofollow标签,则搜索蜘蛛会跳过此页面。这种方式简单,但不适用于有大量页面需要限制抓取的情况。(2)蜘蛛进入一个网站,一般会访问一个特殊的文本文件Robots.txt。这个文件一般放在网站服务器的根目录下,网站管理员可以通过Robots.txt 来定义哪些目录蜘蛛不能访问,或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到,那么网站管理员就可以把这些目录定义为拒绝访问目录。

Robots.txt语法很简单,主要有两个字段——User-agent和Disallow。User-agent定义了允许抓取的搜索引擎蜘蛛。每个蜘蛛都有自己的名字,在抓取网页时会发送一个请求,这个请求中就有一个字段为User-agent,用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot,Baidu网络蜘蛛的标识为 BaiDuSpider,Yahoo网络蜘蛛的标识为Inktomi Slurp。Disallow 定义了哪些页面不能被抓取。可以单独列出页面的名称,也可以用文件夹的方式,表示此文件夹下所有的页面都不能被抓取。

如果对目录没有任何限制,可以用以下两行来描述:

User-agent:*

Disallow:

下面是限制抓取的例子:“Disallow:newsunday.html”:要求蜘蛛不要抓取页面newunday.html。“Disallow:/newsunday/”:对newsunday文件夹中的所有文件都不要抓取。

说明:Robots.txt只是一个协议,如果蜘蛛的设计者不遵循这个协议,网站管理员也无法阻止网络蜘蛛对页面的访问,但一般的蜘蛛都会遵循这些协议。2.1.3 内容提取

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载