大数据经济(雅虎中国前总裁谢文首部大数据著作,为你找到大数据时代的起飞通道,财新传媒总编辑胡舒立鼎力推荐!)(txt+pdf+epub+mobi电子书下载)


发布时间:2020-09-26 00:57:54

点击下载

作者:谢文

出版社:北京联合出版公司

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据经济(雅虎中国前总裁谢文首部大数据著作,为你找到大数据时代的起飞通道,财新传媒总编辑胡舒立鼎力推荐!)

大数据经济(雅虎中国前总裁谢文首部大数据著作,为你找到大数据时代的起飞通道,财新传媒总编辑胡舒立鼎力推荐!)试读:

1 一切都是数据,数据就是一切

导读

大数据是什么?从哪里来的?有什么用?讨论大数据难免要围绕着这些问题展开。但至今,对这些基本问题还没有什么共识达成。当然,这也没有严重影响大数据的发展。在什么领域里阻力小、见效快、收益大,这些领域里的大数据创新就数量多、影响大。

微观派愿意就具体的技术问题讨论大数据,例如数据大了怎么存储最好,数据种类多了如何统一,数据增长快了怎么能比较省钱地应对。

中观派愿意讨论利用大数据的好处,例如如何通过数据挖掘提供产品和服务的营收,如何利用用户行为数据增加产品和服务的针对性。

宏观派愿意讨论大数据对社会的影响,尤其是负面影响,例如大数据如何威胁个人隐私、企业利益和国家安全。

三者一致的地方在于都认为大数据是个可以控制、可以利用、可以取舍的技术现象。对大数据,用也好,不用也好,用一部分舍弃一部分也好。总之,大数据只是一种工具。

但万一不仅仅如此呢?

如果世界上的万事万物都正在快速地被人类数据化,存储在计算机里,流动于互联网中,万物皆数,万物互联,那么就会形成一个与现实世界平行的数据世界。人类在数据世界里完成的社会行为在比例上不断增加,在内容上不断丰富,那么,该如何理解这种变化呢?

如果不断增多的人类制造物都开始采用数据化生产方式,新的原材料开始用数据化的方式生成,新的需求通过数据化的方式获得,商业销售和货币交换都以数据化的方式进行,那么,大数据还只是网络业少数人讨论的技术问题吗?

如果社会管理、国家安全、公共卫生和交通、教育和医疗都在迅速采用数据化的方式,那么,一个社会该以什么样的态度对待大数据现象,以什么样的姿态面对大数据浪潮的冲击?

如果社会交往、新闻资讯、文化娱乐、思想传播都更主要地通过数据化形式进行,那么,是抗拒或封杀这样的传播方式还是努力去适应这样的传播方式?

如果人们居住的房屋、驾驶的车辆、使用的器具、穿戴的衣物都变成数据化终端,那么,人类该怎样去适应这样的生活方式,该形成怎样的社会习俗?

仅仅把大数据看作一种技术现象、经济现象、社会现象或政治现象是不够的。从个人层面讲,轻视大数据就容易在各种生活选择中不知所措,诸如上学、就业、居家、社交都有可能陷入困境。从企业层面讲,看不到大数据的趋势,轻视各行各业走向数据化的趋势,以为随便做做就算互联网+了,都可能是首先被淘汰被取代的企业。从社会层面讲,文化、道德、习俗如果比较保守,比较内向,比较排外,那就会在大数据浪潮面前不知所措,消极被动地应对危机。从国家层面讲,如果抓不住大数据的机遇,消极抵抗大数据浪潮,就会像许多处于农业社会的国家面对工业革命的冲击却错失良机,再想赶超就需要数百年的努力。

大数据是一种世界观,大数据是一种历史观,大数据是一种价值观,大数据是一种方法论。大数据其中的技术问题自有专业人士应对,商业问题自有企业家们操心,但由此引发的社会文化、道德、习俗的变迁,国家兴衰与全球范围的竞争,每个人都很难不去面对,不去思考,不去选择。

如果把人类走向信息化社会的努力分为三个阶段或三个时代的话,可以分为计算机时代、互联网时代和大数据时代,理由在于不同时代的驱动力不同。计算机解决的是数据计算问题,互联网解决的是数据传输问题,大数据则是在此基础上直奔主题,用数据化的方式解决人类生存发展的各种问题。

苏联解体后专家们统计,美国与苏联相比,20 世纪 80 年代末计算机拥有量是 25 比 1。当苏联还痴迷于原子弹、航母、导弹、坦克的数量时,却不知道或不理解人类已经开始走向信息化社会了,一个国家的国力已经不再仅仅以军事力量去衡量,而更主要的是以信息生产能力去衡量。

和苏联相仿,中国几乎完全错过了计算机时代,直到 20 世纪 70 年代末的改革开放才急起直追。今天虽然在计算机应用的深度和广度上还落后于发达国家,但基本上算是齐头并进了。在互联网兴起时,中国落后美国 10 年以上。但同样感谢改革开放的国策,从 20 世纪 90 年代中期开始奋起,今天也算是第二互联网大国。在 2010 年左右世界开始进入大数据时代,中国第一次有了和发达国家同时出发的历史机遇。但是,种种迹象表明,中国走向大数据时代的决心不那么大,步伐不那么快,基础性建设不那么多。如果蹉跎十来年,就又会与发达国家拉开整整一个时代的差距。

所以,认识大数据,思考大数据,努力大数据,就应该成为此时此刻的一个重要话题。

关于大数据,你知道的都不对

一个概念,无论它可以抽象到多么高深的程度,其形成、演变、推广的过程往往却很实在、具体,充斥着不同社会力量的博弈。这个概念的对错与否、生命力的短长、对社会的影响往往不取决于概念本身,而在于它的社会价值。

例如,PM2.5 是一个衡量空气污染的指标概念,是描述客观存在的一种尺度。但是,这个概念在中国的落地生根却经过了两三年惊心动魄、迂回曲折的艰难历程。这个概念长期被拒绝在中国采用,理由是不合中国国情,不能反映出环境保护方面取得的伟大成就。然后,当亿万百姓可以通过网络获取这一指标的实时报道时,又被说成是外部势力居心叵测的挑衅。终于,现在 PM2.5 检测体系开始在全国逐步建立,大众的兴奋度却逐步降低,因为据说不经过二三十年,中国是很难达到联合国规定的空气优良标准的。

再例如,基尼系数是世界各国广泛用来衡量社会发展水平和社会不平等程度的一个客观指标概念。但是,这个曾经被中国学界广泛使用的概念近年来却无法获取权威的全国性数据,据说是因为基尼系数七八年前就达到了 0. 45 的水平,这被认为是一个社会贫富差距过大、继续增加就会导致社会动荡的临界点。一些学人体谅苦心,跳出来说普适性的基尼系数计算方式不适合中国国情,需要建立具有中国特色的基尼系数。因为城乡二元化,所以应该分别计算城乡基尼系数;因为沿海内地发展水平差异巨大,所以应该分别计算沿海地区和内陆地区的基尼系数;因为城市地区有户口的居民与新迁移进城的无户口居民之间生活水平差异巨大,所以应该分别计算正式居民与非正式居民的基尼系数,甚至干脆将非正式居民排除于统计体系之外。于是,社会贫富差距就成了一个只能泛泛而谈而无法实际度量的东西。

还例如,世界多数国家普遍采用的时区制,在中国从来就没有实行过,据说是怕影响国家统一。夏令时制曾经试行过两三年又被取消,据说是因为既麻烦又节电效果不明显。邮政编码先是被大力推行,然后又被取消,然后又被推行,理由先是推行成本过高,后是不推行成本过高。相反,有些概念的命运没有这么坎坷,一旦引进国门就大行其道。纳米是个只有极少数材料物理科学界专家才明白的概念,但今天在很多超市里却随处可见纳米除污剂、纳米装饰品,甚至还有什么纳米食品。

可见,一个新概念的出现,即使本身正确,孕育着推动科技进步和社会发展的巨大潜能,其真正实现也绝非易事,更可能的是由于社会环境的制约,被否定,被歪曲,被庸俗化。

今天,在中国相当范围内,开始流行一个全新的概念——大数据。我得承认,这个概念的流行中我自己起了一点作用。在大数据开始被讨论差不多一年的时候,它开始沦入其他新概念类似的命运:越来越说不清楚了。个中原因也不难解释:首先,大数据的概念是个舶来品,在发达国家尤其是美国逐渐成形、讨论和实践。在潮涌般的媒体报道、论文分析和专著论述中,大数据这个概念如同瞎子摸象一样,被不同视角、不同利益和不同水平的人描述出来,让人难以琢磨。一个被严格定义并被广泛接受的大数据概念还没有出现,它更像是一个宽泛的现象描述,各种各样的东西都被装在里面。这样的好处是百家争鸣,共识会逐渐形成;坏处是鱼龙混杂,存在走歪走偏的可能性。其次,大数据是个发展中的事物,人们对其理解、阐释也在思想的碰撞、利益的竞争和技术的发展中不断深化,在概念层次和理论框架上说不清楚是必然的,和历史上许多新理念的形成过程并无二致。再者,关心大数据的主力军是网络业和 IT 业人士,他们目前面临着沉重的竞争压力和创新突围的激烈竞争,难免情不自禁地把自己的战略、产品、技术和服务装进大数据这个筐里,图存发展。

在维基百科网站上,大数据开始是这样被定义的:“大数据通常包括这样一些数据集,其体量超出了业内常用软件工具的能力,无法在可以容忍的时间内获取、把握、管理和处理。”这个定义显然是描述性的、单向思维的、自相矛盾的:如果大数据仅仅等于数据体量大,那么大数据与其他数据有什么本质区别?这种区别仅仅在于软件处理能力上吗?近年在处理体量相对庞大的数据方面,最流行常用的软件程序叫 Hadoop,那么能够被它处理的数据算不算大数据呢?说不算吧,Hadoop 被很多人称为第一个大数据软件;说算吧,它面对的数据并没有超出它的能力。可见,这种大数据概念一定来自每日和数据纠缠在一起的软件工程师和数据工程师们,是一种具体的、狭隘的、操作性的定义,经不起时间和逻辑的检验。

2001 年,在全球 IT 咨询服务巨头 Gartner 工作的分析师 Doug Laney 写了一篇研究报告,第一次提出了一个三维模型,用以分析数据增长所带来的挑战和机会。这个三维模型的第一维是高速增长的数据体量(Volume),第二维是高速进出的数据运动(Velocity),第三维是高度异质的数据种类(Variety)。由这三维形成的空间里充满的就是我们今天称之为大数据的东西。Gartner 采用了这个 3V 模型,从此成了广为人知,也被 IT 业界普遍接受的大数据定义。2012 年,作为 Gartner 资深专家的 Laney 又在一篇新分析报告中更新了自己的大数据概念定义:“大数据是体量庞大、高速变动和/或种类繁多的信息资产,需要采用全新的处理形式以有助于提高人们在决策形成、视野拓展和过程优化中的能力。”

这是一个很不错的定义。首先,明确了大数据是一种以信息形态存在的资产,具有 3V 特性;其次,盘活这种资产需要全新的处理形式;再者,这种资产增值创利主要体现在决策、视野和过程优化三方面。这个定义比前面提过的定义有进步,至少把大数据从狭窄的数据处理领域扩展到了整个 IT 业,也就是信息技术业。而且,由于信息技术已经普及到各个产业,应用于社会生活的方方面面,所以,大数据也就应该被社会各领域的人们所关注。

但是,我对这样一个大数据概念的定义仍然有些不满足,有些困惑,有些疑虑。这个定义仍然是描述性的,有些含混不清、难以把握。例如,“体量庞大”是什么意思?体量为一个 MB 的数据等于 1024 KB,一个 GB 数据等于 1024 MB,一个 TB 数据等于 1024 GB,一个 PB 数据等于 1024 TB……数据体量大到什么程度就算大数据了?“高速变动”是什么意思?1 GB/s 还是 1 TB/s?或者是数据体量每年翻番?“种类繁多”是什么意思?1000 种不同数据?100 种数据来源?10 种数据格式?“全新的处理方式”是什么意思?今天的全新方式也许明天就过时了,明天的全新方式也许后天就落后了,怎样的处理方式才能在本质上算是大数据处理方式呢?另外,除了“有助于提高人们在决策形成、视野开拓和过程优化中的能力”,大数据就不能再干点别的什么事了?在这三种用途之外就不存在大数据现象和大数据生存空间了吗?尽管有大量的论文、书籍试图对此详加说明,但好像至今没有谁能说得很清楚。

可见,这样的定义仍然是技术性的、应用性的,隐约可见 IT 咨询服务业自我推销的影子。在这样的定义基础上,很难支撑正在被媒体大肆宣扬的“大数据革命”“大数据时代”“新工业革命”这样一些新概念。更糟糕的是,大家可能都在使用“大数据”这个概念,可能都认为“大数据时代”很令人振奋,甚至都赞同“不数据,毋宁死”的观点,但说着说着就南辕北辙,就自相矛盾,就互相为敌了。这里的主要原因就是因为大家对大数据的理解不一样,甚至完全相反。

在阅读大数据方面的文章书籍时,在各种场合与专家学者交流中,一个突出的感觉就是大家普遍在使用大数据这个概念的时候时态混乱,有的使用过去时,有的使用进行时,有的使用将来时,还有的各种时态混合使用,这就使一个本来就有些玄妙的概念更加难以理解了。

很多人非常正确地指出,大数据本不是个新东西,概念的提出和使用已经有几十年历史了。用这样的过去时态讨论大数据的大都是大学校园里的资深学者教授。我本人第一次听到大数据这个词,还是 20 世纪 80 年代中期在美国哥伦比亚大学就读社会学,学习宏观社会结构理论和社会网络分析的时候。当时一些学科,主要是天体物理学、生态学、自动控制以及社会学和经济学的某些分支,在前沿研究中都遇到了共同的问题,那就是学者们有机会获得了海量的研究对象数据,却因为计算机能力、研究经费不足和分析方法不够等原因而望洋兴叹。久而久之,“大数据”就成了描述这一现象的代名词,也就是数据量太大、太复杂以至于在当时条件局限下无法利用。大数据等于大麻烦、大障碍、大问题。

但是,在经过四分之一个世纪之后,我们今天所说的大数据还和当年的理解别无二致吗?当年的主要矛盾是计算能力大大落后于实际需求,在哥伦比亚大学这样世界闻名的顶尖学府里,计算机主机的能力大概也就相当于今天一台配置比较好的台式计算机,使用起来过程复杂,需要大量的研究经费支持。今天的主要矛盾正好反过来,是计算能力大大超过实际需求,以至于大批网络公司和其他各行各业的众多企业和机构面对潮水般涌来的数据不知所措,不知道如何利用,只好定期删除。问题不在于知道如何使用数据却受到计算能力的局限,而是空有充沛的计算能力却不知道如何利用手中的数据进行创新,产生显著的经济价值和社会效益。假如能够找到合适的应对之道,大数据完全有可能变成大机遇、大创新、大空间。

很多人以大数据的领先者自居,利用各种渠道和场合推销自己的硬件、软件或解决方案,自认为是大数据的终结者,说话的时态用的是完成时,这样说话的人大多出自 IT 业、软件业或咨询服务业。除了完全可以理解的商业动机外,这种完成时的大数据说法也不无道理。大数据发展是一个渐进过程,软硬件方面对此的配合适应也是一个连续的进程,很难找到一个清晰的边界划分什么才是大数据时代的软硬件或解决方案。但是,如果把今天的新产品、新技术都装进大数据这个筐里,势必混淆了大数据与非大数据的界限,削弱大数据所引发的革命性变革力量,无法区分产业进化与产业革命的分野。

很多人已经自认为是大数据的实践者了,四处可闻数据挖掘和精细化运营的实例宣讲和心得体会,说话的时态用的是进行时。这样说话的大多是网络公司,特别是电子商务和云计算领域的公司。从好处看,众多企业举起了大数据的旗帜,对大数据未来的发展绝对是个利好,众人拾柴火焰高;从坏处看,如果眼下这些数据挖掘和精细化运营的实践就算是大数据了,而由此产生的产业创新和经济效益却并无惊人之喜,这对大数据发展又是个利空,容易让人产生幻灭感。

凡此种种,不一而足。在使用大数据概念上的时空错乱反映了一个事实:大家对什么是大数据理解不一,做的东西真假都有,新旧俱全。力图尽可能地探究大数据的概念含义,并不是因为我喜欢咬文嚼字,或是认为只有从理论到实践才是成功的唯一道路。事实上,很多引发产业革命的创新者和成功者在开始阶段未必能想得很清楚,自己做的东西是否正确,甚至可能做错了再重来。但有两点却是共同的:一是做的东西前无古人,是创新,不是旧东西的延续、改良、精致化;二是虽然开始未必想得很清楚,甚至想错了,但一定是走在正确的大方向上。所以,在今天的大数据热初起的时刻,尽可能地厘清这一概念的内涵和外延,理顺概念的来龙去脉,推演概念的潜力与发展,是非常必要的。概念过小,必然难以产生大影响;概念过大,必然鱼龙混杂,失去生命力。

数据的由来——从三千年前说起

人类是社会性动物,会思想,会表达,会学习,会互动。虽然越来越多的证据表明,这些能力不是唯一属于人类的,动物界还有许多种动物具有这些能力,但人类无疑是能力最高的。

虽然无法从考古材料中确凿地证明,但人类最初在发明语言和文字之前,一定是通过肢体动作、表情和声音表达自己的思想、情绪和愿望的,这从对其他灵长类动物的研究中得到了充分的证明。一个人的动作、表情和声音要想让另一个人明白其含义,不是简单的事,恐怕要经过漫长、反复试错的过程,才能让人们取得共识,让某一个动作、表情或声音表达一种确定的含义。一旦含义确定,就会成为一群人共同的精神财富,并代际相传。

我们今天所能见到的人类的思想情感表达的最初形式是数千年前,甚至数万年前人类刻画的岩画(有考古发现说有 2 万~3 万年前的岩画,但还未有足够多的例证)。我曾在埃及、土耳其、伊朗、阿塞拜疆、法国、美国等地的古迹中见到许多新石器时期的岩画,中国各地也都有岩画遗存。这些岩画共同的主题都是人、动物、植物、山水和日月星辰,以及某些无法识别的符号类标志。岩画主题主要是种植、战争、欢庆和生活。我所见过的最壮观的地画(也该算岩画的一种)应该算秘鲁纳斯卡地画了,是三千多年前的人类用碎石堆放而成,地画的直径至少几十米,大到数百米,只有乘飞机在数百米高空才能看明白地画的形状。

大约经过数千年甚至上万年的努力,人类的思想表达从岩画发展到木制品、金属制品、动物制品等,表达内容也从简单到复杂、具体到抽象,从自我或家族部落欣赏到进行权力表达或成为用来交换的商品。今天,有考古证据证明,至少在五千多年前,人类开始创造出文字并以石头、植物纤维、动物骨头等材料为依托,刻画留存至今。无论两河流域、埃及、希腊还是中国的古文字,主要是用来记载帝国兴衰、天灾人祸、祭祀占术以及国家律法的。这些文字多发现于古代王宫和相关的建筑遗址内。

自从文字发明后,就成为人类文明记录、传承和传播的主要工具。随着社会的发展,文字开始用于文化、思想、历史、发明和行为规范等方面。在早期,学习文字、拥有文字和使用文字是极少数人的事情,他们多属于权贵圈、宗教界和为这两种人服务的“知识分子”。识字的人很少,因为掌握文字的成本极高,需要富有家庭的长期投入。记录文字很难,因为能够留存的文字不是书写,而是刻画。保存文字不容易,要有房屋,有院落,甚至要有警卫。这就需要财富,需要不用劳动的人,需要专门教授文字和学习文字的人,更需要使用文字的人。于是,一个学字、识字、用字的社会阶层出现了,那就是社会精英阶层,也就是社会统治阶层及其附庸者。事实上,直到工业革命初期,世界各国无一例外地识字率都极低,不到 10%,文盲占 90% 以上。中国直到 20 世纪 50 年代初,扫盲仍然是个大任务,文盲占总人口的 80% 以上。农业社会低下的劳动生产率决定了没有多少社会财富可以用来让人读书识字,交通不便、社会流动率低、商品交换不发达决定了文字需求不多,只有统治者和精英阶层需要。

人类文字发展史上有几个重要的里程碑。第一个是拼音文字的出现。文字刚出现的时候都是象形文字,渐渐地有些难以找到相应物体形状的抽象概念无法准确表达,只好用比较抽象的形状代替。慢慢地,一些形状逐渐固定,形状数量逐渐减少,文字不再与所指物体相对应,而是与文字的发音关联起来。一个原始的文字加上前缀后缀以及变形又生成更多的词汇,使人们可以进行更复杂和更准确的思想表达和交流。在黎巴嫩首都贝鲁特附近的古堡中,我见到了遗存至今最古老并基本定形的字母表,一共二十三个字母,镶刻在三千多年前一位国王的棺材上,据说正是这位国王在确定字母表并加以推广上起到了决定性的历史作用。今天所有的拼音文字都是这个字母表的延伸、变化和改进,而象形文字只有中文还在大规模地使用和发展。

第二个里程碑是纸张的发明与普及。早期的文字保留在天然获取物上,例如石头、兽皮、兽骨和木头等,这存在获取不易、书写不易、保存不易、流传不易的问题。接着人类把文字保留在人工制品上,例如铜铁制品、丝麻制品、竹木制品等,这又存在产量低、成本高的问题。埃及的莎草纸(可以归为麻制品一类)虽然历史悠久,但由于原料只在尼罗河两岸生长,所以不能广为流传。只有基于纸浆或木浆造纸的技术发明后,文字才有了大规模普及与流传的基础。

第三个里程碑是印刷术的发明与发展。在文字出现后的两三千年里,文字的传播基本上是靠手抄。在欧洲和中东地区,宗教界是文字传播的主要力量。在中国,直到宋代,手抄仍然是文字传播的主渠道。渐渐地,石板印刷、雕版印刷被发明出来,但其仍然属于小众传播的技术。直到活字印刷,特别是印刷机的发明出现以后,书籍才成为大众可望而可及的东西,不再是极少数贵族的独占品。海德堡印刷机的问世,使得海量印刷成为可能,促进了以报纸为代表的大众传播的出现。以文字与纸张相结合、以书籍报刊为主要形式的知识与资讯传播是人类社会得以发展前进的主要手段之一。

文字的缺点是显而易见的。首先,文字只有一种表达方式,无法将人们的声音、动作、表情等完整地表现出来。其次,文字有太多的存在形式,今天世界上仍然被使用的文字有数百种之多,任何一个事物都有数百种文字表达方式,这使得文字的传播成本高昂,传播效率不高。第三,文字的学习掌握需要漫长的过程,花费不菲的代价,即使经过十来年的努力,能够很好掌握文字表达技巧的人在社会上仍是少数。第四,文字的表达能力有局限性,对很多自然现象和社会现象只能描述,很难精确定义。

与文字差不多同时诞生的是另一个表达体系,那就是数字。数字当然是文字的一部分,但是相对独立,自成一格。世界各地古文字中都有自己的数字符号,但进展不一。例如零的发现,印度最早,其他文字则要晚得多。时至今日,全球普遍采用阿拉伯数字体系,但伊朗仍坚持使用古代波斯语中的数字符号,使得我们这些外人在那里旅游时看不懂钞票的面值。与一般文字相比,数字的好处是精确定义,毫无歧义。架构在数字之上的数学则是人类思想中最缜密、最有逻辑、最有使用价值的一部分,整个科学体系完全依赖数学的发展,而不能使用数学的思想则不属于科学。

夹在文字与数字之间的是一种特别的东西。开始它是被文字表达,但却有精确、客观、无歧义的特征,多用来表达世上客观存在的东西或已经发生的事实。在古拉丁文中,这个东西被称为 Datum,其复数形式为 Data,后来在英文中普遍使用为 Data,意思是“to give”和“givens”,指的是内涵确定、定义明确、毫无歧义的东西。在中文中 Data 被翻译成“数据”,的确是个不错的翻译,有“数字化的根据”的意思。

例如,“日”这个中文词,两个最普遍使用的意思是指天上的太阳和时间上的一天。如果能精确说明“日”是太阳系的中心,“天”是地球自转一周的时间,那么“日”就从普通的文字变成了数据。圆周率是文字,3.1416 则是数据,尽管内涵是一样的。要想精确定义一个事物,或者说一个事物被定义的精确度,随着人类对世界的认识发展,越来越依赖数字化定义。哪个领域被研究认识的东西被数量化定义之后,它就变成了科学的对象,也就可以更多、更深、更快地被人类所利用。

数字与数据不是一回事。数字是普适性的概念,是对一切事物的数量性质的表达。数据则是具体性的概念,是对一个事物的数量性质的表达。“8848 米”是一个数字,没有任何具体内容,只是一个长度的数量表达。“珠穆朗玛峰海拔 8848 米”是一个数据,特指世界最高峰的高度。“珠穆朗玛峰是世界最高峰”是一个文字表达,具体但不准确。所以,文字是人类对世界认识的一种抽象表述,数据是比文字更高一层的抽象表述,数字则是最高层次的抽象表述。

对一个事物可以有多种数据表述形式,取决于人们的目的和认识程度。例如,中国人口为 13.6 亿是人口数量的数据,中国人口中 54% 为男性、46% 为女性是性别比例数据,中国人口平均受教育程度为 9 年是教育数据等。对一个事物的数据表述越多,对这个事物的定义越精准,人们对这个事物的认识就越深入,可利用程度就越高。

数据是个高难度的东西。看到一个东西用文字可以模模糊糊地去描述,用头脑可以似是而非地去思索,但是要用一组数字去准确定义这个东西则是非常困难的事。可以说,人类历史在一定意义上就是对外部世界、对内心世界、对人与人的关系从无知到有知,从模模糊糊地知到比较确切地知,然后逐渐开始加以利用的历史。所以,数据在很长的时间里,甚至直到第二次世界大战前,只在非常狭窄的领域,例如数学、统计学、物理、化学、经济学等领域里得到比较充分的利用。在其他领域,例如政治学、社会学、历史学等领域,则很难得到足够的数据去利用,更不用说人际互动、文化现象、心理活动这些更复杂的现象了。直到不久前,甚至即使时至今日,数据这个概念对专业人士以外的绝大多数人来说,仍然是个冷僻、生疏、似乎远隔万里的东西。

数据的进化——从数据到大数据

数据的出现和人类对数据的利用,可以追溯到三千多年前的古代。在尼罗河两岸的古迹中,我曾看到古埃及法老们在河边石柱上留下的每年测量尼罗河水位的刻度,他们以此来预测来年可能的税收数量。在希腊的博物馆中,我曾见到当时用来观察天体运行的仪器,还有具备八十多个部件的机械式计算机,它们可以精确地确定时间、方位和方向,用于船舶的导航。古代中国早在汉代就开始人口普查和田亩统计,用于税收政策的制定。但整个看起来,在农业社会中,人们对数据重要性的认识是不够的,创造数据的能力是低下的,对数据的利用是简单肤浅的,专制统治者们经常置数据于不顾,随心所欲地发布政令,导致社会动荡、混乱甚至崩溃。

工业时代的到来为数据的发展和人类对数据的利用和依赖提供了坚实的条件。科学告诉人们如何寻找数据、分析数据和利用数据。数据开始分门别类地得到巨大的发展。物理数据、化学数据、生物数据、地理数据、天文数据、经济数据、社会数据、文化数据、军事数据等开始成为一门门科学的基础,成为经济、社会、文化发展的依托,成为人类思想的根据。

货币和证券也许可以被视为工业时代最特殊、发展最快、影响也最大的一类数据。在农业时代,货币作为价值交换物,主要形式为贵金属,自身就具有相当价值,数据的属性并不明显。纸币的出现与大规模使用,充分显示了价值符号的作用,表现出数据交换就等于价值交换的特征。有价证券的出现与大规模使用,进一步凸显了数据的作用,乃至于工业时代被冠上了资本主义时代的名称。人们把以货币和证券为代表的资本视为社会发展的动力,同时也视为社会矛盾与斗争的根源。

当人们开始有意识有目的地收集数据和利用数据的时候,困扰开始了。美国在 19 世纪后期每隔十年一次的人口普查,已经不满足于简单地统计人口数量,还想知道人们的居住条件、收入水平、婚姻与家庭状况、职业与行业变化等,以此来决定国家的政治经济政策。于是,调查表越来越长,问题越来越多,分析越来越细。人口普查结束后,需要七到八年的时间才能完成数据分析,这已经快到下一次人口普查的时间了。处理数据的能力远低于获取数据的能力,不仅损害了数据分析结果的时效性,也提高了数据处理的成本。更何况由于数以万计的人参与了数据处理过程,手工误差也无法有效控制。于是,人们开始想到了用机器辅助处理数据。

最早的计算机是机械的,笨重易损,只能做简单的四则运算。所以机械式计算机未能广泛普及,也未产生显著的社会影响。“二战”后,科学家想到用 0 和 1 两个数字组成的字符串就可以表达一切文字、数据和符号,而电子管的开和关两个状态又正好可以表示 0 和 1。于是,电子计算机问世,一个全新的时代开始了。半个多世纪过去,计算机领域的发展一直遵循摩尔定律,计算速度每一年半左右翻一倍,计算机器件的相对成本每一年半左右降一半。可以说,今天的世界没有哪一件事、哪一个人没有直接或间接地同计算机打交道。没有了计算机,整个世界将会陷入混乱。

早期的计算机还是只处理特定科学、社会和经济领域里精心准备的数据,能够使用计算机的人也都是经过专门培养、长期训练出的专门人才。计算机处理数据很快,但向计算机里输入数据却是个力气活,很烦琐,很耗体力,很费钱。我在 20 世纪 80 年代初去美国读书时,看到系里的计算机室就像个计算机博物馆,光数据生成设备就有打卡机、读卡机、纸带穿孔机、纸带读孔机以及各种型号的磁盘等。各种型号的计算机终端和个人计算机多达十来种。仅仅掌握各种数据生成方式和各种计算机操作系统就花了我整整一学期的时间。

个人计算机(PC)、软盘、Mac 和 Windows 操作系统等一系列计算机创新的出现极大地推动了计算机的普及,人们在日常工作和生活中使用的文字与数字在计算机上自动转换成数据。随着计算机软件业的发展,图形、照片、语音、影像等都成为可以处理的数据。美国在 20 世纪 90 年代初,其他发达国家在 90 年代中期,中国在 21 世纪初都基本完成了计算机的普及,有效地推动了社会的现代化和信息化进步。

这时,数据已经差不多变成了计算机领域的专有名词,只有能够输入计算机的才算数据,只有计算机能够处理的才算数据,其他只被看作准数据或非数据。如何获取、存储、计算、使用数据变成了专门的高深学问。掌握了这些学问的人也成了社会需求大、收入高、贡献大的一批人物。

随着计算机的普及,如何在计算机之间迅速传递数据就成为新的挑战,特别是在空间距离远、时间要求快的一些领域,例如国防、金融、科研、通讯等。最开始,专家们运用不同的方法和标准在计算机之间建立了一些专用线路和专用网络,用来传输专门的数据。这种方法成本高、维护难、用途窄,人们又试图利用公共通讯网络例如电话网传递数据。终于在 20 世纪 70 年代开始,经过十多年的努力,建立了后来被人称为互联网的通用型数据传输网络。一个崭新的时代开始了。

计算机与互联网的结合,不仅解决了数据计算和数据传输问题,更重要的是人们解放了自己的双手、双腿和头脑,可以集中思考一些更具挑战性和前瞻性的问题。例如,利用计算机和互联网,有没有可能把过去无法数据化的东西变成新的数据源?如何利用这些新获得的数据产生新知识、新产品、新服务?怎样利用新数据解决困扰人类社会的重大问题,例如战争、贫困、疾病和贫富差距?

在过去二三十年中,人们利用各种新出现的科学技术进步成果,创造出了各种获取全新数据的工具,例如手机、手表、眼镜、穿戴用品、运输工具、制造设备、医疗设备等,都可以用来获得过去无法获得的人类生活、生产、交往的数据,获得自然界运动变化的数据,获得物质自身与物质生产的数据。这些数据数量之多、种类之繁杂、增长速度之快,终于在 2010 年前后引起了足够多的人的注意,并开始思考这个现象背后的意义。一时半会儿想不明白,人们干脆给这种现象起了个形象的名称——大数据。

计算机技术和互联网专家们看到了数据多、数据乱、数据增长快的麻烦,所以从技术挑战的角度描绘这一现象,失之于狭隘。

IT 公司和网络公司看到了利用数据提高原有商业模式的效率,增加收入的好处,所以从精细化经营和数据挖掘技术的角度描绘这一现象,失之于浅薄。

社会大众看到了个人数据有可能被企业、政府或他人利用,所以从个人隐私和权利角度描绘这一现象,失之于片面。

老派知识精英们以及体制掌控者们看到了数据泛滥有可能造成现有社会体制混乱,失去精神贵族或既得利益集团的地位,所以从消极抵抗的角度去描绘这一现象,失之于恐惧。

盲人摸象,各有各的感觉。但无论突出哪一点,都无法抹杀一个事实:世界上的万事万物正在以越来越多的数量、越来越多的种类、越来越快的速度被人类数据化。这是世界上各行各业的人们出于各种动机有意或无意共同努力造成的,不以哪个人、哪个社会阶层、哪个利益集团的意志为转移,差别无非是哪个国家走得快一点、自觉一点、得益多一点,哪个国家走得慢一点、被动一点、受害大一点。在这个意义上,大数据可以被定义为:世界上万事万物都在被数据化,形成一个与现实世界相关联的数据世界。人类可以利用数据化的方式,应对和解决生存与发展问题。

历史上,凡是被冠以“大”的东西,都是后来被公认改变了世界的事情。“地理大发现”在当时不过是一个叫哥伦布的冒险家想找到去印度的航线,误打误撞发现了美洲,居然引发了殖民主义热潮,为工业革命做了知识和物质准备。“法国大革命”为人类提供了一整套新思想和全新的共和体制。“大萧条”以全球范围的经济崩溃,为资本主义从原始状态进步到现代状态做了痛苦的准备。“大爆炸”理论以超乎常识想象的卓越思考与验证,为人类认识我们所生活的宇宙空间提供了完美的说明。这些事情发生的时候,人们并未认识到它们的历史意义,时间过得越久,伴随这些事件所形成的概念名词越显示出其丰富的内涵。“大数据”应该有资格成为“大”概念系列中最新的一员。

大数据时代的下一个“倒霉蛋”

有物理学家说,整个宇宙无非就是一堆数据。有化学家说,化学过程无非就是一堆数据。有生物学家说,生命无非就是一堆数据。有经济学家说,经济无非就是一堆数据。有社会学家说,社会无非就是一堆数据。有军事学家说,战争无非就是一堆数据。有政治学家说,政治无非就是一堆数据。有历史学家说,历史无非就是一堆数据。……

这不是愤世嫉俗,也不是故弄玄虚,而是说明了一个事实,阐述了一个道理。

今天,基于数据的科学已经上至星空、深海、地心,下至基本粒子、DNA、脑电波,都在深度探索之中。没有任何物质不可以被数据化,差别只在时间、成本和分析能力上。社会活动的方方面面都在被数据化的过程中,没有任何主题不可以进行基于数据的研究,差别只在数据收集的困难程度、成本以及出于利益的阻挠。

科学领域的数据化方向已经不是问题,网络业和 IT 业的数据化方向也已经不是问题,制造业、商业、服务业以及大多数传统产业的数据化方向近来也逐渐明确。比较麻烦的是社会领域、政治领域和国际关系领域,这些领域里的大数据趋势并不仅仅依赖技术的或商业的逻辑发展,反而更多地受制于权力格局、既得利益格局和文化传承。

在计算机时代,苏联出于意识形态和政治上的原因,拒绝计算机的社会普及,仅在政府部门和军事安全领域推广,使得整个社会的运转效率远低于美国。在这样的情况下,孤注一掷搞什么核平衡、军备竞赛,将国力与军力混为一谈,最后弄了个糊里糊涂。

在互联网时代,欧洲和日本更多地出于文化上和经济上的理由,被动地接受互联网,结果二十年来毫无建树,没有一个具有世界范围影响力的创新出现。法国曾经以互联网妨碍法文影响力的愚蠢理由,对网络信息的传播持排斥态度,结果既没能阻碍互联网的推广,也没能保住法文在网络世界的地位。今天的互联网上,英文信息占绝对压倒的优势,几乎成为跨文化交流的通用语言,而像法文、俄文、中文所占的网络信息比重很小,与其国力极不相称。

如今世界进入了大数据时代,又要轮到哪一个倒霉蛋了呢?

笼统地看,目前对大数据的恐惧、疑惑和抵触大致来自四个方面:

第一个方面,是普通百姓对类似《1984》所描述的那种“老大哥”对百姓无孔不入、无所不在的监视和控制的恐惧和抵触。这表现为对互联网和大数据侵犯或疑似侵犯个人隐私和公民权利的不满,斯诺登事件的爆发使这种不满达到高潮。其实,网络世界与现实世界息息相关。现实世界里个人隐私和公民权利得不到尊重和保护,网络世界里同样得不到,反而因为技术的发展和成本的下降使得这种侵犯变本加厉。现实世界里个人隐私和公民权利基本得到尊重和保护,即使权力机构情不自禁地想扩大自身的能力,经过社会博弈和共识形成,这种尊重和保护会在一段时间后达到新的平衡。更可能的结果是,由于公民权利和个人隐私被权力所侵犯,社会形成排斥使用互联网和大数据的共识,结果整个社会在世界性的竞争中处于弱势地位,最终促使社会变革。

第二个方面,是传统企业界对创新型产品的数据化生产、销售和推广的抵触,以及对大众数据化生活方式所产生的新需求的麻木不仁。这在一个完全市场化的社会不难解决,靠鼓励创新和公平竞争的市场机制总能找到迎新汰旧的办法。但在一个非市场化或市场化过程中的社会,非常可能出现的情况是传统企业和权力相结合,利用垄断地位和非市场手段打压新生事物,使社会停滞在前互联网或前大数据阶段,拖延社会的进步。更可能的结果是,由于失去了国内外的竞争力,传统企业的转型、兼并和消亡以一种崩塌的方式发生,类似目前传统媒体业的状况就是如此。本来报纸杂志和电视都是进入门槛极高、受保护程度不低、和权力勾连甚密的行业,结果在新媒体和大数据面前不堪一击,越挣扎死得越快。

第三个方面,是社会管理者对大数据所引发的原有社会体制和机制的冲击产生了全方位的恐惧、疑惑和抵触。这表现为限制信息的生产和自由流通,阻碍最新技术和产品的引进和推广,压制和扼杀大数据方向上的技术创新和商业创新,竭尽全力地扶植和保护那些早已不合时宜的垄断型传统企业和机构。在社会的其他方面,诸如货币流动、人员流动、货物流动受到鼓励和保护的同时,偏偏极力阻断信息流动,阻碍加快大数据发展的创新,其中的逻辑很难让人理解。说到底,数据流动是世上其他一切流动的最高代表形式,货币、人员和货物不过是不同形式的数据载体而已。反之,当数据流动受到阻碍,货币、人员和货物流动也必然直接或间接地受到阻碍,使整个社会的生存发展停滞倒退。

第四个方面,是传统知识精英对大数据发展可能对社会造成的后果的恐惧和疑惑。著名物理学家霍金最近写文章预言,百年内智能机器人会统治人类。虽然类似的预言在科幻小说和电影中屡见不鲜,但近年大数据的发展的确为这类悲观猜想提供了不少支持。人类的制造物会不会有一天摆脱人类的控制而自行其是,甚至反过来控制人类,迄今为止这还是一个哲学命题,而不是科学讨论。但反过来说,一旦它成为科学讨论的主题,也就不用讨论下去了,因为科学只能是人类的科学,讨论的对象一定能够为人类所控制。

来自这四个方面的恐惧、疑惑和抵触造成了大数据发展的社会阻力。当然,这种阻力在不同的社会环境中表现不一样,效果也不一样。在多元开放的社会里,不同认识、不同利益的社会集团相互博弈,总能找到大数据发展的道路。但在一元封闭的社会里,这些阻力就足以扼杀大数据发展的正常机会,只能依靠非正常机会才能够发展。但是,依靠非正常机会得来的发展,其代价是巨大的、残酷的,有的时候甚至是血腥的。

数据已成为生活必需品?

在很多会议上,总听到一些专家们开讲大数据时以引用名人的话开头说:“不要迷信数据,数据只是底层的东西,没什么价值。真正重要的是如何把数据变成信息,信息变成知识,知识变成智慧,即所谓 Data-Information-Knowledge-Wisdom 金字塔,简称 DIKW 模型。”这个在 20 世纪 90 年代初期形成的说法流行一时,被写进很多计算机教科书里,以至于今天还有许多出了校门就不再读书思考的人将其奉为不变真理,即使过了四分之一世纪后仍旧不假思索地照本宣科。

在这些人眼中,“数据”和“大数据”其实是一个概念,只有量的多少,没有质的差别。这种说法迷惑了很多外行人,或者以为大数据不过是层出不穷的时髦概念中的一个,没什么实质性内容;或者以为大数据不过是古已有之的数据概念的扩展和延伸,继续过去的思路去把握即可。

其实,DIKW 模型不过是古希腊哲学中形式逻辑基本架构的现代翻版,没什么新意。在亚里士多德那里,形式逻辑的最基本要素是概念,确定概念间关系的是命题,命题推演开来得到定理或推论,所谓智慧,无非是将众多定理和推论进行更抽象的思考和分析的能力。早期计算机发展中主要遵循形式逻辑的规则,人们输入若干搜集来的数据,然后通过机器的逻辑运算获得数据间各种数量关系和相关关系。在此基础上,人们用头脑去做进一步的推论。所以,有些人认为,机器最多可以处理数据和信息,知识和智慧只能通过人脑形成。人类思维能力的神秘性、智慧的崇高性,乃至于掌握了若干知识和智慧能力的精英们的社会地位和影响力,无不基于这一假设。

社会的发展开始打破这一古老的传说,而最终暴露出这种传说的谬误的力量来自由数据向大数据演变的过程。无论数据还是大数据,从表面形式看都是一堆数据而已,但本质上二者逐渐产生多方面的差异。

首先,数据的产生早已不是仅仅局限于若干实验室和办公室,由若干经过训练的专业人士采集整理而成,而是万事万物都在数据化,数据成为世界的另外一种存在形式。今天绝大部分的数据都不是人们有目的、有意识、在一个封闭环境中进行分析利用的产物,而是人们为了实现其他目的而不得不制造出的东西。这些东西对特定目的而言,是噪音,是垃圾,是负担,既不是信息,也不能产生知识和智慧。人们现有知识和智慧所能处理的数据大概仅占现有数据量的万分之一,而从时间和经济成本考虑,这万分之一能够被处理的数据中真正被处理的又不到其百分之一。所以,那种在人工封闭环境中的“数据—信息—知识—智慧”模式就显得很苍白,很无力,很没有说服力。

其次,正因为世上万事万物都在被数据化,那么由此产生的数据形态就与原有物质形态相对应,数据之间的相关性、因果性和或然性都以原生态的形式呈现出来,成为原生态的信息。人们得到的数据不再是过去那种人工采集所得到的孤立、零碎、片面、带有明确目的性和主观性的东西,而是原生态的数据群落,既包括数据,也包括数据间的关系。那些体现同一主体的众多数据可以根据其内在联系成为时下被科学家们命名为“元数据”的东西。例如,一个人的全部网络行为记录数据,就构成其网络生活的全景图谱,没必要再去考证、推论、猜测才能得出结论。一个人的体温达到 38℃,同时其全面的身体状态数据也呈现出来,使得数据化诊断成为非常简单的事情。至于一个国家、一个具体领域,如果能够得到其动态、实时、全面的数据,那么,理解、分析、把握的事情也就不是什么了不起的工作。

再者,数据产生、存储、处理、传输和利用的人工设备不再仅仅是传统意义上的计算机,而是任何具备相同功能的人工制造物,例如手机、眼镜、手表、衣物、汽车、飞机、机床等,更不用谈数以十亿计的各种传感器。据专业机构预测,到 2020 年,世界上各种各样的数据终端总数将超过 500 亿。同样,和数据打交道的人也不再仅仅是数量有限的专家,而是绝大部分人类。获得数据的目的不再仅仅是科学兴趣或专业需求、获得知识和智慧的途径,而是日常生活的一部分。数据化生活不仅仅是在个人层面,而是在企业、机构、组织层面,进而在国家层面都具有了不可或缺的意义。如果说在过去,知其然,不知其所以然,是用来嘲讽一些人的浅薄无知,那么,在大数据时代,对大多数人大多数事情而言,知其然足矣,何必一定要知其所以然?换句话说,获取数据的目的不再局限于为知识和智慧打基础,而成为空气和水一样的生活必需品。

最后,原生态的数据群落已经不能仅仅靠形式逻辑去分析推理,实时、动态、复杂相关的海量数据还需要非形式逻辑和概率分析。越来越多的专业人士开始把数据、信息、知识作为同义词使用,因为没有非数据化或不能数据化的信息,也没有非数据化或不能数据化的知识,即使是过去被人神秘化的所谓“智慧”,也在近年轰轰烈烈的人工智能发展中逐步被认知,被数据化,变为毫不神秘的一堆数据。过去,人类用了十年时间,将人类 DNA 数据化,使得生命过程不再神秘,数据化医疗保健成为可能。现在,美国和欧洲又分别启动了人脑数据化的十年项目,将人类思维机制和过程数据化,使“智慧”数据化。这样看起来,数据既是手段,也是目的,既是此岸,也是彼岸,“大数据”之大,意义便是如此。

简而言之,数据是信息,数据是知识,数据是智慧,数据是一切的一切。这应该令人兴奋,而不是恐惧。什么可知不可知,陈腐的观念在大数据面前不堪一击。而旧瓶装新酒,还在用过时的数据概念和认知理论套在大数据现象上,不仅无用,而且误导。

2 大数据时代的游戏规则

导读

2012 年上半年,我陆续写了一组关于大数据现象的文章,发表在杂志和网络上。下半年,旅美专家涂子沛和英国学者舍恩伯格关于大数据的书相继出版。于是,网络业和 IT 业关于大数据的讨论多了起来,渐渐在社会上也流传开来。

时至今日,在如何定义大数据的概念问题上,还没有一个学界和业界的共识,还是瞎子摸象,自说自话。多数人把大数据看作是互联网上的一种现象,或是一种互联网技术,与云计算、无线互联网等概念并列使用。虽然提供大数据服务的公司已经很多,但还没有形成一个大数据产业。这并不奇怪,因为大数据时代刚刚开始,人们的认识和实践还难免受到与其关系密切的网络业和 IT 业的传承的影响,还不能比较抽象、前瞻、深入地分析和认识大数据现象,更不用说学界把大数据当作一个严肃的学术讨论对象,这恐怕是十年以后的事情了。

虽然认识还不到位,但并不妨碍人们的探索,这也符合一般规律,摸着石头过河,实践走在认识前面。大体上看,在大数据方面的第一波创新尝试大致集中在三个领域,即网络业、制造业和公共服务业,以及三者之间的互动融合。

网络业的大数据实践由浅入深可以分为四类。第一类是大数据技术的发展,例如数据标准化、存储、传输、加工、利用等方面的进步,以应对数据增长快、规模大、种类多的挑战。第二类是对现有网络服务所获得的相关数据进行挖掘,以提高服务效率和收益。第三类是对数据终端与应用之间、网络平台与应用之间以及各类服务之间进行数据标准化、通用化和关联化的努力,以求得综合服务效应,获得额外的收益。第四类是基于可获取的数据设计全新的产品和服务,或者取代现有类似服务,或者开辟网络服务新天地。相对而言,前两类还算不上严格意义上的大数据实践,只能视其为大数据的前期准备,为真正的大数据培养人才和技术能力。后两类是大数据创新的主流,但为时尚短,还没有突破性的大创新出现,需要三五年才可能见到成效。

比起网络业,制造业在大数据方面的创新进展要显著得多。第一类是以 3D 打印技术为代表的数据化制造方式正在以日新月异的速度发展,大至飞机汽车、高楼建筑,小至原子和 DNA 层级的新材料研制,数据化制造将很快成为制造业创新的主流。第二类是制造业产品的数据终端化,越来越多的工业制成品具备了互联互通、数据生成的功能,像手机一样可以生产数据、传输数据,依托数据维持运行。第三类是传统制造技术与流程的数据化,主要表现为自动控制和智能化生产,也就是所谓“工业 4.0”。

公共服务方向的大数据实践表现比较醒目的有三个领域。第一个领域是通过应用大数据技术提供国家安全和公共安全的服务。撇开政治和社会争议不谈,斯诺登事件显示了掌控巨大资源和权力的政府系统已经在大数据方面走到了大规模实战的程度。第二个领域是公共卫生与保健领域,在社会医疗保险和医疗成本监控方面已经出现了比较成熟的大数据应用,在数据化医疗保健方面,各种创新层出不穷,很可能带来传统医疗保健机制的革命性变革。第三个领域是金融服务业,传统上分门别类的金融服务,包括银行、保险、投资、理财等,有可能架构重组,形成以用户(包括机构与个人)为中心,以大数据为基础的综合性金融服务。

比较而言,网络业的大数据发展难度低一些,一是因为网络上的数据已经存在,挑战主要在如何利用;二是因为大数据需要的基础设施、技术能力和资本在网络业已经存在,挑战主要在如何创新;三是因为没有历史包袱,走向大数据不需付出过多的转型成本。

像制造业这样历史悠久的传统产业发展大数据难度比较大:一是惯性思维制约了创造性思维的产生,例如像苹果手机那样的智能手机居然不是在手机业产生,反倒要毫无手机制造能力的苹果公司先走一步;二是数据终端型的产品要能够做到成本可控、市场欢迎、收益良好需要漫长的试错过程和用户接受过程;三是大数据制造需要一批新人、新技术、新设备,需要淘汰大量旧人、旧技术、旧设备,这往往意味着企业重组甚至破产重生。

公共服务领域走向大数据,挑战不仅在于从事大数据公共服务的机构和个人,更在于全社会接受和适应大数据公共服务的决心和能力。一个全新的大数据服务往往意味着社会的权力重组、利益调整和运行机制的改变,意味着公民权利和文化的再定义,这需要一个社会具备开放的能力,结构弹性较强。对于像中国这样一个开始走向现代化,改革开放进程远未完成的发展中国家来说,面对大数据时代的新挑战,应当是一个相当艰巨、漫长的历史过程。长期停滞不前或者短暂的倒退恐怕难以避免。

得数据者得天下

如果你的网站拥有数以千万计的活跃用户,如果网站上拥有数以百计的产品服务,如果这些服务以多媒体的形式在多个网络终端上运行,如果正在或者打算尝试走向云计算和 Web 2.0 架构,那就恭喜你了,因为你已经不知不觉地成为大数据时代的先行者或受害者。

按照维基百科上的定义,所谓“大数据”(big data),在当今的互联网业指的是这样一种现象:一个网络公司日常运营所生成和积累用户网络行为数据“增长如此之快,以至于难以使用现有的数据库管理工具来驾驭,困难存在于数据的获取、存储、搜索、共享、分析和可视化等方面”。这些数据量是如此之大,已经不是以我们所熟知的多少 GB 和多少 TB 为单位来衡量,而是以 PB(1024 TB),EB(1024 PB)或 ZB(1024 EB)为计量单位,所以称为大数据。

大数据现象在物理学、生物学、环境生态学、自动控制等科学领域和军事、通信、金融等行业已经存在有些时日了,在互联网业却是近年来才逐渐引人注目的。这可以归结为三个基本原因。第一,网络用户的高速增长和用户平均网络使用时间的不断延长,这使得用户网络行为数据大增;第二,网络服务从单一的文字形式走向图片、语音和影像等多媒体形式,导致数据量大增;第三,网络终端由过去的单一台式机变为台式机、平板电脑、电子书刊阅读器、手机和电视等多终端,大大扩充了网络服务的内容与范围,大大提高了用户对互联网的依赖度,也就大大增加了数据量。

大数据的出现既为网络业带来了机遇也带来了挑战。从潜在的机会看,数据量的增加为网络公司提供了精确把握用户群体和个体网络行为模式的基础,如果能够充分利用,就可以探索个人化、个性化、精确化和智能化地进行广告推送和服务推广服务,创立比现有广告和产品推广形式性价比高数倍甚至数十倍的全新商业模式。同时,网络公司也可以通过对大数据的把握,寻找更多更好地增加用户黏性、开发新产品和新服务、降低运营成本的方法和途径。从现实的挑战看,主要集中在以下三个方面。

首先,大数据挑战着网络公司的战略决策能力。数据量的急剧增长不仅要求在带宽和存储设备等基础设施方面增加大量投入,而且使网络公司处于进退两难的境地。如果采取无所作为、固守原状的鸵鸟政策,那就可能失去未来发展的机会,失去业内竞争的本钱,早晚会被产业淘汰或者居于下游。如果与时俱进,转型适应大数据时代的到来,那就需要对公司的现有产品和运营体系进行全面的改造,例如网站架构的重建,产品的通用化、标准化、模块化,商业模式的创新等。这对绝大多数网络公司而言,既要维持现有业务、保持业绩的稳定和增长,又要加大投入、迅速转型,是个进退维谷的两难处境。

其次,大数据挑战着网络公司的技术开发和数据处理能力。大数

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载