大数据改变世界(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-30 04:50:24

点击下载

作者:李德伟,顾煜,等

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据改变世界

大数据改变世界试读:

大数据改变世界CHANGE BY BIG DATA内容简介

本书是介绍大数据及其应用的著作,全书分为三篇共11章。上篇(1~2章)描述了大数据带来的冲击和它引爆的思维革命、社会变革,以及数据权在政治、经济、军事上的重要意义。中篇(3~6章),介绍了大数据的数理哲学原理和认识论原理、大数据在科学认识中的作用,以及大数据分析的社会意义。下篇(7~11章),是与大数据研究相关的一些应用成果,包括主动智能搜索、数据挖掘与创新、企业信誉与市场满意度调查、中国市场经济信息评估系统和智慧城市的规划与评估。

本书内容丰富、视野广阔、观点新颖、可读性强,理论与实践相结合,对各行各业的创新发展都有启迪作用。可供各级决策者,以及从事规划计划工作、大数据研究者阅读,也可作为科普读物供院校师生及创业者参考。

未经许可,不得以任何方式复制或抄袭本书之部分或全部内容。

版权所有,侵权必究。

图书在版编目(CIP)数据

大数据改变世界/李德伟等编著. —北京:电子工业出版社,2013.10

ISBN 978-7-121-21570-4

Ⅰ. ①大… Ⅱ. ①李… Ⅲ. ①数据处理-研究 Ⅳ. ①TP274

中国版本图书馆CIP数据核字(2013)第229466号

策划编辑:杜振民

责任编辑:吴 源 特约编辑:杜振民

印  刷:三河市双峰印刷装订有限公司

装  订:三河市双峰印刷装订有限公司

出版发行:电子工业出版社

     北京市海淀区万寿路173信箱 邮编100036

开  本:720×1000  1/16 印张:18.25 字数:280千字

印  次:2013年10月第1次印刷

定  价:58.00元

凡所购买电子工业出版社图书有缺损问题,请向购买书店调换。若书店售缺,请与本社发行部联系,联系及邮购电话:(010)88254888。

质量投诉请发邮件至zlts@phei.com.cn,盗版侵权举报请发邮件至dbqq@phei.com.cn。

服务热线:(010)88258888。序:要数据红利,还是数据鸿沟姜奇平(中国社科院信息化研究中心秘书长、《互联网周刊》主编)

大数据给中国发展带来新的挑战与机遇,正当我们在翘首期望、焦虑和憧憬的时候,李德伟、顾煜、王海平、徐立合著的《大数据改变世界》问世了,令人豁然开朗!

凡世人皆有畏惧,俗话说:男怕选错行,女怕嫁错郎。国家也有一怕,怕算错账。中国未来发展的红利,就是一笔巨大的账。人口红利、资源红利,不过是来自第一次浪潮的账上红利;改革红利,则是属于第二次浪潮;逝者如斯夫,俱往矣!更重要的是第三笔账,这就是信息化带来的数字红利。《大数据改变世界》为中国算的,正是第三笔账。算对了账,大数据改变世界对中国的影响将是“正能量”,数据红利;应了李德伟先生的预言:“信息化是上帝给中国崛起准备的礼物”。但算错账的危险并非没有,近代中国在世界历史进程中落伍的能量就是负的;从大数据改变世界而言,就是由于存在着巨大的数据鸿沟,中国将在更高水平的现代化竞争中,被打回1840年的原点。大数据是当代现代化的最新装备

奥巴马政府2012年3月29日发布了“大数据研究和发展计划”(Big data research and development initiative)。这不仅是一个推动美国继续在高技术领域领先世界的战略计划,而且是一个推动美国社会经济进一步发展的宏远蓝图。在自由主义经济的美国,政府顶层毫不犹豫地挺身而出,直接推动美国驾驭大数据浪潮,向更高水平的现代化进军!

1980年,托夫勒在《第三次浪潮》中高瞻远瞩地预告:“如果说IBM的主机拉开了信息化革命的大幕,那么‘大数据’则是第三次浪潮的华彩乐章”。现在,大数据的“英雄交响曲”已经奏响,新一代的先进生产力和先进生产方式正如东方喷薄而出的太阳冉冉升起!

在世界历史的赛场上,新的竞赛已经不依人们的意志而开始,“落后就要挨打”的悲剧再次在中东、北非上演,曾几何时,那些不可一世的枭雄酋首——萨达姆、穆巴拉克、卡扎菲,一个一个,相继倒台,美国的无人机就像电子游戏机一样,定点摧毁了那些用传统的油彩装饰起来的偶像。

对于处在第二次浪潮与第三次浪潮之间的大国中国而言,大数据发展既有催人向上的力量,也包含鞭笞懈怠的警示:在历史的关键时刻咬咬牙,迎着第三次浪潮而上,将是东方日出,大国崛起;一松懈怠惰,就不进则退,滑到第二次浪潮之下,与美国的代差,将会迅速达到比GDP占世界第一时的清王朝与英国的代差还大。毋庸置疑,美国鼎力发展大数据,其最大的历史意义,就是让第三次浪潮把第一次浪潮、第二次浪潮的号角声淹没在历史的沙滩上。

实物的积累、货币的积累,曾经成为过去时代国力的标志。而在信息时代,数据的积累、加工和利用能力将成为综合国力的新徽章。对于一个国家来说,发展方式转变只有跟上生产方式转变的时代步伐,才能保证在更高水平的现代化竞争中不落伍、不挨打。

抓住大数据的大机遇,中国将在现代化的制高点上,而不仅是GDP的量的积累上,提高信息时代的国际竞争力。《大数据改变世界》给我们的第一个启发是:当代中国的决策水平,一定要超越历代王朝的决策水平。大数据是新型现代化的直接动力

中国新四化建设正处在从“工业化不断加快”到“工业化基本实现”的历史转折点上,全面提高信息化水平,需要大数据这样的先进生产力来引领。

与发达国家不同,中国未来不可避免地要同时完成发展工业时代的生产力与信息时代生产力的双重任务。认识大数据为代表的先进生产力和先进生产方式具有特别重大的意义。

20世纪50年代,中国曾面对同样的形势,要同时发展农业和工业两种生产力,那时提出“工业为主导、农业为基础”的正确方针,促进了社会生产力的跨越式发展。历史经验具有启示借鉴意义。

中国的和平发展不可能建立在低水平社会生产力体系之上,我们必须清醒地认识到,发展以大数据为代表的信息生产力的紧迫形势,抓紧从顶层建立大数据的国家战略,使我国社会生产力状况适应世界各国丛林竞争所要求的新的现代化水平,并在此基础上对社会生产关系及其相联系的经济运行机制进行改革。坚持信息化带动工业化,工业化促进信息化,实现高水平现代化,才能充分保证中国下一代的国际竞争力。

60年前中国农业基础还很薄弱时,中国就毅然提出了以工业为主导的方针,如今工业化已接近完成,决不能让以信息化为主导的举措步履维艰!《大数据改变世界》给我们的第二个启发是:当代中国的决策水平,一定不能低于50年代的决策水平。大数据是推动新四化转型的必然选择《大数据改变世界》指出,“大数据将改变人类生活生产方式”。这个判断非常重要。我国关于发展方式转变提了多年,但转变起来如此艰难,其深层次原因在于,生产方式没有成为撬动转变的杠杆。而当传统生产方式与旧时代还在依依不舍的时候,新的发展方式就不可能昂首阔步地登堂入室。

中国未来发展需要实现新型工业化、信息化、城镇化和农业现代化这新四化,只有抓住生产方式转变这一关键,才能解决发展方式转变的深层次矛盾。信息化不等于信息化生产方式。信息化生产方式是分布式的,如果我们用集中模式搞信息化,就等于在用工业化生产方式从事信息化,搞出的就会是表面文章,就像一个穿着华丽时装的小脚老太太,一个怪胎。

大数据将改变人类生活生产方式,可以为新四化提供转变发展方式的新动力,对新四化带来意想不到的增量:

第一,大数据可以强力启动内需。我们用旧的方式启动内需,效果平平。但生产方式一转,就会出现转机。2012年阿里巴巴电子商务交易额全年预计达到1.25万亿元,其中三分之一是新启动的内需。预计到2018年,这一数字会达到7万亿元,相当于每天一个“双十一”网购的191亿元。大数据可以深入发掘消费者需求,电子商务在启动内需方面的潜力,不亚于一个到几个大省的内需总量。

第二,大数据可以推动城镇化以智慧城市的新方式发展。旧的方式是向大城市集中,大数据将使城镇建设走上以数据流动的方式配置资源的新型发展道路,新的生产方式有利于城乡一体化发展。

第三,大数据有利于改进政府管理方式。官方微博与民众建立起7天乘以24小时的密切联系,比周期性的四年一次的旧式选举更有利于响应民意,为民办实事,走出中国特色的社会主义民主新路。

第四,大数据产业将形成新的增长点,包括大数据基础设施建设、数据技术产业、数据采集业、数据加工业的发展。根据维基(Wikibon)最近发布的报告,大数据市场正处在井喷式增长的前夕,未来五年全球大数据市场价值将达500亿美元。

大数据还将对微观经济产生重大影响。IBM的CEO罗睿兰说:“数据将是下一个大的自然资源,将会区分每个行业的胜者与输家。”IBM的全球调查显示:表现优秀的企业使用分析技术的数量比表现较差的企业高五倍。

首先,未来以政府、电信、教育、医疗、金融、石油石化和电力等行业为重点的大数据应用,将直接拉动整个社会的的应用规模。

其次,数据业务将成为各行各业的主营业务,围绕大数据,企业将向分析即服务(AaaS)升级转型,从而改变各行各业的业态。

再次,广义的分析即服务得到大发展,包含一切以大数据为基础的高附加值的创新型服务,例如面向制造的创客服务(DIY+3D打印)、基于咨询数据平台的生活方式设计师服务、基于统计数据挖掘的商业分析服务、基于设计平台的创意服务,还有基于大数据的设计服务、管理服务、教育服务、市场服务、咨询服务,以及基于行业或价值模块细分的服务,等等。

从民间的大数据热可以看出,大数据正得到有识之士的广泛认同,激发民众自下而上的创造热情。《大数据改变世界》给我们的第三个启发是:当代中国政府的决策水平,一定不能低于民间的决策水平,一定要领先于老百姓的认识水平。

大数据改变世界,要先改变我们的世界观。不光要改造我们的文化历史观,而且要改造我们的技术历史观。要真相信(而不是假相信)生产力决定生产关系,决定生产方式,决定经济基础和上层建筑。大数据,已经是一张唯物主义的考卷,呈现在我们面前:是奋勇前进,还是停滞不前?是迎难而上,还是畏葸不前?是生存,还是消亡?作者简介李德伟,1955年10月出生。1978—1982年南京大学学士,1983—1986年中国社会科学院研究生院硕士,1988—1991年中国人民大学博士。2008—2010年先后在美国辛辛那提大学、斯坦福大学做高级访问学者。1998—2008年任广西柳州市副市长、广西工学院院长。曾任国家工商总局行政学院副院长,国家发改委《中国科技投资》杂志主编,全国政协中国经济社会理事会理事。兼国家发改委产业与技术经济研究所、中国社会科学院研究生院、武汉大学、北京交通大学、对外经贸大学教授、研究员、博士生导师。并先后在我国有关宏观调控部门(国家经委、国家计委、财政部和工商总局)任职。在国内外出版著作10多部,发表论文200多篇。E-mail:chcldw@163.com顾煜,男,1968年11月出生,辽宁省人,北京物资学院教务处副处长,博士,教授。1991年毕业于东北大学管理工程系,1999年毕业于西南财经大学,获会计学硕士学位,2012年获西南财经大学会计学专业博士学位。长期从事会计、财务、物流成本和市场信息监测评价研发工作,其成果对我国市场秩序的监测评价取得了积极的效果,在国内外学术交流方面取得了较大影响。在省部级以上核心期刊发表研究论文60余篇,10余篇论文被SCI、EI检索。王海平,1974年生,土家族,农工党员,中共党员,湖南慈利人。工学博士,北京大学应用经济学和北京师范大学公共管理双科博士后。博士生导师、教授、研究员。现任中国国际经贸大数据研究中心副主任,中国区域科学协会理事,中国商业经济研究中心特约研究员,北京大学中国能源研究院副秘书长,北京市房山区金融工作办公室主任,农工党北京市房山区主委、农工党北京市教育工委副主任、政协北京市房山区委员会常委,北京市房山城市投资发展有限责任公司董事长、中房国能(北京)投资基金管理有限公司董事长。先后主持湖南省社科基金重点项目和国家发改委课题,在国内外刊物发表学术论文三十余篇,出版《政府经济管理》等著作。徐立,1965年2月出生,重庆市人,副研究员。1987年毕业于四川大学,先后在中华全国总工会、原邮电部政策法规司、原信息产业部政策法规司和技术经济发展研究中心等单位工作,中国国际经贸大数据研究中心副主任、学术咨询委员会委员。1998—2000年赴美国进修,并在斯坦福大学国际战略与合作研究中心(CISAC)作高级访问学者。回国后,先后参与创建中企通信、中邮信通实业投资、中邮恒润投资、中恒海丰等通信技术和投资公司。参与电信市话体制研究、低轨卫星通信政策研究、中国增值电信业务对外开放对策和相关政策的研究,以及中国电信业体制改革研究。在国内外发表数十篇文章和研究报告。前言:大数据——改变世界的冲击波

2008年,我告别西南小城,到美国做高级访问学者,先后在辛辛那提大学和斯坦福大学,直到2010年。这是我在直接参与中国改革开放三十多年、亲历改革的艰难曲折、看到她的巨大成果和不可抗拒的趋势之后,利用工作转换之际,偷闲了却难以克制的游学海外愿望的举措,或许可说是还愿吧。从另一方面,在穷困落后的边远地区工作十年,像“传教士”一样目睹几乎还沉郁在传统农耕社会中的迟钝与万般无奈的人群,更强化了我“改革尚未成功,同志仍需努力”的意志。忆昔抚今,重新反思、研究,我总结自己三十多年来的创新思考和实践,写完了《大国崛起的政策选择》、《大国发展模式——少数民族发展失衡预警机制》两本书。李德伟2009年在斯坦福大学

就在大量游览世界新发展的同时,我继续在世界IT产业之乡思考:如何教会国民摆脱那些死读洋书、不懂中国国情的“海归们”的误导,实践我提出多年的预言——“信息化是上帝给中国崛起准备的礼物”,我与谷歌(Google)方面的人士就智能搜索和检索问题进行了沟通。

我对谷歌一度很重视,它进入中国的迅速发展过程引起了我认真的思考,虽然谷歌后来退出了中国,这并不影响我继续对它的关注。我关于数据处理、搜索和主动搜索的智能化思考,源于我本身对知识的追求方式——我天生是那种无拘无束的探索者,我与生俱来的求知欲,加上对“文化大革命”“读书无用论”的疑虑、对“封书批儒”的愤懑,导致了我广泛的阅读兴趣。我从来没被文理科的隔阂干扰过。我从小就如饥似渴地追求来自世界本身的真知,而不是被人扭曲、割裂导致的假象,这无疑就是跨越领域和快速流动的“大数据”。我天生享受一种冲动:关于“大数据”的冲动。

在我看来,谷歌的成功在于为世界提供了一个探索和感受世界的、强大的信息搜索引擎;以前那种为了求知“踏破铁靴无觅处”的境况罕见了,海量信息信手拈来,以致数据信息汹涌澎湃,目不暇接。但令我目瞪口呆的是,这时社会竟然产生了普遍的“浅阅读”和“不读书”,而“跟着感觉走”的时髦风尚。

我突然感到,“物极必反”是一个多么伟大的规律!确实如子曰:“过犹不及”——海量数据与稀缺信息一样,使人们左顾右盼,无所适从。尽管如此,海量信息蕴藏着无穷丰富的知识宝藏,还是令人得意忘形!

我一直坚信、呼吁,并身体力行:必须开发一种能为人们根据自己的目的和需要,主动地、有目的地,一句话——智能型地,为人们从海量信息中筛选有用数据的搜索。她体贴入微,服务周到。她是下一步信息化发展阶段——人工智能的基础。

于是,关于海量数据或大数据将改变人类生活生产方式以至于思维和文化教育方式的意识迸发出来,我从斯坦福大学立即给中国的决策者写了关于“立即研发主动智能搜索”的建议,引起了上层关注。同是斯坦福大学回来的信息专家徐立约我一起写了关于大数据的建议给中央,再次引发广泛注意。善于将理论与实践结合的王海平教授也加入了我们的合作。徐立与来中国访问的美国斯坦福大学著名教授、美国最大的民间智库CISAC创办人Lewise.W.John合影

即使是在所谓“世界末日”的2012年,改变世界的大数据冲击也已经激起汹涌波涛,美国总统奥巴马提出了大数据战略,欧盟也制定了相应对策。我与李安渝、王海平、徐立和赵勇这些志同道合的学者克服重重阻力,终于在2012年成立了“中国国际经贸大数据研究中心”。

中国国际经贸大数据研究中心是由在我国经济改革与发展全过程中,长期活跃、执着奋斗的各个领域的学者组成。这个研究团队不是一天形成的,她也有个由小到大、由分散到集中的发展过程,其中大多数学者长期在国家经贸委、国家发改委、财政部、商务部、工商总局和中国社会科学院等部委从事经济社会管理研究和数据分析,对我国经济社会发展进行了持之以恒的跟踪调查。中国国际经贸大数据研究中心以实证分析为基础,以政策研究为目的。

大数据研究中心的成员中已有许多杰出的成果,例如:从1983年起,就开始对我国农村改革和企业行为与绩效进行追踪调查,曾提出“按生产要素贡献分配理论及其实施方案”,得到中央的肯定,并成为法律。这一理论为马克思主义发展和社会主义改革奠定了理论基础。当年高度评价我们这一思想的厉以宁先生最近在提供给中国高层领导就如何解决严重分配不公问题的建议中,再度力举实施这一方案。

1987年,通过对世界各国经济发展追踪调查,预见中国不能照搬西方增长老路,必须实行以产业结构调整、高新技术带动的新型工业化。我们开始呼吁“信息化是上帝给中国崛起准备的礼物”。

1987年,通过对我国各类企业调查研究,指出:“民营经济是中国经济最活跃的部分,中国经济体制改革的必然趋势是民营化。”

1992年,提出了“经济改革为主,宏观调控为辅;结构调整为主,总量调整为辅;存量调整为主、增量调整为辅”的著名改革顶层设计政策体系,促进中国宏观调控转向以结构调整为主。

1994年,建立了中国市场监测指标体系,着手研究市场监测,对企业信誉、消费者满意度等进行长期动态监测,也随之启动。

1997年,与经济合作与发展组织(OECD)和国际著名经济学家麦迪森合作,在全世界首先精确预见了我国经济将增长三十年,到2020年GDP总量将超过美国,成为世界第一大经济体。在我们孤掌独鸣十多年后,世界各著名预测机构、学者才纷纷向我们靠拢。

1998年,建立了我国企业绩效测评指标体系,对我国各类企业行为和业绩进行系统追踪调查、比较和评价。

1999~2000年,通过大数据市场监测研究,与国家工商局、国家轻工局、中国消费者协会、中国糖业协会,联合发起“限制糖精滥用,启动食糖市场”活动,得到国务院领导的支持,一举使我国甘蔗种植业、制糖业扭亏为盈,成为甜蜜的事业。

2001年,提出中国—东盟经贸合作建议,直接推进中国—东盟经贸区域建立。

2004—2008年,提出“主动搜索”,探索大数据研究技术,直接运用于市场运营信息分析。

2008年,提出“中国南向崛起”,建立两广(珠)江(北部)湾经济走廊新增长极,推动两广经济一体化进程,稳定南海局势。

2005—2010年,在国家社会科学基金基础上,基于大数据研究,建立发展监测指数体系,对我国少数民族地区发展失衡提出预警。

2010年,推出“中国中小企业电子商务信用信息透明度评价体系”,建立中小企业信用监测评价体系。

2012年,建立国家工商总局直销监测网,直接服务于国家市场监管。

现在,大数据研究中心这支专家团队,继续密切监测着我国市场运行,通过中国市场信息评价系统,采用大数据研究方式,发布企业诚信和消费者满意指数。可见,在我国经济改革发展全过程中,团队始终保持着傲人的业绩记录。2012年10月8日中国国际经贸大数据研究中心成立挂牌仪式

由于大数据成为热点,我们长期默默的工作得到广泛重视,来自四面八方的讲演要求纷至沓来,为了给学员和朋友们讲解,朋友们要求我们写讲稿。我也未曾想到,一旦下笔竟难以收手,将多年来的思想一挥而就,形成“大数据的数理哲学原理”一文,该文已于2012年圣诞节在《光明日报》整版发表。此前,从美国归来的计算机专家、教授看了我的文稿,极力支持我应继续发挥,尽快发表,并希望与我们一起致力于为大数据奠定哲学基础,在国际上公布,于是产生了此书。

本书应用部分,多半是远在“大数据”概念提出之前,我的团队做过或一直关注过的一些“大数据处理”的案例——因为大数据并不是突然从天而降,而是孕育于信息化的发展过程中。应用项目的主要研发者是蒋运承教授、伍轶明教授、范松海博士、徐瑞教授、顾煜教授、张福新先生以及李济汉先生。还有上面提到的几个令我们自豪的有关智慧产业和智慧城市的重大项目,因为篇幅的关系无法在此一一列举。读者可参见我们的诸多著作。李德伟引言:迎接大数据时代的曙光

2012年,人类在惴惴不安中迎来了末日的考验:这个考验在一种科学的意义上可以这样理解:如果说人类过去是按照上帝的安排“自然地”成长发展着,那么,现在,科学的发展使上帝失业了,人类突然发现现在已经掌握了选择自己未来的技术,因此到了自己为自己的未来做决定的时候了。

人类往何处去,成为摆在人类面前的必须解决的问题!问题是技术超过了道德底线和现实的价值观,于是,人类只好暂时禁止克隆超级智能人,以免人类在任意选择未来足迹的时候,将自己弄到无法收拾的地步。

就在一筹莫展的时候,“大数据”有如一道闪电,横空出世,呼啸而来,使人类豁然开朗——为世界跳出末日的诅咒,带来了新世纪的曙光。

举目远望,恰如登泰山极顶,一轮红日,喷薄而出,最直接的信息技术领域发生了天翻地覆的变化,科学技术感受了它的脉动,社会经济领略了它的震荡,人类自以为傲的思维方式也不得不因为它而修正自己的模式!

大数据的呼啸登场,在各个领域都激起创新的浪花,其中也有生物制药方面的一掬瑞雪,叫人难以置信的万灵药型“通用疫苗”也写入议事日程!

2012年,本书作者正好在大数据风暴的发源地,有幸目睹并亲历了这一场智慧风暴的兴起,本书也正是对这一过程的某种理论和实践的回顾。那年一个湛蓝迷人的夏夜,李德伟与徐立在北京名人大酒店等候来京讲学的斯坦福大学薛理泰研究员。在大堂的茶吧桌前,李德伟先生喋喋不休地讲述着人工智能的突破;在斯坦福大学访学前后,他一直关注着从谷歌搜索研发而引起的人工智能跨越式的进步,将如何影响人类思维方式、社会发展方式和关于世界存在的终极形式问题,这个讨论给大家留下了深刻印象。事实上,在此前后,李德伟已经开始组织处理大(当时还叫“海量”)数据的智能搜索研发,并把它直接与电子商务和市场信息监测应用连接起来。如果不是某种偶然的原因,李德伟甚至会成为谷歌团队的重要成员。

2012年初,作者获得了更多的关于大数据的最新资料,并立即写了几篇报告,送中央高层,引起高度重视。这几篇报告同时也送给中国电信北京研究院的专家,他们集多位作者之力,编写了《大数据——大价值、大机遇、大变革》一书,2012年10月由电子工业出版社出版后立即被抢购一空。

李德伟先生开始紧张筹建“中国国际经贸大数据研究中心”,历经艰难周折,终于于2012年12月8日在对外经贸大学宣告成立。随后,李德伟于当年圣诞节发表了《大数据的数理哲学原理》,把关于大数据的研究推进到思维科学的层面。文章立即引起重大反响,促使作者在论文基础上,着手写作本书。

与此同时,大数据与世界一刻也没有停歇。2013年5月8日上午,在北京一个写字楼的会议室里,一个由以色列高新技术协会主席、第一创投公司(PITANGO)联合合伙人Aaron与以色列最大商业银行——哈波利姆银行北京代表处的Gal先生为首的代表团来到北京,代表团主席激动地给本书作者介绍大数据技术在全球发展的最新动态,以及以色列围绕信息、生物、医疗等方面的研发创新机构和新技术进展。2013年5月8日,中国国际经贸大数据研究中心与随同以色列总理内塔尼亚胡访华的以色列高新技术协会主席Aaron和小佩雷斯一行会谈

一个个令人激动的新技术不停地闪现在投影幕布上。

——全光交换、传输、处理技术已经完全商业化,一个并行、分列的高性能大规模多中央处理器可以实现无线、全光连接并列服务的全新技术已经诞生,计算速度将突破目前世界任何大型计算机阵列,而且体积很小。

——一个基于闪存技术的大数据存储技术,可以在一个几十厘米的阵列里进行大规模数据存储和调取,直接取代IBM(国际商用机器公司)和HP(惠普公司)传统的大型服务器的存储、读取、运算功能,大大加快了计算机的处理速度,存储的内容是目前存储服务器的几十,甚至上千倍。当我们为大数据时代到来,如何建设规模庞大的数据库集群发愁的时候,革命性的突破发生了,人们开始议论:HP(惠普)和IBM的技术是不是相对落后了?

——在全球为糖尿病病人日益增多而苦恼不安时,一种基于大数据研究分析方法研制的、不用打针吃药的新的控制血糖的方法已经诞生,并且通过了美国FAD(美国联邦医药管理局)的审批,即将上市。美国每年大量的生物新药上市采用了一种新的计算方法,这种方法帮助制药公司从初试到中试各个环节采用计算机模拟技术,大大缩短了药品的研制周期。

——一个基于Web同时不需要复杂技术转换就可以让Web的内容按照移动终端格式自动进行数据结构转换的软件系统已经进入商业应用。

……2013年5月8日,中国国际经贸大数据研究中心向Aaron和小佩雷斯赠送中国书法作品

本书稿经历了长达10个月的酝酿、写作、修改。我们相信,当读者翻开本书的时候,世界已经进入一个新的突破——这是人类取代上帝的新时代!

本书通过直观描绘大数据的时代特征及对社会方方面面的影响,同时由表及里、由面到点,分析大数据的特性和技术趋势。更为重要的是,本书深入分析了大数据给人类思维方式、科研方法和社会发展模式带来的冲击,确认大数据已经革新了人类在宇宙中的位置,而这已经导致了具有独创意义的科学哲学思想问世。关于客观世界事物的相关性和同构性等新的本体论和认识论问题,以及人类历史发展方式,在本书中都进行了全面的探讨。事实上,我们已经开始探讨大数据涉及的种种数理哲学原理。在这里,我们的视野触角就要探索到整个宇宙存在的原点,而这也正是大数据给新时代奠定的基石。最后,关于大数据浪潮在应用方面的案例,我们从智能搜索到数据挖掘都列举了一些探索性的案例项目。

按玛雅人的新说法,2012年不是世界末日,而是新世纪的开始,而我们在本书的写作过程中确实感受到继往开来的震撼。当本书完成的时候,我们正好一边在送走旧历,一边迎来新春。我们期待着,一个美好的故事由此拉开帷幕!上篇 大数据浪潮兴起——毕达哥拉斯的回归

大数据的浪潮正在铺天盖地地呼啸而来,它冲刷掉斑驳陆离的世界表象,让无法掩盖的真像精确地暴露在光天化日之下,每一个人都需要考虑,如何面对数据的世界……第1章 大数据的冲击

一股汹涌澎湃的“大数据浪潮”已经以排山倒海之势,迅速推进,不可阻挡。未来的一二十年显然将是由“大数据”推动和引导下的改[1]天换地的智能化时代。

只要回忆一下信息化的快速进程,就不可能怀疑大数据时代的巨大变化。从记忆犹新的信息时代开启,我们就在层出不穷的新生事物面前,目不暇接,以致眼花缭乱……移动电话、个人电脑、光驱、移动硬盘、宽带、互联网、搜索引擎、博客、微博、视频等等,争先恐后,接踵而来;社交网络、电子商务、网络教育、虚拟社区序贯成熟,连绵不断;移动带宽迅速提升,云计算、物联网包罗万象,应用方式如此丰富多彩。更多的传感设备、移动终端接入到网络,开启了以几何级数增长的数据闸门,不断地以更快、更多、更大的规模奔驰而来,既带来史无前例的巨量信息——这些信息都体现为一致性的数字信息,同时也使人类陷入大数据的汪洋大海包围之中,几乎是在一眨眼之间,推动或改变着一切。

每个人都无法避免,同时亦喜亦忧:信息公开揭开了污秽不堪的黑幕,也暴露了难以置信的隐私;无处不在的摄像头既使你享受安全也使你失去自我。一切都暴露在光天化日之下:有时候,我们因此洞察秋毫,极目千里,连月球的飞尘化学成分和火星上的极冰都了如指掌;有时候又因众目睽睽、无处躲藏而惶恐不安;过去,我们因孤陋寡闻而决策错误,现在在大数据的漩涡中,又因资讯太多而无所适从,不知所措……

然而,历史不是突如其来的暴风骤雨,大数据的风帆早已潜伏在人类进步的大潮中酝酿起航!1.1 大数据前夜的数据探索1.1.1 大数据概念阿尔文·托夫勒

大数据一词来源于英文Big data,2012年前,中国一直称为海量数据。在20世纪80年代有计算机专家提出过模糊的“大数据”一词,80年代《第三次浪潮》的作者阿尔文·托夫勒(Alvin Toffler)在他这本著名的书中,曾使用了大数据这个词。2012年初,全球知名的咨询公司麦肯锡(McKinsey)最早使用今天为大家理解的“大数据”概念,一般意义上,大家认为它的数据量巨1518大,超过PE级别(10~10字节),包含结构性数据、半结构性数据和非结构性数据。国际著名的大数据专家布里克·乔什·克拉认为:关于大数据的量是多少目前尚无统一说法,每个客户都有自己的定义,12一般在10T(太拉tear)字节到1P(拍它peat)字节(1T=10,151P=10)。除了数据量之外,还有种类和速度,用这3个维度(通常称为3V,即Volume超大、Variety多样、Velocity高速)来描述大数据。也可增加一个维度Value(价值巨大但密度很低),称为4V。速度应用实时,种类为多媒体。大数据处理的应用模式包括搜索(如Google,Yahoo)、社交网站(如Facebook)、移动应用(如app store,云存储)、计算服务(如Google Big Query)、商业智能(如BIBA)等。

早在1940年代,控制论之父魏纳(Wiener)已开始讨论这样一种机器,它能收集足够多的各种类型信息,生产的、市场的、人的心理的,然后据此确定事情发生的概率。而那时,计算机还没有诞生。

Jim Gray回忆,1969年之前,他在伯克利攻读博士时,就已与一些同事将计算机科学应用于社会问题研究,这也是他后来一直研究的主题之一。他在微软研究院领导的项目名就叫science,很多工作是将微软的各种计算资源开放给其他学科的学术界同行解决那些数据密集型的课题,取得了丰硕的成果。2007年Jim Gray,在美国国家科学研究委员会发表演讲时指出,科学研究已经从几千年前的凭经验、几百年前的靠理论模型、几十年前的计算仿真,进入了第四阶段——数据探索。在此阶段,科学家依靠各种仪器、传感器获取数据,或者通过仿真生成数据,然后用软件进行处理,将得到的信息/知识存储在计算机中,再由科学家借助各种统计和数据工具进行分析和可视化。这基本上是大数据处理的经典定义。

大数据的概念在一年前兴起,但从未有人对这个概念明确定性、定量和定义。尽管这样,我们仍然可以看到,在信息大爆炸的时代,每天以数百万太字节(TB)的新数据的诞生,到从这种海量数据的收集、整理、加工、分析,面对收集来的海量数据,面对每天产生的大数据,从中提取有效信息,产生了大数据的研究开发。

大数据处理技术是很多种技术的某种集合,主要包括了分析技术、内存数据库、Nasal数据库和分布式计算技术。目前,技术上都是以解决传统关系型数据库在处理大数据方面的不足为切入点,且发展迅猛。当然,事物的两面性决定了上述技术不是万能的,关系型数据库40多年的发展也证明了其自身的价值,并且不是轻易被取代的,因此也逐渐出现了相互融合的应用模式。

在大数据处理领域,共性和开源更是起到了至关重要的作用。现代信息技术发展的趋势是开源的,强调共性创造和共同分享。可以看到,在推动现代信息技术的发展上,共性创造模式和开源性技术已成为一股不可忽视的力量,甚至有成为技术发展主流的征兆。这一点给技术相对落后的国家和企业一个巨大的机会,这种趋势客观地把技术先进与落后的差距拉近了,使落后者实现创新和自主的可能性大大增强。1.1.2 赌博中的科学

人类的发展与对数据的认识分不开。最初,人类接触的都是小数据,随着人类活动能力的提高,数据量越来越大,然而,人类处理数据的能力越来越力不从心,如何从大数据中经济节约地找到有用的数据就成为一个紧迫的任务。

最具戏剧性的是,应该说,贪婪是巨大的动力,赌博的需要给人类提出了数据分析的要求。在希罗多德(Herodotos,约前484年~约前425年,古希腊历史学家,生于小亚细亚的哈利卡纳苏斯城)的巨著《历史》中记录到,早在公元前1500年,埃及人就有一种游戏,人们经常聚集在一起掷骰子,作为赌博的工具。以后,又发明了六面立方体的骰子,在每个面上刻上数字。希罗多德

到17世纪,法国贵族德·梅勒(De Cetin)在骰子赌博中,想要知道如果赌博双方各出30个金币赌资,依靠对胜负的预测进行分配,要用什么样的比例分配才合理?德·梅勒向当时法国最具声望的数学家帕斯卡(Blaise Pascal,1623~1662年,是法国数学家、物理学家、思想家)请教。帕斯卡

帕斯卡就此与另一位数学家费尔马(Pierre de Fermat,1601~1665年)通信,就这样,产生了概率论。

赌博的目的是赢钱,每一个赌徒都希望下一次是赢钱。而事实上,因为每一次掷骰子都是随机事件,好像是靠运气,每个人的“运气”都独立于他人的“运气”,并不因为前一个人中奖或没有中奖你就多了或少了中奖的机会。因此,对每一个赌徒来说都是机会平等的,都有同样巨大的吸引力。虽然赌场当时也不知道概率的法则支配着输赢,但赌场靠的是一个巨大的赌徒人次,如果赌徒不停地赌下去,就会形成一个巨大的赌博行为的大数据基数,每一次随机得到的输赢就会累积成一个稳定的统计数据。只要赌场背后设计好赔率,无论赌客每一次下注是输是赢,都是随机事件,以概率的观点赌场因为掌握着“大数据”的秘密,根据事先设计好的赔率,赌场总是稳赢不输的,概率总是站在赌场一边。

例如抛硬币,即使你前面100个人抛硬币,并且没有一个人抛出正面,现在轮到你抛,从概率说,似乎是你的可能性很大了,但实际上你与任何前后的抛硬币者机会一样。每个人抛的那一次,都“独立”于其余的人。

赌场往往利用这一点来引诱赌徒,在告示上表明已经有多少赌徒赌过,没有中,好像你的机会到了,而实际上,大家彼此彼此。

概率论是人类掌握确定性的小数据研究方法以后,在面临着越来越巨大的大数据的时候,又受到技术手段限制的时代所创造出来的研究方法。它研究的是统计规律问题,也可以说是在大数据基础上挖掘小数据。正如19世纪法国著名数学家拉普拉斯(Pierre Sismon Laplace,1749~1827年)所说:“我们所掌握的所有知识都是不确定的,只有一小部分我们能确定地了解……对于生活中的大部分,最重要的问题实际上只是概率问题。”

1899年,英国统计学家威廉·希利·戈塞特(William Sealy Gusset,1876~1937年,小样本理论研究的先驱,是一位化学家、数学家与统计学家)在都柏林的一家酿酒公司担任酿造化学技师,他很满意这份工作,因为他可以一边喝啤酒一边搞科研。他把自己的专业与酿造化学结合起来。然而,由于做实验用的麦子数量有限,无法采用大样本观察,戈塞特想了一个办法,戈塞特利用小样本进行分析。这就存在两个问题,一是如何解决误差?二是如何得到较为可靠的结果?经过反复研究实验,戈塞特建立了小样本理论,1908年戈塞特在《生物计量学》杂志上发表了“平均数的概率误差”。他很谦虚地以“学生”(student)为笔名,由此确立了“学生t检验”的基础。1.1.3 阿基米德与国王的对弈

阿基米德(Archimedes,前287~前212年),出生在叙拉古的贵族家庭,父亲是位天文学家。阿基米德从小受到良好的家庭教养,11岁就被送到当时希腊文化中心的亚历山大城去学习。在父亲和师长的影响下,阿斯米德从小热爱学习,善于思考。

有一次阿基米德与国王下棋,国王输了,国王问阿基米德要什么奖赏?阿基米德对国王说:“我只要在棋阿基米德盘上第一格放一粒米,第二格放二粒,第三格放四粒,第四格放八粒……按照这个方法放满整个棋盘就行。我的要求不高,只是您可能做不到。”

国王哈哈大笑,“这有什么难的!”他满口答应,立即叫大臣去办。

大臣在第一个棋盘格子里放上一粒米,第二个格子放上两粒米,第三个格子放上四粒米……人们开始惊叹起来,如此放下去,到第64个格子的时候,即使将国库中所有米都给放上,也不够,即使一粒米只有一克重,也需要几十万亿吨大米才够。

阿基米德不仅下棋赢了国王,而且用“巨大数据”再次赢了国王。这一现象被爱因斯坦(Albert Einstein,1879~1955年)称之为世界第八大奇迹。1.1.4 神秘的“亚细亚社会”与中国增长之谜

对于西方世界来说,在100多年之前,东方世界还是一个蒙上神秘色彩的谜一样的世界。1859年1月,卡尔·马克思在《政治经济学批判》序言中,将其归结为“亚细亚生产方式”的概念:“大体说来,亚细亚的、古代的、封建的和现代资产阶级的生产方式可以看做是社[2]会经济形态演进的几个时代。”

第一个以西方科学眼光来研究这一问题是李约瑟(Joseph Needham),一个与中国姑娘热恋的英国学者。

1937年,三十出头的鲁桂珍,风尘仆仆地来到剑桥。这位南京药商的女儿,已经是一位在生物化学领域的新秀,她久已仰慕的生物化学界的一对夫妻,是李约瑟和他的妻子多萝西·尼达姆,这次到剑桥来就是专门拜访他们,并将与他们一起共事。当鲁桂珍见到身材修长,英俊潇洒的生物化学家李约瑟的时候,她有些吃惊,原来她久仰的导师不是满脸沧桑的老人,而是风度翩翩的年轻人。她立即晚年的李约瑟与鲁桂珍被他英俊的面庞和粗犷的声音震慑了,而李约瑟也对突然出现在眼前的这位温文尔雅的东方才女,有些不知所措。也就是在这一瞬间,月下老人的红线在东西方文明两岸搭起了桥梁,鲁桂珍回忆说,“李约瑟在我们两个文明之间架起了一座桥梁,而我就是支撑这座拱桥的支柱。”

李约瑟的妻子多萝西·尼达姆以女人的敏感很快察觉了丈夫的变化,但是她没有抱怨,而是默默地接受了现实。三个人从此心照不宣地以朋友身份相处了数十年,在科学研究和人生的道路上携手共进。

几个月后,一个温暖湿润的夜晚,东西方的文化隔阂被丘比特之箭射穿了,在剑桥中心凯思学院一间舒适的房间里,李约瑟与鲁桂珍第一次渡过了爱河的激浪。李约瑟轻轻地抚摸着鲁桂珍温柔的秀发,点燃烟,微笑着问道,“你能告诉我这个东西的名称用汉语怎样写吗?”从这天开始,李约瑟在爱情的指引下,进入了一个完全陌生的世界,他很快就被博大精深的华夏文明迷住了,从此把大半生的学术生涯都献给了中国古代科学技术发展史的研究与著述。1954年,李约瑟出版了《中国科学技术史》第一卷,立即轰动了西方科学史界。这是有史以来的第一部详细考察东方古老文明的鸿篇巨制,它以浩瀚的史料、无可置疑的数据,系统地阐明了五千年来中国科学技术的发展进程。

李约瑟让世界相信,“在现代科学技术登场前十多个世纪,中国在科技和知识方面的积累远胜于西方”。西方认为“中国古代只有人文科学,没有自然科学”,从而忽视中国古代科学技术对世界近代文明所作的贡献,“这种总的概念是错误的,是误导西方人民的。”李约瑟高度评价了中国古代科学技术的发展:“西方人似乎通常认为中国有一个纯粹的农业与艺术文明,其实不然。中国人对世界科学技术也做出了重大贡献。他们在全世界首先发明了磁性指南针、炸药、造纸术和印刷术,是最先发明冶炼铸铁的国家。在他们的传统药物中,在今天仍有几种具有巨大的价值和用处。”

李约瑟在高度赞扬中国古代科学技术伟大成就的同时,又十分遗憾地问道:“……中国在这方面的贡献,使人感到西方过去被误导了。中国人在科学实验发明上的确非常伟大。问题是:它们为什么没有继续上升到理论,构筑起其理论体系,或如西方那样,发展出现代科学。”“尽管中国古代对人类科技发展作出了很多重要贡献,但为什么科学和工业革命没有在近代的中国发生?为什么公元16世纪之前,在将人类的自然知识应用于实用目的方面,中国比较西方更为有效,但以后的中国科技却停滞不前?”

这就是著名的“李约瑟之谜”,即为什么中国科技水平和经济发展在历史上一直遥遥领先于其他文明,而近代又落后于其他文明?与此相关还有所谓“马克斯·韦伯(Max Weber)质疑”,即为什么工业革命发生在英国,而没有发生在曾经孕育过资本主义胚胎的中国?

李约瑟本人并没有解开“李约瑟难题”,直到他告别人世。1987年12月22日,已经改名叫李大斐的李约瑟妻子多萝西·尼达姆在家中平静地去世,享年92岁。差不多两年后,李约瑟和鲁桂珍携手步入了婚姻的殿堂,他们在互相依恋中等待了整整51年后,终于完成了名副其实的婚姻。然而这段婚姻仅仅维持了800余天的时间,1991年11月28日,鲁桂珍在家中平静地去世了,享年87岁。弥留之际,李约瑟一直握着她的手,在怀念和孤独中度过了最后几年,1995年3月,95岁的“世纪老人”李约瑟追随爱妻而去。

从此,为了解开李约瑟难题,人们提出了多种解释,从描述性的解释到深层次的理论解答,对社会、经济、文化、宗教、政治等多种因素分别加以阐释,但都难以让人信服。

从西方世界的眼光来看,中国经济社会发展历史充满着不可思议的谜。从远古以来,直到19世纪上半叶,她还是领先于世界其他地区的文明之邦。但是,自1840年以后,中国渐渐落伍了,不仅落后于西方世界,而且在甲午战争中,甚至被深受华夏文明影响,而后变法维新逐步强盛起来的日本打败,此后,经过种种劫难、苦斗,直到改革开放之前,中国大陆甚至落后于直接发源于华夏文明的韩国、新加坡,以至迫使中国打开开放之门。突然,在20世纪80年代,中国通过改革,进入了持续三十多年的高速增长,即使遭受到2008年以来世界金融危机的冲击,仍然没有停止增长,从其趋势来看,显然将在2020年左右,超越美国成为世界第一大经济体。

人们对于中国的停滞与崛起原因十分困惑,对她的增长趋势更加难以判定。

近代中国在西方列强的打击和启发下,曾发生过多次变革,中国的目标是鲜明的,赶上西方、超过西方。然而,从实际来看,如洪秀全,洪仁轩举着基督教幡儿的太平天国起义;康有为,梁启超仿效日本的维新运动;孙中山的学习西方的资产阶级革命;毛泽东同样从西方和俄罗斯引进了斯大林式的社会主义;直到现在,从邓小平启动至今还在继续的,目的仍然是引导中国走向世界和现代化的中国经济体制改革运动……这些充满着磨难、艰险、曲折和牺牲的规模巨大、波澜壮阔的历史运动,继续引起世界的种种猜测。为了解开这些历史之谜,东西方学者们进行了艰苦的探索,各种猜想或假说纷纷出台,但众说纷纭,难以统一。1.1.5 以大数据名义的答卷

李约瑟问题其实是涉及经济增长因素的普遍问题,只是蒙上了东方古国的神秘色彩而已。长期以来,人们不能理解是什么因素导致经济增长加速或减弱?为什么东西方各国增长速度不同?为什么各国人均收入出现如此大的差距?

终于,到20世纪末,国际上权威的经济合作与发展组织(OECD)组织一流专家,运用“用数据说话”的方法,对世界各国经济在200年以来的发展状况进行了有史以来最大空间和时间跨度的全面的定量比较。

该项目由安格斯·麦迪森(Angus Maddison)主持,于1996年完成,写出了《世界经济两百年回顾》,立刻在西方世界引起轰动。报告立即被译成各国文字,畅销于世界,成为各国政治家、经济学家、理论界和实业界人士人手一册的案头书。一位著名的诺贝尔经济学奖获得者说道,“经济学家们都将死去,唯有这本书是不朽的!”

安格斯·麦迪森利用了迄今为止人类拥有的全部发展数据;不仅如此,它还是以“透明的方式”,即用人人都可检验、重复的程序,真实地描述了从1820年到1992年这一时期的整个世界经济。因此,这是第一本系统地进行全球经济定量大比较的巨著,是人类在经济方面解释过去、指导现在、预见未来的钥匙。

安格斯·麦迪森是测量国民生产总值的生产法的创始人,他在解释世界经济增长方面作出了巨大的贡献。他就世界经济增长表述了最广泛、最深刻的观点,这些观点反映了一个毕生从事世界各国经济发展比较研究的学者的丰富阅历和深刻观察,这种生涯使他从20世纪50年代起就获得了OEEC(欧洲经济合作组织,1961年后改为OECD)首席经济学家的高级职位,并蜚声世界。

从长期来看,麦迪森认为决定经济增长的主要因素有四个:一是技术进步;二是物力资本的积累;三是人力资本的积累,即人的技能、教育、组织能力的改进;四是单个国家经济通过商品和劳务的贸易、投资、知识分子和企业家相互作用更加密切地走向一体化。还有三个其他因素被认为也发挥了重要作用,这就是规模经济、结构改变和自然资源的相对稀缺或丰富。所有这些因果联系都是互相作用,互相影响的。

麦迪森没有直接回答中国增长之谜,但是对中国的发展,他一直[3]倾注了满腔热情,1997年,麦迪森带着他的著作来到中国,委托中国经济学家李德伟翻译。就中国经济增长的若干问题,李德伟与安格斯·麦迪森进行了对话。

在翻译麦迪森著作的时候,中国正面临着东亚金融危机的冲击,国内外经济学家纷纷预测中国将是下一个倒下的亚洲国家。然而,在麦迪森研究的启示下,李德伟根据自己建立的“大国封闭模型”,对中国经济增长的大量数据进行了测算,并发表了关于中国增长的预见:中国经济不仅不会崩溃,而且将在改革的推进下,继续增长二十多年,在2020年,GDP总量将超过美国成为世界第一大经济体。

这是第一次使用大数据预测中国增长趋势的尝试,直到十多年后,世界各国经济学家才纷纷向这一预见靠拢。

托夫勒曾预言,在信息社会,发达国家与发展中国家可以在同一起点赛跑。事实正是如此,在20世纪90年代中期,当美国提出“信息高速公路计划”时,中国并没有置身世外,一些敏感的中国学者同时感受到了新世纪的“第一推动”。

1994年,李德伟应国家工商局党组书记杨培青的邀请,到该局组建了“国家工商局市场经济研究中心”,开始研究“中国市场监测指标信息系统”。仅仅六七年后,由赴美归来的学生创办的亚信公司,豪情满怀地建起了中国互联网的骨干网。

1998年,李德伟到广西柳州任职副市长,自治区领导正在为甘蔗种植与制糖业深陷连年亏损困境而忧心忡忡。李德伟想到了通过市场监测指标信息系统,采用大数据方式,挖掘数据,寻找到问题的症结是“糖精滥用”。于是,广西自治区联合国家有关部委国家工商局、国家轻工局和中国消费者协会以及中国糖业协会向中央提出“限制糖精滥用,启动食糖市场”的报告,这一建议得到国务院领导的首肯并作出批示,全国14家糖精厂关闭了9家,由此,中国甘蔗种植业与食糖制造业一举扭亏为盈,成为甜蜜的事业。

然而,先驱的创新可以在世界范围内进行,但要成为实践运动,还必须“连接地气”、“教化民众”。而阻力迫使人们冷静反思:为什么同样的探索在美国能使微软、谷歌脱颖而出,而在中国往往成为遭到枪打的出头鸟……1.2 技术革命开创了大数据时代

如果说数据分析的潜能在大数据到来之前已经在聚集,那么,使大数据登台亮相的正是飞速发展的技术进步和革命。[4]

农业社会—工业社会—信息社会发展的几次重大浪潮,都对人类历史进程留下了深刻的印记。特别是最近60年人类迈入信息社会以来,伴随着技术的进步,从国际商用机器公司(IBM)的第一台电脑诞生,到移动通信、互联网,再到今天的大数据,技术革命引发的社会进步越来越明显,也越来越急不可待。图1-1 历次信息技术革命都给人类社会带来巨大进步1.2.1 信息技术是推动进步的新动力

20世纪80年代美国阿尔文·托夫勒的《第三次浪潮》给正经历改革开放的中国人带来了巨大冲击,一个全新的信息社会呈现在我们面前。随着电话、电脑、互联网的迅速普及,人们对信息社会的认识越来越清晰,特别是20世纪末美国率先提出的“信息高速公路计划”,将全球信息化水平推进到一个新的高度。与各种硬件产品的创新层出不穷相呼应,软件产业也得到了突飞猛进的迅猛发展,世界社会和经济在技术创新和发展的推进下也呈现出革命性的景象。

我们从十几年前的IMF 2001年的统计中看出,1995~2000年新技术特别是信息技术每年对美国经济的贡献率达到 1.86%,已经可以看到信息技术对社会经济的深刻影响(见表1-1)。表1-1 新技术对美国经济增长的贡献率

从表1-1中我们可以看到:(1)在工业革命的三次浪潮中,信息技术对经济社会的冲击是最大的,无论是对金融的拉动,还是在技术进步上的渗透方面都是史无前例的,综合反映到对社会经济发展的贡献率是前几次工业化进程都无法比拟的。(2)年代距离我们越近,也是信息技术越来越完善的时候,信息技术对金融、实体企业的技术和社会经济综合贡献率就越高。(3)进入信息社会的前期,技术进步越来越快,即使是摩尔定律[5](Moore′s Law)在今天也已经显得落后,新技术、新产品更新的速度令人目不暇接,其数量、速度和效率的量级越来越高。(4)信息共享和学科交叉、融合、渗透更加活跃,行业、部门融合、交流更加频繁。

我们在前面已经描述过,随着越来越多的信息被收集和存储起来,大数据正呈爆炸式增长。MGI曾估计,2010年全球的企业在磁盘上存18储了超过7EB(Exabyte,艾[可萨]字节,1EB=10字节)的新数据,而消费者则在个人电脑和笔记本(以及移动设备)等设备上存储了超[6]过6EB的新数据。国际数据公司(IDC)预计,2011年的数据总量9达到1.8万亿GB(giga byte,吉[咖]字节,1GB=10字节),无论是1.8万亿GB,还是7EB,对这些海量数据的分析已经成为一个非常重要而且十分紧迫的需求。

国内的研究机构“计世资讯”研究表明,在企业用户中,已经有67.5%的用户认可云服务模式,并开始采用云计算服务,或者在企业内部部分实现云平台共享。未来以政府、电信、教育、医疗、金融、石油石化和电力等行业为重点的大数据应用将直接拉动整个社会的应用规模,市场规模也将从2010年的167.31亿元增长到2013年的1174.12亿元,年均复合增长率达到91.5%。投资银行JMP证券分析师Greg McDowell则表示,大数据工具市场预计将在10年内由2012年的90亿美元增长至860亿美元。到2020年,企业在大数据工具方面的投资将占整体企业信息技术开支的11%。另外,国外的大数据趋势报告[7]《解读大数据的商业价值和战略意义》也指出,超过33%的受访企业已经或者计划部署大数据项目。

这个由美国发动起来的新计划,已经在全球迅速扩展开来。

2011年,国际数据公司Digital Universe报告说,我们已经进入了“大数据时代”,数据增长的速度已经超过了摩尔定律。这种趋势表明企业处理数据模式的转变,即隔离的孤岛正在被大型集群服务器取代,这种服务器集群将数据与计算资源保存在一起。

无须引述海外的事实,中国这个已经融入世界的文明古国也与世界在同步起跑。

当人们为扑面而来的大数据热浪惊得目瞪口呆的时候,一股冷峻而严肃的技术革命正在静悄悄地向前推进,不断地显示出大数据技术在人类文明发展中无孔不入的渗透性影响。有的时候,大数据有如惊涛拍岸,来势汹汹,让人难以抗拒;有的时候,在你全然不知不觉中,她已悄然而至,拥抱着你,吞噬着你,融化着你,迫使你欣然接受。

数据分析的发展经历了一个从数据到知识的转变过程,这种转变是建立在一系列新的网络计算方法的开发上。

——存储管理实现了多维数据的联合分析。

——数据仓库解决了多个分立系统的数据整合、集成。

——联机分析实现了数据的存储管理和快速组织。

——数据挖掘实现了探索性分析,自动发现隐藏在数据中的规律、模式和有价值的信息。

——商业智能综合运用数据仓库、联机分析和数据挖掘,实现商业决策。

——大数据分析实现了非结构化数据、海量数据、实时数据的分析。

——人工智能实现了自然语言处理、模式识别和机器学习。

对照图1-2两张来自美国卫星不同时代传回地球的照片,我们会惊叹它们的不同,这就是大数据技术在非结构性数据方面的巨大进步。图1-2 不同时代美国卫星传回的照片

图1-3是一张不同光谱的地球表面图,它是由美国“陆地卫星5号”专题制图仪拍摄的,既可以拍摄自然色图像,也可以拍摄光谱中我们通常看不到的部分光图像。我们需要通过大数据技术进行分析、比对,以获得我们对事物的更为真实的认识。图1-3 不同光谱的地球表面图1.2.2 谷歌与Hadoop

谈到大数据处理技术的发展,不能不提谷歌,而解析谷歌就必须[8]了解Hadoop的技术思路。

1998年,谷歌推出测试版搜索引擎,这时候在这一领域占主导地位的是雅虎(Yahoo)公司,其他竞争者还包括infoseekLycos等。但谷歌似乎是初生牛犊不怕虎,无所畏惧,披荆斩棘,最终所向披靡,仅仅在短短两年内,就后来居上,一跃而成为主导搜索引擎的供应商。

谷歌为何有如此威力?直到2003年,谷歌发布了一份关于MapReduce的文件,我们才有幸窥见到谷歌的后端架构的秘密。MapReduce的功能在于以渐进的方式来分析数据,而在过去,我们不得不进行复杂的数据转换,或者采用其他数据预处理,或提前创建适当的模式或整合数据。

谷歌的架构显示了该公司如何能够索引更多数据,并以更快的速度获得搜索结果。这一点特别重要,如果你不能比所有其他竞争对手更有效、更具成本效益地获取这些结果,那么你也就不能取胜。

谷歌的方法是将复杂的数据分析任务分成简单的子任务,这些子任务在并行的服务器中执行,单独进程被用于映射Map这些数据,然后将其缩小到中期或最终结果。这种MapReduce框架最终通过Apache(阿帕奇)的Hadoop供企业使用。[9]

考察Hadoop的简史,我们发现对于大数据开发技术有着非常重要意义的检索软件来源于一个偶然的启发。2003年,雅虎工程师Doug Cutting阅读了谷歌的文件,随后开发了基于Java的MapReduce,并将其命名为Hadoop。三年后,Hadoop成为Apache软件基金会Lucene(一种流行的全文检索库)的子项目,再过两年,跃居成为顶级Apache项目。

从本质上讲,Hadoop提供了对大型IBM计算机集群间的捕捉、组织、存储、搜索、共享、分析和可视化不同数据源(结构化、半结构化和非结构化),并能够从几十台服务器扩展到上千台服务器,每台服务器都提供本地计算和存储。

Hadoop包含两个基本组成部分:首先是作为主要存储系统的Hadoop分布式文件系统(HDFS,Hadoop Distributed File System),它复制和分发源数据块到服务器集群的计算节点,由一个或多个应用程序进行分析;其次是MapReduce创建了一个软件框架和编程模型,用于编写能够并行处理大量分布式数据的应用程序。

特别值得注意的是,Apache Hadoop的开源性质创建了一个开放的生态系统,使其功能、性能、可靠性和易用性都能够不断进步。

科学研究的历史表明:最简单的往往是最复杂的,而当错综复杂

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载