大数据时代的历史机遇:产业变革与数据科学(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-31 02:18:44

点击下载

作者:赵国栋,易欢欢,糜万军,鄂维南

出版社:清华大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据时代的历史机遇:产业变革与数据科学

大数据时代的历史机遇:产业变革与数据科学试读:

作者简介

赵国栋 “数据成为资产”

中国计算机学会会员、宏源证券研究所高级分析师、中国建投投资研究院特约研究员、广东省应急产业协会专家会员、前神州数码系统集成服务有限公司咨询总监、国际信息系统审计协会(ISACA)会员,拥有15年的信息产业工作背景。在移动互联网、云计算、大数据等新兴领域拥有深刻、独到的见解。

邮箱:zhaogd@gmail.com易欢欢 “没有大数据的云计算就是房地产的代名词”

宏源证券研究所副所长、中国建投投资研究院特约研究员、前国金证券计算机行业首席分析师、前甲骨文战略咨询部高级经理、北京著名的青年财经沙龙、TMT沙龙发起人。多次获得证券行业最高奖项新财富奖、水晶球奖金牌分析师称号。

邮箱:yisiyuan@gmail.com糜万军 “数据之和的价值远远大于数据价值之和”

现正在创建大数据技术公司。研究方向主要包括高性能计算和大规模数据挖掘。荣获“2011中关村高端领军人才”、“2012中关村十大海归新星”等称号。

邮箱:wanjunmi@gmail.com鄂维南 “数据科学将达到与自然科学分庭抗礼的地位”

中国科学院院士

北京大学长江讲座教授

美国普林斯顿大学教授大数据的认知框架数据资产评估模型大数据飞轮效应序一 FIRST

2012年,我个人的认识水平有一次重要的提高,那就是关于大数据的了解和认识。这个了解和认识的发蒙,来自于本书的两个作者赵国栋和易欢欢。在我的印象中,中国资本市场上最先发出“大数据”声音的,就是他们两个人。2012年初,和君请他俩来做一个大数据主题讲座,一场讲座下来,瞬即为和君的咨询师们打开了一扇新的窗户,我们开始以大数据的眼光,重新看待企业战略、产业整合、商业模式、竞争要害、企业关键成功要素、核心能力、企业组织变革、企业与客户的关系等等重要概念或命题。这些概念和命题,在传统管理学里,都有清晰的界定和意义。赵国栋、易欢欢展开的大数据时代画卷,让我们意识到一个紧迫而严重问题:如果一个企业或一个管理咨询公司的知识和概念,还停留在传统管理学对这些命题的理解中,我们将彻底Out。跟上时代的步伐,及时完成知识和理念上的更新,没有什么比这更重要的了。从此,和君咨询的公司发展取向、核心能力构筑、咨询师培训的课程设计、和君为客户提供的咨询建议、和君商学的教学安排,开始有了大数据的思维。我深知,这对和君公司、对和君员工、对和君客户、对和君学子,都有着战略性的意义。我觉得赵国栋和易欢欢,是和君的贵人。

经我推荐,恒安国际董事会邀请易欢欢和赵国栋专程飞赴香港为恒安全体董事作了一次“大数据与传统产业升级”的报告。我在董事会上聆听了全程,最大的感触是,各行各业,尤其是传统产业都面临着在大数据和移动互联网时代如何彻底转型和再造问题。我喊了十几年的产业整合,也在大数据时代出现了全新的整合逻辑和实现契机。正如这本书的宣传定位语所言:缺少数据资源,无以谈产业;缺少数据思维,无以言未来。恒安国际总裁许连捷先生听完赵国栋、易欢欢的报告后,就大数据思维对恒安、对快速消费品行业意味着什么,作了敏锐、深刻、快速反应的评论和强调。恒安主营卫生巾、纸巾、纸尿裤、休闲食品,地道的传统产业,年届花甲的总裁,对大数据思想的敏感和快速反应,令我印象十分深刻。我仿佛看到了一个未来景象:各行各业的传统产业,都可能在大数据和移动互联时代,重现生机、焕发青春。当然,与此对应的是,凡是不能跟上时代步伐的企业和行业,命运就是永久地走进过去,退出未来的舞台。

赵国栋、易欢欢,都是典型的理工男。在认识我之前,他们分别在神州数码和Oracle从事理工男的工作。2008年他俩考入我办的和君商学院,开始接触商学,关注金融,自此看到了“理工男”之外的全新的商业世界。从和君商学院毕业后,他们开始进入证券行业,从事IT行业的分析师岗位。他们理工知识基础好,作风踏实,十分敬业和勤奋,很快就脱颖而出了,多次获得证券分析师行业里的重要奖项,比如新财富行业分析师排名第一、水晶球奖金牌分析师等称号,更重要的是他们的思想认识和专业水平,提高很快、进步很大。我作为他们曾经的老师、作为他们从理工男转入证券行业的引路人,感到很欣慰、很赞赏。真的没想到,短短的3年时间他们就可以用思想认识和专业水平来反哺和君、提升老师了。现在,在大数据问题上,我是他们的学生,还需要向他们多多学习、持续学习。这本书,堪作我学习的课本,一个贯通技术理解、产业认识和资本市场估值的难得教材。而技术大牛糜万军先生和中国科学院院士鄂维南教授亲自参与这本书的写作,更让我觉得弥足珍贵。据说本书的“数据科学”章节,是鄂维南院士用纸和笔,一字一句地写出来的,然后再由工作人员敲打成电子版本。这一细节,让我对鄂院士的认真感到肃然起敬,也掀起了我对笔墨写书时代的一种怀旧,俨然像对某种古典而失传工艺的隐隐恋想。

兹为序。王明夫博士/和君咨询董事长2013年初夏,于北京和君咨询序二 SECOND

精准、全面、及时和“数字会说话”一直是人们对企业和政府等公共组织信息系统处理信息的愿望。在之前的信息技术和产业模式条件下我们实现了这些愿望的一部分,但远没有达到人们对信息的理想期求。尽管我们已经提出并运用了对应的普适计算、泛在计算、实时系统和商业智能的理念和模式,问题仍然没有得到根本的解决,直至“大数据”的思想、模式、技术和产业开始真正地形成。

未来企业都将会是“数据驱动的企业”,无论你处于什么行业,企业规模大小。一些企业已经先行一步并在行业中获得巨大的领先优势,一些企业刚刚开始行动,更多的企业还在认识甚至还没有认识到的阶段。“数据”作为企业和公共组织越来越重要的资产,就像当年“知识产权”对于企业资产形态的突破以及由此带来的企业进步发展一样,将历史性地改变着企业资产的理念和进步发展进程。

我十分赞同作者对大数据的观点,大数据不仅仅是一项技术,更是思维方式、发展战略和商业模式。

作者洞察的“行业垂直整合”趋势,以及提出的“终端”+“应用”+“平台”以及“数据”四位一体的泛互联网化范式对我们产业企业、产业主管部门以及投资机构都具有重要的指引意义。

正是在数据驱动企业发展、驱动社会发展的全新时代背景下,“数据科学”显得尤为重要和迫切,不仅仅对于学术研究界,更对于企业和社会实务界,同时也需要产学研进一步的深度合作。“大数据”是最近两年来的一个热词,市面关于大数据的书已经有很多,但是从产业的角度展开并深入剖析的,这是我看到的第一本,这本书让大数据不再停留在理念和技术的层面,而是深入到商业价值与模式、产业机构与形态的层面,读着更具现实感。

本书呈现的特色,与作者的背景和结构不无关系。赵国栋和易欢欢先生是国内最优秀的计算机行业分析师之一,他们在2012年初,率先把大数据概念介绍到中国资本市场,他们让我们看到行业分析师洞察产业的独特视角和优势;糜万军先生是我们企业界的顶尖技术专家,是中关村的高端领军人才;鄂维南先生是中国科学院院士,是我们尊敬的中国数据科学领军人。这是资本市场、产业、学术三个方面的专家通力合作的第一本大数据方面的书,书的专业素养自然经得起挑剔,不乏智慧的火花;在可读性方面,几位作者也是用心架构,深入浅出,案例丰富。

除了企业界的人士,我建议政府工作人员也应该读读这本书,因为大数据必将深刻改变政府的行为,改变政府和社会的关系;学者应该读读这本书,因为资本和产业界的人士会从不一样的角度解读大数据,给你一个全新的视角;学生应该读读这本书,因为大数据将改变企业对人才的需求,应该早做准备。王文京/用友软件股份有限公司董事长序三 THIRD

近年来,互联网与传统产业融合进程加速推进,传统产业的运营模式和游戏规则正在被逐步瓦解并再造。苹果、三星颠覆了传统手机终端,亚马逊、阿里巴巴、京东商城改变了传统零售业,Twitter、Facebook和微信撼动了传统媒体社交……这样的故事正在不断上演。

信息和信息技术是金融业的关键要素,每一次创新和突破,都会给金融业带来重大的影响,这种影响甚至会比其他产业更加明显。因此,金融业基于新兴技术的升级变革已成为大势所趋。特别是云计算、物联网、社交网络、移动互联网、大数据等新兴技术层出不穷,改变了信息的生产、传播、加工和组织方式,打破了传统的信息不对称和物理区域壁垒,对金融业的生存环境和方式造成了明显的影响。具体到证券业而言,可以从两个事件中感受这种变化,一是2012年5月,社交媒体监测平台DataSift通过监测Twitter上的情感倾向准确预测了Facebook上市当天股价的走势;二是2013年3月中国证监会发布的《证券账户非现场开户实施暂行办法》,允许见证开户和网上开户,这对证券公司传统经纪业务以及研究业务、资产管理业务等未来发展都有长远而深刻的影响。

当然,这种影响并不仅局限于证券业,整个金融业无一例外都已经或多或少感受到了这种新变化。比尔·盖茨曾经预言,“传统商业银行将成为21世纪最后的恐龙”,而如今商业银行并没有灭绝,且发展得还很好。但不可否认的是,借助互联网、大数据的崛起,一批新兴力量已经对银行等传统金融机构产生了一定的冲击。也许在业务量上还没有构成实质性的威胁,但这些力量所代表的新技术、新模式、新思想却不可小觑,值得所有传统金融机构去深入探究和学习。《大数据时代的历史机遇》一书,从大数据这一视角切入,全面呈现了第三方支付、供应链金融、网络小额贷款和P2P网络借贷等多种新生金融业态,并深刻揭示了大数据成为继土地、人力、技术、资本之后的新型资产,是金融业未来打造核心竞争力的关键要素,对于我们思考未来金融业的发展趋势和格局构成都会有很好的启迪意义。

本书的两位主要作者——赵国栋和易欢欢,都是我非常优秀的同事,他们在相关产业前瞻性研究方面做了大量的工作,取得了不错的成绩。这次他们不仅率先将大数据引入资本市场,而且还进一步针对大数据与金融、媒体等传统产业的融合趋势进行了深入研究,并提出了很多非常具有价值的观点和意见。《大数据时代的历史机遇》可以说是他们最新研究工作的智慧结晶,是一本难得的大数据相关作品!胡强/宏源证券总经理前言 FOREWORD

星罗密布的人造卫星和数以千万计的各种传感器,源源不断地侦测、创建和传输大量的数据。人们的喜怒哀乐、吃穿住行等人性化的表征和行为都在虚拟的网络空间中再现和升华。人类全面进入了数据时代。数据的影响已经渗入到了产业、科研、教育、家庭和社会等各个层面。可以说,缺乏数据资源,无以谈产业;缺乏数据思维,无以言未来。

尽管大数据已经成了一个热点话题,但目前大数据方面的文献大多聚焦在它的数据容量,数据多样性以及访问速度上,也就是所谓的三个“V”。本书则穿透数据爆炸的表象,聚焦于探讨大数据对于产业变革、科学研究的巨大影响。大数据正以前所未有的速度,颠覆人们探索世界的方法,驱动产业间的融合与分立。因而当务之急是,怎么认知大数据?如何让大数据更好地应用到科学研究中去?如何让大数据切实帮助公司突破增长的瓶颈?本书力图系统、全面地阐述大数据社会、经济、科学研究等方方面面的影响,或许可以帮助大家澄清一些认知误区,有助于大数据在各行各业落地生根。

本书分为三大部分:第一部分阐述大数据时代产业趋势的问题;第二部分重点在于数据科学;第三部分概览世界主要国家、经济体在大数据方面的政策和举措,海外巨头以及新兴公司在大数据领域的实践。“数据成为资产”是最核心的产业趋势。正如本书概述所提到的:“当写完这些案例,回头审视产业的起起伏伏,发现产业兴衰的决定性因素,已经不是一城一池的争夺。土地、人力、技术、资本这些传统的生产要素,甚至需要追随“数据资产”,重新进行优化配置。”那些拥有优质数据资产的公司,挟天子以令诸侯,不断地攻伐、侵袭其他产业的传统领地。产业融合大幕随之拉开,天平却向这些新兴的公司倾斜。由此笔者也得出第一个公司价值的判断标准:“大数据时代公司的价值,与其数字资产的规模、活性成正比,与其解释、运用数据的能力成正比。”

本书第一部分用四章的篇幅来描述“数据资产”,提出数据资产的评估模型,并以此为基础来判断符合哪些条件才是优质的数据资产,才具备产业跨界攻伐的潜力。围绕数据资产的运用,衍生出不同的商业模式,通过大量的学术研讨和商业案例,来阐释这些商业模式的合理性、颠覆性。第四章和第五章分别描述了已经被颠覆的媒体行业和正在受到冲击的金融行业。

具体到信息产业内部,当下另一个重要的趋势是“行业垂直整合”。那些越是靠近产业链末端,越是靠近最终消费者的公司,将在产业链中拥有越来越大的发言权。这一趋势对中国信息产业而言,意义尤其重大:它是大数据时代,我国信息产业实现弯道超车的契机。影响这个趋势的关键因素包括开源软件的兴盛、软硬一体化重新唱主角、应用为王、极简主义盛行等。洞悉行业垂直整合趋势,将对一、二级市场的投资判断,有重要的参考意义。本书第六章将重点谈论这部分内容。

泛互联网化是笔者提出的另一个主要思想,也是收集数据资产、发挥大数据商业价值的最佳实践。多种形态的设备、软件都会具备联网的功能,联网成为泛化的功能存在于各种设备、各种软件之中。笔者系统地考察了苹果、谷歌等引领世界潮流的公司商业模式,也遍访国内传统的IT公司,提出“终端”+“应用”+“平台”以及“数据”四位一体的泛互联网化范式,重点揭示该范式的特征与实践,批判“工业时代的标准化思维”。灵活利用泛互联范式,传统企业会取得意料之外的高速增长,也是创业型公司从零开始积累数据资产的正途。这个话题的初步探讨参见第七章。

本书第二部分围绕“数据科学”展开。大数据给科学和教育事业的发展提供了前所未有的机会,同时也提出了前所未有的挑战。它不仅将给现有的科研和教学体制带来大幅度的变革,也会给科学与产业之间的关系、科学与社会之间的关系带来大幅度的变革。信息时代,万物数化。许多学科已经和信息科技深度融合,形成新的研究领域,譬如生物信息学、天体信息学、数字地球、计算社会学等。“用数据来研究科学”已经是科学研究的主要手段之一。另一方面,大量的、非结构化的数据,同样需要科学的手段,来去芜存菁,即“科学的研究数据”。另外,产业界在生产经营中积累丰富的数据,学术界则有待于实践检验的模型和算法。“数据科学”为学术界和产业界的紧密衔接提供了纽带和桥梁,成为促进产、学、研深度融合的重要契机。

本书前两部分偏重构建大数据相关理论和趋势,第三部分则全景扫描各政府、各大经济体、各行业领头羊和典型的新兴公司在大数据方面的具体实践。如果没有第三部分,前两部分就像自说自话,成了无源之水。在各国政府的大数据行动中,美国的动向无疑最值得关注。第十一章几乎通篇都在讲美国政府的开放策略。大家从中可以看到,美国政府是如何利用数据技术来促使政府变得更加透明、廉洁和高效。读罢这一章,大家也会很容易理解奥巴马政府《大数据研究与发展计划》的初衷。第十二章阐述了大型公司如何利用大数据技术相互攻伐,第十三章则重点放在有哪些值得关注的新兴企业,对于专注于早期投资的机构而言,这章具备十分重要的参考意义。

这本书是笔者和易欢欢、糜万军、鄂维南院士通力合作的结晶。易欢欢先生是宏源证券研究所副所长,曾荣获2011年新财富奖、水晶球奖金牌分析师第一名,在资本市场首提大数据概念,引领一时之风潮。糜万军先生现正在创建大数据技术公司,同时也是“中关村高端领军人才”的代表人物。糜总在数据统计、定向广告的核心算法方面造诣深厚。鄂维南先生是中国科学院院士,同时也是北京大学长江讲座教授、美国普林斯顿大学教授,他已倡导数据科学多年,是我国发展数据科学的领军人物之一。

本书系统地总结了笔者多年的工作心得、行业感悟。本书思想来自于产业界、学术界、政府人士的反复沟通和碰撞,成书之际,谨在此表示深深地感谢。他们是(排名不分先后)国金证券研究所副所长李伟奇、甲骨文产品战略部总监刘松、用友集团董事长王文京、拓尔思总裁施水才、启明星辰首席战略官潘柱廷、上海证券交易所总工程师白硕、神州数码CTO谢耘、神州数码徐拥军、民生证券CIO颜阳、SAP全球数据库解决方案亚太及日本区技术总监卢东明、百度公司多媒体部副总监余凯、京东商城副总裁李曦、北京大学教授姚远、工信部电子科学技术情报研究所陈新河、工信部软件与集成电路促进中心陈越等。

感谢网友@尹锴_ink、@夏明武,他们慷慨无私地提供了大量的资料和职业感悟。感谢笔者的写作团队,他们利用业余时间收集、翻译、整理资料,校对文字。其中刘丰(第八、十一章)、闻学臣(第五章)、李隽钦(第四章、第十三章)甚至参与撰写了部分章节。笔者的写作思路和风格时常调整,导致大家许多工作成为无用功,收集大量资料却无一采用。尽管如此他们依然任劳任怨,志愿付出。他们是蒋传臣、靳松、陆安、刘丰、许文星、闻学臣、魏增、金慈航、尹佳、丁新、安征、王萌、曹宇峰、孙思远、徐湘童、王宁、吕殷楠、宋航、胡博、杨宣华、王东莹、何全、王宁、魏芳、曾奕恺、胡韦力、扈培培、赵晖、刘翔、刘笑逸、李隽钦、冯达、葛婧瑜、张中峰、张娟。

感谢摩宝时代为本书提供的二维码支持。

感谢清华大学出版社的信任与等待。

再次感谢!作者2013年1月于北京引子大数据总统奥巴马

2012年8月份,美国总统大选正如火如荼。出人意料的是,奥巴马总统的数据团队要求他去一家叫Reddit的新闻网站去回答问题。对许多人来讲,Reddit是一个陌生的名字,总统的高级助手们对它也不甚了解。但是来自数据团队的回答却非常简单:“因为我们需要动员的一些人,经常在Reddit上。”

这仅仅是选战过程中一件毫不起眼的数据决策案例。事实上,奥巴马的数据团队非常神秘、低调,但其触角又无处不在,几乎左右了整个大选,他们被内部人士戏称为“核编码”。他们创建了单一的巨大系统,可以将从民调专家、筹款人、选战一线员工、消费者数据库、以及“摇摆州”民主党主要选民档案的社会化媒体联系人与手机联系人那里得到的所有数据都聚合到一块。这个组合起来的巨大数据库令(1)奥巴马的数据团队工作极富成效,令人惊叹。在这个组合的数据库中,每个选民甚至被精确地划分为1000多个特点,通过建模和算法分析,系统能为每个选民找出一个最能说服他的理由;每晚进行6.6万次模拟选举,在个体水平上,计算出奥巴马在任何一个摇摆州的胜率。事实上不仅如此:

他们建立的模型能够预测谁会在线捐款。

他们用来网上筹款的邮件,也充分利用了数据收集和分析。

他们借助模型帮助奥巴马筹集到创纪录的10亿美元。

他们帮助优化电视精准投放广告的模式。

他们创造出了摇摆州选民的精细模型。

他们计算出第一夫人发的拉票邮件在春天最受欢迎。

他们利用数据来详细分析关键州的选民。深入分析各个族群的选民在任何时刻的趋势。在总统候选人的第一次辩论之后,他们分析出哪些选民倒戈,哪些没有。

他们利用熟人效应,开发Facebook App拉票。

他们为竞选团队购买广告提供决策参考。

他们通过一些复杂的模型来精准定位不同选民,他们购买了一些冷门节目的广告时段,而没有采用在本地新闻时段购买广告的传统做法。广告效率相比2008年提高了14%。

他们导致经验主义的竞选专家的作用急剧下降,能够分析大数据的量化分析专家和程序员的地位却大幅提升。

他们让政客们,尤其是对手知道政治领域的大数据时代已经到来。一瓶茅台酒的旅程

消费者最头疼的恐怕还不是茅台酒的价格,而是能否买到货真价实的茅台。“道高一尺魔高一丈”,茅台历来的防假手段,除了推高茅台酒瓶的回收价格以外,似乎并没有真正让消费者放心。

为每一瓶茅台建立“档案”,消费者可以轻松方便地查询到任何一瓶茅台酒的档案材料,是防假的终极解决之道。每一瓶酒都有一个独立的“身份证号”,铭刻到酒瓶上,在信息系统中记录下从灌装到出厂、运输、批发、零售所有环节的信息。人们只要把“身份证号”传输到网站一查,真伪立辨。这个办法看起来容易,但是真正实施,我们立刻会被淹没在大量的数据之中。

不仅仅是茅台,中国目前所有食品面临“安全、卫生”的大难题。如果能把茅台酒的做法推而广之,无疑是全民之福。但是这些海量的数据记录,对传统的信息处理技术提出了巨大的挑战。

茅台的故事,其实可以引发管理理念的变化。这是管理日益精细化的具体体现。原来“茅台们”的管理都是按照生产批次,通常认为同一个生产批次的产品,是没有差别的。现在的管理理念则不同,要求对每一件单品实行差别化管理。

城市治理中,也在发生同样的事情。小到每一个下水道井盖都被仔细编号、追踪。这当然另我们的生活更加便利,但产业界首先需要应对的则是大数据的挑战。

————————————————————(1) 英文原文参见CNN网站http://edition.cnn.com/2012/11/07/tech/web/obama-campaign-tech-team。导读:

1.大数据正以前所未有的速度颠覆人们探索世界的方法,引起社会、经济、学术、科研、国防、军事等领域的深刻变革。

2.数据成为资产、产业垂直整合、泛互联网化是大数据时代的三大发展趋势。数据资产成为和土地、资本、人力并驾齐驱的关键生产要素。围绕数据资产可以演绎跌宕起伏的产业大戏。

3.数据科学应运而生并将成为科研体系中的重要组成部分,逐渐达到与自然科学分庭抗礼的地位。数据科学既可以推动数学、计算机科学、统计学、天体信息学、生物信息学、计算社会学等学科的发展,又能够助力产业界升级转型。

4.需要在宏观尺度拓宽大数据视野、建立完整的大数据思维;正视普遍存在的三大数据治理问题(数据割据、数据孤岛和数据质量)及人才短缺的现状。第一章 大数据概述

大数据是“在多样的或者大量的数据中快速获取信息的能力”。——笔者

大数据,事关国计民生、产业兴衰、公司存亡,不可不察。信息科技经过60余年的发展,数据(信息)已经渗透到国家治理、国民经济运行的方方面面。经济活动中很大一部分都与数据的创造、传输和使用有关。2012年3月,奥巴马公布了美国《大数据研究和发展计

(1)划》,标志着大数据已经成为国家战略,上升为国家意志。

国家竞争力将部分体现为一国拥有数据的规模、活性,以及解释、(2)运用数据的能力。国家数字主权体现为对数据的占有和控制。数字(3)主权将是继边防、海防、空防之后,另一个大国博弈的空间。没有数据安全,也就没有国家安全。华为、中兴开拓美国市场受挫,就是非常明显和清晰的信号。美国政府对自家数据安全的重视程度,已经到了不能让任何外国信息基础设施产品供应商染指的地步。华为此前一直希望通过竞标和并购等方式进入北美市场,多年来未能如愿。2008年,华为与贝恩资本联合竞购3COM公司,却因美国政府阻挠未能成行;2011年,华为被迫接受美国外国投资委员会的建议,撤消收购3Leaf公司特殊资产的申请;同样是在2011年,美国商务部阻止华为参与国家应急网络项目招标。(4)

再看美国国防部立项的几个大数据项目:多尺度异常检测(ADAMS)项目,解决大规模数据集的异常检测和特征识别的问题;网络内部威胁(CINDER)计划,旨在开发新的方法来检测军事计算机网络与网络间谍活动,提高对网络威胁检测的准确性和速度;Insight计划,主要解决目前情报、监视和侦察系统的不足,进行网络威胁的自动识别和非常规的战争行为……参见附录四。其他部门包括国土安全部、能源部、卫生和人类服务部、国家航天总局、美国国家科学基金会、美国国家安全局、美国地质调查局纷纷推出大数据项目。奥巴马指出:“通过提高我们从大型复杂的数据集中提取知识和观点的能力,加快科学与工程前进步伐,改变教学研究,加强国家安全。”

产业层面,大数据技术虽然发源于信息科技,但其影响已经远远超出信息行业。数据已经存在于全球经济中的每一个部门,就如固定资产和人力资本等生产要素一样,如果没有它许多现代经济活动根本就不会发生。笔者观察到一些新兴的互联网公司,利用新技术大规模地收集数据,预判客户行为,然后在不同的行业纵横捭阖。它们剑锋所指,现代服务业无不受其锋芒所迫,或随波逐流,或奋起反击。但缺少数据资产、缺少强大的数据分析能力,这类公司无疑处在被颠覆的边缘。笔者也看到传统行业的公司,数十年如一日坚持积累当时被视作“废料”的数据,现在回头审视这些数字化的资产,居然一跃成(5)为人类的宝库。凭借独一无二的“数据资产”,公司进入相关行业,易如反掌。

当笔者回头审视产业的起起伏伏时,就会发现决定产业兴衰的根本性因素已经不是一城一地的争夺了。土地、人力、技术、资本这些传统的生产要素,甚至需要追随“数据资产”重新进行优化配置。封建时代,往往是裂土封王,权贵都是大地主;工业革命后,制造业巨子成为偶像;资本市场化后,受到追捧的是拥有大量钱财的投资家。但是在大数据时代,“数据资产”成为最重要的生产要素,拥有大量(6)数据资产的人,已经成为美国总统的座上宾。

产业的分分合合,一直是资本市场非常喜欢的故事。不管是分拆也好,整合也罢,资本市场都有钱赚。以往产业的整合基本围绕产业链展开,要么向上游扩展,要么向下游兼并。但是在大数据时代,人们看到的商业图景是围绕“数据资产”拉开产业并购的大幕。谷歌所有的收购或者推出的新产品,都是为了增加数据资产的“维度”和(7)“活性”。所有观察公司发展、产业未来的机构或者个人,如果忽略“数据资产”,或者对“数据资产”认知肤浅,必将导致错误的判断。大数据将是决定产业未来的战略性资产。未来产业间的整合并购,将会在很大程度上围绕“数据资产”展开争夺。

企业家、投资人、咨询顾问、分析师,必须要从战略层面思考大数据对产业、公司的影响。2012年初,笔者曾经和恒安国际的董事(8)会一道交流大数据对制造业的影响。会上许连捷总裁说:“在大数据时代我们收集数据,研究消费者行为,推出新的产品,改善供应链,降低库存。一句话就是把大数据融入到经营中去。也许有可能把库存降到近乎‘0’的水平。”所以,我们谈大数据,首先是思维方式的问题,要建立全面、系统的大数据意识,其次才是落实到公司战略。大数据对公司的影响是多方面的,涉及组织、文化、流程、技术等。本书第八章将专门详细论述大数据对公司组织结构的影响,在此不赘言。

具体到中国信息产业,发展速度一直落后于国外的巨头,长期处在产业链的末端,赚取刀片一样的利润,积累到最后发觉只形成了简单可替代的“中国制造”而非具备革命性创新性的“中国智造”。国家拿出大笔资金扶持上游环节的拓荒者,如CPU、操作系统、办公软件,但是相关领域国内外的差距过于遥远,也缺少大规模的商用市场,花了国家的钱,却鲜有在商业上大获成功的先例。但是在新兴的大数据处理领域,中外公司几乎站在同一起跑线上。中国作为数据的巨大产生国,有着更广阔的应用空间。比如,中国移动、工商银行、淘宝,已经具备世界级的产业应用环境。有业内人士表示,单纯考虑狭义的大数据处理技术(如Hadoop、MapReduce、模式识别、机器学习等),中外差距仅有5年左右。如果考虑数字资产规模以及利用的技术,中外差距更多体现为意识上的差距。美国在数据开放、跨部门共享方面做出了表率,而我国对大数据的价值和应用,政府、学术界、产业界和资本市场尚待达成一致的认知。各部门、各地方普遍存在“数据割据”和“数据孤岛”现象,缺乏大数据意识是阻碍我国大数据技术在各行业落地的关键因素。

大数据时代,有两点非常有利于中国信息产业跨越式发展。第一,大数据技术以开源为主,迄今为止,尚未形成绝对技术垄断。即便是IBM、甲骨文等行业巨擘,也同样是集成了开源技术,与本公司原有产品更好地结合而已。开源技术对任何一个国家都是开放的,中国公司同样可以分享开源的蛋糕。但是需要更加开放的心态、更加开明的思想,正确地对待开源社区。第二,中国人口和经济规模决定中国的数据资产规模冠于全球,客观上为大数据技术的发展提供了演练场。第二点亟待政府、学术界、产业界、资本市场四方通力合作,在确保国家数据安全的前提下,最大程度地开放数据资产,促进数据关联应用,释放大数据的大价值。

目前,政府和产业界积累了大量的数据资产,但是苦于缺乏行之有效的与工程实践匹配的算法和人才来充分挖掘数据的价值。形象地说,好多行业是守着“金山要饭吃”。而学术界,尤其是应用数学领域,在统计学习、图像处理、网络科学领域钻研颇深,但缺乏大量的实际数据来验证和训练算法。虽有屠龙术,无处展身手,两方长期处于脱节的状态。如果应用数学界和产业界紧密协作,将是中国公司的极大利好,会大大促进公司的发展。2012年11月17日,在北京大学国际数学研究中心召开了首届“数据科学与信息产业研讨会”。学术界和企业界的一百多位领军人物和活跃分子聚集在一起,共同商讨数据科学的含义和发展计划,以及企业界的需求。这次会议为促进学术界和信息产业的联合,开了一个好头。

数据资产并不是大公司才有的专利。在第七章中将详细讨论一种“泛互联范式”,“终端”+“平台”+“应用”,最后形成数据资产。许许多多富有活力的公司,均符合这一范式。这也是创业型公司开启大数据之路的总结和探索。

自从我们在中国资本市场第一个发出“大数据时代即将到来”的声音后,大数据已经成为年度热词。综合政府、学术界、产业界的最新动向,笔者预计,如果把2012年看成大数据普及之年,那么2013年将成为大数据应用之年,相关产业规划、行业政策将纷纷出台,金融、电信、政府、电商、医疗、平安城市等相关应用将加速推进;2014年至2016年将是大数据效益之年,若干中国大数据公司相关业务形成爆发性增长,部分相关公司海内外融资或IPO上市。

本书的内容将围绕大数据对产业走势、融合、变迁的影响,在产业中的具体应用(商业模式),以及数据科学的兴起三大主题展开。本章包括大数据产生的历史背景、激动人心的典型特征、系统全面的认知框架等内容,最后会简略说明推广大数据面临的困难和挑战。第一节 大数据产生的历史背景提要:

1.信息基础设施持续完善,包括网络带宽的持续增加、存储设备性价比不断提升,犹如高速公路之于物流,为大数据的存储和传播准备物质基础。

2.互联网领域的公司最早重视数据资产的价值,最早从大数据中淘金,并且引领大数据的发展趋势。

3.云计算为大数据的集中管理和分布式访问提供了必要的场所和分享的渠道。大数据是云计算的灵魂和必然的升级方向。

4.物联网与移动终端持续不断地产生大量数据,并且数据类型丰富,内容鲜活,是大数据重要的来源。信息科技进步

如果把信息技术的不断进步看成世界万物持续数字化的过程,则会理出一条清晰的主线。信息科技具有三个最核心和基础的能力:信息处理、信息存储和信息传递,几十年来这三个能力的飞速进步,是人类科技史上最为激动人心的故事之一。(9)

1965年,戈登·摩尔(Gordon Moore)发现芯片上可容纳的晶体管数目,每隔18个月左右便会增加一倍,性能也将提升一倍,即摩尔定律。在摩尔定律的指引下,信息产业周期性地推出新的计算机,操作系统和计算能力均在不断提高。工业界和个人都不断地升级计算机设备,从而推动信息产业的巨大进步。每当英特尔开发出计算能力更强的芯片,微软公司就会适时推出功能更强大、操作更方便的操作系统,带动客户新一轮的升级换机热潮。这种循环持续不间断地上演了40余年。这段波澜壮阔的历史,使信息处理和存储能力获得成千上万倍的提升。

1977年,世界上第一条光纤通信系统在美国芝加哥市投入商用,速率为45Mbit/s,自此,拉开了信息传输能力大幅跃升的序幕。有人甚至将光纤传输带宽的增长规律称为超摩尔定律,认为带宽的增长速度比芯片性能提升的速度还要快。

事实上,存储的价格从20世纪60年代1万美元1MB,降到现在的1美分1GB的水平,其价差高达亿倍,如图1-1所示。在线实时观看高清电影,在几年前还是难以想象的,现在却变得已习以为常了。网络的接入方式也从有线连接向高速无线连接的方式转变。毫无疑问,网络带宽和大规模存储技术的高速持续发展,为大数据时代提供了廉价的存储和传输服务,如图1-2所示。因而,本书假定存储和带宽不再是制约数据应用的因素。(10)图1-1 存储价格的下降(11)图1-2 网络带宽的增加互联网的诞生

互联网的出现,在科技史上可以比肩“火”与“电”的发明。这个伟大的发明同样是由军事目的驱动的。计算机在军方应用得越广泛,计算机上保存的军事机密就越多。人们担心如果保存重要军事机密数据的主要计算机被摧毁的话,很可能就会输掉整个战争,于是,推动计算机之间互相传递数据并互为备份的通信机制被提上日程。1969年,把分属于不同大学的四台计算机互相连接起来,这就是最早的互联网雏形。

互联网把每个人桌面上的计算机连接起来,改变了人们的生活,成为大家获取各类数据的首要渠道。通过互联网获取数据的模式可以简单地抽象为“请求”+“响应”的模式。理解这种获取信息的方式,有助于理解“大数据”的价值,所以笔者多花些笔墨把这个模式解释清楚。互联网上的“脚印”

用收音机听广播,或者用电视机看电视节目,都是“广播”+“接收”的模式。不管有没有电视机在接收信号,广播塔总是在发送电视节目信号。随时打开电视机,随时就能收看电视节目。在“广播”+“接收”模式中,广播塔是不知道有谁在接收节目的,如图1-3所示。图1-3 “广播”+“接收”模式“请求”+“响应”模式则不同,如果客户端(所有接入互联网的设备、软件等)不主动要求,服务器端是不会发送任何数据的,如图1-4所示。互联网应用协议基本上都是这种模式。当然也有“广播”+“接收”模式的协议,但是不常用。每一次访问请求其实就是一次鼠标点击操作,服务器的日志中,忠实地记录下来每个人访问的时间、请求的命令、访问的网址等数据。这些访问记录就像人们在雪地上行走留下的脚印一样,“脚印”连成一串,构成了人们在互联网上的“行为轨迹”。想一想猎人是怎样通过追踪脚印捕获猎物的,就会明白这些“轨迹”中蕴含着巨大的价值。所以,各类服务器上的日志就是一种非常重要的大数据类型。图1-4 “请求”+“响应”模式,记录用户的请求

曾经有制作服装的公司想要调查顾客的购买意愿。需要统计顾客拿起了哪件衣服?试穿了哪件衣服?在专卖店逗留了多长时间?这就需要安装摄像头,选样本,可能花费上亿的资金。要想省钱的话,其结果可能会失去参考价值。如果在网上做同样的事情,成本近乎为“0”。大家可以想想,在淘宝网或者京东商城的主页上,每一个网页都相当于一家店铺,打开这个网页就等于进入了店铺;点击了衣服,相当于顾客拿起衣服仔细端详;把衣服放到收藏夹,可以理解为试穿。这样,在实体店中顾客的行为几乎被完整地映射到网页上了。不同的是,互联网忠实地记录下“顾客”在“店”里停留的时间、关心的品类;此外,顾客和销售员的对话、顾客与顾客之间的对话,也被忠实地记录、保存。互联网企业做与那家制衣公司同样的调查,成本近乎为“0”。

因为互联网的内在机理,使互联网成为大规模接近消费者、最理解消费者的工具和平台。互联网没有删除键,人们在互联网上的一言一行都被忠实地记录。古代皇帝身边总有一位兢兢业业的史官,随身携带纸笔,记下皇帝的起居作息、金口玉言。互联网就像每个人的“史官”,它从不知疲倦,事不分大小,悉心而精准地记录着一切。事实上,这位“史官”记录的就是大家的数字化生活,如图1-5所示。图1-5 网络生活(来源:谷歌)云计算与大数据

云计算,再一次改变了数据的存储和访问方式。在云计算出现之前,数据大多分散保存在每个人的个人计算机中、每家企业的服务器中。云计算,尤其是公用云计算,把所有的数据集中存储到“数据中心”,也即所谓的“云端”,用户通过浏览器或者专用应用程序来访问。

一些大型的网站,通过提供基于“云”的服务,积累大量的数据,成为事实上的“数据中心”。“数据”是这些大型网站最为核心的资产。他们不惜花费高昂的费用付出巨大的努力来保管这些数据,以便加快用户的访问速度。谷歌公司甚至购买了单独的水力发电站,为其庞大的数据中心提供充足的电力。根据一些公开资料显示,谷歌在全球分布着36个数据中心。图1-6是谷歌公司数据中心内一景,大家可以由此领略到科技之美。图1-6 谷歌数据中心一景(来源:谷歌)

这几年国内各地兴起了建设云计算基地的风潮,客观上为“大数据”的诞生准备了必备的储存空间和访问渠道。各大银行、电信运营商、大型互联网公司、政府各个部委都拥有各自的“数据中心”。银行、电信、互联网公司绝大部分已经实现了全国级的数据集中工作。

在笔者的大数据报告中曾经提了一个观点,引起了广泛的关注和(12)争议:“没有大数据的云计算,就是房地产的代名词”。云计算确实可以称为一场信息技术领域内的革命,甚至对社会也必将产生革命性的影响,但是它却并不是一场技术革命,云计算在本质上是一场IT产品/服务消费方式的变革,云计算中的一个广为宣传的核心技术——虚拟化软件,早在20世纪60年代就已经被应用在IBM的大型主机中了。

云计算是大数据诞生的前提和必要条件。没有云计算,就缺少了集中采集和存储数据的商业基础。云计算为大数据提供了存储空间和访问渠道;大数据则是云计算的灵魂和必然的升级方向。

2012年,业内所有的云计算大会,无论官方背景还是民间主办,都是把“大数据”作为一个核心的主题。甚至有时候都分不清楚,这是云计算的会,还是大数据的会。物联网

物联网是另一个信息技术领域的热词,究其本质是传感器技术进步的产物。遍布大街小巷的摄像头,是大家可以直观感受到的一种物联网形态。事实上,传感器几乎无处不在,使用它可以监测大气的温度、压强、风力,监测桥梁、矿井的安全,监测飞机、汽车的行驶状态。一架军用战斗机上的传感器多达数千个。现在大家常用的智能手机中,就包括重力感应器、加速度感应器、距离感应器、光线感应器、陀螺仪、电子罗盘、摄像头等各类传感器。这些不同类型的传感器,无时无刻不在产生大量的数据。其中的某些数据被持续地收集起来,成为大数据的重要来源之一。社交网络

社交网络是互联网发展史上的又一个重要的里程碑。它把人类真实的人际关系完美地映射到互联网空间,并借助互联网的特性而大大升华。广义的看,社交网络使得互联网甚至具备某些人类的特质,譬如“情绪”:人们分享各自的喜怒哀乐,并相互传染传播。社交网络为大数据带来一类最具活力的数据类型,人们的喜好和偏爱。更重要的是,人们还知道在社交网络中,如何利用网民的关系链来传播这些喜好和偏爱。这就为研究消费者行为打开了另一扇方便之门。如果深入地分析社交网络就会发现,大型的社交网络平台事实上构成了以“个人”为枢纽的不同的数据的集合。借助“分享”按钮,人们在不同网站上的购物信息、浏览的网页都可以“分享”在社交网络上。想想前面提到的雪地上的脚印,社交网络把网民在不同网站上留下的“脚印”链接起来,形成完整的行为轨迹和“偏好”链。

图1-7是Facebook的一个实习生把网站中人们相互联系的数据通过建模、渲染得到的一幅图片,越是明亮的地方,人们相互交流越是活跃。现在Facebook是世界上最大的社交网站,每月的活跃用户数突破了10亿。图1-7 反映社交网络Facebook上人们活跃程度的世界地图(来源:Facebook)智能终端普及

古人只能用“大漠孤烟直,长河落日圆”等诗词歌赋来主观描述他们的所见所闻,我们则可以掏出手机、照相机、摄像机,再现美丽的风景,与亲朋好友分享。执着的古人迷路时索性信马由缰不问归路(13),我们则可以拿出智能手机使用导航软件找到目的地。

智能终端不仅仅局限于个人应用,许多行业都已经开始大规模地部署终端产品。举一个“美丽”的例子,婚纱摄影行业:以前影楼需要租用大面积的场馆、位置优良租金高昂的门店,携带大型笨重的写真集,展示给准新娘们用以挑选照片。但是如今利用iPad,可以做出令人心醉神迷的实景效果,如360°旋转等特效。准新娘只需要一部iPad,就可以全面地看到最终的拍摄效果,并利用其交互特性提高样片选择的精准度。(14)

KPCB(凯鹏华盈)是美国最大的风险投资基金之一,其合伙人Mary Meeker在2012年发布的一份趋势报告中指出,在2010年第二季度,智能手机加平板电脑的出货量已经超越台式机和传统笔记本电脑(参见图1-8),并且预计在2013年第二季度,智能移动终端全球(15)保有量也将实现反超(参见图1-9)。图1-8 移动设备与传统台式机、笔记本电脑的全球出货量对比图(来源:Katy Huberty,Ehud Gelblum,Morgan Stanley Research.Data and Estimates as of 9/12.)图1-9 移动设备与传统台式机、笔记本电脑的全球保有量对比图(来源:Katy Huberty,Ehud Gelblum,Morgan Stanley Research.Data and Estimates as of 9/12.)

智能终端的普及给大数据带来了丰富、鲜活的数据。苹果公司2012年公布的一组运营数据可以反映智能终端上人们的活跃程度。其中,iMessage功能目前每秒为用户传递28000条信息;iCloud已经为用户提供了总计1亿多份的文档;GameCenter的账号创建数达到了1.6亿,当前iOS应用总数突破了70万,支持iPad的应用则达到了27.5万;苹果AppStore的应用下载量突破了350亿次大关,通过分成付给应用开发商的分成总额已达65亿美元;iBooks中的图书总数已达150万册,下载量也超过了4亿。第二节 大数据的定义和特征提要:

1.未来的不确定性是人类产生恐惧的根源之一,也是各类组织最为头痛的问题。大数据技术让人们看到了解决未来预测问题的一丝曙光。

2.大数据四个典型的特征:第一,数据量巨大;第二,数据类型多样;第三,数据中富含价值;第四,必须在尽可能短的时间内发掘出价值。

3.尽管本节重点介绍大数据的四个特征,但是并非只有数据量大才能称为大数据。人们更看重的是“快速地从各类数据中获得信息的能力”。

麦肯锡(美国首屈一指的咨询公司)是研究大数据的先驱。在其报告《Big data:The next frontier for innovation,competition,and productivity》中给出的大数据定义是:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,(16)并不是说一定要超过特定TB值的数据集才能算是大数据。

国际数据公司(IDC)从大数据的四个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。

亚马逊(全球最大的电子商务公司)的大数据科学家John Rauser给出了一个简单的定义:大数据是任何超过了一台计算机处理能力的数据量。

维基百科中只有短短的一句话:“巨量资料(big data),或称大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。”

大数据是一个宽泛的概念,见仁见智。上面几个定义,无一例外地都突出了“大”字。诚然“大”是大数据的一个重要特征,但远远不是全部。笔者在调研多个行业后,给出了自己的定义:大数据是(17)“在多样的或者大量数据中,迅速获取信息的能力”。前面几个定义都是从大数据本身出发,我们的定义更关心大数据的功用,它能帮助大家干什么。在这个定义中,重心是“能力”。大数据的核心能力,是发现规律和预测未来。发现规律,预测未来

任何行为,皆有前兆。但在现实世界中,缺少实时记录的工具,许多行为看起来是“人似秋鸿有来信,事如春梦了无痕”。在互联网世界则完全不同,是“处处行迹处处痕”。要买商品,必先浏览、对比、询价;要搞活动,必先征集、讨论、策划。互联网的“请求”+“响应”机制恰恰在服务器上保留了人们大量的前兆性的行为数据,把这些数据搜集起来,进一步分析挖掘,就可以发现隐藏在大量细节背后的规律,依据规律,预测未来。收集分析海量的各种类型的数据,并快速获取影响未来的信息的能力,就是大数据技术的魅力所在。

1993年,《纽约客》刊登了一幅漫画,标题是“互联网上,没有人知道你是一条狗”,如图1-10所示。据说作者彼得·施泰纳因为此漫画的重印而赚取了超过5万美元。当时关注互联网社会学的一些专家,甚至担忧“计算机异性扮装”而引发的社会问题。譬如,同性恋和恋童癖可能会借助互联网而大行其道。图1-10 “互联网上,没有人知道你是一条狗”(来源:www.chrisabraham.com)

20年后,互联网发生了巨大的变化,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。人们在享受便利的同时,也无偿贡献了自己的“行踪”。现在互联网不但知道对面是一条狗,还知道这条狗喜欢什么食物、几点出去遛弯、几点回窝睡觉。人们不得不接受这个现实,每个人在互联网进入到大数据时代都将是透明性存在的。

事实上,对于未来的不确定性是人类产生恐惧的根源之一,也是各类组织最为头痛的问题。大数据技术让人们看到了解决未来预测问题的一丝曙光。通过利用大数据技术,可以预测自然天气的变化,预测个体未来的行为,甚至预测某些社会事件的发生。它会让人们的生活更为从容,让决策不再盲目,让社会更加高效的运转。这就是大数据技术带给人们的好处。全球复杂网络权威巴拉巴西认为,人类行为93%是可以预测的。笔者的确不知道这位老先生是怎么计算出来93%这个数字的,但大数据可以预测未来是显而易见的,这是首个使人类具备了预测短期未来的技术。

听起来似乎很玄妙,大数据不就是算命先生么?

其实,或多或少,人们都具备预测的能力。譬如,儿子跟小伙伴们疯玩,我知道他肯定在7点之前会回家,因为他饿了。再如,家乡流传的很多谚语,其中一句“八月十五云遮月,正月十五雪打灯”,说明大自然就有许多规律性的东西。估计现在的科学也没有办法解释几乎半年跨度内气象间的因果关系,但是几千年的观察和积累却发现了它。自然、社会、商业无不服从某些规律,大国兴衰、王朝更替亦有规律可循。只是过去囿于技术条件人们无法记录下造成某件事情发生的先兆数据,无法去计算其中的因果关系。这些规律要么被神秘化,要么被庸俗化。

任何事情的发生,都会有蛛丝马迹的前兆表露出来。如果人们不去关注一支股票的行情走势,就不会去买卖这支股票;如果人们从不去询问某件商品的价格,也很难产生购买行为;如果事先没有联络沟通,人们就很难聚在一起;如果没有闷热的天气,似乎就没有透心凉的大雨。关于地震前种种异象,更是被许多书籍、文章大肆渲染。

假定有一种技术可以记录下所有这些先兆,人们就获得了未卜先知的能力。利用大数据技术,能够广泛采集各种各样的数据类型,并进行统计分析,从而预测未来。大数据影响之深远,波及之广泛,远非一般的信息技术可比。“过去我认为我的工作就是追捕罪犯,而现在对这项工作有了全新的认识,我们分析犯罪数据,识别犯罪模式,并部署警力,帮助美国部分城市重大犯罪率降低了30%。终结犯罪,在案发之前。”这是IBM公司的一则广告,宣传利用大数据构建智慧的地球。“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货出去以后再获得数据,而我们提前半年时间从询盘上就推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会维持一个相对的比例。统计历史上所有买家、卖家的询价和成交数据,可以形成询盘指数和成交指数,这两个指数是强相关的。询盘指数是前兆性的,前期询盘指数活跃,就会保证后期一定的成交量。所以,当马云观察到询盘指数异乎寻常的下降后,自然就可以推测未来成交量的萎缩。这种统计和分析,如果缺少大数据技术的支持,是难以完成的。这次事件,马云提前呼吁、帮助成千上万的中小制造商准备过冬粮,从而赢得了崇高的声誉。

中国建设银行的电子商务金融平台——“善融商务”于2012年6月28日正式开业。官方的宣传:“善融商务是建设银行顺应电子商务发展潮流,结合传统金融服务优势和新兴电子商务服务应用而搭建的全流程、综合性的电子商务服务平台。”据说建行内部推进电子商务的力度非常大,分行考核严厉,甚至亏本也要把小商家搬到网上。银行建立电子商务交易平台,听起来像不务正业,其实是醉翁之意不在酒。银行需要那些小商家的经营数据,来预测商家的贷款需求和还款能力,从而大幅降低小额借贷风险。建行此举,不论成功与否,都足以证明建行高层深刻地理解了大数据的重要性和其惊人的预测能力。这种能力,对建行而言,就意味着低风险、高收益,是每家金融机构都梦寐以求的境界。常常说富贵险中求,传统经营一般是高风险、高收益,不料有了大数据在手,就能低风险、高收益,难怪金融机构趋之若鹜。如果金融机构再不重视大数据的潜在价值,行将成为21世纪的恐龙,不复往日的荣光。数据大爆炸

截至2011年,全球拥有互联网用户数已达到20亿;RFID标签在2005年的保有量仅有13亿个,但是到2010年这个数字超过了300亿;2006年资本市场的数据比2003年增长了17.5倍;目前新浪微博上每天上传的微博数超过1亿条;Facebook每天处理10TB的数据;世界气象中心积累了220TB的Web数据,9PB其他类型数据……

根据国际数据公司(IDC)的《数据宇宙》报告显示:2008年全球数据量为0.5ZB,2010年为1.2ZB,人类正式进入ZB时代。更为惊人的是,2020年以前全球数据量仍将保持每年40%多的高速增长,大约每两年就翻一倍,这与IT界人尽皆知的摩尔定律极为相似,姑且可以称之为“大数据爆炸定律”。预计2015年全球数据量将达到7.9ZB,2020年将突破35ZB,是2008年的70倍、2011年的29倍,如图1-11所示。图1-11 全球数据量增长预测(单位:ZB)(来源:IDC数字宇宙研究)

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载