大数据:从海量到精准(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-21 10:45:43

点击下载

作者:李军

出版社:清华大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据:从海量到精准

大数据:从海量到精准试读:

前言

写作驱动(1)基本概念:大数据是指一般的软件工具难以捕捉、管理和分析的大容量数据,一般以“太字节”(terabyte,TB)为单位。大数据之“大”,并不仅仅在于“容量之大”,更大的意义在于通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来“大知识”、“大科技”、“大价值”和“大发展”,使我们逐渐走向创新社会化的新信息时代。(2)市场规模:根据IDC(国际数据公司)的统计,2011年全球数据总量已经达到1.8ZB(1ZB等于1万亿GB,1.8ZB也就相当于18亿个1TB移动硬盘的存储量),而这个数值还在以每两年翻一番的速度增长,预计到2020年全球将拥有35ZB的数据量,增长近20倍。据统计,2012年市场规模达到4.5亿元,2014年还将持续发酵,未来三年有望突破40亿元,2016年有望达到百亿规模。(3)市场前景:在全球方面,IDC则预测大数据技术与服务市场将从2010年的32亿美元攀升至2015年的169亿美元。在国内,2014年将是中国供应链大数据快速发展的一年,供应链大数据应用企业必须提前布局占据有力地位。相关调查显示,2013年中国供应链大数据市场规模将达到21亿元,增长率达到38%,到2016年,中国供应链大数据市场规模将达到59.6亿元。(4)应用领域:大数据在企业商业智能、公共服务和市场营销三个领域拥有巨大的应用潜力和商机。今天,大数据似乎成了“万灵药”,从总统竞选到奥斯卡颁奖、从Web安全到灾难预测,都能看到大数据的身影,正如那句俗语:“当你手里有了锤子,什么都看上去像钉子”。国内大数据的推广,已经渗透到了公共健康、临床医疗、物联网、社交网站、社会管理、零售业、制造业、汽车保险业、电力行业、博彩业、工业发动机和设备、视频游戏、教育领域、体育领域、电信业等多个行业应用领域。

本书深度结合了国内的大数据发展形势,为读者介绍了简单易行的处理大数据所需的工具、过程和方法,并描绘了一个易于实施的行动计划,以帮助读者发现新的商业机会,实现新的业务流程,做出更明智的决策。本书特色

最全面的大数据内容介绍:本书集合了大数据的基本概念、基础设施、挖掘方法、风险管理、行业应用等内容,对大数据进行了全面的剖析。

最丰富的大数据案例说明:书中安排了120个大数据精彩应用实例,以实例+理论的方式,向读者展示了大数据究竟是什么。

最完备的大数据解决方案:书中囊括了各大主流行业的大数据解决方案,通过详尽的分析,让读者看透大数据从海量到精准背后的“魔法”。本书内容

全书共分为15章,具体内容包括入门:大数据的基本概念、价值:大数据商业变革、架构:大数据基础设施、掌握:数据管理与挖掘、管理:用数据洞察一切、安全:摆脱大数据风险、平台:信息通信大数据、医疗:数据解决大难题、网络:抓牢数据发源地、零售:打响大数据之战、制造:更快更好地生产、餐饮:精准营销的数据、金融:大数据理财时代、交通:畅通无阻的数据、社会:用数据改变生活。适合读者

本书结构清晰、语言简洁,适用于所有对数据、数据挖掘、数据分析感兴趣的IT技术人员和决策者阅读,同时也适用于实业家、企业高管、营销人员、政府媒体工作人员、创业者和想创业的人以及相关专业的学生等学习参考。作者售后

本书由李军编著,同时参加编写的人员还有:苏高、罗磊、刘嫔、罗林、宋金梅、曾杰、周旭阳、袁淑敏、谭俊杰、徐茜、杨端阳、谭中阳、张国文、李四华、陈国嘉等人。由于时间仓促,加之编者水平有限,书中难免存在疏漏与不妥之处,欢迎广大读者来信咨询和指正,联系邮箱为itsir@qq.com。本书声明

本书中所采用的图片、模型等素材,均为所属公司、网站或个人所有,在本书中引用仅为说明之用,绝无侵权之意,特此声明。编者海量数据聚集篇1 入门:大数据的基本概念学前提示互联网的发展带动了云计算、虚拟化、大数据等IT新技术的兴起,各行业的互联网化日渐明显,全新IT时代正在来临。其中,大数据的兴起和发展成为新IT时代行业互联网化最为典型的特征之一。本章将带领读者初步探索大数据的秘密。要点展示○ 初步认识,大数据究竟是什么○ 预测未来,大数据的发展趋势○ 做好准备,大数据面对的挑战1.1 初步认识,大数据究竟是什么

随着信息时代的到来,各种数据围绕在我们身边,大数据时代即将到来。但是,很多人并不了解大数据到底是个什么概念。

下面介绍3个场景,也许你能从其中找到想要的答案。【场景1】:2013年4月15日,美国波士顿举行了第117届波士顿马拉松大赛,在美东部时间下午2时50分突然发生两起爆炸,发生地点位于美国马萨诸塞州波士顿科普里广场。爆炸案发生后,美国联邦调查局立即着手调查。波士顿马拉松爆炸案调查部门在4月16日表示,至少有1枚炸弹的制造材料是日常就可购得的压力锅改造而成的,推测可能是国内恐怖分子所为。

2013年7月,在波士顿爆炸案发生3个月后,纽约萨克福马县一对夫妻因为妻子用谷歌搜索了“高压锅”,而丈夫在同一时段用谷歌搜索了“背包”。结果,一个由6人组成的联合反恐部队,利用“查水表”的名义对这对夫妻进行盘问,“你们有炸弹吗?你们有高压锅吗?为什么只有电饭煲?能拿来做炸弹吗?”

为什么美国政府知道他们有关搜索情况?这一切都归功于“棱镜”和谷歌的数据监视。据悉,类似的上门“查水表”事件,联合反恐部队每周就要进行多达上百次。

由此可见,一个人的搜索信息会成为破案侦查的依据,所以请小心了!【场景2】:据某权威机构分析,5万名手机用户在3个月内,无论在家附近活动还是出远门,他们的行踪都相当有规律。一个人大约93%的行踪在理论上是可预测的。当配偶怀疑对方有了外遇,雇主怀疑雇员把公司的车辆挪为私用,或者是父母想知道他们的孩子是否去了他们所说的那个地方,这些都可以使用如图1-1所示的全球卫星定位系统找到所要的地址等信息。图1-1 GPS系统中的地图

利用GPS定位系统,再综合多颗卫星的数据,就可以在全球范围内随时找到你或者你的车辆所在的精确位置,如图1-2所示。这就是信息、数据时代的威力。图1-2 GPS定位系统可以找到每个人(上图)或者车辆(下图)的精确位置【场景3】:2014年春节,百度推出了“百度迁徙”,其利用大数据技术,对其拥有的LBS(基于地理位置的服务)大数据进行计算分析,并采用创新的可视化呈现方式,在业界首次实现了全程、动态、即时、直观地展现中国春节前后人口大迁徙的轨迹与特征,如图1-3所示。查询网址:http://qianxi.baidu.com/。图1-3 中国春节前后人口大迁徙的轨迹与特征

用户还可以查询某一个城市的“迁入城市”、“迁出城市”的最新数据迁徙图,如查询“北京”的迁徙情况,如图1-4所示。图1-4 春节期间北京的迁徙情况1.1.1 大数据基本定义

前面洋洋洒洒地说了很多,相信很多读者看到过相关的报告,但是截至目前,我们始终没有给出大数据的定义,也就是说我们并没有清楚地表述过:大数据到底是什么。

在IDC(Internet Data Center,互联网数据中心)的报告中,他们对大数据进行了一个简单的描述:Big data is a big dynamic that seemed to appear from nowhere. But in reality, big data isn't new. Instead, it is something that is moving into the mainstream and getting big attention, and for good reason. Big data is not a“thing”but instead a dynamic/activity that crosses many IT borders。

中文翻译为:大数据是一个看起来似乎来路不明的大的动态过程。但实际上,大数据并不是一个新生事物,虽然它确确实实正在走向主流和引起广泛的注意。大数据并不是一个实体,而是一个横跨很多IT边界的动态活动。如图1-5所示为IDC所描述的大数据世界。图1-5 IDC所描述的大数据世界(资料来源:IDC)

如果IDC的解释也能算是大数据的一种描述性定义的话,相信大部分人应该是很难理解大数据的。

因此,想要明白“大数据”的概念,还要从“大数据”的名词本身入手。首先要从“大”入手,那么“大数据”的“大”到底指的是哪些方面呢?笔者认为,大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Volume、Variety、Value和Velocity),即体量大、多样性、价值密度低、速度快。○ 数据体量大:大数据一般指在10TB规模以上的数据量。但在实

际应用中,很多企业用户把多个数据集放在一起,已经形成了

PB级的数据量。○ 数据多样性:数据来自多种数据源,数据种类和格式日渐丰富,

已经冲破了以前所限定的结构化数据范畴,囊括了半结构化和非

结构化数据。○ 价值密度低:大数据所创造的价值密度明显更低。根据福利经济

学的观点,生产率与单位商品的价值无关,生产率只与生产的数

量有关,即生产率高的企业在相同的时间内生产更多的价值

——因而可以把更高的生产率理解为通过生产和管理技术的革

新而形成的更高的劳动复杂度,劳动复杂度的提高使单位劳动时

间具有了更大的价值密度。○ 速度快:有数据显示,在全球范围内,数据量以每年50%的速

度增长,数据增长的速度已经远远超过IT设计发展的速度。数据

本身已经成为企业发展的资产。快速捕捉数据信息,实现数字化

生产和管理,已经成为未来企业赢得市场,应对行业互联网化的

必经之路。

另外,从“数据”这个词来分析,大数据是海量的,是巨大的,它关乎数据量。笔者认为可以从3个方面定义大数据:(1)数据量;(2)广度、分类;(3)速度。简而言之,大数据就是一个体量特别大,数据类别特别丰富的数据集。也就是说“大数据”本身并不是一种新的技术,也不是一种新的产品,而是我们这个时代出现的一种现象。而这个“大”大到了一种什么样的程度呢?可以说它即将突破现有常规软件所能提供的能力极限。

综上所述,全球最大的战略咨询公司麦肯锡给出了一个十分明确的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。

随着互联网革命性地改变了商业的运作模式、政府的管理方法以及人们的生活方式,信息的积累足以引发新的变革。世界充斥着比以往更多的信息,信息总量的变化导致了信息形态的变化。“大数据”这一概念应运而生。“大数据”不同于互联网,它正在以巨大的力量改变着世界,它是具有更强的决策力、洞察力、流程优化能力、高增长率和多样化的信息资产。

如今,数据库、大数据已经成为变革的中心,事实上可以成为一场革命。在IT领域、制造业、零售业、政府管理、科技领域,大数据都在改变着这个世界的运行方式。因此,我们称之为大数据的新世界。专家提醒数据基本单位换算:1B(byte,字节)=8b(bit位)1KB(Kilobyte,千字节)=1024B1MB(Megabyte,百万字节兆字节,简称“兆”)=1024KB1GB(Gigabyte,十亿字节吉字节,又称“千兆”)=1024MB1TB(Trillionbyte,万亿字节太字节)=1024GB1PB(Petabyte,千万亿字节拍字节)=1024TB1EB(Exabyte,百亿亿字节艾字节)=1024PB1ZB(Zettabyte,十万亿亿字节泽字节)=1024EB1.1.2 大数据结构特征

如今,全球存储的数据量正在急剧增长,数据量大是大数据的一致特征。在2000年,全球存储了800000PB的数据。预计到2020年,这一数字会达到35ZB。单单Twitter每天就会生成超过7TB的数据,Facebook为10TB,一些企业在一年中每一天的每一小时就会产生数TB的数据。

就传统IT企业来看,其结构化和非结构化的数据增长也是惊人的。2005年企业存储的结构化数据为4EB,到2015年将增至29EB,年复合增长率逾20%。非结构化数据发展更猛。2005年为22EB,2015年将增至1600EB,年复合增长率约60%,远远快于摩尔定律。

那么,一分钟到底会有多少数据产生呢?○ 电子邮件用户发送204166677条信息。○ Google收到超过2000000个搜索查询。○ Facebook用户分享684478条内容。○ 消费者在网购上花费272070美元。○ Twitter用户发送超过100000条微博。○ 苹果公司收到大约47000个应用下载。○ Facebook上的品牌和企业收到34722个“赞”。○ Tumblr博客用户发布27778个新帖子。○ Instagram用户分享36000张新照片。○ Flickr用户添加3125张新照片。○ Foursquare用户执行2083次签到。○ 571个新网站诞生。○ WordPress用户发布347篇新博文。

由于数据自身的复杂性,作为一个必然的结果,处理大数据的首选方法就是在并行计算的环境中进行大规模并行处理(Massively Parallel Processing,MPP),这使得并行摄取、并行数据装载和分析成为可能。实际上,大多数的大数据都是非结构化或者半结构化的,这需要不同的技术和工具来处理和分析。

大数据的结构就体现了它最突出的特征,如表1-1所示,显示了几种不同数据结构类型数据的增长趋势。据悉,未来数据增长的80%~90%将来自于非结构化的数据类型(包括半非结构化、准非结构化和非结构化数据)。表1-1 数据增长日益趋向非结构化1.1.3 大数据与云计算

在过去3年当中,笔者经历了大数据的发展从无到有,3年前可能还没有人说这个词,现在已经如火如荼。现在,每天有大量数据和信息生成,这为大数据分析提供了机会。相较于传统数据,大数据更能反映这个世界的真实情况,例如,人们会上传和公布大量的图片来记录个人的生活和社会的变化。如今,一天之内人们上传的照片数量就相当于柯达发明胶卷之后拍摄的图像总和。

过去,计算机主要是用于解决大企业交易型的数据,并不会记录其他无关的信息,只有在云计算产业规模化发展之后,分布式计算才给大数据提供了记录的载体。可以说,云计算使大数据变成可能,打个比方,云计算充当了工业革命时期“发动机”的角色,而大数据则是“电”。

然而,现在除了数据本身发生了改变,云计算也使数据变得更加分散,在这样的趋势下,传统数据库对于海量数据存储的需求、处理速度的需求、数据多样化的需求难以满足,从而使各种各样的解决方案大行其道。

总之,云计算为大数据带来了硬件存储的条件——更便宜的分布式运算存储,而互联网时代的今天也在不断呼唤数据应用和服务。在技术和需求的双重推动下,会有越来越多的政府机构、公司企业和个人意识到数据是巨大的经济资产,像货币或黄金一样,它将带来全新的创业方向、商业模式和投资机会。

大数据和云计算的区别与联系如表1-2所示。表1-2 大数据和云计算的区别与联系专家提醒云计算和大数据注定将带来一次革命,无论是对社会、公司和个人来说,都是一次世界观的改变。届时,互联网不再是一个展示公司的工具或平台,而是属于未来的生产方式,是关乎竞争和生存的关键。1.1.4 大数据规模预测

当你走进一家陌生的小餐厅时,耳边响起只有你才熟悉的音乐旋律。这样的场景实现技术上并不难,餐厅只要读出你的手机音乐下载记录,通过数据分析,就可以定制播放你喜欢的音乐,这就是大数据时代的潜力。

前面笔者已经说了,大数据由4个V组成,这4个V的组合推动了第5个因素——价值(Value)的出现。随着云计算概念日渐深入人心,大数据也越来越受到关注。国际知名数据公司IDC在长期对云计算市场进行跟踪研究的同时,也对大数据市场保持着密切关注。如图1-6所示,IDC发现,目前大数据对市场的影响正日益提升,已经开始影响数据中心设计、移动应用投资、数据管理等相关领域。图1-6 IDC全球大数据市场规模与预测1.1.5 大数据的发展史

如今,越来越多的企业参与到大数据的竞争中来,那么“大数据”这个词汇是如何诞生以及演变的呢?

大数据是一个修辞学意义上的词汇,在数据方面,“大”(big)是一个快速发展的术语。早在1890年,美国统计学家赫尔曼·霍尔瑞斯为了统计这一年的人口普查数据,发明了一台电动器来读取卡片上的数据,该设备让美国用一年时间就完成了原本耗时8年的人口普查活动,由此在全球范围内引发了数据处理的新纪元。

1961年,刚成立9年的美国国家安全局(NSA)是拥有超过12000个密码学家的情报机构,在间谍饱和的冷战年代,面对超量信息,他们开始采用计算机自动收集处理信号情报,并努力将仓库内积压的模拟磁带信息进行数字化处理。仅1961年7月份,该机构就收到了17000卷磁带。

起初,许多科学家和工程师都嘲笑“大数据”只不过是一个营销术语。2008年末,“大数据”得到部分美国知名计算机科学研究人员的认可,业界组织“计算社区联盟”(Computing Community Consortium)发表了一份有影响力的白皮书《大数据计算》,中肯地阐述了大数据带来的机遇和挑战。

2009年5月,美国总统巴拉克·奥巴马政府推出data.gov网站,作为政府开放数据计划的部分举措。该网站拥有超过4.45万的数据量集,这样一些网站和智能手机应用程序能跟踪如航班、产品召回、特定区域内失业率等信息,这一行动激发了肯尼亚、英国等政府相继推出类似举措。

2011年2月,扫描2亿页的页面信息,或4兆兆字节磁盘存储,只需几秒即可完成。同时,IBM的沃森计算机系统在智力竞赛节目《危险边缘》中打败了两名人类挑战者,后来《纽约时报》称这一刻为“大数据计算胜利”的时刻。

2011年,英国《自然》杂志曾出版专刊指出,倘若能够更有效地组织和使用大数据,人类将得到更多的机会发挥科学技术,这对社会发展有巨大的推动作用。

2012年3月,美国政府报告要求每个联邦机构都要有一个“大数据”的策略,作为回应,奥巴马政府宣布了一项耗资两亿美元的大数据研究与发展项目。

2012年7月,美国国务卿希拉里·克林顿宣布了一个名为“数据2X”的公私合营企业,用来收集统计世界各地的妇女和女童在经济、政治和社会地位方面的信息。

回顾过去的50多年,我们可以看到IT产业已经经历了几轮新兴和重叠的技术浪潮,如图1-7所示。这里面的每一波浪潮都是由新兴的IT供应商主导的,他们改变了已有的秩序,重新定义了已有的计算机规范,并为进入新时代铺平了道路。图1-7 IT产业的发展浪潮

人们手中的手机和移动设备是数据量爆炸的一个重要原因,目前,全球拥有50亿台手机用户,其中20亿台为智能电话,这相当于20世纪80年代20亿台IBM的大型机掌握在消费者手里。“大数据”是“数据化”趋势下的必然产物。数据化最核心的理念是:“一切都被记录,一切都被数字化”。它带来了两个重大的变化:一是数据量的爆炸性剧增,最近两年所产生的数据量等同于2010年以前整个人类文明产生的数据量总和;二是数据来源的极大丰富,形成了多源异构的数据形态,其中非结构化数据所占比重逐年增大。1.1.6 大数据技术架构

即便是在“摩尔定律”,即每18个月芯片性能将提高1倍的支撑下,硬件性能进化的速度也早已赶不上数据增长的速度了,并且差距越来越巨大。例如,一分钟之内,新浪微博有数万条微博发送,苹果应用商店下载次数以万计,淘宝卖出了几万件商品,百度产生了百万次搜索查询……所有这些行为都由海量的数据来呈现。

那么,大数据是通过什么样的技术架构来接受、容纳并处理这些海量数据的呢?

要容纳数据本身,IT基础架构必须能够以经济的方式存储比以往更大量、类型更多的数据。此外,还必须能适应数据速度,即数据变化的速度。数量如此大的数据难以在当今的网络连接条件下快速来回移动。大数据基础架构必须具有分布式计算能力,以便能在接近用户的位置进行数据分析,减少跨越网络所引起的延迟。

因此,云计算模式为大数据的成功提供了很好的条件,以实现大数据分析所需的效率、可扩展性、数据便携性和经济性。另外,还可以用来跨越毫不相干的数据源比较不同类型的数据和进行模式匹配。这使得大数据分析能以新视角挖掘企业传统数据,并带来传统上未曾有过的数据洞察力。

例如,LinkedIn是世界上最大的专业人士社交网络,在全球范围内有2.25亿用户,并且以每秒2个新用户的速度增长。LinkedIn还是一个解决方案供应商,据悉,目前有88%的财富100强企业在使用LinkedIn的付费解决方案,LinkedIn还有超出290万的公司主页及相关信息。

LinkedIn之所以取得如此大的成功,是因为他们有专业的身份可以拓展人脉发现机遇,专业的内容全方位掌握业界资讯,专业的平台随时随地了解人脉动向。

从LinkedIn的业务模型不难看出,其本身就拥有海量的数据,通过这些数据创造出有价值的产品和服务,来增加用户数量和用户黏性,这样数据还会不断增长从而形成一个“闭环”。LinkedIn有人才、市场、高级订阅服务三大商业解决方案,而且三大商业解决方案的盈收每年也呈翻倍增长趋势,而其中占盈收比例最大的是人才解决方案。

另外,LinkedIn的数据按用户可分为用户特征数据、用户行为数据、用户网络数据;按数据存取速度可分为在线数据、近线数据、离线数据。LinkedIn的三级数据架构根据不同性质的工作设计,其中近线数据存储在Voldemort分布式数据库中,在线数据存储在Oracle和Espresso中,服务器日志存储在Web Logs中。使用Kafka发布数据,通过Databus捕获在线数据,而所有的离线数据由Hadoop和Teradata数据库构成。

基于上述考虑,大数据可以采用四层堆栈式技术架构,如表1-3所示。表1-3 采用四层堆栈式技术架构的大数据专家提醒云模型鼓励访问数据并提供弹性资源池来应对大规模问题,其解决了如何存储大量数据,以及如何积聚所需的计算资源来操作数据的问题。在云中,数据可跨多个节点调配和分布,这使得数据更接近需要它的用户,从而缩短响应时间和提高生产率。1.1.7 大数据重要的理由

人们为什么如此关心大数据呢?其实大数据可以使我们提出新问题,来了解我们的业务。例如社交网络分析,一个企业,即使你是一个个体,你也有一个品牌,如何分析你的品牌影响力、品牌声誉,这些问题之前不容易回答,如今在大数据的时代可以很容易得到答案,并且几乎是以实时的速度来解答。

例如,有一家物流公司,有卡车等运输工具,希望优化车队的运输路线,提高运输效率,并且基于实时的交送信息、天气信息及其他类型的信息。现在通过传感器和大数据就可以做到。事实上,关于过去和现在,甚至是未来的事务,大数据分析都能够用得上。专家提醒虽然大数据是一个重大问题,但笔者认为,真正的问题是如何让大数据更有意义,如何在大数据里面寻找模式帮助组织机构做出更好的商业决策。

当前,随着互联网科技的日益成熟,各种类型数据的增长将会超越历史上任何一个时期。因此,用户想要从这庞大的数据库中提取对自己有用的信息,就离不开大数据分析技术和工具。如表1-4所示,向大家展示了大数据分析将越来越重要的10个理由。表1-4 大数据分析为何重要的理由专家提醒对大企业而言,大数据的兴起,首先,是因为计算能力可以更低的成本获得,且各类系统如今已能够支持多任务处理;其次,内存的成本也在直线下降,企业可以在内存中处理比以往更多的数据;最后,把计算机聚合成服务器集群越来越简单。1.1.8 大数据的解决方案

当前,越来越多的企业将大数据的分析结果作为其判断未来发展的依据。同时,传统的商业预测逻辑正日益被新的大数据预测所取代。既然大数据如此重要,那么大数据解决方案是否可以完全替代传统的数据库解决方案呢?

在这里,笔者先不说出答案,而是先带大家看一个典型的案例:

例如,一个优秀的棒球运动员知道自己的哪一只手更擅长抛球,哪一只手更擅长接球。就像这样一种情形,每只手可以尝试执行它天生不适合的任务,但会非常笨拙,因此,通常不会看到棒球运动员使用一只手接球,停下来,丢掉他们的手套,然后使用同一只手抛球。棒球运动员的左手和右手协同起来会实现最佳的结果。

上面的例子就是传统数据库和大数据技术的一个简单类比:没有这两个重要实体的协同工作,任何组织或结构的信息平台都很难得到进一步发展,因为就像棒球运动员协调双手来抛接棒球一样,一个团结一致的分析生态系统才能实现最佳的结果。

此时,我们经过初步分析就可以了解到,有些类型的问题不是本来就属于传统数据库的,至少在最初不是,而且也不确定是否希望将一些数据放在仓库中,因为我们不知道它是否拥有较高的价值、是否是非结构化的,或者是否太庞大了。更多的情况是,在投入精力和金钱将数据放在仓库之后,才能发现每个字节的数据价值;但我们希望在投资之前,就能明确该数据值得保存,并拥有较高的价值。

典型的大数据解决方案应该是具有多种能力的平台化解决方案,这些能力包括结构化数据的存储、计算、分析和挖掘,多结构化数据的存储、加工和处理,以及大数据的商务智能分析。笔者认为,这种解决方案在技术上应具有以下4个特性:软硬集成化的大数据处理能力、全结构化数据处理的能力、大规模内存计算的能力、超高网络速度访问的能力。

因此,你一定要认识到传统数据库技术是整体解决方案中一个重要且相关的部分。事实上,它们在与你的大数据平台结合使用时会变得更加重要。专家提醒当前,越来越多的企业将大数据的分析结果作为其判断未来发展的依据。同时,传统的商业预测逻辑正日益被新的大数据预测所取代。但是,笔者觉得大家对于大数据的期望值要谨慎一些,因为海量数据只有在得到有效治理的前提下,才能进一步发挥其价值。1.2 预测未来,大数据的发展趋势

据悉,在1993年的美国《纽约人》杂志上刊登了一幅标题为“互联网上,没有人知道你是一条狗”的漫画,而作者彼得·施泰纳也因此赚取了超过5万美元。此后的20年间,互联网发生了巨大的变化,移动互联、社交网络及电子商务大大拓展了互联网的疆界和应用领域。

如今,我们在享受便利的同时,也无偿贡献了自己的“行踪”,现在互联网不但知道对面是一只狗,甚至还知道这只狗喜欢什么食物,几点出去遛弯,几点回窝睡觉。每个人在互联网进入到大数据时代,都将是透明性存在的,可以说是“处处行迹处处留痕”。

收集并分析海量的各种类型数据,并快速获取影响未来的信息的能力,这就是大数据技术的魅力。事实上大数据的来源非常广泛,天上的卫星、地上的汽车、埋在土壤里面的各类传感器,无时无刻不在生成大量的数据。这些数据如果加以综合利用,产生的社会价值和经济价值将是难以估量的。大数据技术让人们看到未来解决预测问题的一丝曙光。1.2.1 大数据撬动全世界

大数据不仅体现为数据量的惊人增长,更前所未有地引入了正在不断扩展中的数据类型。从量的增长来看,根据IDC(国际数据公司)的跟踪分析,全球产生的数据总量2011年已经达到1.8ZB(1ZB等于1万亿GB,1.8ZB也就相当于18亿个1TB移动硬盘的存储量);2012年达到约2.8ZB,但当年全球产生的数据中仅有约0.5%得到有效分析。据悉,到2020年,全球数据总量中有22%将来自中国。

电商投放广告、物流调度运力、证监会抓老鼠仓、金融机构卖基金、民航节约成本、农民破解猪周期、制片人拍电影……看似毫不相关的事情,背后都有大数据在发力。随着互联网、移动互联网对各个领域的渗透越来越深,从政府到企业,从群体到个人,数据的积累与日俱增。4G牌照的发放,又让移动数据通道由“乡村公路”升级为“高速公路”。

与此同时,社会上的各行各业,从电信、IT业,到金融、证券、保险、航空、酒店服务业等,地球上的各种存在事物,从每个人到每棵树、每朵花乃至每粒沙子,无一例外地都在成为大数据的生成者。笔者可以预见,大数据席卷各行各业和人们生活的速度只会越来越快。

例如,世界上第一部“先拍照后对焦”光场相机Lytro,就运用了大数据处理分析理念。与传统相机只记录一束光不同,Lytro可以记录整个光场里所有的光,也就是用总体数据取代了随机样本。用户没必要一开始就对焦,想要什么样的照片可以在拍摄之后再决定。

因此,究竟该如何“开采”大数据这座丰富的矿藏,成为了一个令人着迷的问题,因为与正确答案相随的将是谁都渴望的巨大商业成功。当前,伴随着变革的发生,传统的互联网企业已经站在了大数据时代的最前沿。作为后PC时代的4大巨头,Facebook、谷歌、苹果、亚马逊正在成为大数据的拥有者和使用者,其主要特点如表1-5所示。表1-5 4大互联网企业的大数据策略

大数据,正在撬动全世界的神经,无论是国家、企业,还是每一个独立存在的个人,都将成为大数据时代的贡献者和受益者。专家提醒目前,数据量的大幅增加对人们注重精确性的习惯提出了挑战。大数据需要技术和思维上的变革才能利用,才能做到从海量到精准。这一轮的变革,事关绝大多数企业的命运。可以看到,用大数据这个视角,可以考察企业的兴衰。第一,如果对大数据不关心,不了解,必将走向衰败;第二,拥有大量的数据并善加运用的公司,必将赢得未来。时代变了,判断企业价值的标准、判断软件价值的标准也变了。1.2.2 大数据是大势所趋

大数据有多火?有媒体将2013年称为“大数据元年”。目前,几乎所有世界级的互联网企业,都将业务触角延伸至大数据产业;无论是社交平台逐鹿、电商价格大战还是门户网站竞争,都有它的影子。2012年,美国政府投资两亿美元启动“大数据研究和发展计划”,更将大数据上升到国家战略层面。大数据,正在由技术热词转变为一股社会浪潮,影响社会生活的方方面面。

星巴克有意推出的“大数据咖啡杯”就是个小小的例子。美国媒体报道,这家咖啡连锁巨头打算试验在一些咖啡杯中装上传感器,收集常客喝咖啡速度等数据,从而为喝咖啡较慢顾客提供保温效果好的杯子,以提高其满意度和忠诚度。

又例如,在2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购量也在下滑。通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值。

阿里巴巴平台通过统计历史上所有买家、卖家的询价和成交的数据,可以形成询盘指数和成交指数。这两个指数是密切相关的:询盘指数是前兆性的,前期询盘指数活跃,就会保证后期一定的成交量。因此,当马云观察到询盘指数异乎寻常地下降,自然就可以推测未来成交量的萎缩。这种统计和分析,如果缺少大数据技术的支持,是难以完成的。这次事件,马云得以提前呼吁,帮助成千上万的中小制造商准备“过冬粮”,从而赢得了很高的声誉。

因此,大数据是一种新的价值观和方法论,人们面对的不再是随机样本而是全体数据,不是精确性而是混杂性,不是因果关系而是相关关系。1.2.3 大数据将成为资产

众所周知,用户的消费习惯、兴趣爱好、关系网络以及整个互联网的趋势、潮流都将成为互联网从业者关注的热点,而这一切的获取和分析都离不开大数据,因为在社会化媒体基础上的大数据挖掘和分析都会衍生很多应用。例如,帮企业做内部数据挖掘,帮企业找到更精准用户,降低营销成本,提高企业销售率,增加利润等。

大数据、社会化媒体营销真正实现了营销模式的“量体裁衣”,这是营销领域跨时代的进步。未来企业的竞争,将是拥有数据规模和活性的竞争,将是对数据解释和运用的竞争。

随着技术的发展,大数据社会化营销将是未来营销的主战场,即将到来的大数据时代可以在任何行业,任何服务上出现,由此可能产生的服务和商业模式将是无穷尽的。笔者认为,围绕大数据至少可以演绎出6种新的商业模式,如表1-6所示。表1-6 6种新的商业模式

如今,“大数据”这一话题在国内受到投资者追捧,也不断有高技术人才选择这个方向创业;但实际上国外对于“大数据”,已经走过了概念炒作阶段,进入到实际的应用,产生了实际的效益。例如,美国奥巴马政府已经开始大规模地投资大数据领域,这是大数据从商业行为上升到国家战略的分水岭,表明大数据正式提升到战略层面,大数据在经济社会各个层面、各个领域都开始受到重视。笔者相信,“大数据”将领跑新一轮互联网投资高潮,让资产逐步变成资本。1.2.4 大数据时代的转变

互联网的重心逐步向着移动互联转移,各种新型智能移动设备的迅速普及带来了海量数据的爆发。于是大家都在谈论大数据,大家都想用好大数据。但你真的了解大数据吗?当前的行业状况又是怎样?

事实上,大数据只是一种提法,其形态本身是数据云。因此,以实时感知、分析、对话、服务能力为基础,让数据流成为商业、营销活动的核心才是关键。怎样才能让这些大数据更好地为产品或营销服务,搞清楚大数据时代的业界生态必不可少。

我们可以结合互联网数据中心(Data Center of China Internet,DCCI)发布的数据报告一起来看看。

1. 互联网生态结构:传统互联网→移动互联网

据市场研究机构IDC预测,2013年全球智能手机出货量将超过10亿部,这个数字意味着它比2012年增长了近40%。

同时关于三大移动智能操作系统,我们还得到这样一组数据,如表1-7所示。表1-7 三大移动智能操作系统的APP相关数据

大量智能移动设备接入网络,移动应用爆发性增长使得对数据进行深入挖掘的需求突显,而移动互联网与传统互联网融合,并成为所有媒体的核心节点却是大数据实现的前提。根据EnfoDesk易观智库产业数据库最新发布的《2012--2014中国移动互联网市场预测》数据显示,目前中国移动互联网市场规模已达到1500个亿,移动互联网用户超过5亿,是15年前的867倍,互联网普及率达到39.9%。ZDC统计数据显示,参与调查者中,使用手机上网者的比例高达97.4%,仅有2.6%的调查者表示不使用手机上网。

2. 数据流量剧增,导致网络行业发生新的转变

2013年12月24日,据《纽约时报》网站报道,过去一年美国手机产业出现两大趋势:手机网络速度更快,智能手机显示屏更大,其结果是用户的移动数据流量增长近1倍。2013年美国消费者每月使用的移动数据流量由2012年的690MB增长至1.2GB;从全球范围来看,消费者每月使用的移动数据流量由2012年的140MB增长至240MB。

例如,中国移动数据在2013年春节期间涨幅也十分明显,上涨了105%。据中国移动广东方面透露,总体GPRS数据使用量同比增长63.84%;WLAN数据量同比增长227.55%;3G数据量同比增长212.68%。

对于如此庞大的数据量,又有哪些是具有商业价值的?怎样挖掘出这些有价值的数据呢?事实上在大数据中,存储在数据库中的结构化数据仅占10%,邮件、视频、微博、帖子、页面点击等大量非结构化数据占据了另外90%。怎样从这些与用户行为相关的大数据中挖掘出更多有价值的内容,值得创业者思考和探索,同时也给数据分析与挖掘产业带来更多的机会。

基于如此巨大的数据流量,网站分析(Web Analytics)已成为一种新的火爆产业。Web Analytics是一种网站访客行为的研究,对于商务应用背景来说,网站分析特指通过来自某网站资料的使用,以决定网站布局是否符合商业目标。例如,哪个登录页面(landing page)比较容易刺激顾客购买欲。这些搜集来的资料几乎总是包括网站流量报告,也可能包括电子邮件回应率、直接邮件活动资料、销售与客户资料、使用者效能资料或者其他自订需求资讯。这些资料通常与关键绩效指标比较,以得到效能资讯,并且还可用来改善网站或者获取营销活动中观众的反应情况。

3. 数据方式在发生转变:数据存储→数据应用

从传统互联网到移动互联网,人们产生的数据越来越多。同时Google Glass的诞生让我们有理由相信,未来每个人都将产生更多的数据。但如果仅仅是简单地将这些数据存储起来,它本身并不具有任何价值。

据统计,目前大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元。由此可见,数据背后潜藏着巨大的商业机会。但是,如果大数据时代真的来了,营销人员是否真的能够利用好数据分析,并从中寻找商业价值呢?笔者认为,这是每个企业都应该思考的问题。

4. 互联网营销方式的转变:向个性化时代过渡

正如前面所说,数据结构更加多样化,图像、视频和文档的比例占了半壁江山。大量的用户行为信息记录在大数据中,互联网营销将在行为分析的基础上,向个性化时代过渡。

互联网上,每天新浪微博用户发博量超过1亿条,百度大约要处理数十亿次搜索请求,淘宝网站的交易达数千万笔,联通的用户上网记录一天达到10TB……这些数据运用得好,可以使大众化营销转向个性化营销,从流量购买转向人群购买。

DCCI提供的数据显示,中国有超过230万个网站,网页超866亿,移动应用超过135万。由此可以预见,国内网络广告投放也将从传统面向群体的营销转向个性化营销,从流量购买转向人群购买。也就是说,未来的市场将更多地以人为中心,主动迎合用户需求。专家提醒大数据技术的应用,可以帮助企业从业务的整体设计角度,发展到针对客户的个性化服务,例如,零售企业对于过剩的库存会进行整体促销,如果对于用户购买数据进行分析,就可以针对用户的喜好进行个性化促销,同时也根据用户的购买行为对库存进行准确的调配,以减少浪费。1.2.5 大数据的发展动力

大数据行业的发展,除了市场需求的驱动和技术水平的进步,还离不开资本与政策的帮助。据麦肯锡报道,大数据已经实现了显著的经济价值:为美国的医疗服务业每年节省3000亿美元,为欧洲的公共部门管理每年节省2500亿欧元,为全球个人位置数据服务提供商贡献1000亿美元,帮助美国零售业净利润增长60%,帮助制造业在产品开发、组装等环节节省50%的成本等。大数据体现的巨大经济价值,成功地获得了金融界和政界的青睐。

例如,在英国,虽然经济不景气、财政紧缩,但政府依然为大数据一掷千金。2013年初,英国商业、创新和技能部宣布将注资8亿英镑发展8类高新技术,其中1.89亿英镑(约3亿美元)用于大数据项目。

从目前的实时数据应用状况来看,在许多私企和组织里其实已经开始了大数据应用,因此这一市场非常需要得到政府的支持。

诸如在线购物等网站已经开始了大数据的应用与实践,例如亚马逊购物网站,系统会根据用户最近的选择和关注过的商品,来进行对应的产品或服务推荐。同理,政府也需要根据这种模式来研究如何将大数据技术应用到公共数据上。

大数据在中国也已驶入“快车道”,政府、企业和科研院所正多方位布局。工信部的物联网“十二五”发展规划,将信息处理技术作为四项关键创新技术工程之一,其中包括海量数据存储、数据挖掘等。随着4G牌照在2013年末的发放,更高速的网络将带来更大的数据流,为政府和企业带来战略性资源。

例如,国内的政府机构都在推行“智慧城市”这一蓝图。然而,“智慧城市”的信息处理与应用需要具备快速从海量数据中获取决策信息的能力。现代化都市中无所不在的移动设备、RFID、无线传感器以及互联网应用每时每刻都在产生纷繁复杂的巨量数据。

以视频监控为例,一个大型城市目前用于视频监控的摄像头约50万个,一个摄像头一个小时的数据量就是几个G,每天视频采集数据量在3PB左右。“智慧城市”的“智慧”主要出自对上述巨量信息的分析、挖掘和处理。大数据技术的应用恰好有效满足了“智慧城市”信息处理需求。如果说具有感知功能的传感器是智慧城市的末梢神经,连接传感器的城市宽带网络是智慧城市的神经系统,那么大数据应用就是智慧城市的大脑,是城市运行的智慧引擎。

综上所述,我们可以看到,大数据成为今天众人瞩目的焦点,是市场、技术、资金以及政府多方因素推动的结果。1.2.6 展望2014的大数据

大数据时代,媒体的转型发展,既是技术问题,也是战略问题,其将对未来的媒体形态和格局产生深远影响。经过2012年整整一年的蓄势待发,在2013年新年开始时,“大数据”的概念火了,有媒体将2013年称为“大数据元年”。

那么,翻过2013,走进2014,大数据领域又会向着什么方向发展呢?如表1-8所示为2014年度大数据发展趋势的预测。表1-8 2014年度大数据发展趋势的预测1.3 做好准备,大数据面对的挑战

大数据作为一个新生领域,尽管意味着大机遇,拥有巨大的应用价值,但同时也遭遇工程技术、管理政策、资金投入、人才培养等诸多方面的大挑战。只有解决这些基础性的挑战问题,才能充分利用这个大机遇,让大数据为企业、为社会充分发挥最大价值。1.3.1 大数据的12个不足之处

大数据是信息通信技术发展积累至今,按照自身技术发展逻辑,从提高生产效率向更高级智能阶段的自然生长。无处不在的信息感知和采集终端为我们采集了海量的数据,而以云计算为代表的计算技术的不断进步,为我们提供了强大的计算能力,这就围绕个人以及组织的行为构建起了一个与物质世界相平行的数字世界。“大数据”术语广泛地出现也使得人们渐渐明白了它的重要性,并渐渐向人们展现了它为学术、工业和政府带来的巨大机遇。大数据时代下的信息技术日渐成熟,但是在高科技发展的今天,也存在着诸多不足,如表1-9所示。表1-9 大数据的不足之处

除了数据的收集和使用,在大数据时代需要面对的挑战,还有数据的开放。如果说收集数据是一种意识,使用数据是一种文化、一种习惯,那是否开放数据则是一种态度。1.3.2 大数据挑战的应对策略

当今,大数据的到来,已经成为现实生活中无法逃避的挑战。每当我们要做出决策的时候,大数据就能给我们带来相当大的帮助。但与此同时,大数据也向参与的各方提出了巨大的挑战。对于大数据时代在现如今面临的诸多挑战,笔者也提出几点应对策略,如表1-10所示。表1-10 大数据挑战的应对策略

在大数据时代,数据增长速度加快、数据来源日趋复杂、数据容量迅速扩大、数据类型也变得丰富多样、用户对于数据处理的速度要求越来越高。面对全新的数据业务挑战,企业传统的IT建设模式已经无法满足数据增长的需求,因此,新一代数据中心的建设成为未来用户业务发展的根本驱动力。2 价值:大数据商业变革学前提示“除了上帝,其他任何人都应该用数据说话。”不仅是人,整个世界都越来越数据化。信息革命深入发展,如潮的数据澎湃而至,数量之巨,种类之杂,来势之快,前所未有。大数据是推动这场大变革的重要动力,其将成为促进经济社会转型新的关键资源。要点展示○ 深度挖掘,大数据的商业机遇○ 体现价值,大数据的4大变革○ 价值转型,大数据下的商业智能○ 大数据商业变革应用案例2.1 深度挖掘,大数据的商业机遇

如今,众多企业纷纷进行大数据挖掘,将数据管理变成企业未来IT竞争最为核心的力量,而新一代数据中心的建设自然成为IT建设的关键。例如,可口可乐公司准备在上海成立一个数据中心,该数据中心主要用于处理中国市场的数据,以此优化企业的业务,并提高行业的竞争力。

可见,在行业互联网化的新IT时代,在大数据时代的需求下,数据中心的建设已经成为各行业IT建设最为关注的一点,大家都期待借此挖掘大数据的商业机遇。2.1.1 挖掘大数据的商业价值

通常,企业里面到处都充斥着数据。事实上各行各业的数据量均经历了几何级数的增长,无论是医疗卫生还是金融,抑或是零售业还是制造业。在此类海量数据中,隐藏着无数商业秘密,也孕育着很多机遇以及潜在的成功。

大数据意味着大商机,这是一个大的,可以说是重中之重的事项。对于企业来说,无论是已经开始做大数据了,还是已经开始希望做大数据的项目,研究结果表明:有一个企业或者组织利用大数据技术,另一个企业却没有利用,未来它们的财务状况会出现明显的不同。数据整合带来的价值如图2-1所示。图2-1 数据整合带来的价值

因此,在今天这样一个数字驱动的大环境下,企业必须能够制定周密计划并且实施可行的解决方案以管理大数据。

当Twitter都可以从自己的数据价值中获得不菲的利润,那么任何有大数据的平台都蕴含着极大的商业价值。例如,腾讯QQ、微信、淘宝、天猫、新浪微博以及视频用户流量等都是如此。只是企业如何把大数据中的商业价值挖掘出来,并且得以合理地应用却是一个难题,这也是大数据应用的价值所在。可以说,大数据的核心价值理念是商业价值,探求其中蕴含的商业价值对于任何大数据的应用、分析、整合都是非常必要的。

当然,大数据应用和分析最终的目的还是给企业带来更好的收益,技术积累后的优势会在经营中体现出来,这样的结果才是我们需要的。2.1.2 大数据已进入4G时代

如果说3G时代,中国追赶世界;那么,4G来临后,中国正赶超世界。2013年12月4日,国家工信部正式向中国电信、中国移动和中国联通发放4G牌照,从此开启了中国4G网络的商用时代。

很多用户不明白4G的概念,下面笔者通过一张图来简单说明一下各种类型网络的区别,如图2-2所示。图2-2 各种类型网络的区别

伴随着技术的演进,网速得到大幅提升,各种新应用、新服务随之而来。进入4G时代之后,移动互联网产业有了更大的想象空间,在突破了“网速”这个瓶颈之后,新型应用的爆发将指日可待。

4G将使大数据在采集、传输和应用端发生重大变化。信息过载的压力可能会增加,很多数据需要经过处理才能使用,这也催生了大数据产业链上的商机。据了解,4G最大的数据传输速率超过100Mbps,是移动电话数据传输速率的1万倍。业界认为,4G将引发一场大数据革命。如图2-3所示为4G商用对整个通信产业的意义。图2-3 4G商用对整个通信产业的意义

4G时代,大数据的采集和传输速度更快,大数据的体量也会快速膨胀,且会推动大数据存储、计算和分析技术的革新。4G将使得大数据在采集、传输和应用端都发生非常大的变化,例如,信息过载的压力可能增大,很多数据需要经过处理才能使用,这也催生了大数据产业链上的商机。

移动网络和大数据是全局零售革命最大的特征。过去的观点是,吸引到店铺来的才是顾客。如今,店铺已经不重要了。由于移动网络的存在,消费者随时可以通过手机或其他移动终端逛商店、下订单或付款,完成购买。

例如,在2013年的“双十一”当天,支付宝350亿元的成交额刷新了2012年的纪录。其中,小米成为最大的赢家,以5.53亿元的成交金额位列天猫单店排名第一位,手机销售33.1万台,盒子销售5.6万台,配件销售3 553万元。

小米的胜利不仅仅是其自身营销、价格上的胜利,某种程度上来说,是大时代的胜利。正如小米手机掌门人雷军所说:“小米能成功,首先是因为移动互联网这个大方向选对了。”专家提醒笔者认为,在当今时代,物联网担当了数据采集的角色(触角),云存储担当了数据归集和存储的角色(仓库),大数据技术负责收集来的大数据的智能挖掘分析工作(大脑),而互联网技术(包括4G、光纤等新技术)则是信息传输交换的通道,是信息时代的“高速公路”。2.1.3 实现商业价值的新捷径

如今,电子商务、社交媒体、移动互联网、物联网的兴起极大地改变了人们生活与工作的方式,它们给世界带来巨大变化的同时,也让一个大数据时代真正地到来。大数据相对于传统数据的优势,主要体现在数据量庞大、数据类型丰富、数据来源广泛3个方面,大数据的这3大特征不仅仅悄然改变着企业IT基础架构,也促使了用户对数据与商业价值之间关系的再思考。

全球知名咨询机构麦肯锡对于不同行业所产生的数据类型进行分析,认为几乎所有行业正在大量产生非结构化数据,如表2-1所示。表2-1 各大行业的非结构化数据生产频率

大数据打破了企业传统数据的边界,改变了过去商业智能仅仅依靠企业内部业务数据的局面,其背后蕴含的商业价值不可低估。笔者认为,在大数据时代背景下,企业必须从思维的角度彻底颠覆过去的观点,大数据在未来企业中的角色绝对不是一个支撑者,而是在企业商业决策和商业价值的决策中扮演着重要的作用。专家提醒就像互联网通过给计算机添加通信功能而改变了世界一样,大数据也将改变我们生活中最重要的方面,因为它为我们的生活创造了前所未有的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正在蓄势待发。2.1.4 挖掘大数据的商业机会

随着技术的不断发展,世界已进入大数据时代,而数据背后潜藏着巨大的商业机会。一分钟内,Flicker上会有3125张照片上传,Facebook上新发布70万条信息,YouTube上有200万次观赏。从表2-1中可以看出,图片、声音、文字以及这背后用户的习惯和轨迹构成了互联网上的数据资源,大数据时代迎面袭来。

笔者认为,企业要想挖掘大数据的商业机会,一方面,不能将大数据固守在自己的领域里面,要和企业中其他的数据管理、信息分析结合起来;另一方面,在大数据的部署过程中会采用多种技术;最后,大数据需要共同协作和分享来降低成本和风险。

围绕数据的整个产业链上,笔者认为具有以下机会,如表2-2所示。表2-2 大数据的商业机会

例如,互联网从业者可以运用大数据技术获取和分析用户的消费习惯、兴趣爱好、关系网络以及整个互联网的趋势、潮流。另外,不但社会化媒体基础上的大数据挖掘和分析将会衍生很多应用,而且基于数据分析的营销咨询服务也正在兴起。专家提醒不久的将来,数据可能成为最大的交易商品。但数据量大并不能算是大数据,大数据的特征是数据量大、数据种类多、非标准化数据的价值最大化。因此,大数据的价值是通过数据共享、交叉复用获取的。因此,在笔者看来,未来大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成一大产业。2.1.5 用大数据预测宏观经济

2013年5月,在淘宝网的十周年晚会上,阿里巴巴集团董事局主席马云卸任了阿里集团CEO的职位,并做了卸任前的演讲。马云的一番话引起了大家的深思,他说道:“大家还没搞清楚PC时代的时候,移动互联网来了,还没搞清楚移动互联网的时候,大数据时代来了。”

从2009年6月起,和讯网每月推出“和讯预测”系列宏观经济数据,分别邀请十大经济学家和十大券商机构对上月度CPI、PPI和当季度GDP数据进行预测,并在此基础上建立模型,通过加权平均的方式得出“和讯预测”之“经济学家宏观经济数据预测”和“机构宏观经济数据预测”结果,如图2-4所示。图2-4 CPI和GDP数据走势图

作为中国财经网络门户,和讯网同时也是政府批准的证券投资咨询机构,并在成立以来的10多年里专注收集资本市场与财经领域的信息和数据,因此拥有独立而且丰富的数据库,并且拥有众多学界、机构资源。“和讯预测”的推出既是对这些丰富数据及资源的有效整合,也是希望将这些信息专业加工后可以更好地服务于广大网友,引导投资者理性投资。

2011年6月,东方财富网也推出了“宏观经济数据预测”的业务,汇总十大券商机构对上月度CPI、PPI、信贷、外贸、工业、投资、消费和当季度GDP数据进行预测,并在此基础上建立模型,通过加权平均的方式得出“机构宏观经济数据预测”结果,为网友投资决策提供参考,如图2-5所示。图2-5 东方财富网上的进口增速走势图2.1.6 企业用大数据获取优势

如今,数据分析模式正在发生大的转变,当然这一点也为企业带来了真正的机会。大数据平台让所有企业能够通过这种模式转变所提供的洞察力优势,来获得显著的竞争优势。

例如,IBM在大数据应用和开发方面可以说是处于业界的领先地位。IBM有500多个编程人员和工程师,以及15000次的IBM客户参与,而且IBM Power Systems全线产品均可运行Linux。作为IBM Power Systems旗下的一条子产品线,Power/Linux可以通过更少的处理器数量提供更好的系统性能,满足大数据、开源和行业解决方案工作负载的需求,帮助企业尽展大数据分析洞察智慧。

也许你还没有看到大数据到底有何优势,那么下面再举一个典型的案例。作为全球知名硬件产品、解决方案、云计算服务的提供商——中科曙光,推出了曙光行业大数据系统,这是一个能够感知和度量数据的、全面互联互通的系统,其能够快速、智能地分析海量数据,以提高洞察力并帮助企业做出明智决策,为客户提供创新的产品和服务,如图2-6所示。图2-6 曙光行业大数据系统的竞争优势2.1.7 大数据有待更深的挖掘

大数据并不是新的概念,在移动互联网发展起来后,数据增长速度加快,整个产业压力突出,传统数据库技术已无法满足运营商对大数据充分利用的需求,在此背景下,大数据成为近年来的热点。

大数据时代主要是对技术的综合运用和对数据的深度挖掘。尤其是对于运营商来说,大数据带来的机会大于挑战。运营商有自己的网络,积累了大量非常有价值的数据,可以进行客户分析。利用网络收集数据,对运营商运营方式的改变是个机会。

例如,电信运营商不仅可以利用自身在运营网络平台的优势,更可以突破传统模式,发展大数据分析服务、移动营销等高端大数据业务。随着大数据的技术成熟和应用的推广,运营商将可以围绕数据标准化、精准营销、优化用户服务体验、提高业务效率等4个方面来强化大数据的应用,提高运营商在企业和个人用户中的影响力,如图2-7所示。图2-7 电信运营商可以更深层次地挖掘大数据的价值专家提醒大数据的应用可以帮助人们不再追求精妙的算法,而是以过去所有的数据为基础来准确推断和判断未来可能发生的事情。因此,企业如果能够通过技术的进步,不断释放大数据的潜在力量,其将会成为未来数字时代中最大的赢家。2.2 体现价值,大数据的4大变革

大数据即将开创信息社会的崭新时代,它能够改变我们看待世界的方式。那么大数据意味着什么,它到底会改变什么?笔者认为,仅从技术和商业的角度回答,已不足以解惑。大数据只是宾语,离开了人这个主语,它再大也没有意义。因此,我们需要把大数据放在人的背景中加以透视,理解它作为时代变革力量的所以然。2.2.1 变革医疗卫生

大数据的影响也已经渗透到各个行业的应用当中,最具代表性的行业有互联网、电商、金融、公共服务等,当然其中也包括医疗服务。

医疗卫生行业作为典型的传统行业,其IT网络的建设具有一定的行业复杂性与特殊性。但是,随着医疗改革的逐步深入,医疗服务质量的提高相比于医疗服务效率的提升更加重要。那么,如何在众多医疗机构中突出自己的特色,做到真正的急患者所需,更好地为患者服务,才是医院管理层真正关注的关键。

在过去的30年间,我国的医疗行业经历了医改、新医改,医疗信息化也经历了数字化、“四梁八柱”、35212工程等不同的发展阶段,信息技术的发展使数字化医疗日趋成熟。云计算、大数据等新兴技术的推动又给医疗信息化和新医改带来了新的契机。专家提醒“四梁”是指4大医药卫生体系:全面加强公共卫生服务体系建设;进一步完善医疗服务体系;加快建设医疗保障体系;建立健全药品供应保障体系。“八柱”是指以下8大医疗卫生改革:建立协调统一的医药卫生管理体制;建立高效规范的医药卫生机构运行机制;建立政府主导的多元卫生投入机制;建立科学合理的医药价格形成机制;建立严格有效的医药卫生监管体制;建立可持续发展的医药卫生科技创新机制和人才保障机制;建立实用共享的医药卫生信息系统;建立健全医药卫生法律制度。

例如,一个普通的三甲医院每天就要接待上万名患者,患者的基本信息、影像信息与其他特殊诊疗信息汇集在一起就形成了一个庞大的数据库。日积月累,这个数据量将会以几何数字倍增,为医院的数据存储、集成、调用等应用都带来了巨大压力。因此,怎么才能精确管理与快速调用这些数据为医生和管理层所用,成为了目前很多医院CIO都关注的热点。

大数据的到来,使很多医院高管们不再靠差不多、经验和直觉习惯做决策,逐步转变思维方式,通过对海量数据的挖掘和运用,更多地基于事实与数据分析做出决策。这对信息技术人员来说是机遇也是挑战,而这些影响都是大数据带来的。2.2.2 带来商业革命

大数据不仅改变了医疗卫生领域,整个商业领域都因为大数据而重新洗牌。

在此,笔者首先要告诉大家一个“启动内需”的原理:生产者是具有价值的人,而消费者是生产者价值的意义所在。有意义的才有价值,消费者不认同的,就卖不出去,就实现不了价值;只有消费者认同的,才卖得出去,才实现得了价值。然而,大数据可以帮助我们从消费者这个源头识别意义,从而帮助生产者实现价值。

例如,华声财讯信息技术有限公司结合云计算、大数据时代的发展趋势,推出了基于SMAS(社会化媒体云服务平台)的新一代“企业舆情监测系统”,为客户量身打造全媒体时代的防御利器,把握数据挖掘和业务情报产业的先机,如图2-8所示。图2-8 华声财讯的大数据舆情监测业务2.2.3 改变人们思维

中国科学院的怀进鹏院士在“第五届中国云计算大会”发表了题为“大数据与大数据的科学与技术问题”的主题演讲,他在演讲中表示:“大数据的发展可能会改变经济和社会生活,可能会改变科学研究的途径,甚而改变人类的思维方式。”

互联网重塑了人类交流的方式,而大数据则不同,它标志着社会处理信息方式的变化。随着时间的推移,大数据可能真的会改变我们思考世界的方式。随着我们利用越来越多的数据来理解事情和作出决定,我们很可能会发现生活的许多层面是随机的,而不是确定的。专家提醒大数据的确改变了我们的思维,更多的商业和社会决策能够“以数据说话”。不过抛开这所有的利好,如何让大数据不侵入我们的隐私世界,也是与之伴生并需严肃考虑的问题。2.2.4 开启时代转型

大数据的核心就是预测,相关关系可以帮助我们捕捉现在和预测未来,其带来的技术变革将开启一次重大时代转型。

例如,百度搜索指数显示,自2013年6月至9月,“考研”相关搜索词累计达到了1.15亿,日均接近100万,较2012年同期增长10%,如图2-9所示。依据2012年176万的考研报考人数,百度大指数预测,2013年考研的报考人数较2012年相比还会增长,预计能突破190万。图2-9 2013年百度考研搜索指数较2012年同期增长10%

A和B事件如果经常在一起发生,那么注意到B发生,就能预测A也发生。这种关系已在零售业和电子商务中被广泛运用。例如,某家便利店通过分析零售终端的数据,得出了“温度低于15摄氏度暖宝宝的销售量便增加5%”的相关关系。于是,只要温度低于这一度数,店内的暖宝宝就会上架。专家提醒大数据时代最大的转变就是,放弃对因果关系的渴求,取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。2.3 价值转型,大数据下的商业智能

如今,也许你并不了解大数据,但大数据的应用确实已经遍地开花。例如,金融行业通过大数据来鉴别个人的信用风险;快递领域通过数据来确定行驶路线,减少等候时间;政府通过大数据来找出最容易发生火灾和井盖爆炸的地点;商场通过大数据发现产品之间的关联。在大数据时代,一切都存在着可能,智能商业带来的价值转型正在悄然发生,而我们也正在体验这一切改变。2.3.1 大数据为商业智能构建基础

DBA(Database Administrator,数据库管理员)们都知道数据在任何商业智能(Business Intelligence,BI)解决方案中都是最重要的部分。

商业智能作为一个工具,是用来处理企业中现有数据,并将其转换成知识、分析和结论,帮助业务或者决策者做出正确且明智的决定的。商业智能是帮助企业更好地利用数据提高决策质量的技术,其包含了从数据仓库到分析型系统等。

大数据BI是能够处理和分析大数据的BI软件,区别于传统BI软件,大数据BI可以完成对TB级别数据的实时分析。例如,阿里巴巴敏锐地捕捉到大数据的巨大潜能。2012年,阿里巴巴提出大数据战略,通过资源共享与数据互通创造商业价值。在2012年的“双十一”销售热潮中,阿里巴巴以云计算为基础的数据服务,对数以亿万计的消费者需求信息进行捕捉,帮助网商随时调整销售决策。

如今,新一代信息技术已经彻底地改变了BI市场环境,微博、云计算、物联网、移动互联网等各种爆炸式数据,给商业智能的蓬勃发展提供了良好的“大数据”基础。

大数据为BI带来了海量数据。对挖掘来说,大数据量更容易对比,它加速了BI效率和整合能力的提升。因此,有人大胆预测:与大数据相关的商务智能分析将引领管理信息化的发展。2.3.2 Oracle BIEE商业智能系统

Oracle BIEE是Oracle商业智能平台企业版,由收购、整合SIEBEL和HYPERION相关BI部分组建形成,在Oracle整个商业智能体系架构中主要承担数据分析应用和可视化展示工作。Oracle BIEE架构如图2-10所示,其中最重要、最核心的是BI Server和BI Server所操作的Repository。图2-10 Oracle BIEE架构

利用Oracle BIEE可以将商业智能分析模型清楚简洁地展现出来,开发人员在定义好元数据后,业务人员即使了解内部库表和相关技术,也可以以一种可视化的、简单的方式产生出自己所需要的智能数据报表,这大大提高了经营分析的效率,如图2-11所示。同时,随着云计算技术的不断发展,给商业智能行业带来了新的启示。基于云计算的商业智能平台可以作为Web服务提供给用户,商业智能的Web化和服务化,或将成为一个新的趋势。图2-11 基于Oracle BIEE的商业智能分析系统2.3.3 商业智能成就行业价值机会

1989年,商务智能界“教父”——Howard Dresner提出“商业智能”的概念,不久后便被人们广泛了解。当时将商业智能定义为一类由数据仓库(或数据集市)、查询报表、数据分析、数据挖掘、数据备份和恢复等部分组成的,以帮助企业决策为目的的技术及应用。

在大数据时代,企业如果想要抢夺大数据市场,就需要具备一定的实力,然而报表的呈现和简易分析只是停留在“B”的阶段,要想达到“I”的阶段,必须要结合整个大环境、大行业的数据来判断分析并给出真正有价值的信息和决策建议,这取决于你能拿到多广多深的数据和你的数据挖掘分析能力以及建模能力。

商业智能与大数据的区别在于,大数据能够基于BI工具进行大容量数据处理和非结构化数据处理,与传统基于事务的数据仓库系统相比较,大数据分析不仅关注结构化的历史数据,它们更倾向于对Web、社交网络、RFID传感器等非结构化海量数据进行分析,大数据无疑是对BI的一个完美补充。

例如,2002年,民航旅客量突破一个亿,这一个亿旅客带来了海量数据的增长,而且数据类型也是丰富多样,所以在那个时候,航信团队就认为数据挖掘是非常必要的工作,利用数据仓库平台做了早期的挖掘。之后经过调研,IT团队也采用了专业商业软件去部署,这个平台也给客户带来了很多价值。

商业智能通常被一些大企业作为强有力的掘金石,在实现信息化建设后,进而贯彻决策的解决方案,而在当前中小企业应用的商业智能的过程中还存有一定的瓶颈,中小企业的实施成本及对商业智能的认识及发展力度还存在一定差异。

据Gartner(全球最具权威的IT研究与顾问咨询公司,成立于1979年)透露,BI市场正在以每年9%的速度增长,到2014年市场价值将高达810亿美元,2020年将增长至1360亿美元。专家提醒企业信息化已逐渐由传统运营层管理转向决策层管理,企业实施BI犹如试穿鞋子,企业BI应用的核心取决于企业决策与业务优化,企业对于BI的深化,需要具备一定的信息化基础,BI应用是基于业务优化、运营管理与决策的基础上的。2.3.4 BI导出商业潜能和社会走向

如今,传统数据仓库的性能已无法应付庞大的信息,但是大数据技术使我们能够访问和使用这些宝贵的、大规模数据集,以应对越来越复杂的数据分析和更好的商业决策。

例如,当你在听音乐时,豆瓣电台会推荐你可能喜欢的音乐;当你在当当网下单某本书时,它会提醒购买这本书的人中有30%也购买了另外一本书(如图2-12所示),这些都是基于大数据分析的。大数据带来的另一改变是,更多事物可以数据化。购物习惯可以数据化,社交关系可以数据化,社会热点的走向也可以数据化(通过对搜索关键词的分析)。这些数据可以导出商业潜能,更能导出社会走向。图2-12 当当网的购书提醒功能

随着互联网技术的发展,未来的大数据时代,将是各种信息呈现规模化快速增长的状态。如何更快获取有用的信息是关键,智能分析工具会变得越来越重要,其可以凌驾于多个管理系统、数据库之上。如何通过更灵活、可控的BI工具,真正挖掘出大数据时代的价值,是大数据和BI面临的共同挑战。2.3.5 商业智能的6大发展前景

总体上来看,商业智能的发展有以下几个特点:实时、操作型、与业务流程的集成、主动以及跨越企业边界等。商业智能的实时特性,可以让公司与顾客拉近距离,而实时商业智能可以迅速地处理数据,并给出及时、有效的决策。

如今,商业智能的概念从技术到应用都发生了巨大的变化,从商业智能到商业分析,再到企业绩效管理,然后再到企业绩效优化。那么商业智能的发展在技术上和应用上的趋势如何呢?笔者在这里谈谈自己的观点,如表2-3所示。表2-3 商业智能的发展前景2.4 大数据商业变革应用案例

人们懵懂地意识到,数据即将成为改变未来社会的重要力量。然而,大数据究竟改变了什么,在人们脑中仍是个模糊的影子。那么,通过本节的应用案例,笔者来告诉大家大数据到底带来了什么样的商业变革。2.4.1 【案例】大数据助力地产行业

中国建筑第五工程局有限公司(以下简称中建五局),不但是世界500强企业,也是中国最具国际竞争力的建筑地产集团——中国建筑工程总公司的成员企业。

由于中建五局现有的ERP系统不能将原始数据进行加工,给管理者提供有价值的辅助决策信息,也不能以更加丰富的形式展现运营状态,因此,中建五局准备在全局范围内搭建一套企业经营决策分析系统。2013年7月9日,“中建五局管理信息化集成系统”项目验收会在长沙举行,经过验收委员会专家评审,由用友软件与中建五局合作开发的中建五局管理信息化集成应用系统顺利通过验收。

用友软件通过对全局的战略、经营、财务、项目运营以及风险预警等分析体系的建立,为中建五局提供多种关键指标对比、趋势分析,并能够从不同的维度对数据进行统计分析,挖掘数据信息,为企业提供决策支持依据,如表2-4所示。表2-4 中建五局管理信息化集成系统的基本功能【案例解析】:在本案例中,中建五局管理信息化集成系统涵盖了大型建筑企业集团的主要管理内容,建立了从上到下的主数据标准化体系和基于ESB(Enterprise Service Bus,企业服务总线)的便于扩展数据的交换体系,将不同运行系统的服务通过定义好的接口联系在一起,实现不同业务以一种统一和通用的方式进行自由交互。2.4.2 【案例】大数据预测机票价格

美国工程师奥伦·埃齐奥尼(Oren Etzioni)搭飞机时,发现旁边的旅客买票比他便宜。于是埃齐奥尼开发了一个Farecast工具,用于预测机票价格的波动。

通过预测机票价格的走势以及增降幅度,Farecast票价预测工具能帮助消费者抓住最佳购买时机。由于Farecast的运转需要海量数据的支持,埃齐奥尼找到了一个行业机票预订数据库。依靠这个数据库进行预测时,预测的结果是基于美国商业航空产业中,每一条航线上每一架飞机内的每一个座位一年内的综合票价记录而得出的。如今,Farecast已经拥有约2000亿条飞行数据记录。

截至2012年,他的Farecast系统已经可以用网上的10万亿条价格记录去推测机票何时价格为何,预测准确度达75%,帮助旅客平均每张机票节省50美元。

Farecast是大数据公司的一个缩影,也代表了当今世界发展的趋势。五年或者十年之前,奥伦·埃齐奥尼是无法成立这样的公司的。他说:“这是不可能的。”那时候他所需要的计算机处理能力和存储能力太昂贵了!虽说技术上的突破是这一切得以发生的主要原因,但也有一些细微而重要的改变正在发生,特别是人们关于如何使用数据的理念。【案例解析】:如今,人们已不再认为数据是静止和陈旧的。但是在以前,一旦完成了收集数据的目的之后,数据就会被认为已经没有用处了。比方说,在飞机起飞之后,票价数据就没有用了。

现代商业环境变幻莫测,因此,对于企业来说,在大数据时代做好准备,利用好大数据尤为重要。2.4.3 【案例】用大数据增强竞争力

2002年,北京移动开始构建IDC(Internet Data Center,即互联网数据中心)。经过此后8年的努力,一共建设了8个重要IDC核心节点,机房建设面积一共是4万平方米,有上百G的带宽连到骨干网上。

北京移动拥有比较丰富的IDC运营经验和实力,是国内首家通过ISO 27001认证的数据中心,早在2003年的时候已经通过BS79认证,在2004年年底的时候申请到ISO 27001这样的认证标准。北京移动IDC也是中国移动最主要的内容枢纽中心之一,担负着疏通全网内容的重要战略使命,现在整个中国移动6个亿的Web访问前十名站点都在北京移动数据中心之内。

在大数据领域,北京移动的标杆企业是云基地。在BI系统的支持下,北京移动逐步强化“用数据说话”的工作理念,巩固了业务运营的数据支撑优势,增强了企业的核心竞争力。BI系统就是北京移动打造的另一只金翅膀,助力企业展翅高飞。

北京移动BI系统的成功在于以下两个方面:○ 帮助业务部门建立了数据分析和精细化应用的框架体系,从企业

全局来支撑日常的数据分析需求。○ 以高端客户服务为起点,建立一系列BI专题来促进高端客户服务

更加精细化、个性化、人性化,推动了高端客户服务模式变革,

逐步建立起以“客户为中心”的跨部门协作的服务体系。

总之,BI系统的应用提升了企业的运营效率,保障了业务高效地开展,如图2-13所示。图2-13 BI系统的应用【案例解析】:移动互联和大数据时代的到来,极大地改变了企业传统的经营模式、经营环境和经营方式,如何抓住新的机遇、应对新的挑战成为企业必须面对的问题。在本案例中,北京移动在移动互联和大数据商业环境下,利用商业智能的优势,来扩大市场、降低成本、提升效率、应对危机、获得机遇,并实现跨越式发展。2.4.4 【案例】大数据助力企业管理

上海帝高绒毛服饰有限公司(简称帝高羊绒)创立于1989年1月,其凭借精湛的工艺技术和先进的管理经验,经过几年的发展造就了享负盛名的“百纯帝高”羊绒衫。2003年10月,帝高羊绒开始使用博科商业智能——财务智能仓系统(BI-FIW),希望通过商业智能来建立起企业历史管理数据之间的相互关系,满足企业快速决策的管理需要,如图2-14所示。通过3年的逐步建设,帝高羊绒信息化数据已经涉及采购、销售、库存、往来、总账等业务内容。在此过程中,博科资讯的实施人员对帝高羊绒的数据仓库进行了进一步升级,以满足商业智能系统的运行需要。图2-14 财务智能仓系统(BI-FIW)的工作流程【案例解析】:在本案例中,创建帝高羊绒的数据仓库是一个庞大的系统工程,需要企业不断地去建立、发展和完善。

因此,企业可以首先提出一个全面、清晰的远景规划及技术实施蓝图,将整个项目的实施分成若干个阶段,并以“立体建模、分部解析、过程评估”为原则。做到这些,企业不仅可迅速地从当前投资中获得收益,而且可以在已有的基础上,结合其他已有的业务系统,逐步构建起完整、强大的数据仓库系统。2.4.5 【案例】沃森人工智能计算机

日前,IBM公司研发的电脑“沃森”战胜了美国电视智力节目《危险边缘》的两名人类选手,一时间,很多人担心,电脑越来越像人了,将会超越人类智慧。

沃森智能计算机是一台以IBM创始人托马斯·沃森名字命名的电脑,如图2-15所示。在硬件方面,IBM Power 7系列处理器是当前RISC架构中最强的处理器——采用45nm工艺打造的Power 7处理器拥有8个核心32个线程,主频最高可达4.1GHz,二级缓存更是达到了32MB。在软件方面,IBM研发团队为“沃森”开发的100多套算法可以在3秒内解析问题,检索数百万条信息然后再筛选还原成“答案”并以人类语言输出。图2-15 沃森智能计算机

近日,IBM又宣布将把“沃森”应用于云环境的开发平台,开放API(Application Programming Interface,应用程序编程接口),让企业能够开发自家的“沃森”App,从而构建起“沃森”生态圈,将“沃森”应用到更广泛的领域。

此外,IBM还建立了一个“沃森”内容库,供应商可以为沃森提供内容,包括通用和专用的信息,如医疗保健等。“沃森”的优势是给出准确与可靠的答案,因此可以为医生提供更适合病人的解决方案。在医疗领域的应用将是“沃森”商用最主要的领域。专家提醒笔者认为,“沃森”项目如果想在医疗行业推行的话,还需要面临法律层面的问题。如果“沃森”诊断出错,而医生又听从了错误的诊断,那么“沃森”就会面临被患者告上法庭的危险,这对IBM而言是一个正在考虑的应用问题。【案例解析】:目前,各行各业的数据资料都是以自然语言编写的,例如医疗行业的医疗记录、文本、杂志和研究资料,这些都是计算机难以理解的语言。另外,在零售、旅游、金融、电信、服务等行业,同样存在着大量以自然语言存储和编写的资料,如果存在一套能够在这些自然语言资料中快速找出准确答案的系统,将为行业带来巨大的改变。然而,本案例中的“沃森”具有理解自然语言、找到证据、判断这三大能力,这种“认知计算”能力让“沃森”在当前的大数据浪潮中大有用武之地。“沃森”的工作过程实际上是一个完整的大数据分析过程:识别理解自然语言是处理非结构化数据的过程,找到证据就是从不同来源的大数据中检索的过程,判断就是给证据评分,作出最佳决策的过程。因此可以预见,“沃森”在大数据领域会有非常光明的前景。目前看来,沃森至少能在以下行业领域有所应用:电子、能源与电力、政府、卫生保健、保险、石油天然气、零售、通信、交通、银行与金融市场等。3 架构:大数据基础设施学前提示大数据都会有自己的基础架构平台,一般推荐是基于云计算的动态弹性平台,因为它将为大数据的分析处理提供强有力的支撑。但是,企业要想让如此规模的数据真正转化为财富,数据中心必然将面临一次漫长而充满艰辛的基础设施及架构变革。要点展示○ 探索全球,10大大数据部署方案○ 掘金红海,10大大数据分析平台○ 大数据基础设施应用案例3.1 探索全球,10大大数据部署方案

就在近两年,大数据应用突然爆炸,五彩缤纷的创意都变成现实。即使最谨慎的观察家也承认,大数据的商业应用时代已经来临,这都源于它前所未有的“从海量到精准”的预测能力。因此,大数据被认为是下一个创新、竞争和生产力的前沿,谁率先抓住大数据的先机即意味着能够在未来市场竞争中取得标杆地位。

俗话说:“工欲善其事,必先利其器。”在大数据实践之中,基础架构就犹如基石一般,是构建一切的基础,基础架构基石不稳,大数据“大厦将倾”,具有优秀的基础架构才能够让用户在未来的大数据之路中越走越宽。本节笔者就带大家一同回顾在世界各地那些不为人知却实际存在的大数据基础设施部署方案。3.1.1 Netflix:掌握视频大数据炼金术

Netflix是一家在线影片租赁提供商,能够提供超大数量的DVD,而且让顾客可以快速方便地挑选影片,同时免费递送。

Netflix已经成为美国国内规模最大的商业视频流供应商——目前拥有2900万视频流客户。这家公司同时也成为吸收新增数据的“海绵”——用户在看什么、喜欢在什么时段观看、在哪里观看以及使用哪些设备观看,爆增的信息量成为Netflix手中的宝贵资产。他们甚至掌握着用户在哪个视频的哪个时间点后退、快进或者暂停,乃至看到哪里直接将视频关掉等信息。

IHS研究公司表示,2011年Netfix的网上电影营收超过苹果,网络电影销量占据美国用户在线电影总销量的45%,这主要得益于网络用户对在线视频的强大需求。

在美国众多的视频服务商里,Netflix是最早尝试将大数据和媒体行业结合起来的公司。现在Netflix公司开始推出自己的原创节目,而节目制作的依据正是刚刚提到的这些数据。例如,Netflix最新投资的电视剧“House of Cards”(纸牌屋),让人们见识了大数据分析对Netflix这样的新媒体公司的价值。

现在的Netflix不只提供线上影片出租与影片推荐服务,更是一家能够推出自制影集的全方位娱乐公司,其商业模式主要有两点,如表3-1所示。表3-1 Netflix的商业模式

当初,Netflix由于缺乏相应的设计人员和数据平台,因此颁发了100万美金大奖,希望世界上的计算机专家和机器学习专家们能够改进Netflix推荐引擎的效率。随后,来自186个国家的四万多个团队经过近3年的较量,一个由工程师、统计学家、研究专家组成的团队夺得了Netflix的大奖,该团队成功地将Netflix的影片推荐引擎的推荐效率提高了10%。Netflix大奖的参赛者们不断改进影片推荐效率,Netflix的客户已经为此获益。

根据Sandvine市调公司研究报告,其下载量占全美网络下载量的32.25%,以绝对优势占据第一名的位置,如图3-1所示。图3-1 2013年上半年全美网络视频下载量统计专家提醒Netflix在全球拥有超过2500万用户,每日平均3000万次的点击、播放、暂停、快转、回播,400万次的评价行为,300万次的搜索动作。3.1.2 家谱网:建立更准确的血缘关系

家谱网到底有何魅力,先看看下面的两个资料。

资料1:著名主持人马丁是马英九的远房亲戚,且比马英九长6代——两人均出自扶风马氏,赵国大将军赵奢(马服君)之后。马丁是赵奢的第65世孙,而马英九是赵奢的第71世孙。

资料2:一个是中国奥运历史上首位冠军的安徽人许海峰,一个是来自台北的音乐人许常德,两位相隔几千公里的许姓男人,却有着一位共同的显赫祖先——唐朝宰相唐敬宗。

这些信息来自于2008年在国内上线的家谱网(jiapu.com),它是美国家谱网站Ancestry的中国版。Ancestry.com(家谱网)是一家家谱在线服务网站,拥有10PB的家族遗传数据,如图3-2所示。图3-2 Ancestry.com(家谱网)主页

长久以来,Ancestry.com都是使用apache Hadoop以及其他的开源工具来进行数据处理和分析的。然而,想要将Hadoop架构与dba数据处理联系起来,就极具挑战性,其中之一就是团队建设。因此,Ancestry.com构建了自己的搜索引擎,并对算法以及记录连接软件进行了仔细的调优,该引擎可以对网站的结构化数据和非结构化数据进行遍历。

Ancestry.com网站包含了大量出生、死亡、人口普查以及其他相关记录,这些记录起初大多是非结构化数据。随着用户以及家族数据的不断增长,Ancestry.com公司希望改善其信息检索的算法。

不久后,公司招募了一些数据科学家,他们选择使用最新的工具,把Hadoop、mapreduce以及R语言引入了Ancestry.com的工具集。Ancestry.com的团队使用Hadoop架构来对搜索进行优化,同时对客户流失率进行预测建模,并开始使用Hadoop以及相关的hbase nosql列式数据存储来对Ancestry DNA产品进行扩展。新的大数据平台利用高级内容处理技术对全部相关信息加以索引,使用染色体DNA测试技术来为用户提供更好的服务,从而保证数据的可搜索性,甚至能够对远亲进行准确识别,从而让Ancestry.com获得用户的认可。

例如,Ancestry.com通过对唾液进行采样,能够对客户的DNS进行排序并将结果与数据库中的其他客户加以匹配,客户甚至可以找到多年没有联系的表亲。专家提醒目前,家谱网累积的华人家谱总库中,包含65584种家谱数据,年代跨越明、清、民国以及当代,地域覆盖24个省及地区。其中,最早能追溯到1498年(明代)休宁陪郭(地名)的叶氏世谱。

Ancestry.com帮助人们将自己与家庭史结合起来并创建独一无二的树状家谱。从表面上看,这个主意似乎没什么技术含量,但为了实现这项功能,网站需要维护超过110亿条记录与高达4PB的数据量——其中包括历史记录、出生记录、死亡记录、战争与移动记录甚至年鉴等,其中不少往往采取手写格式。

想要构建这一大数据平台,需要涉及大量的操作,大约有70万个DNA样本要与Ancestry.com数据库汇总已有的相同数量样本进行配对比较。Ancestry.com的团队对学术算法进行了改写,从而可以在Hadoop和hbase上运行并行的任务,这样做可以大大提升海量数据处理的速度。

Ancestry.com拥有明晰的盈利方式以及庞大的付费用户。付费用户可以分为两类,查看美国本土资料的用户和查看世界资料的用户,但收费不同。另外,在开发个人用户价值之外,Ancestry.com还盯上了企业用户,例如数据库能使得企业的宣传销售更具针对性,以便提供个性化服务。数据库里的庞大家谱相当于“商品”,用户有需要时,便可付费购买。3.1.3 西奈山:更深刻地理解数据形态

西奈山医院始建于1852年,是美国历史最悠久和最大的教学医院之一,以其在临床治疗、教学和科研方面的杰出成绩而闻名于世。

西奈山医院的很多新设备都是用来采集分析数据的,它运行Hadoop软件进行大数据分析。医院希望计算机专家利用大数据来寻找联系,例如在ICU中发现的微生物的DNA,或者跟踪那些使用家用监控器的病人发来的数据流。

来自Facebook的首席数据科学家杰夫·哈默巴赫尔(Jeff Hammerbacher)负责设计这一切,他用分析目标在线广告的数据技术来分析各类基因数据和生物学信息,目的是减少医疗费用,同时探索“个性化医疗”。

目前,西奈山医院正利用来自大数据新兴企业Ayasdi公司的技术对整个大肠杆菌基因组序列进行分析,其中包括超过100万个DNA变异,旨在努力理解某些菌株如何在与抗生素的共处中获得抗药性。细菌的抗药性影响着全球各地数以百万计的病人。Ayasdi的技术为数学研究、拓扑数据分析(简称TDA)开辟了一片新天地,有助于人们更深刻地理解数据形态。

在研究的基础上建立相应的数据库,结合日益普及的个人基因监测服务,正成为个性化医疗的基础。个性化医疗会彻底改变我们对待健康和疾病的方式,无论从政府、技术、学术还是产业层面,个性化医疗都是大势所趋。3.1.4 CAIISO:实现电厂电网的智能化

美国加利福尼亚州独立系统运营商(California Independent System Operator,CAIISO)管理着全加州地区超过八成电网中的供电走向,每年提供的电力达到2.89亿千万时,惠及3500万民众,供电线路的总长度超过25000英里。

CAIISO所有的大型电厂都已经用上了企业后台办公系统,其中包括地理信息系统(GIS)、停电管理以及配电管理系统(DMS)。为了实现电网的智能化,CAIISO利用带有分析工具的历史数据功能接收数据流,将其与历史模式进行比较和对比,以便找出数据中的异常情况,如图3-3所示。图3-3 独立运营商(ISO)基础设施中的关键组件

ISO利用Space-Time Insight公司的软件实现情景智能化机制,从而将来自多个来源的大规模数据进行关联与分析——其中包括天气状况、传感器数据以及计量设备测绘结果等,并以可视化形式帮助用户查看并理解如何对可再生能源进行优化,以实现整个电网的电力供需平衡并快速应对潜在危机。3.1.5 Hydro One:把大数据放地图上

Hydro One(英语Ontario,简称安省)是加拿大安大略省多伦多市最大的电力输送集团,负责为全省的家庭及企业提供电力。Hydro One公司拥有并经营安大略省内总长达29000公里的高压输电网络以及总长达123000公里、直接面向130万用户的低压配电系统,如图3-4所示。图3-4 Hydro One公司的高压输电网

Hydro One使用的是由Space-Time Insight提供的地理空间与可视化分析软件,旨在改进当前输电与配电资产的健康性与可靠性。Space-Time Insight是一家将大数据、数据可视化、地图LBS服务三者整合起来的公司,他们将企业需要的大量专业数据以地理信息的形式展现在地图上,让人们更好地了解、比较和研究他们所需的信息,如图3-5所示。图3-5 Space-Time Insight的地理空间与可视化分析软件

Space-Time Insight打造的这套系统能帮助资产管理者及时获取相关情报,包括资产性能随时间推移而发生的变化、资产更换战略以及资产维护需求等。该方案还能将数据与其他多种不同系统的功能结合起来,包括SAP ECC、SAP BW、GIS系统以及实时数据等,从而帮助Hydro One对自身拥有的资产具备宏观掌控能力。

虽然Space-Time的主要重心仍然放在电力行业,但无疑在其他能源、运输、气象等行业都有广阔的前景。而且除了企业市场,这类地图可视化技术在传统消费、生活服务市场也会有乐观的应用前景。专家提醒在大数据时代,笔者认为企业更应该聚焦非结构化数据,结构化数据已经有了不错的归宿,非结构化数据才是我们处理的难题。据预测,到2020年,非结构化数据将数十倍于传统的结构化数据,成为大数据最主要的数据来源。3.1.6 OHSU:结合数据虚拟化技术

俄勒冈健康与科学大学(Opegon Health and Science University,OHSU)是一所历史悠久、以研究为取向的最好的综合性公立大学,下辖两所医院、一座一级创伤恢复中心和一家儿童医院。学校致力于人类健康事业的发展,专注于提高食品安全、疑难疾病的预防与治疗等方面的研究。

为了追踪学校内4000个注液泵的实时位置与工作状态,更快地掌握注入到患者循环系统当中的液体、药物或者营养物质,校方将Stanley Black与Decker Disivion Stanley Healthcare提供的Mobile View软件与Tableau软件的数据虚拟化技术结合起来,改变传统的手动执行方式。该技术还允许校方对历史及当前资产数量进行分析,进而更好地规划未来数量水平,提高库存物资的分配与利用效率。

Tableau公司将数据运算与美观的图表完美地结合在一起,如图3-6所示。它的程序很容易上手,各公司可以用它将大量数据拖放到数字“画布”上,转眼间就能创建好各种图表。这一软件的理念是,界面上的数据越容易操控,公司对自己所在业务领域里的所作所为到底是正确还是错误,就能了解得越透彻。图3-6 Tableau Mobile软件界面专家提醒如今,每个企业都会有很多数据以及产生很多问题,为了分析这些数据,人们可以创建图表把数据与问题联系起来,但很多时候大家不确定从哪种图表可以得到自己要找的答案。Tableau通过把数据搁置于独立的、静态的图中,限制了能够解决问题的范围。通过如何让数据成为决策的核心,以数据讲述一个故事来做出决策,以及添加一张图、提供过滤器以了解得更深入,Tableau能帮助企业解决问题,它所带来的商业洞察力和回答问题的速度能与你的思想同步。3.1.7 VTN:公共设施的实时3D模型

过去,大部分城市中的公共事业机构都是采用古老的手动记录方式,处理地下的各种资产,因此信息准确度十分低。例如,居民往往会由于某条供电线被意外切断或者某条供水管线老化爆裂而受到影响。

拉斯维加斯(Las Vegas)作为美国内华达州的最大城市,为了避免这些难题,市政部门采取智能数据方式开发出一套实时公共事业网络模型。另外,VTN咨询公司帮助市政当局通过各种渠道汇总数据,并利用Autodesk技术创建出实时3D模型。这套模型中包含着地上与地下的所有公共设施,目前已经被用于监测城市地下设施的具体位置以及运转状况。专家提醒大数据虽然在不同的应用场景、不同的企业环境其应用方式会千差万别,但是常见的基本架构是大同小异的。经过分析与处理,能够应用于实践指导的信息数据会被整理到数据中心、应用程序以及基础设施当中,企业管理者需要以此为基础进一步将其导入各类系统及业务流程中,并最终获得(近乎)实时的决策能力。3.1.8 戴德县:实现大型城市的智能化

迈阿密-戴德县(Miami-Dade County,Florida)是位于美国佛罗里达州东南部的一个县,2005年估计人口达2376014,成为美国的第8大县。

迈阿密—戴德县响应IBM提出的智能化城市倡议,希望将35个区域自治单位与迈阿密市聚拢起来,以便做出更为明智的管理决策——包括充分利用水资源、减少交通拥堵以及改善公共安全等,如图3-7所示。图3-7 智能化城市的构成体系

为此,IBM(国际商业机器公司,International Business Machines Corporation,IBM)通过云计算环境下的深层分析为该县带来一套情报仪表板,从而帮助各机关与部门彼此协作并实现可视化管理。

智慧城市具有3项基本特征,分别是物联化、互联化和智能化。基于这3个特征的IBM智慧地球计划自2008年开始展开,并且在近年来加速,且出现了很多成功的落地项目。以2012年为例,IBM先后发布了智慧云上的智慧交通新版本、智慧云上的智能运算中心新版本及智慧云上的智慧水利新版本。基于这一系列方案,IBM搭建了涵盖公共安全、交通、水利等多个领域的解决方案,并搭建了智能运营中心。专家提醒笔者认为,城市管理只有利用大数据,才能获得突破性改善,诸多产业利用大数据,才能发现创新升级的机会点,进而获得先发优势……有了云计算、物联网,但缺乏大数据分析处理的核心技术,智慧城市的“大脑”就不够发达,“智商”就不够高,“能力”就不够强。3.1.9 澳网:利用大数据分析做出决策

澳大利亚网球公开赛(Australian Open,简称“澳网”)是网球四大满贯赛事之一,也是四大满贯赛事中每年最先登场的,通常于每年1月的最后两个星期在澳大利亚墨尔本市的墨尔本公园举行。

澳大利亚网球公开赛的总奖金在2013年达到3100万澳元(3260万美元),是四大满贯中奖金最高的赛事。澳大利亚网球公开赛自1905年创办以来,至今已经走过了一百多年的历史,赛事目前由澳大利亚网球协会(Tennis Australia)主办。

在平时,澳大利亚网球协会的运作状态与普通的小型企业没什么差别,然而一旦到了为期两周的澳网公开赛时期,协会瞬间就成了一家规模庞大、对数据极度渴求的大型企业——他们需要不间断地访问准确内容、数据以及统计结果,从而进行分析并做出决策。

下面提供一组2013年度澳大利亚网球公开赛的统计资料:○ 684457名球迷到现场观看了比赛。○ 澳网网站有1410万绝对造访人次。○ 澳网Social Leaderboard追踪到900多万涉及球员的Twitter。○ 澳大利亚网球协会在比赛期间获取了约60TB的数据和视频资

源,本次赛事男子抽签127场比赛打了764盘。

目前,澳大利亚网球协会采用IBM的实时数据分析软件来检查赛程进行状态、运动员人气、历史数据记录以及社交媒体上球迷们对比赛网站提出的数据需求。根据实际需求,这项技术能够为分析工作分配必要的计算资源。

澳大利亚网球公开赛网站上提供IBM SlamTracker工具,用以分析8年大满贯赛事比赛的4100万个数据点,如图3-8所示。除了其他方面之外,该工具还有一项功能,称为“Keys to the Match”,可帮助球迷了解球员为了在某项特定比赛中取胜,需要做哪些工作。当一场比赛拉开帷幕时,该工具根据关键点测评每个球员的表现并实时更新,从而提供更深入的洞察力,包括高比例第二发球接发或者上网成功率是否有助于挑高球过人。

例如,在李娜与小威廉姆斯的比赛中,李娜一方获得赢球的关键包括3个指标(如图3-8所示):1. 一发(首次发球)得分率超过69%;2. 4~9拍相持中得分率要超过48%;3. 发球局30-30或40-40时得分率要超过67%。图3-8 IBM智能分析平台SlamTracker

而在实际的比赛中,李娜只完成了第二项指标,相比之下,小威廉姆斯则完成了两个指标。因此,据此分析,李娜出局主要跟一发得分率低、双方平分时未能获得关键分数有关。

为了打造完善的大数据基础设施,澳大利亚网球协会还与Aruba共同构筑安全可靠、灵活、可扩展的无线网络,而它所具备的环境意识功能,更可有效地管理紧凑赛程网络状况。这意味着协会能够非常准确预测网络连接需求高峰的时间和地点,从而调整网络满足所需。

据悉,在2013年澳网比赛的两周内,单是#ausope标签就有一百多万条微博,澳网Facebook页面增加到约887158。社交媒体洞察力在澳大利亚网球协会和其他机构的决策以及与客户互动方面,具有越来越重要的作用。在该满贯赛事期间,使用先进的IBM分析软件和自然语言处理技术来评估Twitter、Facebook、新闻网站、博客和视频等网站上数十万社交媒体消息分享的正面和负面情绪。专家提醒数据分析已经深入体育运动,并且在改变体育运动的发展模式。大数据将改变我们消费、观看网球等体育运动以及与其进行互动的方式。那些拥护并利用该技术为业务决策以及与球迷联络提供相关信息的机构,和竞争对手相比,将赢得竞争优势。3.1.10 DPR:结合3D技术与大数据

美国加州大学旧金山分校斥资15亿美元在米慎湾兴建了一座医学中心,这也是第一座建造时间超过十年的医学中心,承包商为DPR Construction公司。

DPR Construction公司利用Autodesk公司的3D技术,帮助设计师们收集空气流量、建筑物朝向、楼体间距、环境永续性以及建筑性能等数据,并将结果导入到一套单独的虚拟模型当中。通过这种方式,建筑师、设计师以及旗工队伍能够以可视化方式掌握遍布整个运作环境下的数亿个数据标记。专家提醒Autodesk公司的Vault数据管理软件可以帮助设计、工程和施工团队组织、管理和跟踪数据创建、仿真和文档编制流程。借助版本管理功能,企业可以更好地控制设计数据,快速查找和重用设计数据,从而更加轻松地管理设计与工程信息。使用Autodesk Vault后,用户可以在一个平台下管理所有的CAD和非CAD数据,从而提高工作效率,如图3-9所示。图3-9 Autodesk Vault3.2 掘金红海,10大大数据分析平台“大数据”近几年来可谓蓬勃发展,它不仅是企业趋势,也是一个改变了人类生活的技术创新。在大数据的帮助下,警察可以通过犯罪数据和社会信息来预测犯罪率,部分科学家通过遗传数据预测疾病的早期迹象。可以说,现在整个行业都非常看好大数据。

毫无疑问,在大数据时代下,企业和机构要想实现更大的业务价值,首先需要解决的就是基础架构问题,基础架构之中存储又是重中之重。目前,我国从事大数据领域的企业少之又少,而国外的科技企业将大数据看作是云计算之后的另一个巨大商机,很多企业开始加入到大数据的淘金队伍中,这一领域已经成为实实在在的红海。

本节将介绍全球10大著名的大数据分析平台(注意:排名不分先后),他们是大数据领域的“时代先锋”,他们都看到了大数据带来的大机会。3.2.1 IBM:大数据领域的传统巨头

企业名称:IBM(如图3-10所示)

分析平台:InfoSphere大数据分析平台

上线时间:2011年5月

公司地址:美国纽约州阿蒙克市

企业网址:http://www.ibm.com/

主要业务:软件、服务器、存储、IT服务以及云计算等解决方案

业务方向:主要面向大企业等图3-10 IBM Logo

IBM是一个拥有101年历史的公司,总部在美国东海岸。它曾经生产打字机,还生产大型PC机,其产品使用开源技术进行交互操作。在IBM的发展过程中,很多产品都是通过一系列兼并得来的。最重要的是,IBM是一家服务公司,有着工作在全球各地的顾问团队。

IBM向我们展示了将大数据与企业连接的重要性和一个主流服务组织,它还展示了向业务软件中嵌入分析功能的力量。

2011年5月,IBM正式推出InfoSphere大数据分析平台。InfoSphere大数据分析平台包括BigInsights和Streams,二者互补。○ Biglnsights基于Hadoop,它对大规模的静态数据进行分析,提供

多节点的分布式计算,可以随时增加节点,提升数据处理能力。

例如,丹麦能源企业维斯塔斯(Vestas)通过使用BigInsights大

数据软件分析PB字节级别的天气数据,改善风力涡轮机的放置

位置,从而获得最佳能量输出效果——以前需要数周方可完成

的分析现在仅需不到一个小时。专家提醒Hadoop本身不提供分析的功能,因此BigInsights平台增加了文本分析、统计分析工具。○ Streams采用内存计算方式分析实时数据。Streams最早是美国

国土安全部和IBM合作的项目,国土安全部出于反恐目的,需要

实时分析电话语音信息,这个项目最终发展成为一个商用的项

目。

另外,InfoSphere大数据分析平台还集成了数据仓库、数据库、数据集成、业务流程管理等组件。3.2.2 亚马逊:完美结合大数据与云

企业名称:亚马逊(如图3-11所示)

分析平台:弹性MapReduce(Amazon Elastic MapReduce)

上线时间:2009年

公司地址:美国华盛顿州西雅图

企业网址:http://www.amazon.com/

主要业务:电子商务、云服务

业务方向:主要面向大企业等市场图3-11 亚马逊Logo

亚马逊的老本行是图书音像制品销售,但现在这只是其业务的一个组成部分,而且已经不是公司业务的核心。如今,亚马逊已经成为一家拥有大数据,并以此获得持续利润的云计算企业。电子商务的数据,合并在这些大数据之中,仅仅是亚马逊将数据变为现金的一种方式。

亚马逊对于云计算和大数据具有先见之明,早在2009年就推出了“弹性MapReduce(Amazon Elastic MapReduce)”系统。MapReduce本身是一种编程模型,用于大规模数据集(大于1TB)的并行运算,常用作Web索引、数据挖掘、日志文件分析、金融分析、科学模拟和生物信息研究等。

然而,“弹性MapReduce”是一项能够迅速扩展的Web服务,其运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上。面对数据密集型任务,例如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多大容量,“弹性MapReduce”系统立即就能配置到多大容量。

对于MapReduce,笔者认为可以将其简单理解为:把一堆杂乱无章的数据按照某种特征归纳起来,然后处理并得到最后的结果。专家提醒亚马逊的“弹性MapReduce”服务系统是在AWS平台(AWS Enterprise BPM Platform,业务流程管理开发平台)之上的Hadoop实现,它用来简化新的MapReduce应用,从而让这项技术拥有更加广大的受众。3.2.3 甲骨文:高集成度大数据平台

企业名称:甲骨文(如图3-12所示)

分析平台:Oracle大数据机

上线时间:2010年

公司地址:美国加利福尼亚州红木滩

企业网址:http://www.oracle.com/

主要业务:数据库、应用软件以及相关的咨询、培训和支持服务

业务方向:主要面向大企业等市场图3-12 甲骨文Logo

甲骨文公司,全称甲骨文股份有限公司,是全球最大的企业软件公司,也是继Microsoft及IBM后全球收入第三多的软件公司。

伴随大数据而至,大数据分析和管理得当与否将对企业数据中心产生极大影响。作为全球最大数据库软件公司,甲骨文应时而行,推出针对大数据的众多技术产品来满足企业需求,同时提升自身的价值。

2011年10月,甲骨文正式推出了Oracle大数据机(Oracle Big Data Appliance)为许多企业提供了一种处理海量非结构化数据的方法。尤其是对于那些正在寻求以更高效的方法来采集、组织和分析海量非结构化数据的企业而言,该产品具有很大的吸引力。

Oracle大数据机同Oracle Exadata数据库云服务器、Oracle Exalytics商务智能云服务器和Oracle Exalogic中间件云服务器一起组成了Oracle最广泛的高度集成化系统产品组合,其可以帮助客户获取和管理各种类型的数据,并且可结合现有企业数据来分析,获得新的见解,从而帮助客户在充分获取信息的情况下做出最恰当的决策。专家提醒Oracle大数据机能够拥有强大优化企业数据仓库的能力,主要源自其配备有Oracle Big Connectors软件。Oracle大数据机旨在帮助客户利用Oracle数据库11g便捷整合存储在Hadoop和Oracle NoSQL数据库中心的数据。3.2.4 谷歌:价值无可估量的大数据

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载