大数据时代必读书系(一本书读懂大数据+一本书读懂互联网思维+一本书读懂互联网+一本书读懂互联网金融)套装共四册(txt+pdf+epub+mobi电子书下载)


发布时间:2020-10-12 14:19:08

点击下载

作者:黄颖,庞晓龙,李天阳

出版社:北方文艺出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据时代必读书系(一本书读懂大数据+一本书读懂互联网思维+一本书读懂互联网+一本书读懂互联网金融)套装共四册

大数据时代必读书系(一本书读懂大数据+一本书读懂互联网思维+一本书读懂互联网+一本书读懂互联网金融)套装共四册试读:

 版权信息书名:大数据时代必读书系(一本书读懂大数据+一本书读懂互联网思维+一本书读懂互联网+一本书读懂互联网金融)套装共四册作者:黄颖,庞晓龙,李天阳排版:昷一出版社:北方文艺出版社出版时间:2015-01-01ISBN:9786154974572本书由北京明天远航文化传播有限公司授权北京当当科文电子商务有限公司制作与发行。— · 版权所有 侵权必究 · —总

目录

CONTENTS

一本书读懂大数据

一本书读懂互联网思维一本书读懂互联网+一本书读懂互联网金融目录CONTENTS

前 言

第一章 身处数据时代,揭开大数据的面纱

大数据到底是什么?

“大”是重点,还是“数据”是重点?

与众不同的大数据

大数据方式下的云计算

大数据的奥秘

当下是大数据发展的最佳时机

第二章 大数据如此重要,引无数英雄竞折腰

多样的非结构性数据

大数据的价值发掘

大数据的结构化、非结构化、半结构化及多结构化

大数据是扩展性的下一代传统数据

是什么构成了大数据价值链?

大数据时代真的来了

第三章 需求挖掘与分析,电子商务与大数据

大数据时代中的电子商务

亚马逊在大数据时代的实践

小米手机在大数据时代的实践

小米手机对“米粉”需求的文化挖掘

阿里巴巴数据化运营的那些“大招”

大数据中的企业价值及客户价值

第四章 数据和企业管理,高层更看重大数据

沃尔玛如何用数据构建管理模式

让大数据进入企业管理

职业乞丐脑袋里的大数据

职业经理人与大数据

企业组织管理不介入大数据,就要被淘汰

第五章 生活无处不数据,大数据真的能算命?

未来的先兆——大数据

大数据带来的经营理念的转变

大数据的舆情服务

大数据预测你的下一步行动

数据也会骗人,从人的动作推导数据

网络数据背后的价值

第六章 颠覆与重塑思维,大数据与思维革命

大数据时代的综合人才

飞利浦的大数据营销策略

阿里小贷的“不可能的任务”

第三方支付业务的另一种思路

P2P网络借贷动了谁的奶酪

大数据带来的智能化与柔性化

生活、工作、思维的颠覆重构

第七章 得数据者得天下,商业竞争中的大数据

大型公司的垂直一体化趋势

客户形象的丰富源于对客户的全面理解

量化奠定了数据化的内核

文字的数据化进程

地理位置的数据化构建

数据化的沟通方式

企业竞争力的关键——大数据

第八章 让数据张口说话,管理决策中的大数据

客观数据最具发言权

挖掘潜力股的数据化进程

时代因大数据而变革

大数据时代的风险规避策略

企业文化的数据化构建

第九章 更自由,更开放,大数据的机遇和挑战

人机结合的未来发展趋势

数据时代,引发时代大变革

数据可以表示世间万物,会带来惊喜

数据化带来的挑战前所未有

返回总目录前    言

世界的万千变化一直超乎人们的预测,自2012年以来,大数据一词成了人类生活的代名词。如今,数据几乎已经渗透到了每一个行业的每一个领域之中,成了不可或缺的生产因素。每一天,互联网都会繁衍出无数的数据,这些内容足以刻满2亿张光碟;而手机客户端发出的帖子和邮件总数可达到3000万亿……如此惊人的数据使得对海量数据的挖掘和分析,成了企业发展的重要内容。大数据的数量大、类型多、时效快、价值密度低的特点,让这个崭新的时代充满了变数和乐趣。

数据迅速地膨胀,让差别细微的算法就足以决定企业的发展方向。很多企业在大数据时代纷纷进行了多种多样的尝试,这是一场伟大的革命,庞大的数据资源的冲击,让商界、学术界等所有领域都开始了量化的流程,积极探索大数据时代的奥秘。

这本书中,我们能够揭开大数据的面纱,挖掘和分析大数据整个流程的重要关卡,掌握大数据的多种特性和价值特征,对其结构有精准的把握。同时,我们将大数据和小数据时代进行对比,让读者更加清晰地认识我们生活的时代。

电子商务界乘着大数据的狂风,掀起了人们生活的数据风暴。国内外的企业使尽浑身解数,在大数据的海洋里摸爬滚打。从市场来看,阿里巴巴、小米、亚马逊的行动最为迅速、高效。任何企业,只有把握住了大数据时代的机遇、接受大数据时代的挑战,企业才能拥有了缩短发展时间、完成飞跃的筹码。

大数据和企业的生存发展息息相关,企业的管理层需要全面的数据源来确定正确的航向,全面的数据源搜索和分析需要专业人才,专业的人才需要经历商业气息的洗礼。这一切都成了企业在大数据时代直接面临的机遇和巨大挑战。得数据者得天下不再是一句标语,企业的整个商务链条都需要数据的支撑来保驾护航,失之毫厘谬以千里的教训时时刻刻都可能发生。重视大数据、对大数据了解详尽的企业高管才有可能带着企业在正确的路上,获得竞争优势。

进入大数据时代,让数据开口说话将成为司空见惯的事情,本书将从大数据时代的前因后果讲起,全面分析大数据时代的特征、企业实践的案例、大数据的发展方向、未来的机遇和挑战等内容,展现一个客观立体、自由开放的大数据时代。第一章身处数据时代,揭开大数据的面纱

科技的迅速发展,互联网金融的兴起和繁荣,把数据推到了所有金融元素的核心位置。越来越多的企业逐渐认识到只有掌握正确的数据并看透数据背后的故事,才能够获得源源不断的财富。大数据时代伴着铿锵有力的节奏引领了世界的新潮流。大数据到底是什么?

如果要追溯“大数据”这个专业术语最初的出处的话,就必然要提及apache org的开源项目Nutch。在那个时候,大数据的意思是更新网络搜索索引,同时还需要批量处理和分析大量的数据集。谷歌的Map Reduce和Google File System(GFS)发布了之后,大数据的定义中除了涵盖大量数据之外,还包括数据处理的速度。

研究机构Gartner曾给大数据(Big data)下过这样的定义:大数据是一种基于新的处理模式而产生的具有强大的决策力、洞察力以及流程优化能力的多样性的、海量的且增长率高的信息资产。

大数据一词源于英文的“Big Data”一词,以往也有类似的词语,如“信息爆炸”“海量数据”等等似乎都很难去准确描述这个词的具体内涵。麦肯锡全球研究所所做的《大数据:创新、竞争和生产力的下一个前沿》(James ,2011)是这么定义“大数据”的:

大数据通常指的是大小规格超越传统数据库软件工具抓取、存储、管理和分析能力的数据群。这个定义也有很强的主观色彩,因为究竟什么样规格的数据才是大数据,这没有统一的标准,也就是无法确定超过多少TB(1000GB)的数据才是大数据。随着时间的推移和技术的发展,我们必须知道“大数据”的量会越来越大。还有一点,这定义也会因为部门的差异而发生标准的变化,这和通用的是什么软件以及特定行业数据集的大小有密切的关系。所以,现有各行业的大数据可以是几十TB,也可以是几千TB。

按照EMC的界定,特指的大数据一定是指大型数据集,规模大概在10TB。通过多用户将多个数据集集合在一起,能构成PB的数据量。

在IBM2011IOD大会上,负责IBM软件和硬件两大集团的高级副总裁Steve Mills曾说过:“分析已经成为必要的能力,不再只是一个工具,是一种能让业务流程运转的智慧能力。企业要转化信息的洞察力为行动,而不是仅仅去争取竞争的优势,要将其转换为生存的根本。”

IBM公司概括大数据时有三个V,也就是大量化(Volume),多样化(Variety)和快速化(Velocity),此外它们还针对客户有了“大数据解决方案”的服务。IBM公司对大数据所概括出的三个V,其实也说明大数据潜藏的另一个V——价值(Value)。就这么说的话,大数据确实具备这四个V的基本特征。

大数据的第一个特征是数据的量大。电脑的数据运算和储存单位都是字节(byte),1KB(kilobyte)等于1024B,就是千字节。除此之外还有更高的单位MB(Megabyte兆字节),GB(Gigabyte,吉字节),TB(Trillion byte,太字节)、PB(Pet byte,拍字节),EB(Exabyte,艾字节),ZB(Zetta byte,泽它字节)和YB(Yotta byte,尧字节)。每一级之间的换算关系是1024。到了2009年,几乎每一个美国企业,只要是雇员人数超过1000人的,它的数据存储量大概都超过了200TB,这是十年前沃尔玛公司数据仓库存储量的2倍还多。在不少经济部门当中,企业平均的数据存储量甚至都达到了1PB。2010年欧洲组织的存储总量大概为11EB,这个数字几乎是整个美国数据总量(16EB)的70%。2010年全球企业在硬盘上的数据存储量已经超过了7EB,而在PC和笔记本电脑等设备上的个人存储量也超过了6EB。美国国会图书馆当时存储的数据大概只是1EB的4000分之一(James,2011)。硬件技术的发展速度远远赶不上数据容量的增长速度,为此数据存储和处理的危机应运而生。巨大数量的数据被处理掉,例如医疗卫生提供商会将它们90%的数据给处理掉(这其中包括几乎所有在手术过程中产生的实时视频和图像资料)。

只不过,大数据不单纯只是大。海量数据存储危机的产生不仅仅是由于数据量爆炸性的增长,还有数据类型的改变带来的,这就是第二个V,多样化。此前的数据库用二维表结构存储方式就可以储存数据,譬如常见的Excel软件中处理的数据,这称为结构化数据。可是现在随着互联网多媒体应用的出现,像是声音、图片和视频等等非结构化的数据所占的比重在日益增多。有统计表明,全世界非结构化数据的增加率是63%,相对而言结构化数据增长率只有32%。2012年,非结构化数据在整个互联网数据中的占比已经超过了75%。

Informatica中国区的首席产品顾问但彬就提到过,大数据里有海量数据的含义,但它又大于海量数据的定义。简单来说,海量数据加上其他复杂类型的数据就是大数据的概念了。但彬还提到,所有交易和交互数据集都属于大数据,它的规模和复杂程度早已在依据合理成本和时限进行捕捉、管理和处理数据集的传统技术的能力之上。

简而言之,三种主要技术趋势汇聚成了大数据:其一是海量交易数据,包括半结构化和非结构化信息,在从ERP应用程序到基于数据仓库应用程序的在线交易处理(OLTP)和分析系统的过程当中总在不断增长。企业很多的数据和业务流程也在不断走向公共和个人云转移,将造成更为复杂的局面。其二是海量交互数据。因为Facebook、Twitter、LinkedIn以及其他更多的社交媒体的兴起,这一部分数据诞生了海量的交互数据,其中涵盖了呼叫详细记录(CDR)、设备和传感器信息、GPS和地理定位映射数据,还有利用管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件,等等。其三就是海量数据处理。随着大数据的涌现,已经有很多用于密集型数据处理的架构应运而生,比如Apache Hadoop,它具有开放源码以及在商品硬件群中运行的特性。此外还有能以可靠、高效、可伸缩的方式分布式处理大数据的软件框架Hadoop。它之所以可靠,是因为它能够提前假定计算元素和存储失败,所以它能够维护多个工作数据副本,用并行处理的方式来加快处理能力和速度。Hadoop也是可伸缩的,PB级的数据它也可以处理。另外,Hadoop因为依赖于社区服务器,所以它的成本很低,不论是谁都可以使用。对企业来说,最难的在于如何通过成本效益的方式从Hadoop中存取数据。Hadoop最知名的用户是脸谱。通过Hadoop,像脸谱这一类的网站,也就可以自由地处理海量的数据,同时获得较高的收益。“大”是重点,还是“数据”是重点?

先来做一个小测验。当阅读开始前,先停下来思考这么一个问题:哪部分是术语“大数据”中最为重要的?是大,还是数据?还是二者都一样重要,或是都一样不重要?花一分钟的时间去思考这个问题。假如已经有了自己的答案,那就开始阅读接下来的内容。

既然答案已经有了,那就来看看哪个是正确的?显然,正确的答案应该是最后一个,事实上在大数据中,“大”和“数据”都不重要。其中最重要的是企业该如何去驾驭这些大数据。对大数据进行分析,以及在此基础上采取的业务改进才是最为关键的。

事实上,大数据本身是没有任何价值可言的。即便是一个人比另一个人拥有更多的数据,这也不代表什么。任何一个数据集,它们或大或小,本身都没有价值可言。如果不懂得如何去使用收集来的数据,那这些数据不会比地下室里的垃圾更有用。要是不投入环境或者是付诸使用的话,数据的意义就不在了。任何大量或是少量的大数据该如何体现自己的威力呢?要怎么去分析这些数据呢,又该如何去洞察或是采取什么样的行动呢?这些数据又要如何来改进业务呢?

很多人在阅读了众多炒作大数据的文章之后就相信之所以大数据要比其他数据有优势,就在于它的容量大、速度快和多样性,这种说法并不准确。在很多大数据当中,相比以往数据会存在更多毫无价值或是价值很小的数据。一旦大数据被精简到实际需要的容量时,它们所呈现出来的就不是大数据了。事实上这也不重要,无论是它被精简还是保持原本庞大的模样,这些关系都不大,最重要的是处理它的方式。所以说使用数据要比起它的容量更为重要。

大数据庞大的规模并非人们所关注的,包括它们能带来巨大的内在价值也非关注的事实。最大的价值还在于分析的方式,以及采用什么样的方式来改进自己的业务。

在人们阅读一本书的时候,关键点的第一个是大数据的大数据量,并且要承认大数据也是数据中的一种。只不过这并非企业兴奋的理由所在。这些数据使用时的新颖且强大的分析方式才是企业注意力集中的地方。作为社交网络应用的Facebook和微博,都构建了关联普遍用户的行为数据。人们在网络上浏览网页、购买商品、游戏休闲原本是不关联的。当智能手机推广普及之后,网络的行为越来越碎片化了。假设没有一定的关联,就很难去分析和利用这些数据。社交网络提供给用户统一的借口,让无论是玩游戏还是买商品的客户可以轻松地把碎片化的信息发到网络上。就像是一个用户行为数据连接器的角色一样,微博把所谓网络上用户的行为,完整地关联起来,画出一幅生动的网络生活图景,把用户的偏好、性格、态度等特征真实地反映出来,而这当中就是最为充分的商业机会。

彼此关联的数据价值要远大于孤立的数据。可是在当下数据孤岛是很常见的。个人计算机中的文件一般都会以某种类目来存放,内容和内容之间没太强的联系。企业之间也是如此,很多部门之间都壁垒林立,似乎每个人都愿意去保护自己的数据,从而形成“数据割据”的局面。只要是处在数据孤岛中,大数据所潜在的价值是很难被挖掘出来的。与众不同的大数据

有别于传统数据源的大数据有不少重要的特征,不是每个大数据源都有这些特征存在,绝大多数的大数据或多或少地都存在一些这样的特征。

第一个特征是大数据的来源往往是机器自动的结果。人工不会干涉到新数据的产生过程,完全是机器自动的结果。如果拿传统数据源进行分析的话,就会发现它们的形成过程中会有人工的痕迹,像是零售业和银行交易、电话呼叫记录、产品发票等等,和某个人做的事情都有关系,无论什么情形,都会有人参与到新数据的形成过程中。可是大数据不是这样产生的,它不会在产生过程中与人互动,像是引擎中内置的传感器,即便没有人干预周围数据也会自动生成。

第二个特征是大数据作为一个全新的数据源,不仅仅是已有数据的收集扩展,比如在互联网中,顾客与银行、零售商之间可以直接在线交易。事实上这种交易方式和传统交易差异不大,不过是换一种渠道而已。企业通过收集网络交易数据就会发现这样情形下的数据和多年来他们得到的传统数据差异不大,不过是数量增加了而已。如果收集的是客户浏览行为的数据,那就会产生本质上全然不同的数据。

上面提到的相同类型数据,不过是数量多了的说法也会因为达到另一个极端,成为最新的数据,比如说传统读电表都是人工方式,也就是说自动读取用电数据的智能电表所产生的数据就是类型相同,不过是数量增加了。不过这种数据在某种程度上也能成为一种有别于人工读取的数据,应用更为深层次的分析方式,这样一来它们就可以称作是新的数据源。

第三个特征是大数据中的大多数设计并非友好。实际上这些数据并未经过设计。就拿社交媒体网站上的文本流举例,用户不一定会被要求用标准的语序、语法和词汇表。人们的信息一经发布,社交平台就能够获得数据。这些不太规范的数据处理起来还是有一定困难的。在设计之初,大多数的传统数据都尽量要友好一些,就比如收集交易信息的系统最早生成数据会以整洁或是预先规范的方式来操作,这样形成的数据就更有利于加载和使用。还有一部分原因是由于要对空间进行高效利用,以避免出现空间不够的局面。

大数据有时候还会是凌乱和丑陋的。通常最开始传统数据就已经被严格地定义。每一比特的数据都存在重要的价值,这是必需的。一般大数据源一开始不会被严格定义,这和存储空间的开销越来越微乎其微有关,必须对各种有用的信息进行收集。所以说大数据分析的时候,各种凌乱丑陋的数据都有可能遇见。

最后的特征是海量数据并非有大量价值。实际的数据很多都是毫无价值的。在一篇网页日志当中,非常重要的数据就包含其中,当然也有好多没价值的数据也在其中。很有必要从中提炼最有价值的部分。定义传统数据源的起初就要求数据是百分百有用。这是因为可扩展性受到了限制,所以如果有没价值的信息在当中的话代价会非常昂贵。除了最初定义的有数据记录的格式外,数据内容和价值也被定义和约束了。当下存储空间的问题已经不存在了。大数据所收集的是所有的信息,然后再去解决这些冗余信息所带来的问题。只有这样才会不遗漏所有的信息,与此同时在分析数据时的麻烦也会让人头疼不已。大数据方式下的云计算

消费者会觉得大数据和云计算很无聊,可是对于Delphix来说却是一座宝藏,因为它正在利用这种技术进行敏捷数据管理。

Delphix不需要部署冗余的基础设施在自己的敏捷数据管理解决方案之上,还能同时提升流程的速度。客户因此能更为快捷地完成交付使用。其实敏捷数据管理就是企业数据库内虚拟化数据,再提高数据库驱动型应用的开发敏捷性质,因此使数据库和应用管理都发生大的改变。企业的数据库被Delphix放到了云上,再通过数据同步和虚拟化技术交给适当的人最恰当的数据。Delphix宣称有了应用交付解决方案后,应用项目的进度会提升5倍之多,成本会减少90%,事实上2010年Delphix面世后的销售增长率达到了300%。

成立于2010年的Delphix,2012年6月它的C轮融资就完成了2500万美元。这一次融资的领投是Jafco Ventures,投资人中还有Greylock Partners。迄今为止Delphix总融资金额高达4550万美元。公司依赖其“敏捷数据”拿到了超额认购。企业数据库的数据在“敏捷数据”的虚拟化作用下,增强了数据驱动应用的敏捷性,经济数据库和应用管理速度也提升了。

不少企业都把自己的目标设定为借由一个强大的平台来实现品牌推广,可是很多社交网站的数据还是找不到可行的商业模式,因为预期真正得以实现的不多。不过社交数据公司在不断发展壮大,可以想见不远的将来社交网站的影响力利用问题不会再是遥远的梦想。

像是纽约的SumAll公司期望就是要带给每个客户“小而美”的数据。SumAll所提供的平台在于提供给中小企业实时的数据服务,利用桌面、iPhone和安卓系统来访问,可以看到很多可视性的大量数据,也就更便于阅读和观看。SumAll在和Shopify、PayPal和Magento合作电子商务和支付系统的时候,用户点击几下就能完成账户的集成工作。SumAll对于实时数据的分析很快速,再为用户提供一个如社交媒体式的“新闻订阅”一样的简洁分析和见解。SumAll还会为客户提供深入挖掘税收、发货和出售量的服务,甚至连对客户依照不同标准的排序分析也可以完成。

2011年11月成立的SumAll,在2012年6月著名风险投资公司Battery Ventures牵头联合Wellington Partners、Matrix Partners和General Catalyst Partners为SumAll投资了150万美元的种子期融资。SumAll到2012年12月对外宣布获得了600万美元的A轮融资,还是Battery Ventures联合Wellington Patners对其进行投资。目前设在纽约总部的公司有25名员工。

还有Ngdata公司,企业用户和他们的消费者通过它们能够进行一对一的营销模式提供和得到最好的建议和产品。Ngdata曾推出过一个产品Lily集成了内外部的结构化和非结构化的数据。Lily还可以用人工智能拍照工具对消费者的习惯和爱好进行记录。正在快速成长的大数据市场,对企业的价值越来越大了,企业对市场的评估和行为的预判都要通过这些数据分析。ING的投资总监Tom Bousmans说过,消费者所产生的数据有上亿个,企业都可以通过这些来了解用户需求,彼此间还有个性和动态的互动。

成立于2009年的Ngdata的员工现有20名,它们还有类似Wibidata和Spire这样的竞争对手。Ngdata与竞争对手的不同在于它能够提供企业与消费者实现互动的数据解决方案,不仅是单纯专注在大批量数据分析之上。2012年10月Ngdata获得了250万美元的融资。这一次融资的资金主要来自ING、Sniper investment、Plug and Play Ventures等投资机构和一些天使投资人,这份资金将帮助Ngdata推广个性化产品线的拓展,并在纽约和旧金山专门为美国客户设立服务办公室。

Attivio的创始人Ali Riaz觉得企业用户每发送一条查询请求的时候,得到的信息都是具有洞察性的,绝非罗列出来的链接或是一张简单的图表。它回答的问题不仅是“是什么”还有“为什么”,就比如销售量下降是市场需求下降还是销售人员表现不够突出造成的。

任何一家企业要做的工作都是市场营销。近几年社会化媒体的兴起,让营销业者的注意力都集中在了数字营销之上,不过对于这个领域营销人员还欠缺有效的分析。Good Data公司正是瞅准这一商机,开始为营销人员提供集成服务,让他们可以利用微博等社交网络平台进行深度的分析。大数据的奥秘

事实上并不是说大数据的处理就有多困难。收集一些数据,企业的分析专家团队就可以开始进行数据价值的探索。企业要做的就是要让分析专家团队最近地去接触那些数据,接下来的工作才是开始进行分析探索。要相信分析专家和数据科学家们都会很好地做好他们应该完成的工作。

一个很老的拇指法则指出,分析数据的工作的时间中有70%~80%都花在了收集和整理之上,剩下的20%~30%的时间才是真正的分析。大数据在刚开始处理的时候,分析时间所占的比例就更低了。一开始分析专家会用95%左右的时间来处理数据,甚至有时还会达到100%,接下来才会思考这些数据如何用来做更为深层次的分析。

上述做法必须得到理解。首先分析数据的流程中最重要的一环就是要先弄明白数据源的本质。对它们的表现、调整加载情况过程反复地进行检查,才能保证选择出能够更好地服务于目标的数据,虽然有很多数据并不那么吸引人或是令人兴奋,可确实是选出了最重要的数据。要是这些步骤都被忽略的话,那后面的分析环节就不能继续。

大数据中最优价值的部分被确定了,也就能确定用什么办法选择提取这些最优且精确的部分,这是最为关键的环节。这一环节必然是非常耗时的,尽管是花了比预计还要多的时间,也不用为此懊恼。因为企业的分析专家和业务赞助商是需要在弄明白数据源的过程中寻找一个代价最小、见效最快的方式。不论这东西是不是微不足道,但要给企业展示的一定是最有价值的东西。人们可以因此对此过程保持最高的兴趣,并协助其他人理解进展的过程。

大数据要如何应用到业务中,这是个非常耗时耗力的过程。在这一过程中,企业的分析专家和业务赞助商总是想要找到最有效的方式,为企业展示这方面的进展,并以此来赢得最稳定的回报。

举个欧洲零售商的例子,公司总想获得最为详尽的网络日志数据。公司在经历了一个漫长且复杂的收集数据的过程后,开始实施了一系列简单的举措,其中包括鉴别用户浏览过的商品,在这些数据的基础上,他们建立了一个电子邮件系统,目的是为了给浏览过商品却未购买的顾客发邮件。企业从中获取了高额的利润。

公司采取了类似的基本早期措施外,还会继续投资于收集和加载网络数据之上。最为关键的一点在于他们缺乏处理整套数据流的经验和意愿。试想一下经过数据的深层次分析后他们所得到的回报。也正是因为这些快速及时的进展,每个在企业中的人都乐意再继续下去。他们或许从最早期的举措当中看到了数据的巨大威力,也已经为未来的努力买过单了。

顾客给予的是个体具体行为,这一点是最重要的。上述的例子当中已经让他们认定个人的重要性体现在了模式分析的输入数据上。每个个体从获取价值上来说并不需要识别。分析专家如今已经可以利用数据库技术在不识别个体的情况下完成分析。很多隐私的顾虑就可以就此消除了。事实上不少企业都这样来定位和分析具体个体的顾客。这些企业想必都已经制定了关于隐私保护的政策,不论在什么前提之下,这些隐私政策都要谨慎地遵守。

世界在小数据时代是如何运作的,人们总是希望通过分析和收集数据来证明这一设想。不久以后,大数据时代的到来,人们就不再局限在这设想中。因为数据的分析和研究让人们发现了从前没发现的联系。

自然理论或是社会科学带来的人们的设想,也让我们理解和预测周围的世界。人类在经历假想时代到数据时代的过渡中,很可能会发现理论不再需要了。《连线》杂志的主编克里斯·安德森(Chris Anderson)在2008年就指出:“科学研究方法因为数据爆炸都变得落伍了。”此后他还在《拍字节时代》(The Peta byte Age)的封面故事中提到了,从某种意义上说,大数据就说明了“理论的终结”。安德森曾提出,如今不再需要一系列因果关系来验证各种设想了,这种传统研究模式早已被无理论指导的纯粹相关关系研究所代替。

安德森为了证明自己的想法,阐述了之所以量子物理学称为纯理论学科的原因正是由于高耗费、复杂实验等等。他所提到的潜在观点就在于量子物理学的理论已经和实际剥离了。他提到了谷歌设计的搜索引擎和基因排序工作,他认为:“海量数据时代,所有其他的学科已经为应用学科所取代。只要是有足够的数据问题就可以说明清楚。假设有一拍字节的数据,并了解数据之间的相互关系,那问题就可以得以解决。”

安德森的文章在专业领域引起了轩然大波,事实上安德森也认识到了自己发出了过于偏激的言论,可是某种程度上说他的话还是值得深究的。当中最为核心的是,截至目前,理论总是用来在实践中理解和分析世界的,可是到了大数据时代理论已经不再必要,数据就够了。也就是说譬如世界的运作、人类的行为等等普遍规则也都不重要了。现在最重要的是数据分析,一切问题都能解决了。

事实上,大数据也是有理论基础的。譬如分析大数据所用的就是统计和数学理论,还可能涉及部分计算机科学理论。尽管和地心引力理论差异很大,但不管怎么说也是理论。大数据分析模式如果建立在这些理论之上,那必然可以实现大数据的预测能力。事实上,为人们提供新鲜深刻的洞见就是大数据的价值所在。

第一要关注的是如何收集数据,是不是数据收集的方便程度就是决定的关键因素呢,还是数据收集的成本呢?众多的理论影响了人们的决定,就如达纳·博伊德(Danah Boyd)和凯特·克劳福德(Kate Crawford)说的那样,一定程度上,结果由选择所决定。谷歌用检索词来预测的是流感而不是鞋码。分析数据的时候选择工具依赖的同样也是理论。研究结果的解读同样应用的也是理论。在大数据时代不代表理论消亡,相反却是在大数据的方方面面都渗透着理论。

安德森作为第一个发现这个问题的人,尽管没有得到合适的答案,也值得让人们欢呼。大数据不会宣称“理论已死”,当然它也从本质上改变了理解世界的方式。以往的习惯都被颠覆了,旧有的制度也面临着巨大的挑战。

当人们选择大数据的理念和方法的时候,就会感觉大数据所释放出来的价值已经让这些不再是一种权衡,而是未来的必然改变。高科技行业当中,不少人认为要依靠新的工具来到达大数据的彼岸,这观点可以理解为由于他们是工具制造者的缘故。大数据趋势的深层原因就是海量数据的存在,包括越来越多以数据形式存在的事物。当下是大数据发展的最佳时机

迄今为止,在大数据上不少企业都做得不多。幸运的是到了2012年,即便是尚未重视大数据的企业也犹未为晚,当然电子商务行业的企业除外。不过这种情况很快就会发生改变。直到今天,绝大多数的企业所错过的不过是第一个吃螃蟹的机会,所以对它们而言这问题并不大,迎头赶上的机会还是存在的。不过过几年以后,要是这家企业仍旧不关心大数据的话,那它就会被淘汰。所以说,现在是控制大数据最好的时间点。

不管是什么企业获取业务价值都可以通过新的数据源来完成,而那种竞争对手还未发现这方式的情况不多见。大数据给所有人都提供了巨大的商机,无论是谁都要能打败自己的对手才能赢在最前方。未来的几年,人们会陆陆续续看到大数据分析所带来的成功案例。不少案例都会显示部分企业会毫无先兆地就被行业所淘汰了。而这些例子现在就已经引起了众多人的注意了,所谓这些企业正是那些在行业当中反应迟钝,落后守旧的企业。如果在新兴的电子商务行业中,则情况就有很大不同了。

因此,现在是最佳的时机。

实际上,控制大数据绝非想象中的那样难。不少大企业都已经开始了自己的数据收集和分析工作了,还将其视为自己发展战略中的核心部分。像数据仓库、报表和分析都已经应用得非常广泛了。企业只要意识到数据存在的价值,那么只需要延伸和扩展现有的工作就可以做到控制大数据。怀疑论者的话,诸如大数据没有探索价值,它们还没有得到验证,风险太大等等都不能信。过去的几十年,很多同样的借口也在一步步成为数据分析的障碍。还不确定大数据价值的人,必须让他明白大数据的分析和控制不过是现有企业所做事情的延伸罢了,并非本质性的变化。因此,大数据既然在人们身边,就不要害怕它的到来。第二章大数据如此重要,引无数英雄竞折腰

在这个一秒钟就可能江山易主的大数据时代,获得最真实可靠的数据并进行准确的分析和预测是企业占得先机的重要条件。如何在数据上展开角力成为企业生存的核心问题,只有企业对大数据的“外貌”和“内涵”有详尽的了解和把握,企业才有可能在未来的发展中分得一杯羹。多样的非结构性数据

在电影《黑客帝国》当中,主人公尼奥在服下了蓝色药丸之后,就发现所有在他身边的一切其实都是数字化的幻想而已,他的工作、伙伴、住的高楼,看到的天空大地,甚至于他的情绪都不例外。电影的创作自然可以天马行空,真实的物理世界尽管不是如此,但不可否认的是它也在朝着数字化的方向高速前进。

像是高楼大厦,在动工之前就会形成一个涵盖了设计、施工、维护等多方面的综合建筑信息模型,它所使用的就是三维建模技术。在消费者看来,人们绝对会因为建筑信息模型的美观大方而自掏腰包购买效果图;在地产商看来,建筑信息模型所透露出来的信息便是他们需要为整个过程投入多少;在设计师看来,整个模型清清楚楚地呈现了所有设计的综合,他们能够在当中调整管线走向和通风设计等等;在工人看来,模型就是他们的施工图;在消防部门看来,即便是尚未完工的建筑也可以通过模型来评估它的消防效果,并模拟人群疏散的动态情形。总之,这建筑的方方面面实际上都已经数字化了。

日常生活中人们所接触到的文件、照片、视频,还有海量的数据,都有大量的信息蕴含其中。此类数据的特点是共同的,尽管它们的大小、内容、格式和用途并不相通。拿最为常见的WORD文档举例就会发现,最为简单的文档可能就只有几行字而已,但是一旦插进了图片、音乐等多媒体内容就可以成为一个多媒体的文件,文章的感染力就会增强。这一类数据就是非结构性数据。

结构性数据与之相对应,在结构性数据中人们对于表格中的数据可以简单解释,因为结构都是相通的。每个人每个月所领到的工资条,工资条的结构就没有变化过,变化的只是里面的工资和个税、保险。个人的工资条排列在一起就形成了工资表。结构化数据的计算机处理技术已经成熟了,会计和审计可以很有效地利用Excel工具来进行加减乘除、汇总和统计等一类的任务。要是有大量运算存在的话,商业数据库就会使用上,它们的任务就是存储和处理这些结构性数据。

可是,日常生活中无论是企业数据还是日常数据,大部分都是非结构性的。有咨询机构调查显示非结构性的数据占到了整个企业数据量的80%,还有调查显示高达95%,这个数据暂时还没有权威、准确的统计。信息产业这么多年一直在努力的方向就是让非结构性的数据能和结构性数据一样获得便利、快捷的处理。可是他们总在走弯路,一开始人们希望用处理结构性数据的方式来处理非结构性数据。只是非结构性数据个体之间的差异太大,用统一的处理模式来硬套的话,结果显然是不会太好。因此人们有很长一段时间认为非结构性数据的处理难度很大。

幸运的是谷歌公司成了大数据处理技术的先驱,它为公众提供搜索服务的同时,把大量网页、文档等数据的快速访问难题也解决了。雅虎公司也有一个研发小组,在谷歌技术的基础上成功地开发了一整套处理大数据的程序框架,这就是大众所熟知的Hadoop。目前这个领域的技术发展很是快速。

以上这些公司的技术研发,让不少人在面对非结构性数据的处理问题上重新找回了自信,因此高清图像、视频等处理技术都进入了快速发展的时期。

社交网络上人们情绪表达方式也日渐丰富,企业为人们开发了众多表达心情的标准化图示,用以表达人们的各种复杂的情绪。大数据的价值发掘

我们来说说银行、地铁中那些敏感部门或是地点的视频监控,凡摄像头的运转均为24小时,它势必会产生大量的视频数据。通常情况下的视频数据是枯燥乏味的,人们不会关心。但是一旦拍到了图谋不轨的行为,那么对于公安人员来说这视频就非常有价值了。可是事先人们不会知道哪一个部分有用,因此所有的视频材料都要保存下来,即便是存了一年的数据哪怕只有一帧对破案有用也是有价值的视频。不过对于研究人类行为的社会学家来说,这些视频都是非常珍贵的第一手材料,因为从中能发现人类的行为模式特点。

人们如今要获得医疗数据并非难事,手腕上的一块和电子表颇为类似的仪器就可以随时随地测量脉搏、体温和血压等等数据,再不断地将其传回医疗中心。数据除了能帮助人们检测自己的健康情况外,医疗保险公司也很是青睐这技术。保险公司的精算师依照这些数据的特点来研发新的保险产品,对他们现有的产品组合也是非常有帮助的。

上述的种种事例说明了:1.数据的价值是无可限量的;2.当然这价值犹如沙滩中的黄金一般需要挖掘;3.组合数据的价值要比单一种类的数据价值高得多。

在研究各行各业的数据应用中,会发现即使手中有一座如此大的宝藏,但挖掘工作仍是非常困难的,原因正是由于自身的数据中所蕴含的重生之道还不为人所知。互联网公司是最早意识到数据价值的公司,因此它们总在研究和分析领域领先。不过大数据的专利不再是属于大公司,它需要的是看待世界、产业的观念和视角。大公司通过它来合纵连横,扩张跨界,小公司也可以细水长流。关键问题在于如何看待大数据。

究竟多快才是快呢?

显然是小于1秒,就在分秒之间的客户体验。

传统数据应用和大数据应用之间的重要区别就在于此。十几年间,无论是电信还是金融行业都在经历着一场核心应用系统从分散到总部统一的过程。集中大量数据之后,所产生的第一个问题就是各类报表形成的时间延长了。业界在很长时间内都在质疑能否从海量增加的数据中快速地提取信息。

在这个领域,谷歌公司的贡献是有开创性的。谷歌的搜索引擎就仿佛在向信息业界宣布,全世界我那工业的搜索可以在1秒内完成,并得到所要得到的结果。大数据应用领域谷歌成了一个标杆。要是有超过1秒钟的数据应用的话,用户就会有不良的体验。下面举个营销方面的例子。

人们在购买越是昂贵的东西时就越是犹豫,会反复去掂量自己的购买能力。购买价格便宜的东西就越容易呈现出冲动购买的特征。根据消费者的购买特点,京东商城将其分为了四种类型,其中37%是冲动购买者。对于这类购物者来说,能够在冲动的一瞬间为其送上最为精准的商品信息,是商品销售中的关键因素。幸运的是,关于这一点,社交平台的出现,为调查人们的偏好和兴趣提供了一个极好的平台,也让大数据时代这种精准的营销成了可能。

股票市场的交易主要是高频交易,要比他人快0.02秒才能有惊人的收益。为了能比他人快20毫秒,有人特地建了一条横跨西海岸到东海岸的光纤,还有人索性就留在了纽交所所在的街区。由毫秒时间差所造成的商业机会,此后会因为大数据的普及而出现在众多行业当中。

很多以应急反应为主的新兴产业很注重时效性。他们如果了解到某工厂有了事故,就会在第一时间做出判断,评估影响范围,到达现场并展开处置。

互联网投资创业现在的热点领域是O2O。经过商家门口的消费者如果能即时收到商家的促销信息,无疑是最为美好的服务。此时的促销消息若是消费者正好需要的商品或是服务,人人都能从中获益。消费者节省了时间,商家商品得到销售,服务商也获得了佣金。如果所提供的促销信息非准确时间获得的,那就会演变成为最为恼人的垃圾信息。谁都不愿意在任何时间任何地方收到垃圾信息,而这两种信息的差别常常只是几秒钟的差异而已。

数据的活性越高就有越大的价值。曾经有一家公司提供了数据样本希望有人能帮他们来评估一下潜在的商业价值。数据量很大,更新频率也很高。这样的数据并非不常见,很多支付公司所收集到的交费记录常常都是如此。

数据的活性实际上就是数据的更新频率,更新频率越高的数据就有越大的活性,反之亦然。通常来说,数据集中的活性越大,就有越丰富的信息在其中。因此在大数据领域要有所成就的话,就要想办法去提高数据的活性。

对于公司的投资价值的判定,人们常常会听到这样的观点,公司是否拥有成规模和有活性的数据。之所以多样化和快速等特征不被提及,就因为人们更容易记住这一点。大数据的结构化、非结构化、半结构化及多结构化

阅读大数据有关文章时,很多类似数据如何被结构化、非结构化、半结构化、多结构化的概念讨论会出现。通常大数据都是非结构性的,而传统数据是结构性的。只不过二者之间的差异并非绝对清晰。

应该说,大多数传统数据都是结构性的。这说明传统数据具有明确的、预先规范好的细节的格式等特点。任何一个时候出现的新数据都是以这样的模式呈现的。对股票交易来说,交易信息的第一部分格式就是月份/日期/年份等时间信息,然后就是12位的账户数字,接下来是3-5位字母所表示的股票代码。信息的格式事先就已经定好了,再由规范好的格式和顺序给出,这样的话处理起来就比较简单。

人们在面对非结构性的数据时,常常是没有控制权的,能做的就是接收它们。像是文本数据、视频数据、音频数据等等都是这样。图像是独立像素用特定的方式组合起来的,只不过组合的方式是千变万化的。完全非结构性的数据就是如此。事实上大多数的大数据应该算是半结构化的。

半结构性的数据还是具备可理解的逻辑流程和格式,只是这些格式并非对用户都表现出了友好的姿态。半结构性的数据从某种程度上也可以被称作是多结构性的数据。此类数据,大量无价值的数据包裹着有价值的数据。相同情况下,理解和分析半结构性的数据难度要大很多。因此要用一套复杂的规则来理解半结构性的数据,只有在读了每一条信息之后才能动态地决定处理方法。

半结构性数据中最典型的就是网络日志。人们看到网络日志时,会觉得很丑陋,事实上它们中的每一条信息都有特定的价值。

非结构性的大数据源并不常见,反倒是大量的半结构性数据和多结构性数据比较常见。它们拥有可理解的逻辑流程,从中能提取出能用于分析的信息。只不过要驾驭半结构化的数据,必须有时间的保障,这才是处理它们的最佳方式。

网络日志的信息是有逻辑的,尽管很多时候很难看出来。日志中字段和分隔符都是不同的,仿佛是结构性的数据一般,包含了大量的价值。只不过它们彼此间非以固定的方式相联系。不同网站上的网络日志点击所用的时间长短不一。另外,半结构性的数据要理解其内在的逻辑并非不可能的,只不过要花上一段时间才行。

分析专家似乎更怕非结构性数据,半结构性的数据对他们来说,要征服是需要付出努力的,而他们也能够做得到。分析专家首先要把半结构性的数据组织成结构性的,然后再在他们的分析流程中运用。而对于非结构性的数据来说,困难就会大很多。即便是已经征服了半结构性的数据,他们要面对非结构性的数据时还是会感觉是个巨大的挑战。大数据是扩展性的下一代传统数据

关于大数据的各种言论作为为众人所关注的热点层出不穷,核心还是大数据要如何从根本上变革分析和使用大数据的方法。仔细思考一下,会发现事实并非如此。

关于庞大的大数据和它们的可扩展性已经不是个新鲜的话题。第一次使用新数据源的时候,通常会认定大数据是庞大的且很难使用的。事实上大数据不过是突破了当前极限,更大规模的数据罢了。分析专家对于传统数据源的掌握即便是有瓶颈的,但这也不影响其驾驭大数据源。毕竟分析专家从一开始就非常努力地在探索新数据源,并且将持续下去。

在电信公司中分析电话详单的第一人是谁?当然是分析专家。深入研究零售点销售数据并为此找到价值的第一人又是谁?当然也是分析专家。最初,分析几千个到几万个,甚至几十万个商品的数据被视为是一个巨大的难题。可是现在这一切已经迎刃而解。

最早开始做数据源分析的分析专家处理的数据便是在当时被认定为无法处理的数据。首先他们要做的是找到分析和利用的方法,并且是在当时的条件下。不少人对可行性产生质疑,还有人认为这些数据并非具有价值。

分析专家们正努力在做的事情和他们做事情的理由不会因为大数据而发生改变,即便从一开始很多分析专家会自称为数据科学家,可是他们的目标还是一致的。待解决的很多问题都涉及了大数据,这跟从前差别不大。最后分析专家和数据科学家们还是会去探索一直以来探索的事情的,并从中发现一些有价值的趋势和模式。必须强调的一点是,尽管大数据听起来很陌生,可是它所带来的挑战却无须畏惧。

不论从什么方面来说,大数据所产生的问题一定是从前出现过的。在数据分析领域,永恒的主题就是驾驭新的、可扩展性极限的大数据源。大数据不过是下一代的这种数据罢了。处理此类情况,分析师已经很是熟悉了。只要是有驾驭过其他数据经验的企业,大数据也同样可以驾驭。

分析专家的工作策略有一部分会因为大数据而改变。他们常常将新的工具、方法、技术和传统分析工具相结合,目的是为了有效地处理大数据流。要从中提取最有效的信息,复杂的过滤算法是十分必要的。当然也要更新建模和预测程序,大量的数据要输入添加到现有的输入当中去。

从根本上来说,分析的目标和流程并不因工作策略的改变而改变。大数据催生的是创新性的分析方法,分析专家也必须在继续扩展性的瓶颈下革新。可是必须承认的是,分析专家在处理大数据和以往数据时的方式差异不大。是什么构成了大数据价值链?

依照所提供价值的来源(数据本身、技能和思维)不同,大数据公司可以分为三类。

第一类是在数据本身基础上建立的公司,它们拥有海量数据,或者说至少可以收集海量数据,但在提取数据价值上和催生创新思想方法并不是最佳的,例如Twitter。它拥有的数据是海量的,只是这些数据还都要通过授权给其他两个公司来供他人使用。

第二类是技能型的公司。一般来说它们是咨询公司、技术供应商或是分析公司。它们有专业的技能,可是却不一定拥有大量的数据以及提出创新性使用数据的才能,例如天睿公司(Teradata),它就是一家大数据分析公司,而它的营销电子所用的数据都是来自沃尔玛和Pop-Tarts这两个零售商。

第三种是思维的公司。这种公司中的代表就是Jetpac。Jetpac的联合创始人皮特·华登(Pete Warden),就是一个通过想法来获取价值的最佳例子。利用用户分享到网络上的旅行照片,Jetpac寻找人们下一站的旅行目的地。很多时候数据和技能并不是某些公司成功的关键,真正让他们脱颖而出的是其创始人和员工的创新思维,以及如何从数据中将价值中挖掘出来的独特想法。

谷歌的首席经济学家哈尔·范里安(Hal Varian)也认为,世界上最棒的职业就是统计学家,这个说法非常有名,他提到:“要是想成为成功者,那必须是稀缺的,不可替代的人,绝不能是普通的,随意可以被替代的。”他还说道:“数据多且有战略上的重要性,可是能从数据中提取价值的能力却不是人人都具备的。这也是为什么统计学家、数据库管理者和掌握机器理论的人是最了不起的人的理由。”

技术和技能的过于强化会让数据本身的重要性被弱化,因此这是不可取的。计算机行业的快速发展,落后人力技术会渐渐远去,而范里安所赞许的技能就会开始普及。

大数据中最有价值的部分就是它本身,所以智者会先考虑如何拥有大数据。尽管他们并非第一个获得这些数据的人,但他们能和接触到数据、有权使用数据或是有意将数据授权于他人的人有接触。

一部分企业就巧妙地把自己放在了信息链的核心,于是扩大规模和挖掘数据的价值就成为可能。信用卡行业就符合这一点。近些年来,很多中小银行因为防范信用诈骗的成本过高,总是不愿意发行自己的信用卡,发行信用卡的都是大型金融机构,它们才能负担起防范技术所需要的人力物力。美国的第一资本银行和美国银行就积极地承担了这一工作。只是到现在,中小银行没有自己发行的信用卡,它们对于客户的消费模式全然不知,也就无法为客户定制特定的服务,关于这一点它们已经后悔了。

Maste Card长期就处在这个信息链的中心,因此数据收集和数据价值挖掘的黄金位置为之所占据。可以想见,未来信用卡公司不会再收取交易的佣金,反倒是会提供免费的支付服务。因为从中它们可以获得大量的数据,在经过复杂的分析之后,它们能够依靠卖掉分析结果来获得利润。

来说说第二类公司。同样是Maste Card,它们有自己的分析系统,所以它是游离在第一类公司和第二类公司之间。不少公司还会选择发展其专业技能,例如埃森哲咨询公司,它就通过和不同行业公司合作,应用高级无线感应技术来收集各类数据,并对此进行分析。

在医学数据领域,技术公司如何提供有效服务的例子比比皆是。华盛顿州的华盛顿中心医院这么多年来就和微软研究中心合作分析了众多的匿名医疗记录,这当中包含了患者人口统计资料、检查、诊断、治疗资料,等等。此研究的目的在于降低感染率和再入院率,要知道以往医疗卫生领域开销最大的就是这两项。无论是哪一个项目比例降低了都意味着开支的巨大降低。

研究中发现了不少惊人的相关关系,不少情况下出了院的病人一个月内又会再次入院。这当中就有不少是已经很常见却始终没有好的解决方案的,譬如,患有充血性心力衰竭的病人就有再入院的可能性,这病的治疗困难很大。研究当中还发现有一个因素是很出乎人意料的,那就是病人的心理状态。病人若是对最初诊断中有类似“压抑”这心理暗示疾病的词汇时,病人就有很高的再入院可能性。

尽管这种相关关系很难推导出特定的因果关系,但这也说明病人在出院以后要以解决心理问题为医学干预的重心,这显然对身体健康有着重要的帮助,也对降低再入院率,提供更好的健康服务,降低医疗成本更有利。机器在一大堆的数据中筛选出了这相关关系,人类或许永远也发现不了这个问题。这些数据仍属于医院,微软只提供了分析工具,依靠Amalga系统来帮助发现有价值的信息,这并非什么出彩的想法,却是这里最需要的。

技术专家是挖掘数据价值的专用人才。他们在被赞扬的同时还获得了“数据武士”这样一个非常时髦的称号。事实上他们并非想象中的那般耀眼。他们在大数据当中淘金,最后却要将财富拱手送给大数据的拥有者。

第三种类型的公司是拥有大数据思维的公司和个人。先于他人发现机遇是他们的优势所在,当然他们本身未必具备专业技能或是数据,甚至有可能他们还是行外人,可正是因为这个原因他们的思维才更为活跃。他们要考虑的仅仅是实施的可能而非可行性。

克罗斯和他的Flight Caster是这一类公司当中最先有行动的一个,尽管也没比其他企业快多少。大数据思维本质上是一种意思,它认为数据公开后如果能得到恰当处理的话,千万人急需解决的问题就会得到解决。Flight Caster在2009年8月公开发布了。就在同一个月,Fly On Time.us的计算机专家们也纷纷投入到公开数据中去,并建立了自己的网站。很快,Flight Caster原本的优势被削弱了。到2011年,克罗斯无奈之下只好把公司卖给了Next Jump。

随后克罗斯的重心就转向了新闻行业,很多人将其视为夕阳行业。在他眼里,并非如此,新闻行业是一个创新型外行人可开垦的宝地。他创办了新的创新科技公司Prismatic开始收集网上资源并排序,所谓的排序是在文本分析、用户喜好等基础上建立起来的。最重要的是,这个系统包容性很强,无论是青少年博客,还是企业网站,只要是受欢迎的内容就会排在非常前面。而欢迎与否的判定标准则来自点击率和分享次数。

Prismatic显然在服务上非常关注青年人和媒体交流的新方式,所谓信息的来源被弱化了。这无疑给那些自视清高的主流媒体提了一个醒,公众的力量已经超越了它们。最让人惊讶的是,从新闻领域内部诞生的Prismatic手握着大量的数据。美国国家记者俱乐部的那些“老人”对于网上的媒体资源始终没关注过,甚至连阿蒙克、纽约和印度班加罗尔的分析专家们也从来没想过这种方法。一头蓬松头发的克罗斯,说话吞吞吐吐,可就是这样的一个外行人,有想法也做到了,他的数据告诉了这个世界,相比《纽约时报》还有更为有效的信息来源。

同上世界90年代相比,大数据思维以及拥有此思维的人和初期电子商务的情况大相径庭。最初电子商务的从业者不受传统行业的固有思维和制度缺陷所限制,所以当时还在对冲基金工作的金融工程师杰夫·贝索斯辞职办了一家名为亚马逊的网上商店,软件开发工程师

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载