一本书读懂大数据(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-04 23:21:31

点击下载

作者:黄颖

出版社:吉林出版集团有限责任公司

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

一本书读懂大数据

一本书读懂大数据试读:

前言

世界的万千变化一直超乎人们的预测,自2012年以来,大数据一词成了人类生活的代名词。如今,数据几乎已经渗透到了每一个行业的每一个领域之中,成了不可或缺的生产因素。每一天,互联网都会繁衍出无数的数据,这些内容足以刻满2亿张光碟;而手机客户端发出的帖子和邮件总数可达到3000万亿……如此惊人的数据使得对海量数据的挖掘和分析,成了企业发展的重要内容。大数据的数量大、类型多、时效快、价值密度低的特点,让这个崭新的时代充满了变数和乐趣。

数据迅速地膨胀,让差别细微的算法就足以决定企业的发展方向。很多企业在大数据时代纷纷进行了多种多样的尝试,这是一场伟大的革命,庞大的数据资源的冲击,让商界、学术界等所有领域都开始了量化的流程,积极探索大数据时代的奥秘。

这本书中,我们能够揭开大数据的面纱,挖掘和分析大数据整个流程的重要关卡,掌握大数据的多种特性和价值特征,对其结构有精准的把握。同时,我们将大数据和小数据时代进行对比,让读者更加清晰地认识我们生活的时代。

电子商务界乘着大数据的狂风,掀起了人们生活的数据风暴。国内外的企业使尽浑身解数,在大数据的海洋里摸爬滚打。从市场来看,阿里巴巴、小米、亚马逊的行动最为迅速、高效。任何企业,只有把握住了大数据时代的机遇、接受大数据时代的挑战,企业才能拥有了缩短发展时间、完成飞跃的筹码。

大数据和企业的生存发展息息相关,企业的管理层需要全面的数据源来确定正确的航向,全面的数据源搜索和分析需要专业人才,专业的人才需要经历商业气息的洗礼。这一切都成了企业在大数据时代直接面临的机遇和巨大挑战。得数据者得天下不再是一句标语,企业的整个商务链条都需要数据的支撑来保驾护航,失之毫厘谬以千里的教训时时刻刻都可能发生。重视大数据、对大数据了解详尽的企业高管才有可能带着企业在正确的路上,获得竞争优势。

进入大数据时代,让数据开口说话将成为司空见惯的事情,本书将从大数据时代的前因后果讲起,全面分析大数据时代的特征、企业实践的案例、大数据的发展方向、未来的机遇和挑战等内容,展现一个客观立体、自由开放的大数据时代。

第一章 身处数据时代,揭开大数据的面纱

科技的迅速发展,互联网金融的兴起和繁荣,把数据推到了所有金融元素的核心位置。越来越多的企业逐渐认识到只有掌握正确的数据并看透数据背后的故事,才能够获得源源不断的财富。大数据时代伴着铿锵有力的节奏引领了世界的新潮流。

大数据到底是什么?

如果要追溯“大数据”这个专业术语最初的出处的话,就必然要提及apache org的开源项目Nutch。在那个时候,大数据的意思是更新网络搜索索引,同时还需要批量处理和分析大量的数据集。谷歌的Map Reduce和Google File System(GFS)发布了之后,大数据的定义中除了涵盖大量数据之外,还包括数据处理的速度。

研究机构Gartner曾给大数据(Big data)下过这样的定义:大数据是一种基于新的处理模式而产生的具有强大的决策力、洞察力以及流程优化能力的多样性的、海量的且增长率高的信息资产。

大数据一词源于英文的“Big Data”一词,以往也有类似的词语,如“信息爆炸”“海量数据”等等似乎都很难去准确描述这个词的具体内涵。麦肯锡全球研究所所做的《大数据:创新、竞争和生产力的下一个前沿》(James,2011)是这么定义“大数据”的:

大数据通常指的是大小规格超越传统数据库软件工具抓取、存储、管理和分析能力的数据群。这个定义也有很强的主观色彩,因为究竟什么样规格的数据才是大数据,这没有统一的标准,也就是无法确定超过多少TB(1000GB)的数据才是大数据。随着时间的推移和技术的发展,我们必须知道“大数据”的量会越来越大。还有一点,这定义也会因为部门的差异而发生标准的变化,这和通用的是什么软件以及特定行业数据集的大小有密切的关系。所以,现有各行业的大数据可以是几十TB,也可以是几千TB。

按照EMC的界定,特指的大数据一定是指大型数据集,规模大概在10TB。通过多用户将多个数据集集合在一起,能构成PB的数据量。

在IBM2011IOD大会上,负责IBM软件和硬件两大集团的高级副总裁Steve Mills曾说过:“分析已经成为必要的能力,不再只是一个工具,是一种能让业务流程运转的智慧能力。企业要转化信息的洞察力为行动,而不是仅仅去争取竞争的优势,要将其转换为生存的根本。”

IBM公司概括大数据时有三个V,也就是大量化(Volume),多样化(Variety)和快速化(Velocity),此外它们还针对客户有了“大数据解决方案”的服务。IBM公司对大数据所概括出的三个V,其实也说明大数据潜藏的另一个V——价值(Value)。就这么说的话,大数据确实具备这四个V的基本特征。

大数据的第一个特征是数据的量大。电脑的数据运算和储存单位都是字节(byte),1KB(kilobyte)等于1024B,就是千字节。除此之外还有更高的单位MB(Megabyte兆字节),GB(Gigabyte,吉字节),TB(Trillion byte,太字节)、PB(Pet byte,拍字节),EB(Exabyte,艾字节),ZB(Zetta byte,泽它字节)和YB(Yotta byte,尧字节)。每一级之间的换算关系是1024。到了2009年,几乎每一个美国企业,只要是雇员人数超过1000人的,它的数据存储量大概都超过了200TB,这是十年前沃尔玛公司数据仓库存储量的2倍还多。在不少经济部门当中,企业平均的数据存储量甚至都达到了1PB。2010年欧洲组织的存储总量大概为11EB,这个数字几乎是整个美国数据总量(16EB)的70%。2010年全球企业在硬盘上的数据存储量已经超过了7EB,而在PC和笔记本电脑等设备上的个人存储量也超过了6EB。美国国会图书馆当时存储的数据大概只是1EB的4000分之一(James,2011)。硬件技术的发展速度远远赶不上数据容量的增长速度,为此数据存储和处理的危机应运而生。巨大数量的数据被处理掉,例如医疗卫生提供商会将它们90%的数据给处理掉(这其中包括几乎所有在手术过程中产生的实时视频和图像资料)。

只不过,大数据不单纯只是大。海量数据存储危机的产生不仅仅是由于数据量爆炸性的增长,还有数据类型的改变带来的,这就是第二个V,多样化。此前的数据库用二维表结构存储方式就可以储存数据,譬如常见的Excel软件中处理的数据,这称为结构化数据。可是现在随着互联网多媒体应用的出现,像是声音、图片和视频等等非结构化的数据所占的比重在日益增多。有统计表明,全世界非结构化数据的增加率是63%,相对而言结构化数据增长率只有32%。2012年,非结构化数据在整个互联网数据中的占比已经超过了75%。

Informatica中国区的首席产品顾问但彬就提到过,大数据里有海量数据的含义,但它又大于海量数据的定义。简单来说,海量数据加上其他复杂类型的数据就是大数据的概念了。但彬还提到,所有交易和交互数据集都属于大数据,它的规模和复杂程度早已在依据合理成本和时限进行捕捉、管理和处理数据集的传统技术的能力之上。

简而言之,三种主要技术趋势汇聚成了大数据:其一是海量交易数据,包括半结构化和非结构化信息,在从ERP应用程序到基于数据仓库应用程序的在线交易处理(OLTP)和分析系统的过程当中总在不断增长。企业很多的数据和业务流程也在不断走向公共和个人云转移,将造成更为复杂的局面。其二是海量交互数据。因为Facebook、Twitter、LinkedIn以及其他更多的社交媒体的兴起,这一部分数据诞生了海量的交互数据,其中涵盖了呼叫详细记录(CDR)、设备和传感器信息、GPS和地理定位映射数据,还有利用管理文件传输(Manage File Transfer)协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件,等等。其三就是海量数据处理。随着大数据的涌现,已经有很多用于密集型数据处理的架构应运而生,比如Apache Hadoop,它具有开放源码以及在商品硬件群中运行的特性。此外还有能以可靠、高效、可伸缩的方式分布式处理大数据的软件框架Hadoop。它之所以可靠,是因为它能够提前假定计算元素和存储失败,所以它能够维护多个工作数据副本,用并行处理的方式来加快处理能力和速度。Hadoop也是可伸缩的,PB级的数据它也可以处理。另外,Hadoop因为依赖于社区服务器,所以它的成本很低,不论是谁都可以使用。对企业来说,最难的在于如何通过成本效益的方式从Hadoop中存取数据。Hadoop最知名的用户是脸谱。通过Hadoop,像脸谱这一类的网站,也就可以自由地处理海量的数据,同时获得较高的收益。

“大”是重点,还是“数据”是重点?

先来做一个小测验。当阅读开始前,先停下来思考这么一个问题:哪部分是术语“大数据”中最为重要的?是大,还是数据?还是二者都一样重要,或是都一样不重要?花一分钟的时间去思考这个问题。假如已经有了自己的答案,那就开始阅读接下来的内容。

既然答案已经有了,那就来看看哪个是正确的?显然,正确的答案应该是最后一个,事实上在大数据中,“大”和“数据”都不重要。其中最重要的是企业该如何去驾驭这些大数据。对大数据进行分析,以及在此基础上采取的业务改进才是最为关键的。

事实上,大数据本身是没有任何价值可言的。即便是一个人比另一个人拥有更多的数据,这也不代表什么。任何一个数据集,它们或大或小,本身都没有价值可言。如果不懂得如何去使用收集来的数据,那这些数据不会比地下室里的垃圾更有用。要是不投入环境或者是付诸使用的话,数据的意义就不在了。任何大量或是少量的大数据该如何体现自己的威力呢?要怎么去分析这些数据呢,又该如何去洞察或是采取什么样的行动呢?这些数据又要如何来改进业务呢?

很多人在阅读了众多炒作大数据的文章之后就相信之所以大数据要比其他数据有优势,就在于它的容量大、速度快和多样性,这种说法并不准确。在很多大数据当中,相比以往数据会存在更多毫无价值或是价值很小的数据。一旦大数据被精简到实际需要的容量时,它们所呈现出来的就不是大数据了。事实上这也不重要,无论是它被精简还是保持原本庞大的模样,这些关系都不大,最重要的是处理它的方式。所以说使用数据要比起它的容量更为重要。

大数据庞大的规模并非人们所关注的,包括它们能带来巨大的内在价值也非关注的事实。最大的价值还在于分析的方式,以及采用什么样的方式来改进自己的业务。

在人们阅读一本书的时候,关键点的第一个是大数据的大数据量,并且要承认大数据也是数据中的一种。只不过这并非企业兴奋的理由所在。这些数据使用时的新颖且强大的分析方式才是企业注意力集中的地方。作为社交网络应用的Facebook和微博,都构建了关联普遍用户的行为数据。人们在网络上浏览网页、购买商品、游戏休闲原本是不关联的。当智能手机推广普及之后,网络的行为越来越碎片化了。假设没有一定的关联,就很难去分析和利用这些数据。社交网络提供给用户统一的借口,让无论是玩游戏还是买商品的客户可以轻松地把碎片化的信息发到网络上。就像是一个用户行为数据连接器的角色一样,微博把所谓网络上用户的行为,完整地关联起来,画出一幅生动的网络生活图景,把用户的偏好、性格、态度等特征真实地反映出来,而这当中就是最为充分的商业机会。

彼此关联的数据价值要远大于孤立的数据。可是在当下数据孤岛是很常见的。个人计算机中的文件一般都会以某种类目来存放,内容和内容之间没太强的联系。企业之间也是如此,很多部门之间都壁垒林立,似乎每个人都愿意去保护自己的数据,从而形成“数据割据”的局面。只要是处在数据孤岛中,大数据所潜在的价值是很难被挖掘出来的。

与众不同的大数据

有别于传统数据源的大数据有不少重要的特征,不是每个大数据源都有这些特征存在,绝大多数的大数据或多或少地都存在一些这样的特征。

第一个特征是大数据的来源往往是机器自动的结果。人工不会干涉到新数据的产生过程,完全是机器自动的结果。如果拿传统数据源进行分析的话,就会发现它们的形成过程中会有人工的痕迹,像是零售业和银行交易、电话呼叫记录、产品发票等等,和某个人做的事情都有关系,无论什么情形,都会有人参与到新数据的形成过程中。可是大数据不是这样产生的,它不会在产生过程中与人互动,像是引擎中内置的传感器,即便没有人干预周围数据也会自动生成。

第二个特征是大数据作为一个全新的数据源,不仅仅是已有数据的收集扩展,比如在互联网中,顾客与银行、零售商之间可以直接在线交易。事实上这种交易方式和传统交易差异不大,不过是换一种渠道而已。企业通过收集网络交易数据就会发现这样情形下的数据和多年来他们得到的传统数据差异不大,不过是数量增加了而已。如果收集的是客户浏览行为的数据,那就会产生本质上全然不同的数据。

上面提到的相同类型数据,不过是数量多了的说法也会因为达到另一个极端,成为最新的数据,比如说传统读电表都是人工方式,也就是说自动读取用电数据的智能电表所产生的数据就是类型相同,不过是数量增加了。不过这种数据在某种程度上也能成为一种有别于人工读取的数据,应用更为深层次的分析方式,这样一来它们就可以称作是新的数据源。

第三个特征是大数据中的大多数设计并非友好。实际上这些数据并未经过设计。就拿社交媒体网站上的文本流举例,用户不一定会被要求用标准的语序、语法和词汇表。人们的信息一经发布,社交平台就能够获得数据。这些不太规范的数据处理起来还是有一定困难的。在设计之初,大多数的传统数据都尽量要友好一些,就比如收集交易信息的系统最早生成数据会以整洁或是预先规范的方式来操作,这样形成的数据就更有利于加载和使用。还有一部分原因是由于要对空间进行高效利用,以避免出现空间不够的局面。

大数据有时候还会是凌乱和丑陋的。通常最开始传统数据就已经被严格地定义。每一比特的数据都存在重要的价值,这是必需的。一般大数据源一开始不会被严格定义,这和存储空间的开销越来越微乎其微有关,必须对各种有用的信息进行收集。所以说大数据分析的时候,各种凌乱丑陋的数据都有可能遇见。

最后的特征是海量数据并非有大量价值。实际的数据很多都是毫无价值的。在一篇网页日志当中,非常重要的数据就包含其中,当然也有好多没价值的数据也在其中。很有必要从中提炼最有价值的部分。定义传统数据源的起初就要求数据是百分百有用。这是因为可扩展性受到了限制,所以如果有没价值的信息在当中的话代价会非常昂贵。除了最初定义的有数据记录的格式外,数据内容和价值也被定义和约束了。当下存储空间的问题已经不存在了。大数据所收集的是所有的信息,然后再去解决这些冗余信息所带来的问题。只有这样才会不遗漏所有的信息,与此同时在分析数据时的麻烦也会让人头疼不已。

大数据方式下的云计算

消费者会觉得大数据和云计算很无聊,可是对于Delphix来说却是一座宝藏,因为它正在利用这种技术进行敏捷数据管理。

Delphix不需要部署冗余的基础设施在自己的敏捷数据管理解决方案之上,还能同时提升流程的速度。客户因此能更为快捷地完成交付使用。其实敏捷数据管理就是企业数据库内虚拟化数据,再提高数据库驱动型应用的开发敏捷性质,因此使数据库和应用管理都发生大的改变。企业的数据库被Delphix放到了云上,再通过数据同步和虚拟化技术交给适当的人最恰当的数据。Delphix宣称有了应用交付解决方案后,应用项目的进度会提升5倍之多,成本会减少90%,事实上2010年Delphix面世后的销售增长率达到了300%。

成立于2010年的Delphix,2012年6月它的C轮融资就完成了2500万美元。这一次融资的领投是Jafco Ventures,投资人中还有Greylock Partners。迄今为止Delphix总融资金额高达4550万美元。公司依赖其“敏捷数据”拿到了超额认购。企业数据库的数据在“敏捷数据”的虚拟化作用下,增强了数据驱动应用的敏捷性,经济数据库和应用管理速度也提升了。

不少企业都把自己的目标设定为借由一个强大的平台来实现品牌推广,可是很多社交网站的数据还是找不到可行的商业模式,因为预期真正得以实现的不多。不过社交数据公司在不断发展壮大,可以想见不远的将来社交网站的影响力利用问题不会再是遥远的梦想。

像是纽约的SumAll公司期望就是要带给每个客户“小而美”的数据。SumAll所提供的平台在于提供给中小企业实时的数据服务,利用桌面、iPhone和安卓系统来访问,可以看到很多可视性的大量数据,也就更便于阅读和观看。SumAll在和Shopify、PayPal和Magento合作电子商务和支付系统的时候,用户点击几下就能完成账户的集成工作。SumAll对于实时数据的分析很快速,再为用户提供一个如社交媒体式的“新闻订阅”一样的简洁分析和见解。SumAll还会为客户提供深入挖掘税收、发货和出售量的服务,甚至连对客户依照不同标准的排序分析也可以完成。

2011年11月成立的SumAll,在2012年6月著名风险投资公司Battery Ventures牵头联合Wellington Partners、Matrix Partners和General Catalyst Partners为SumAll投资了150万美元的种子期融资。SumAll到2012年12月对外宣布获得了600万美元的A轮融资,还是Battery Ventures联合Wellington Patners对其进行投资。目前设在纽约总部的公司有25名员工。

还有Ngdata公司,企业用户和他们的消费者通过它们能够进行一对一的营销模式提供和得到最好的建议和产品。Ngdata曾推出过一个产品Lily集成了内外部的结构化和非结构化的数据。Lily还可以用人工智能拍照工具对消费者的习惯和爱好进行记录。正在快速成长的大数据市场,对企业的价值越来越大了,企业对市场的评估和行为的预判都要通过这些数据分析。ING的投资总监Tom Bousmans说过,消费者所产生的数据有上亿个,企业都可以通过这些来了解用户需求,彼此间还有个性和动态的互动。

成立于2009年的Ngdata的员工现有20名,它们还有类似Wibidata和Spire这样的竞争对手。Ngdata与竞争对手的不同在于它能够提供企业与消费者实现互动的数据解决方案,不仅是单纯专注在大批量数据分析之上。2012年10月Ngdata获得了250万美元的融资。这一次融资的资金主要来自ING、Sniper investment、Plug and Play Ventures等投资机构和一些天使投资人,这份资金将帮助Ngdata推广个性化产品线的拓展,并在纽约和旧金山专门为美国客户设立服务办公室。

Attivio的创始人Ali Riaz觉得企业用户每发送一条查询请求的时候,得到的信息都是具有洞察性的,绝非罗列出来的链接或是一张简单的图表。它回答的问题不仅是“是什么”还有“为什么”,就比如销售量下降是市场需求下降还是销售人员表现不够突出造成的。

任何一家企业要做的工作都是市场营销。近几年社会化媒体的兴起,让营销业者的注意力都集中在了数字营销之上,不过对于这个领域营销人员还欠缺有效的分析。Good Data公司正是瞅准这一商机,开始为营销人员提供集成服务,让他们可以利用微博等社交网络平台进行深度的分析。

大数据的奥秘

事实上并不是说大数据的处理就有多困难。收集一些数据,企业的分析专家团队就可以开始进行数据价值的探索。企业要做的就是要让分析专家团队最近地去接触那些数据,接下来的工作才是开始进行分析探索。要相信分析专家和数据科学家们都会很好地做好他们应该完成的工作。

一个很老的拇指法则指出,分析数据的工作的时间中有70%~80%都花在了收集和整理之上,剩下的20%~30%的时间才是真正的分析。大数据在刚开始处理的时候,分析时间所占的比例就更低了。一开始分析专家会用95%左右的时间来处理数据,甚至有时还会达到100%,接下来才会思考这些数据如何用来做更为深层次的分析。

上述做法必须得到理解。首先分析数据的流程中最重要的一环就是要先弄明白数据源的本质。对它们的表现、调整加载情况过程反复地进行检查,才能保证选择出能够更好地服务于目标的数据,虽然有很多数据并不那么吸引人或是令人兴奋,可确实是选出了最重要的数据。要是这些步骤都被忽略的话,那后面的分析环节就不能继续。

大数据中最优价值的部分被确定了,也就能确定用什么办法选择提取这些最优且精确的部分,这是最为关键的环节。这一环节必然是非常耗时的,尽管是花了比预计还要多的时间,也不用为此懊恼。因为企业的分析专家和业务赞助商是需要在弄明白数据源的过程中寻找一个代价最小、见效最快的方式。不论这东西是不是微不足道,但要给企业展示的一定是最有价值的东西。人们可以因此对此过程保持最高的兴趣,并协助其他人理解进展的过程。

大数据要如何应用到业务中,这是个非常耗时耗力的过程。在这一过程中,企业的分析专家和业务赞助商总是想要找到最有效的方式,为企业展示这方面的进展,并以此来赢得最稳定的回报。

举个欧洲零售商的例子,公司总想获得最为详尽的网络日志数据。公司在经历了一个漫长且复杂的收集数据的过程后,开始实施了一系列简单的举措,其中包括鉴别用户浏览过的商品,在这些数据的基础上,他们建立了一个电子邮件系统,目的是为了给浏览过商品却未购买的顾客发邮件。企业从中获取了高额的利润。

公司采取了类似的基本早期措施外,还会继续投资于收集和加载网络数据之上。最为关键的一点在于他们缺乏处理整套数据流的经验和意愿。试想一下经过数据的深层次分析后他们所得到的回报。也正是因为这些快速及时的进展,每个在企业中的人都乐意再继续下去。他们或许从最早期的举措当中看到了数据的巨大威力,也已经为未来的努力买过单了。

顾客给予的是个体具体行为,这一点是最重要的。上述的例子当中已经让他们认定个人的重要性体现在了模式分析的输入数据上。每个个体从获取价值上来说并不需要识别。分析专家如今已经可以利用数据库技术在不识别个体的情况下完成分析。很多隐私的顾虑就可以就此消除了。事实上不少企业都这样来定位和分析具体个体的顾客。这些企业想必都已经制定了关于隐私保护的政策,不论在什么前提之下,这些隐私政策都要谨慎地遵守。

世界在小数据时代是如何运作的,人们总是希望通过分析和收集数据来证明这一设想。不久以后,大数据时代的到来,人们就不再局限在这设想中。因为数据的分析和研究让人们发现了从前没发现的联系。

自然理论或是社会科学带来的人们的设想,也让我们理解和预测周围的世界。人类在经历假想时代到数据时代的过渡中,很可能会发现理论不再需要了。《连线》杂志的主编克里斯·安德森(Chris Anderson)在2008年就指出:“科学研究方法因为数据爆炸都变得落伍了。”此后他还在《拍字节时代》(The Peta byte Age)的封面故事中提到了,从某种意义上说,大数据就说明了“理论的终结”。安德森曾提出,如今不再需要一系列因果关系来验证各种设想了,这种传统研究模式早已被无理论指导的纯粹相关关系研究所代替。

安德森为了证明自己的想法,阐述了之所以量子物理学称为纯理论学科的原因正是由于高耗费、复杂实验等等。他所提到的潜在观点就在于量子物理学的理论已经和实际剥离了。他提到了谷歌设计的搜索引擎和基因排序工作,他认为:“海量数据时代,所有其他的学科已经为应用学科所取代。只要是有足够的数据问题就可以说明清楚。假设有一拍字节的数据,并了解数据之间的相互关系,那问题就可以得以解决。”

安德森的文章在专业领域引起了轩然大波,事实上安德森也认识到了自己发出了过于偏激的言论,可是某种程度上说他的话还是值得深究的。当中最为核心的是,截至目前,理论总是用来在实践中理解和分析世界的,可是到了大数据时代理论已经不再必要,数据就够了。也就是说譬如世界的运作、人类的行为等等普遍规则也都不重要了。现在最重要的是数据分析,一切问题都能解决了。

事实上,大数据也是有理论基础的。譬如分析大数据所用的就是统计和数学理论,还可能涉及部分计算机科学理论。尽管和地心引力理论差异很大,但不管怎么说也是理论。大数据分析模式如果建立在这些理论之上,那必然可以实现大数据的预测能力。事实上,为人们提供新鲜深刻的洞见就是大数据的价值所在。

第一要关注的是如何收集数据,是不是数据收集的方便程度就是决定的关键因素呢,还是数据收集的成本呢?众多的理论影响了人们的决定,就如达纳·博伊德(Danah Boyd)和凯特·克劳福德(Kate Crawford)说的那样,一定程度上,结果由选择所决定。谷歌用检索词来预测的是流感而不是鞋码。分析数据的时候选择工具依赖的同样也是理论。研究结果的解读同样应用的也是理论。在大数据时代不代表理论消亡,相反却是在大数据的方方面面都渗透着理论。

安德森作为第一个发现这个问题的人,尽管没有得到合适的答案,也值得让人们欢呼。大数据不会宣称“理论已死”,当然它也从本质上改变了理解世界的方式。以往的习惯都被颠覆了,旧有的制度也面临着巨大的挑战。

当人们选择大数据的理念和方法的时候,就会感觉大数据所释放出来的价值已经让这些不再是一种权衡,而是未来的必然改变。高科技行业当中,不少人认为要依靠新的工具来到达大数据的彼岸,这观点可以理解为由于他们是工具制造者的缘故。大数据趋势的深层原因就是海量数据的存在,包括越来越多以数据形式存在的事物。

当下是大数据发展的最佳时机

迄今为止,在大数据上不少企业都做得不多。幸运的是到了2012年,即便是尚未重视大数据的企业也犹未为晚,当然电子商务行业的企业除外。不过这种情况很快就会发生改变。直到今天,绝大多数的企业所错过的不过是第一个吃螃蟹的机会,所以对它们而言这问题并不大,迎头赶上的机会还是存在的。不过过几年以后,要是这家企业仍旧不关心大数据的话,那它就会被淘汰。所以说,现在是控制大数据最好的时间点。

不管是什么企业获取业务价值都可以通过新的数据源来完成,而那种竞争对手还未发现这方式的情况不多见。大数据给所有人都提供了巨大的商机,无论是谁都要能打败自己的对手才能赢在最前方。未来的几年,人们会陆陆续续看到大数据分析所带来的成功案例。不少案例都会显示部分企业会毫无先兆地就被行业所淘汰了。而这些例子现在就已经引起了众多人的注意了,所谓这些企业正是那些在行业当中反应迟钝,落后守旧的企业。如果在新兴的电子商务行业中,则情况就有很大不同了。

因此,现在是最佳的时机。

实际上,控制大数据绝非想象中的那样难。不少大企业都已经开始了自己的数据收集和分析工作了,还将其视为自己发展战略中的核心部分。像数据仓库、报表和分析都已经应用得非常广泛了。企业只要意识到数据存在的价值,那么只需要延伸和扩展现有的工作就可以做到控制大数据。怀疑论者的话,诸如大数据没有探索价值,它们还没有得到验证,风险太大等等都不能信。过去的几十年,很多同样的借口也在一步步成为数据分析的障碍。还不确定大数据价值的人,必须让他明白大数据的分析和控制不过是现有企业所做事情的延伸罢了,并非本质性的变化。因此,大数据既然在人们身边,就不要害怕它的到来。

第二章 大数据如此重要,引无数英雄竞折腰

在这个一秒钟就可能江山易主的大数据时代,获得最真实可靠的数据并进行准确的分析和预测是企业占得先机的重要条件。如何在数据上展开角力成为企业生存的核心问题,只有企业对大数据的“外貌”和“内涵”有详尽的了解和把握,企业才有可能在未来的发展中分得一杯羹。

多样的非结构性数据

在电影《黑客帝国》当中,主人公尼奥在服下了蓝色药丸之后,就发现所有在他身边的一切其实都是数字化的幻想而已,他的工作、伙伴、住的高楼,看到的天空大地,甚至于他的情绪都不例外。电影的创作自然可以天马行空,真实的物理世界尽管不是如此,但不可否认的是它也在朝着数字化的方向高速前进。

像是高楼大厦,在动工之前就会形成一个涵盖了设计、施工、维护等多方面的综合建筑信息模型,它所使用的就是三维建模技术。在消费者看来,人们绝对会因为建筑信息模型的美观大方而自掏腰包购买效果图;在地产商看来,建筑信息模型所透露出来的信息便是他们需要为整个过程投入多少;在设计师看来,整个模型清清楚楚地呈现了所有设计的综合,他们能够在当中调整管线走向和通风设计等等;在工人看来,模型就是他们的施工图;在消防部门看来,即便是尚未完工的建筑也可以通过模型来评估它的消防效果,并模拟人群疏散的动态情形。总之,这建筑的方方面面实际上都已经数字化了。

日常生活中人们所接触到的文件、照片、视频,还有海量的数据,都有大量的信息蕴含其中。此类数据的特点是共同的,尽管它们的大小、内容、格式和用途并不相通。拿最为常见的WORD文档举例就会发现,最为简单的文档可能就只有几行字而已,但是一旦插进了图片、音乐等多媒体内容就可以成为一个多媒体的文件,文章的感染力就会增强。这一类数据就是非结构性数据。

结构性数据与之相对应,在结构性数据中人们对于表格中的数据可以简单解释,因为结构都是相通的。每个人每个月所领到的工资条,工资条的结构就没有变化过,变化的只是里面的工资和个税、保险。个人的工资条排列在一起就形成了工资表。结构化数据的计算机处理技术已经成熟了,会计和审计可以很有效地利用Excel工具来进行加减乘除、汇总和统计等一类的任务。要是有大量运算存在的话,商业数据库就会使用上,它们的任务就是存储和处理这些结构性数据。

可是,日常生活中无论是企业数据还是日常数据,大部分都是非结构性的。有咨询机构调查显示非结构性的数据占到了整个企业数据量的80%,还有调查显示高达95%,这个数据暂时还没有权威、准确的统计。信息产业这么多年一直在努力的方向就是让非结构性的数据能和结构性数据一样获得便利、快捷的处理。可是他们总在走弯路,一开始人们希望用处理结构性数据的方式来处理非结构性数据。只是非结构性数据个体之间的差异太大,用统一的处理模式来硬套的话,结果显然是不会太好。因此人们有很长一段时间认为非结构性数据的处理难度很大。

幸运的是谷歌公司成了大数据处理技术的先驱,它为公众提供搜索服务的同时,把大量网页、文档等数据的快速访问难题也解决了。雅虎公司也有一个研发小组,在谷歌技术的基础上成功地开发了一整套处理大数据的程序框架,这就是大众所熟知的Hadoop。目前这个领域的技术发展很是快速。

以上这些公司的技术研发,让不少人在面对非结构性数据的处理问题上重新找回了自信,因此高清图像、视频等处理技术都进入了快速发展的时期。

社交网络上人们情绪表达方式也日渐丰富,企业为人们开发了众多表达心情的标准化图示,用以表达人们的各种复杂的情绪。

大数据的价值发掘

我们来说说银行、地铁中那些敏感部门或是地点的视频监控,凡摄像头的运转均为24小时,它势必会产生大量的视频数据。通常情况下的视频数据是枯燥乏味的,人们不会关心。但是一旦拍到了图谋不轨的行为,那么对于公安人员来说这视频就非常有价值了。可是事先人们不会知道哪一个部分有用,因此所有的视频材料都要保存下来,即便是存了一年的数据哪怕只有一帧对破案有用也是有价值的视频。不过对于研究人类行为的社会学家来说,这些视频都是非常珍贵的第一手材料,因为从中能发现人类的行为模式特点。

人们如今要获得医疗数据并非难事,手腕上的一块和电子表颇为类似的仪器就可以随时随地测量脉搏、体温和血压等等数据,再不断地将其传回医疗中心。数据除了能帮助人们检测自己的健康情况外,医疗保险公司也很是青睐这技术。保险公司的精算师依照这些数据的特点来研发新的保险产品,对他们现有的产品组合也是非常有帮助的。

上述的种种事例说明了:1.数据的价值是无可限量的;2.当然这价值犹如沙滩中的黄金一般需要挖掘;3.组合数据的价值要比单一种类的数据价值高得多。

在研究各行各业的数据应用中,会发现即使手中有一座如此大的宝藏,但挖掘工作仍是非常困难的,原因正是由于自身的数据中所蕴含的重生之道还不为人所知。互联网公司是最早意识到数据价值的公司,因此它们总在研究和分析领域领先。不过大数据的专利不再是属于大公司,它需要的是看待世界、产业的观念和视角。大公司通过它来合纵连横,扩张跨界,小公司也可以细水长流。关键问题在于如何看待大数据。

究竟多快才是快呢?

显然是小于1秒,就在分秒之间的客户体验。

传统数据应用和大数据应用之间的重要区别就在于此。十几年间,无论是电信还是金融行业都在经历着一场核心应用系统从分散到总部统一的过程。集中大量数据之后,所产生的第一个问题就是各类报表形成的时间延长了。业界在很长时间内都在质疑能否从海量增加的数据中快速地提取信息。

在这个领域,谷歌公司的贡献是有开创性的。谷歌的搜索引擎就仿佛在向信息业界宣布,全世界我那工业的搜索可以在1秒内完成,并得到所要得到的结果。大数据应用领域谷歌成了一个标杆。要是有超过1秒钟的数据应用的话,用户就会有不良的体验。下面举个营销方面的例子。

人们在购买越是昂贵的东西时就越是犹豫,会反复去掂量自己的购买能力。购买价格便宜的东西就越容易呈现出冲动购买的特征。根据消费者的购买特点,京东商城将其分为了四种类型,其中37%是冲动购买者。对于这类购物者来说,能够在冲动的一瞬间为其送上最为精准的商品信息,是商品销售中的关键因素。幸运的是,关于这一点,社交平台的出现,为调查人们的偏好和兴趣提供了一个极好的平台,也让大数据时代这种精准的营销成了可能。

股票市场的交易主要是高频交易,要比他人快0.02秒才能有惊人的收益。为了能比他人快20毫秒,有人特地建了一条横跨西海岸到东海岸的光纤,还有人索性就留在了纽交所所在的街区。由毫秒时间差所造成的商业机会,此后会因为大数据的普及而出现在众多行业当中。

很多以应急反应为主的新兴产业很注重时效性。他们如果了解到某工厂有了事故,就会在第一时间做出判断,评估影响范围,到达现场并展开处置。

互联网投资创业现在的热点领域是O2O。经过商家门口的消费者如果能即时收到商家的促销信息,无疑是最为美好的服务。此时的促销消息若是消费者正好需要的商品或是服务,人人都能从中获益。消费者节省了时间,商家商品得到销售,服务商也获得了佣金。如果所提供的促销信息非准确时间获得的,那就会演变成为最为恼人的垃圾信息。谁都不愿意在任何时间任何地方收到垃圾信息,而这两种信息的差别常常只是几秒钟的差异而已。

数据的活性越高就有越大的价值。曾经有一家公司提供了数据样本希望有人能帮他们来评估一下潜在的商业价值。数据量很大,更新频率也很高。这样的数据并非不常见,很多支付公司所收集到的交费记录常常都是如此。

数据的活性实际上就是数据的更新频率,更新频率越高的数据就有越大的活性,反之亦然。通常来说,数据集中的活性越大,就有越丰富的信息在其中。因此在大数据领域要有所成就的话,就要想办法去提高数据的活性。

对于公司的投资价值的判定,人们常常会听到这样的观点,公司是否拥有成规模和有活性的数据。之所以多样化和快速等特征不被提及,就因为人们更容易记住这一点。

大数据的结构化、非结构化、半结构化及多结构化

阅读大数据有关文章时,很多类似数据如何被结构化、非结构化、半结构化、多结构化的概念讨论会出现。通常大数据都是非结构性的,而传统数据是结构性的。只不过二者之间的差异并非绝对清晰。

应该说,大多数传统数据都是结构性的。这说明传统数据具有明确的、预先规范好的细节的格式等特点。任何一个时候出现的新数据都是以这样的模式呈现的。对股票交易来说,交易信息的第一部分格式就是月份/日期/年份等时间信息,然后就是12位的账户数字,接下来是3-5位字母所表示的股票代码。信息的格式事先就已经定好了,再由规范好的格式和顺序给出,这样的话处理起来就比较简单。

人们在面对非结构性的数据时,常常是没有控制权的,能做的就是接收它们。像是文本数据、视频数据、音频数据等等都是这样。图像是独立像素用特定的方式组合起来的,只不过组合的方式是千变万化的。完全非结构性的数据就是如此。事实上大多数的大数据应该算是半结构化的。

半结构性的数据还是具备可理解的逻辑流程和格式,只是这些格式并非对用户都表现出了友好的姿态。半结构性的数据从某种程度上也可以被称作是多结构性的数据。此类数据,大量无价值的数据包裹着有价值的数据。相同情况下,理解和分析半结构性的数据难度要大很多。因此要用一套复杂的规则来理解半结构性的数据,只有在读了每一条信息之后才能动态地决定处理方法。

半结构性数据中最典型的就是网络日志。人们看到网络日志时,会觉得很丑陋,事实上它们中的每一条信息都有特定的价值。

非结构性的大数据源并不常见,反倒是大量的半结构性数据和多结构性数据比较常见。它们拥有可理解的逻辑流程,从中能提取出能用于分析的信息。只不过要驾驭半结构化的数据,必须有时间的保障,这才是处理它们的最佳方式。

网络日志的信息是有逻辑的,尽管很多时候很难看出来。日志中字段和分隔符都是不同的,仿佛是结构性的数据一般,包含了大量的价值。只不过它们彼此间非以固定的方式相联系。不同网站上的网络日志点击所用的时间长短不一。另外,半结构性的数据要理解其内在的逻辑并非不可能的,只不过要花上一段时间才行。

分析专家似乎更怕非结构性数据,半结构性的数据对他们来说,要征服是需要付出努力的,而他们也能够做得到。分析专家首先要把半结构性的数据组织成结构性的,然后再在他们的分析流程中运用。而对于非结构性的数据来说,困难就会大很多。即便是已经征服了半结构性的数据,他们要面对非结构性的数据时还是会感觉是个巨大的挑战。

大数据是扩展性的下一代传统数据

关于大数据的各种言论作为为众人所关注的热点层出不穷,核心还是大数据要如何从根本上变革分析和使用大数据的方法。仔细思考一下,会发现事实并非如此。

关于庞大的大数据和它们的可扩展性已经不是个新鲜的话题。第一次使用新数据源的时候,通常会认定大数据是庞大的且很难使用的。事实上大数据不过是突破了当前极限,更大规模的数据罢了。分析专家对于传统数据源的掌握即便是有瓶颈的,但这也不影响其驾驭大数据源。毕竟分析专家从一开始就非常努力地在探索新数据源,并且将持续下去。

在电信公司中分析电话详单的第一人是谁?当然是分析专家。深入研究零售点销售数据并为此找到价值的第一人又是谁?当然也是分析专家。最初,分析几千个到几万个,甚至几十万个商品的数据被视为是一个巨大的难题。可是现在这一切已经迎刃而解。

最早开始做数据源分析的分析专家处理的数据便是在当时被认定为无法处理的数据。首先他们要做的是找到分析和利用的方法,并且是在当时的条件下。不少人对可行性产生质疑,还有人认为这些数据并非具有价值。

分析专家们正努力在做的事情和他们做事情的理由不会因为大数据而发生改变,即便从一开始很多分析专家会自称为数据科学家,可是他们的目标还是一致的。待解决的很多问题都涉及了大数据,这跟从前差别不大。最后分析专家和数据科学家们还是会去探索一直以来探索的事情的,并从中发现一些有价值的趋势和模式。必须强调的一点是,尽管大数据听起来很陌生,可是它所带来的挑战却无须畏惧。

不论从什么方面来说,大数据所产生的问题一定是从前出现过的。在数据分析领域,永恒的主题就是驾驭新的、可扩展性极限的大数据源。大数据不过是下一代的这种数据罢了。处理此类情况,分析师已经很是熟悉了。只要是有驾驭过其他数据经验的企业,大数据也同样可以驾驭。

分析专家的工作策略有一部分会因为大数据而改变。他们常常将新的工具、方法、技术和传统分析工具相结合,目的是为了有效地处理大数据流。要从中提取最有效的信息,复杂的过滤算法是十分必要的。当然也要更新建模和预测程序,大量的数据要输入添加到现有的输入当中去。

从根本上来说,分析的目标和流程并不因工作策略的改变而改变。大数据催生的是创新性的分析方法,分析专家也必须在继续扩展性的瓶颈下革新。可是必须承认的是,分析专家在处理大数据和以往数据时的方式差异不大。

是什么构成了大数据价值链?

依照所提供价值的来源(数据本身、技能和思维)不同,大数据公司可以分为三类。

第一类是在数据本身基础上建立的公司,它们拥有海量数据,或者说至少可以收集海量数据,但在提取数据价值上和催生创新思想方法并不是最佳的,例如Twitter。它拥有的数据是海量的,只是这些数据还都要通过授权给其他两个公司来供他人使用。

第二类是技能型的公司。一般来说它们是咨询公司、技术供应商或是分析公司。它们有专业的技能,可是却不一定拥有大量的数据以及提出创新性使用数据的才能,例如天睿公司(Teradata),它就是一家大数据分析公司,而它的营销电子所用的数据都是来自沃尔玛和Pop-Tarts这两个零售商。

第三种是思维的公司。这种公司中的代表就是Jetpac。Jetpac的联合创始人皮特·华登(Pete Warden),就是一个通过想法来获取价值的最佳例子。利用用户分享到网络上的旅行照片,Jetpac寻找人们下一站的旅行目的地。很多时候数据和技能并不是某些公司成功的关键,真正让他们脱颖而出的是其创始人和员工的创新思维,以及如何从数据中将价值中挖掘出来的独特想法。

谷歌的首席经济学家哈尔·范里安(Hal Varian)也认为,世界上最棒的职业就是统计学家,这个说法非常有名,他提到:“要是想成为成功者,那必须是稀缺的,不可替代的人,绝不能是普通的,随意可以被替代的。”他还说道:“数据多且有战略上的重要性,可是能从数据中提取价值的能力却不是人人都具备的。这也是为什么统计学家、数据库管理者和掌握机器理论的人是最了不起的人的理由。”

技术和技能的过于强化会让数据本身的重要性被弱化,因此这是不可取的。计算机行业的快速发展,落后人力技术会渐渐远去,而范里安所赞许的技能就会开始普及。

大数据中最有价值的部分就是它本身,所以智者会先考虑如何拥有大数据。尽管他们并非第一个获得这些数据的人,但他们能和接触到数据、有权使用数据或是有意将数据授权于他人的人有接触。

一部分企业就巧妙地把自己放在了信息链的核心,于是扩大规模和挖掘数据的价值就成为可能。信用卡行业就符合这一点。近些年来,很多中小银行因为防范信用诈骗的成本过高,总是不愿意发行自己的信用卡,发行信用卡的都是大型金融机构,它们才能负担起防范技术所需要的人力物力。美国的第一资本银行和美国银行就积极地承担了这一工作。只是到现在,中小银行没有自己发行的信用卡,它们对于客户的消费模式全然不知,也就无法为客户定制特定的服务,关于这一点它们已经后悔了。

Maste Card长期就处在这个信息链的中心,因此数据收集和数据价值挖掘的黄金位置为之所占据。可以想见,未来信用卡公司不会再收取交易的佣金,反倒是会提供免费的支付服务。因为从中它们可以获得大量的数据,在经过复杂的分析之后,它们能够依靠卖掉分析结果来获得利润。

来说说第二类公司。同样是Maste Card,它们有自己的分析系统,所以它是游离在第一类公司和第二类公司之间。不少公司还会选择发展其专业技能,例如埃森哲咨询公司,它就通过和不同行业公司合作,应用高级无线感应技术来收集各类数据,并对此进行分析。

在医学数据领域,技术公司如何提供有效服务的例子比比皆是。华盛顿州的华盛顿中心医院这么多年来就和微软研究中心合作分析了众多的匿名医疗记录,这当中包含了患者人口统计资料、检查、诊断、治疗资料,等等。此研究的目的在于降低感染率和再入院率,要知道以往医疗卫生领域开销最大的就是这两项。无论是哪一个项目比例降低了都意味着开支的巨大降低。

研究中发现了不少惊人的相关关系,不少情况下出了院的病人一个月内又会再次入院。这当中就有不少是已经很常见却始终没有好的解决方案的,譬如,患有充血性心力衰竭的病人就有再入院的可能性,这病的治疗困难很大。研究当中还发现有一个因素是很出乎人意料的,那就是病人的心理状态。病人若是对最初诊断中有类似“压抑”这心理暗示疾病的词汇时,病人就有很高的再入院可能性。

尽管这种相关关系很难推导出特定的因果关系,但这也说明病人在出院以后要以解决心理问题为医学干预的重心,这显然对身体健康有着重要的帮助,也对降低再入院率,提供更好的健康服务,降低医疗成本更有利。机器在一大堆的数据中筛选出了这相关关系,人类或许永远也发现不了这个问题。这些数据仍属于医院,微软只提供了分析工具,依靠Amalga系统来帮助发现有价值的信息,这并非什么出彩的想法,却是这里最需要的。

技术专家是挖掘数据价值的专用人才。他们在被赞扬的同时还获得了“数据武士”这样一个非常时髦的称号。事实上他们并非想象中的那般耀眼。他们在大数据当中淘金,最后却要将财富拱手送给大数据的拥有者。

第三种类型的公司是拥有大数据思维的公司和个人。先于他人发现机遇是他们的优势所在,当然他们本身未必具备专业技能或是数据,甚至有可能他们还是行外人,可正是因为这个原因他们的思维才更为活跃。他们要考虑的仅仅是实施的可能而非可行性。

克罗斯和他的Flight Caster是这一类公司当中最先有行动的一个,尽管也没比其他企业快多少。大数据思维本质上是一种意思,它认为数据公开后如果能得到恰当处理的话,千万人急需解决的问题就会得到解决。Flight Caster在2009年8月公开发布了。就在同一个月,Fly On Time.us的计算机专家们也纷纷投入到公开数据中去,并建立了自己的网站。很快,Flight Caster原本的优势被削弱了。到2011年,克罗斯无奈之下只好把公司卖给了Next Jump。

随后克罗斯的重心就转向了新闻行业,很多人将其视为夕阳行业。在他眼里,并非如此,新闻行业是一个创新型外行人可开垦的宝地。他创办了新的创新科技公司Prismatic开始收集网上资源并排序,所谓的排序是在文本分析、用户喜好等基础上建立起来的。最重要的是,这个系统包容性很强,无论是青少年博客,还是企业网站,只要是受欢迎的内容就会排在非常前面。而欢迎与否的判定标准则来自点击率和分享次数。

Prismatic显然在服务上非常关注青年人和媒体交流的新方式,所谓信息的来源被弱化了。这无疑给那些自视清高的主流媒体提了一个醒,公众的力量已经超越了它们。最让人惊讶的是,从新闻领域内部诞生的Prismatic手握着大量的数据。美国国家记者俱乐部的那些“老人”对于网上的媒体资源始终没关注过,甚至连阿蒙克、纽约和印度班加罗尔的分析专家们也从来没想过这种方法。一头蓬松头发的克罗斯,说话吞吞吐吐,可就是这样的一个外行人,有想法也做到了,他的数据告诉了这个世界,相比《纽约时报》还有更为有效的信息来源。

同上世界90年代相比,大数据思维以及拥有此思维的人和初期电子商务的情况大相径庭。最初电子商务的从业者不受传统行业的固有思维和制度缺陷所限制,所以当时还在对冲基金工作的金融工程师杰夫·贝索斯辞职办了一家名为亚马逊的网上商店,软件开发工程师皮埃尔·奥米迪亚(Pierre Omidyar)开发了一家拍卖网站。现在若是领导者是具有大数据思维的,那他们一般不直接拥有数据资源。正因如此,他们不会在利益和金钱欲望面前让自己的想法实践受到阻碍。

正如人们见到的那样,也有一部分公司集合了大数据的大多特点。相比他人,埃齐奥尼和克罗斯决胜的想法不但早人一步,同时还存在技术上的优势。Teradata和埃森哲的员工上下班很是守时,不过他们也常常有灵光一现的时候。这一切都是由于公司所承担不同角色而造成的。很多公司会将自己所掌握的数据以授权的方式授权给更有能力挖掘数据价值的人。

现在不少大数据的先驱者通常学科背景都比较复杂,当自己掌握了数据技术之后就会和自己的背景知识相结合,然后在广泛的领域中应用。天使投资人和企业家的新一代正在诞生,他们中的大多数来自谷歌离职的员工以及所谓的Paypal黑手党”。这些人和一部分计算机科学家成了当下众多数据科技公司的最大依靠。

大数据只要得到有效的利用,公司的盈利模式和传统交流方式就会得到改变。举一个非常典型的例子,欧洲一家汽车制造商就利用了获得对手所没有的行业信息,而重新定位了自己和零件供应商之间的关系。

现在的汽车通常都配备了芯片、传感器和各种软件,汽车启动之后,这些关于汽车的信息就会反馈到制造商的电脑上。一部中档轿车的微型处理器大致为60个,车辆总价值的三分之一是车上的电子仪器。汽车上装满了这一类的车载仪器也使得车子成了“漂浮的观景台”。汽车零件的工作状态通过这些电子设备来监控,整体整合之后可以提高汽车的运行质量。总的来说,一个能够掌握这些数据的公司必然在竞争中占得先机。

汽车制造商和行业外的数据分析公司合作,结果显示产自德国的油箱蒸汽泄漏检测传感器存在一定的故障,即使是好的油箱它也会发出多达16次的报警报告。得到这一消息后,制造商反馈给供应商。商业环境比较和谐的情况下,就会出现已经在这个项目上投入大量资金的制造商,利用这一部分数据来为自己挽回一点点损失的情况。

制造商要考虑的是接下来该怎么办,是卖掉这些数据吗?它的价值有多少?假设供应商推卸自己的责任怎么办?或者是自己在挖掘数据中有了失误?制造商很明白,信息一旦被公布,其他的竞争对手也会有的放矢来改进自己的产品。所以比较明智的做法应当是只能让自己从中获益。最后汽车制造商找到了一个完美的方案,那就是利用软件的改进来改进零件,然后再为此申请一个专利,最后再将专利转卖给供应商。

大数据时代真的来了

继美国政府推出“大数据研究和发展”计划之后,日本政府又重新启动了ICT战略研究,此研究曾在大地震时期暂时停摆,这是一个重视大数据应用的战略计划。联合国此后也发布了《大数据促发展:挑战与机遇》白皮书,全世界似乎都在迎接大数据时代,各种计划接二连三地发布。

日本总务省信息通信政策审议会下设的ICT基本战略委员会在2012年5月召开会议会。会上,大数据研究主任、东京大学的教授森川博之提到,在大数据技术领域美国的优势是明显的,像是谷歌、亚马逊这样的大企业都在大数据的应用领域拥有很强的技术优势,日本接下来必须在大数据方面制定一系列战略来应对大数据时代。日本文部科学省在7月就发布了以学术云为主题的讨论会报告,提出大数据时代学术界要做好迎接挑战的准备,主要在大数据收集、存储、分析、可视化等等阶段展开研究,并构建大数据利用模型。

联合国2012年发布的《大数据促发展:挑战与机遇》白皮书已明确提出大数据时代已然到来,对于联合国和各国政府来说,这是一个历史性的机遇。报告中还对政府如何利用大数据来响应社会需求,指导经济发展进行了讨论,提出要在联合国成员国建立“脉搏实验室”,主要用于挖掘大数据的潜在价值。澳大利亚出资赞助印度尼西亚政府在其首都雅加达建立了“脉搏实验室”,于2012年9月投入使用。

大数据当前还是个新兴前沿的概念,我国尚未从国家和政府层面提出大数据相关的战略,可是在2011年11月,工信部发布的了物联网“十二五”规划中明确提到了四项关键技术创新工程,包括了信息感知技术、信息传输技术、信息处理技术和信息安全技术,当中的信息处理技术就有海量数据存储、价值挖掘等等方面的智能分析技术,显然这都是和大数据密切相关的技术。也就在同时,广东省等地方政府已经率先启动了大数据战略,推动本省的大数据发展,协助开放共享。

作为国家的核心资产,各国已经开始了大数据的激烈竞争。一旦在大数据领域落后,必然就无法守住本国的数字主权,也就意味着难以占据产业战略的制高点,国家安全数字空间也会相应地出现漏洞。美国政府在大力推行“大数据研究和发展”的计划之下,欧盟、中国等大型的经济体也会在不久的将来出台属于自己的引导性和倾斜性政策,目的就在于抢占大数据的战略制高点。一轮关于大数据的新竞争马上就要登场。

历史上这样的一幕曾经出现过。1993年,美国出台了“信息高速公路”计划,各国因此反应十分强烈。同年日本政府发布拟建设“研究信息流通新干线”计划,将全国的大学、研究机构利用高速通信线路来连接,并在后一年的5月又提出了日本版的“信息高速公路”计划,前后发布了《通信基础结构计划》和《通向21世纪智能化创新社会的改革》两个报告,报告中对网络建设的实施分三个阶段进行。欧盟在1993年6月的哥本哈根欧盟首脑会议上,由当时的主席德洛尔首次提出了“构建欧洲信息社会”的倡议,之后又在12月发布了旨在“振兴经济、提高竞争能力和创造就业机会”的白皮书,白皮书中已经提出了欧洲版“信息高速公路”构建的清晰构想,还为此成立专门的工作小组主要负责推进整个计划。与此同时,加拿大、韩国、新加坡等发达国家也都在逐步开发自己的技术优势,只为占据高新技术的制高点,迎接21世纪到来的技术发展挑战。各国都不惜投入巨额资金推出各国版的“信息高速公路”计划,一时间全球范围内“信息高速公路”计划风生水起。

从本质上来说,大数据就是人类社会所有数据量变到质变的必然产物,是“信息高速公路”计划的进一步升级和扩展,它对人类社会未来的走向和发展势必会有巨大的变革意义。很显然,现在的趋势已经说明了大数据时代真的到来了。

第三章 需求挖掘与分析,电子商务与大数据

互联网购物逐渐成了人们购物的主要方式,电子商务的繁荣带动了相关产业的不断升级。为了迎合大数据时代的特征,也为了更好地把握住大数据时代的种种商机,各个电子商务企业纷纷涉足互联网金融,追逐大数据,都希望占据未来市场。

大数据时代中的电子商务

全球最大的信息技术和业务解决方案公司IBM在被联想收购之前,可谓是电子商务行业中的一匹宝马。它始创于1911年,总部位于美国纽约州阿蒙克市。IBM在2011年的净利润达到159亿美元之多。

进入大数据时代之后,IBM积极响应并做出转变。IBM全面整合了公司的内部资源,搭建了全新的数据平台。就此宣告全面升级的大数据战略。IBM的大数据战略体现在三个方面:1.包括掌控信息、获悉洞察、采取行动的全面战略理论(也称3A5步);2.包括Hadoop系统、数据仓库和信息整合系统、流计算的全面的解决方案;3.全面的落地实践。

马云的阿里巴巴可谓是国内电子商务界的龙头老大,阿里巴巴成功的因素之一就在于该企业非常重视数据。1999年成立的阿里巴巴经过十几年的发展,企业平台上已经积累了大量的数据,目前阿里巴巴拥有阿里巴巴B2B、聚划算、一淘、淘宝网、天猫商城、中国雅虎、阿里云、一达通、中国万网等子公司。

阿里巴巴设立了“首席数据官”一职以充分挖掘大数据的价值,并为自己的网络销售平台提供完善的数据云服务。在2012年的商业大会上,马云表示阿里巴巴将于2013年1月起转型金融、重塑平台和数据三大业务。阿里巴巴希望通过这种方式,分享和挖掘海量的数据并为其他中小企业提供更有价值的信息。

除了IBM、阿里巴巴之外,甲骨文、微软、惠普、百度等公司为了应对大数据时代的挑战和机遇,都在积极挖掘大数据之中的“宝藏”,使得大数据市场一时间热闹非凡。而在这热闹的过程中,众多的电子商务企业在大数据的基础上,开始纷纷涉足互联网金融。网络银行一夜间崛起,网上支付、手机客户端支付已经成为很多人消费的主要支付方式。京东商城选择和中国银行合作,担任着类似的中介角色。通过这样的方式为供货商们提供入库单融资、应收账款融资、订单融资、资产包转移计划等服务。京东商城对供应商提出的融资申请进行核准之后,转交给银行,银行根据相关材料对供货商发放资金。

2013年1月,京东商城的CEO刘强东在公司内部年会上表示,京东商城将以大数据的供应链金融业务为主要战略性业务,以此应对大数据时代的考验。此外,京东商城还将组建京东金融公司等子企业和部门为商家和个人提供融资贷款服务。

阿里巴巴和京东商城这两个老对手,在进入大数据时代之后交手更加频繁。京东并不是首家涉足供应链金融的商家,阿里巴巴在2007年就已经推出了供应链金融以帮助中小企业进行融资。供应链金融的好处和利润被其他各个企业看中,这些小企业争相挤进这个领域,想要分得一杯羹。

其中最具代表性的就是金银岛。2009年,金银岛通过和中国建设银行、中远物流合作推出了E单通。E单通可以细分为网络订单融资和网络仓单融资两部分。这是合作三方共同建立的一整以实现物流、资金流、信息流的深度融合为目的的服务和风控体系。

亚马逊在大数据时代的实践

亚马逊是全球第一家网络书店,他的掌门人是贝索斯。了解亚马逊的人都会发现,贝索斯有个习惯——在开会的时候留出一把空椅子。他的目的是为了告诉自己的员工,消费者是公司最重要的人。本着顾客至上的经营理念,亚马逊成了名副其实的电子商务领袖:仅2011年的净利润就达到了6.3亿美元,公司的市值接近千亿美元。

和很多企业不同的是,亚马逊推出新产品和服务的速度非常快,并不需要进行长时间的调研、分析等步骤。因为只要推出了新产品,几周的时间内,消费者就会自动为公司留下珍贵的评论及购买的数据。

有了这些数据,亚马逊就可以采用大数据技术,详细分析这些数据背后的真相。准确地评估自己的新产品,从而很快给出产品是否应该继续推广、如何推广等问题的答案。亚马逊的这个流程,实际体现了以消费者为中心的理念。通过消费者的真实反映来改善产品,这是很多企业都应该学习的。贝索斯的“空椅子”理念代表了他对电子商务的深刻理解,也代表了亚马逊在大数据时代的良好实践。

在金融市场不断发展和稳定,金融产品在人们的生活中不断占据更大的比例的情况下,全球已经进入了从工业化时代向信息化时代过渡的阶段。美国是这条道路上走得最快的国家,中国紧紧地跟在西方发达国家之后。

以宝洁、沃尔玛、通用汽车等企业为代表的大工业时代有明显的特征——大量生产、物流强度大、零售量大。大工业时代不会在未来的消费市场延续,取而代之的是信息化时代。信息化时代的特征有:主导者就是消费者、个性化生产、网络化协作。

这一转变将一改企业只专注于内部管理、生产和供应链的问题,使得消费者处于主导的地位并成为企业的一分子。

以著名的汽车生产商福特为例。福特在早期一直生产T型车,并且福特的理念是以生产为中心,当时福特对外流传这样一句话“顾客可以随心选择自己喜欢的颜色,只要是黑色”。但是这样的经营理念,早已经被淘汰。在当下的市场竞争中,企业必须学会揣摩每一个消费者的喜好,以提供满足绝大部分消费者需求的产品。

开启了各个企业以消费者为主导模式之门的大数据时代到来了。比如一家服装企业企图调查其顾客的购买意愿,于是安装了监控,以方便观察顾客试穿了哪些衣服。但是既要安装设备,又要整理和分析数据,成本一下子提高了,尝试以减少样本量的方式降低成本只会使得统计的结果有偏差或者失灵。

如果将类似的情况放在互联网上,边际成本的增加却趋近于零。因为消费者只要在网上点击了衣服的图片、放进了购物车、付了款等等,这些动作都会被服务器自动记录下来。想要分析这些数据唯一花费的就是时间,从海量的数据中挑选需要的数据并做出分析。这一对比,大数据技术的价值就明显地展现了出来。

想要成功地实现展业转型,就必须洞悉消费者的心理、快速响应消费者的需求,即使是潜在的需求。企业如果拥有了对大量数据的处理和分析能力,就等于拥有了“千里眼”和“顺风耳”。虽然大数据技术在国内很多企业中都处于起步阶段,但是总有一些优秀的领袖企业,带领着大家走在技术进步的道路上。

以对比亚马逊和索尼为例来体现亚马逊对待大数据技术的态度和实践。亚马逊拥有全球最大的电子商务网络,这也使得亚马逊可以大规模地收集消费者在浏览和消费的过程中留下的一切痕迹,从而拥有全面精准的数据。以此为中心,亚马逊开发了市面上唯一一款能够和苹果的iPad抗衡的产品——kindle fire。

而索尼的市场份额在近几年不断缩小,这是因为它所生产的产品明显和消费者的喜好脱节,walkman等产品早已经被消费者淘汰了,而索尼似乎后知后觉。这正是因为索尼错过了利用大数据技术更紧密地贴近消费者的机会。

美国明尼阿波利斯市的一个经典案例一直在互联网上流传。塔吉特百货里来了一个怒气冲天的男子强烈要求见百货公司的经理。原因是百货公司寄给了她在上高中的女儿一些购买母婴用品的优惠券。顾客因为百货公司不恰当的行为非常生气。

经理查看了公司发给顾客女儿的邮件,的确给他的女儿赠送过购买母婴产品的优惠券。经理反复和这位顾客道歉,才平息了这件事情。

有趣的是,几天之后百货公司的经理再次给这位父亲打去电话表示歉意的时候,这位父亲非常愧疚地告诉他:“对不起,我之前错怪了你们,我和女儿长谈了一次,她的确怀孕了。”

很多人看到这里都会有疑问:百货公司怎么会知道顾客的女儿怀孕了,并向她赠送母婴产品的优惠券呢?商店竟然比顾客先一步了解他女儿的动态,这实在令人惊讶。想要知道这其中的奥妙就必须提起电子商务的鼻祖——亚马逊。

成立于1995年的亚马逊是全球最大的电子商务供应商。该公司最令人称奇之处在于,在成立之初,亚马逊一直处于亏损的状态,而且逐年严重。数据显示,2000年亚马逊亏损了14.1亿美元。在成立之初的8年时间里,亚马逊一直处于这样的亏损状态。直到2003年,亚马逊才终于开始盈利。

亚马逊的“锦囊”就是它有一位伟大的领导者——贝索斯,贝索斯是一个眼光长远的人。尽管在成立初期,亚马逊经历了互联网泡沫的冲击、经历了投资机构的做空,贝索斯依旧不顾外界对公司的评价,我行我素。在贝索斯给公司股东的信件中,他总是强调:“It’s all about long term.”而亚马逊之后的辉煌也证明了这位领导者的犀利眼光。

仅仅2012的前三个季度,亚马逊的营业收入就达到了398亿美元之多,相比前期,涨幅非常大。亚马逊能够做到如此转变主要归功于它强大的推荐系统。亚马逊的网店系统最强大的一点,就是能够让顾客发现自己的潜在需求。顾客进入亚马逊的网上商店起,就不断地被这样的思想渗透。“人气组合”“购买了此商品的用户还浏览了”等等栏目都是吸引顾客发现自己潜在需求的“钓钩”。

亚马逊将顾客在网站内的所有行为都通过系统记录下来,根据数据的特点进行分类处理,按照商品类别形成不同的推荐栏目。例如“今日推荐”就是根据当天顾客浏览的信息记录,推出一些点击率最高或者购买率最高的产品。而“新产品推荐”则是根据顾客搜索的内容为顾客提供了大量新产品的信息。“用户浏览商品推荐”,则是将顾客曾经浏览过的商品信息再一次推向顾客,让顾客考虑购买或者进行二次购买。

捆绑销售法也是亚马逊采用的有效方法之一。即利用数据挖掘技术分析顾客的购买行为,找到某件商品的购买者经常一起购买的其他商品,构成销售组合,进行捆绑销售。他人购买或浏览过的商品栏目,则是通过社会化的机制,根据购买同类商品的顾客的喜好,为顾客提供更多的选择,使顾客更加方便地挑选。

亚马逊成功的另一个主要因素是,在给顾客做推荐的时候,亚马逊的顾客体验非常特别。亚马逊给出了大量的真实数据,让顾客在短时间内就对其产生了信任和忠诚。例如,购买了此产品的顾客还购买了某产品、你曾购买过某产品因此给你推荐类似的其他产品等等。

不得不提的是,亚马逊的推荐内容是根据真实数据分析计算出来的。每个用户的档案中都记录了该用户的所有购买和浏览行为。亚马逊的商品评价系统也从另一个方面归纳和反映了顾客对产品的偏好。亚马逊将这些数据做成顾客的档案,直截了当地告诉顾客亚马逊这些推荐举动的可靠和用心。

小米手机在大数据时代的实践

小米手机就像是竞赛中的一匹低调的黑马,在赛前默默无闻、鲜为人知。一下子就占据了手机市场上前列的位置。于2010年成立的小米,自2011年推出第一代小米手机起,就获得了顾客的喜爱。2012年小米又推出了第二代手机,并且开通了网络销售平台。令很多竞争者没有想到的是,网络销售平台一开放,第一轮的5万部手机在3分钟之内被抢购一空。到2012年中旬,小米公司的市值已经达到了40亿美元。小米的董事长雷军推崇软硬一体化设计,和苹果公司的创始人乔布斯相同,因此,很多小米的喜爱者都称雷军为“雷布斯”。

虽然“雷布斯”的小米公司在很大程度上是模仿乔布斯的苹果公司。但是一味地模仿是不会取得这么大的成功的。小米有着自己的一套“模仿”模式,这种模式分为三个方面,即硬件、软件、移动互联服务。小米的目标是要把这三个方面都发展到市场领先地位。

这个年轻的公司,在其走向市场之后,已经发布了小米1、2、3三代手机。其软件上的实力也不可小视,小米公司开发了米柚操作系统、小米读书、小米分享等软件。

这样一家看似模仿苹果公司而产生的企业,在其成长和发展道路上一定受到了很多的质疑和责难。但是小米却用不断提供好的服务来回馈了这些。小米选择的道路是正确的,同时掌握硬件和软件的技术,为顾客提供全方位的服务,其未来一定会受到越来越多人的认可和喜爱,发展前景不可限量。

再好的软件,没有硬件作为展示的平台,也无法发展起来。就好像一个人没有了灵魂,生命也索然无味一样。只有将硬件和软件结合起来,提供全方位的服务,才能给顾客最好的体验。科技迅速发展,电子产品不断升级的时代,顾客不仅重视电子产品的外观,更重视其内在的软件配置和操作系统。一些专攻硬件的制造商,如果不转变自己的生产方向,那么就会在竞争中被淘汰。

任何一家电子产品的生产商,如果没有自己独立的软件配置,都无法在竞争中生存下来。很多生产商在自己的产品中内设自己独有的软件,来保护自己的产权。例如,联想的手机就默认联想的网盘,华为的手机默认华为的网盘。可见,硬件和软件同样重要,缺少一个,就会被竞争对手获得先机。苹果公司的成功就极大地证明了软、硬件一体化的优势。

软硬件一体化的模式,适用于各种智能型电子产品的开发,而不仅仅是手机生产。不论是笔记本电脑还是iPad等平板电脑,都遵循这样的模式。小米的发展空间远不止如此,它可以发展成为一个综合性多元化的电子产品生产商。通过将这种模式扩展到小米电视、小米电脑等产品的开发和生产上,不久的未来,小米还将带给我们惊喜。

没有将软硬一体化生产投入到自己的企业生产模式中去的企业将会在竞争中处于劣势。这种现象不仅出现在手机生产商中间,中国的整个IT行业都存在这样的现象。即使生产商做出了很大的努力并且极力地宣传,顾客却仍然理所当然地认为国产的硬件设备没有任何的优势。电子产品中通用的硬件,因为其价格越来越透明化,其生产商的利润在不断地下降。顾客一门心思地认为硬盘、操作系统和CPU等都是国外的产品比较好,因此单一生产硬件产品的商家在价格上没有任何优势,反而一步步进入利润逐降的怪圈。

但是和手机行业不同的是,IT行业的怪圈远不止如此。因此,软件生产商也不赚钱。顾客对软件的投资,只占其电子产品投资的极小一部分。任何一个系统都可以用光盘安装和卸载,而一个光盘的价格又非常低。因此,顾客从心理上也不愿意在软件上过多投资。由于这种原因,中国的硬件及软件生产商正面临被动的局面。

这是一种既不利于中国的硬件、软件生产商,也不利于顾客专注业务发展的信息产业格局。软件供应商失去了硬件支持,就变成了跛脚的瘸子,很难走得更远。硬件供应商不了解顾客业务需求,就成了睁眼瞎,无法把握发展的正确方向。中国的硬软件产业,一瞎一瘸,一路走来,着实不容易。即使是国内最大的软件厂商——用友,其2011年的销售收入也不过40亿元,根本无法和国际市场比较。

一体化模式的好处不仅能在IT行业体现,在企业的应用市场上体现得也非常明显。海外甲骨文公司是这个市场领域“第一个吃螃蟹的”企业。其创始人拉里﹒埃里森是乔布斯的好朋友。读过《乔布斯传》的人对他一定不陌生,《乔布斯传》就写到了他对苹果公司一体化模式的认可,并准备运用到自己的企业的市场中去。甲骨文立刻将这种模式投入到了自己的生产中。其生产的Exadata一体机,就融合了其公司自己开发的商业软件,例如数据库软件、数据仓库软件等。这款机器就是甲骨文公司的一个典型软硬件一体化产品。

继甲骨文公司之后,IBM公司也将这样的模式运用到了自己的生产中。其生产的Netezza一体机中硬件部分包括SMP主机,Snippet Blad、磁盘仓和网络结构。软件部分集成了数据库、数据存储、数据处理及数据挖掘等软件。其中的SMP主机又由两台分别作为活动和备机的高性能Linux服务器组成。因此,Nettzza同时具备了大规模并行处理和对称处理的优点,建立了一个能极速分析PB量级数据的强大设备。

此外,Netezza通过将复杂的非SOL算法嵌入到MPP流的处理组件中,建立了一个强大的系统,这个系统能极速分析PB量级数据并以“流水线”的方式处理庞大的数据量及复杂的数据量。这种方式不仅提高了其性能,还减少了数据转移的成本。

EMC本是一家生产硬件的厂商,但是由于硬件生产的利润空间急剧下降,其竞争对手已经开始实行软硬一体化模式等原因。这家储存界的翘楚也开始了自己的软硬一体化之路。EMC在大数据方面早有布局,它于2008年收购了Smarts这家网络软件开发商来提高自己的网络管理能力。不仅如此,2011年,Greenplum这家Oracle、Netezza和Teradata等老牌厂商的挑战者企业,因其能够做到超出传统数据库软件10~100倍的性能被EMC收购。同年10月,EMC收购了Zettapoint,这是一家数据优化企业。2012年,EMC又收购了Pivotal Labs和Watch4Net来提高自己产品的计算能力和绩效管理能力。一系列的收购之后,EMC成功地转型为软硬一体化的企业。并购了Greenplum之后,EMC开发并推出了统一分析平台,来加强自己在大数据方面主要提供存储和统一分析的能力。

小米手机对“米粉”需求的文化挖掘

小米公司的一位高管在接受记者采访的时候这样说道:“小米从创立起,业界对我们的看法经历了三个阶段。看不起——看不懂——赶不上。”的确,小米手机这匹后来居上的黑马,一夜间让老牌的手机企业都刮目相看,它的来势汹汹,出乎了所有人的意料。小米的经营理念就是以消费者为中心,以它的支持者即粉丝为中心。这样的经营思想帮助小米在其支持者的心中牢牢地占据了重要的地位,这对很多企业都有极大的参考价值。说起小米的粉丝团,最令人疑惑和关心的就是,小米是如何将其300万的粉丝凝聚在一起的?这些狂热的支持者对小米的快速发展起到了什么样的作用呢?

小米公司最早推出的手机用的操作系统是根据谷歌的安卓系统定制而来的MIUI操作系统。这个系统深受很多顾客的喜爱,甚至有人买回了安卓系统的手机之后重新刷成MIUI操作系统。小米抓住了这个好机会,不久后推出了专属于自己的小米论坛,以此聚拢了一批MIUI操作系统的铁杆用户。最令人惊讶的是,这些粉丝中的一些人,一开始只是小米的用户,然后成了狂热的粉丝,最后直接加入了小米,成了论坛的版主或者运营人员。

小米的这些铁杆粉丝都是其朋友圈里的公认的技术宅。他们的朋友手机出现问题的时候,往往都找他们来解决。这些铁杆粉丝由此成了其小圈子里的“手机专家”,因此,他们的意见几乎影响了朋友圈里的所有人。

小米论坛是这些技术粉和其他粉丝直言不讳、大展拳脚的天堂。只要粉丝在论坛里抱怨其MIUI系统哪个地方不方便、不完善,小米团队就会迅速反应。并尽快在下一个版本中修改这个问题,不仅如此,他们还会在论坛里公开表扬提出了质疑和问题的粉丝。因此,很多粉丝有了一种主人翁的感觉,这是一种神秘的参与感和心灵的愉悦感。即使只是小米的用户,他们却能够感觉到自己好像参与了小米的开发过程,甚至成了小米的系统检测者。这样,小米手机不仅仅是小米公司的专利,它真正地属于了每一个顾客和粉丝。粉丝们通过这样的参与方式,对小米产生了极大的亲切感。每个操作系统都有漏洞和问题,但是使用MIUI的乐趣就在于能够亲自参与其中,解决问题。

小米在这么短的时间内取得这么大的成功,其营销手段成了各大媒体争相报道的头条。小米的营销思想类似于白酒营销中的盘中盘思想。盘中盘营销思想就是由公关某地的显要阶层带动其他阶层的营销手段。小米正是运用这样的营销思想赢得了“米粉”们的忠诚。小米的新机发布会上,到场的营销商、合作伙伴的人数远远比不过狂热的“米粉”。

在惊叹小米拥有如此之多的忠诚、狂热的粉丝的同时,仔细分析小米对其粉丝的发掘和维持,不得不由衷地赞叹,小米发展到如此地步,的确有很多值得学习的地方。全国各地的小米粉丝组成了一个个小组织,小米的工作人员正是通过这些分散的组织更有效地和小米的铁杆粉丝沟通,并解决其中出现的问题。在小米的论坛上,不同的社区都有各种技术帖。在解决问题的同时,论坛也成了小米向顾客宣传和销售的良好平台。小米的粉丝与其用户的重叠度非常高,为了让更多的用户转变为自己的粉丝,小米组建了专门的团队以保证社区的有效运行。

微博成了如今最流行的社交平台,小米的官方微博上粉丝数量大约300万人,巧合的是,其手机的销售量也是300万,这也非常有力地说明了小米的粉丝和其用户重叠度非常高。和论坛相同,小米同样组建了专门的团队来管理自己的官方微博,以保证和粉丝的及时沟通。

从一开始的被忽略、被质疑,到如今小米已经在其顾客心中占据了重要的位置,制造商小米和它的消费者及粉丝之间的隔阂正在逐渐缩小,他们之间的交集也越来越多。很多粉丝一路伴随着小米成长,最终成了小米的员工。没有成为小米员工的粉丝,也通过社区积极地加入了小米的研发和测试环节之中。消费者和制造商之间形成了如此亲密的关系,小米如何不壮大?这两股相互促进的力量,正是帮助和推动小米发展的最大动力。

小米和其消费者之间的关系是一种新型的买卖关系,这种良好的关系中,小米做到了以消费者为中心,以消费者的需求为标准定制化生产自己的产品,也因此获得了更广阔的顾客群。和其他企业不同的是,小米的客服不仅限于其全国统一电话,其微博、论坛都是有效的客服部门。

小米的成功使得它的这种运营模式被很多企业争相模仿,不仅要让顾客知道企业能够听到他们的声音,更要让顾客知道自己可以介入企业的各个环节。很多企业的公共平台,例如微博和官方网站都只是宣传的摆设,不起任何实质性的作用。这也正是这些企业需要向小米学习并改正的地方。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载