驾驭大数据(txt+pdf+epub+mobi电子书下载)-txtepub下载

作者：(美)Bill Franks

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

驾驭大数据试读：

前言

部分，那么买下这本书吧。如果你已经买了这本书，那就赶快行动起来，阅读它吧！Thomas H. Davenport信息、技术与管理领域杰出教授，美国巴布森学院联合创始人、研发总监，国际数据分析研究所前言

你收到一封邮件，邮件中提供了一套个人电脑的报价。而你几个小时前刚刚在这家零售商的网站上搜索过电脑的信息，似乎它们已经读出了你的想法……当你驱车前往这家商店购买这套个人电脑时，你路过了一家咖啡店，你看到了这家咖啡店的一条折扣信息。你获知由于你刚来到这片区域，你可以在未来20分钟内享受10%的折扣……

在你享用咖啡的时候，你收到了一家制造商关于某产品的道歉，而你昨天刚刚在你的Facebook主页和这家公司的网站上抱怨了它们的产品……

最后，当你回到家之后，你又收到了一条关于购买你最喜欢的在线视频游戏升级装备的信息。有了这些装备，你才能顺利通过某些曾经苦苦挣扎的关卡……

听起来很疯狂吗？难道这些事情只有在很远的未来才发生吗？不，这些场景都是我们今天可能见到的！大数据、高级分析、大数据分析，似乎今天你已经逃脱不了这些术语了。无论在哪里，你都会听到人们在讨论大数据和高级分析，看到关于它们的文章或是宣传推销它们。好了，现在你也可以将这本书加入关于它们的讨论中了。

什么是真实的，什么是炒作？这些关注可能会使你怀疑大数据分析是一种炒作，而非真实的东西。尽管在过去的几年曾经有不少被炒作的概念，然而就分析能力和处理海量数据而言，我们确实处在一个转型的年代。如果你肯花一些时间来理清并过滤掉那些有时被媒体过分炒作的部分，你会发现大数据背后有一些非常真实和强大的东西。随着时间的推移，大数据分析会使企业和消费者都获益，而收益带来的兴奋和期待又会继续引发更多的炒作。

大数据是下一波新数据源的浪潮，并会驱动分析在商业、政府及教育界的下一次革新。这些革新将有可能快速改变企业审视它们自身业务的方式。大数据分析可以促成更加明智的决策，在某些情况下，促成这些决策的方式将明显不同于今天。它带来的很多洞察在今天看起来都像是在做梦。你会看到，征服大数据的需求和一直以来征服新数据源的需求在很大程度上是一致的。然而，大数据的额外规模必须使用新的工具、技术、方法和流程。传统的分析方法已经不再适用于新的环境，我们有必要使用高级分析将商业界带入更高的层次。这就是这本书要讲的内容。“驾驭大数据”并不只是本书的书名，而是下一个十年中，决定哪些商业活动将振兴，而哪些商业活动将消亡的决定性因素。准备主动接受大数据，企业可以通过驾驭大数据浪潮而取得成功，而不是遭受大数据浪潮连绵不断的冲击。你需要了解些什么？你如何为征服大数据做准备？你如何从大数据中获得振奋人心的分析结果？坐下来，找一个舒服的姿势，准备好发现大数据的秘密！

读者对象

这些年来有无数关于高级分析的书籍问世，最近也开始有关于大数据的书籍出现。本书是从一个与其他书籍不同的角度来看大数据的，主要帮助读者理解什么是大数据，如何通过分析来利用大数据，以及在如今的大数据环境中，如何处理世界范围内的高级分析生态系统的创新和变革。大部分读者都将发现这本书有价值且充满趣味。无论你是分析专家，还是使用分析结果的企业家，或者只是对大数据和高级分析感兴趣的人，这本书都有适合你阅读的内容。

本书并不会深入介绍所涉及主题的技术细节。本书的技术高度刚刚能够让读者从高层次来理解其所讨论的概念。本书的目的是使读者可以理解，并开始运用这些概念，以及帮助他们认识在哪些方面还需要更加深入的研究。这本书更像是一本手册而非教科书，完全可以被非技术人员理解和掌握。同时，那些对这些主题已经有深入了解的读者，也可以从本书的一些讨论中获得一些技术方面更深层次的启示。

内容提要

本书由四部分组成，每一部分都从一个方面来介绍如何驾驭大数据浪潮。第一部分将介绍什么是大数据，大数据为什么重要，以及如何应用大数据。第二部分集中介绍那些能够用于分析和操作大数据的工具、技术和方法。第三部分介绍如何使分析专家、分析团队以及所需的分析原则更加高效。第四部分将前三部分结合在一起，重点介绍了如何通过分析创新中心使得分析更加有创造力，以及如何改变分析文化。以下是关于各章节所涉及内容的详细提纲。

第一部分大数据的兴起

第一部分重点介绍了什么是大数据，大数据为什么重要，以及分析大数据可以带来什么好处。本部分覆盖了10种类型的大数据源，以及如何利用这些资源来帮助企业提高其业务水平。如果读者拿起这本书时，还不知道什么是大数据，以及大数据的应用有多么广泛，那么第一部分会帮助你了解这部分内容。

第1章什么是大数据，大数据为什么重要

本章首先介绍了大数据的背景知识，以及大数据到底是关于什么的。然后给出了一些企业如何利用大数据的案例。如果读者想要帮助自己的企业驾驭大数据浪潮，那么请首先理解本章所讲的内容。

第2章网络数据：原始的大数据

如今，或许应用最为广泛并为人们所熟知的大数据源是从网站上收集来的详细数据。用户浏览互联网所产生的日志信息，是等待分析和挖掘的信息宝库。不同行业的企业都将从它们网站上收集到的详细用户信息整合到它们的企业业务分析中。本章将探索这些数据是如何增强和改变一系列业务决策的。

第3章典型大数据源及其价值

在本章中，我们将从高层次来探索9种大数据源。其目的是介绍每种数据源，并讨论每种数据源在商业中的应用和启示。一些本质相同的技术应用在不同的行业中，以产生多种大数据源，这个趋势已经越来越明显。另外，不同的行业可以利用一些相同的大数据源，大数据并非只能用于某些狭窄的领域。

第二部分驾驭大数据：技术、流程以及方法

第二部分将集中介绍用于驾驭大数据的技术、流程以及方法。这些年取得的重大进展增加了这3个方面的可扩展性。企业不能继续依赖外部的方法和专家来保持它们在大数据世界中的竞争力。本书的这一部分将是技术性最强的一部分，但仍然可以被绝大多数的读者所理解和接受。读完这些章节后，读者将熟悉他们今后进入大数据分析领域时可能遇到的一系列概念。

第4章分析可扩展性的演进

在每一个时期，数据的高速增长使得当时最具可扩展性的工具也只能疲于应付。在大数据出现之前，传统的高级分析方法已经到达了它们的瓶颈。如今，传统的方法已经不再适用。本章将讨论分析和数据环境的融合、海量并行处理（MPP）体系、云、网格计算，以及MapReduce技术。这些技术增强了可扩展性，并且在大数据分析中扮演着重要角色。

第5章分析流程的演进

为了更好地利用被极大增强的可扩展性，分析流程也需要进行升级。本章将首先概述如何利用分析沙箱为分析专家提供一个可扩展的环境，从而建立高级分析流程。然后，我们将介绍企业分析数据库如何帮助在创建分析数据时，获得更高的一致性并减小风险，同时提高分析专家的生产效率。本章最后将探讨如何使用嵌入式评分过程将高级分析流程部署和转移到用户端和应用端。

第6章分析工具和方法的演进

本章将介绍一些高级分析方法演进的过程，以及这些改进将如何继续改变分析专家完成工作和处理大数据的方式。讨论的主题将包括可视化图形界面、单点分析解决方案、开源工具，以及数据可视化工具的演进。本章也讲述了分析专家将如何改变他们建模的方法，以便更好地利用可用资源。讨论的主题包括组合模型、简易模型以及文本分析。

第三部分驾驭大数据：人和方法

第三部分重点讨论驾驭大数据的人和他们所属的团队，以及确保他们能够提供优质分析的方法。如何提供优质的分析，包括大数据分析，其关键因素是找到合适的人来掌舵，并且他们能够遵循正确的分析原则。读完这3章后，读者将了解优质分析、优秀的分析专家和分析团队的特质。

第7章如何提供优质分析

计算统计结果、撰写报告、使用建模算法仅仅是实现优质分析众多步骤中的几步。本章首先阐述了一些定义，然后讨论了一系列关于如何创建优质分析的主题。大数据给企业带来了从未处理过的复杂数据组合，将本章讨论的原则牢记在心对驾驭大数据非常关键。

第8章如何成为优秀的分析专家

数学、统计学以及编程方面的能力是必要的，但对于一个优秀的分析专家来说，仅仅具备这些技能还不够。优秀的分析专家还需要具备大多数人通常不会首先具备的特质。这些特质包括承诺、创造力、商业头脑、演讲能力与沟通技巧以及直觉。本章将探讨在寻找一个优秀的分析专家时，这些特质为什么非常重要且不能被忽视。

第9章如何打造优秀的分析团队

企业如何打造一个高级分析团队，并使其发挥最优效果？把他们放在企业的什么位置最合适？这些团队如何运转？谁来创建高级分析？本章将讨论建立一个优秀的分析团队时必须考虑的一些常见挑战和原则。

第四部分整合：分析文化

第四部分将介绍一些著名的基本原则，企业想利用高级分析和大数据进行成功创新必须遵循这些原则。尽管这些原则也被广泛地应用于其他领域，但我们的焦点和视角是这些原则将要如何应用于当前企业环境的高级分析中。读者可能已经比较熟悉所涉及的这些概念，但是对于如何将它们应用到高级分析和大数据中，也许还是很陌生的。

第10章促进分析创新

本章从回顾一些成功创新背后的基本原则开始，然后通过分析创新中心的概念，将它们应用到大数据和高级分析中。我们的目标是能够让读者清楚地理解如何在企业中更好地促进分析创新，并驾驭大数据。

第11章营造创新和探索的文化氛围

本章将介绍如何营造创新和探索的文化氛围作为本书的结尾。本章的文字有趣而轻松，并给如何营造出有利于促进创新分析的文化氛围留出了一些思考空间。这些涉及的原则被广泛地讨论，并被大家熟知。但是，这些原则仍然值得回顾，并且需要思考企业如何将这些确立的原则应用到大数据和高级分析中。第一部分大数据的兴起第1章什么是大数据，大数据为什么重要

在未来几年中，各种新的、强大的数据源会持续爆炸式地增长，它们将会对高级分析产生巨大的影响。例如，仅仅依靠人口统计学和销售历史来分析顾客的时代已经成为了历史。事实上，每一个行业中，都将出现或者已经出现了至少一种崭新的数据源。其中一些数据源被广泛应用于各个行业，而另外一些数据源则只对很小一部分行业和市场具有重大意义。这些数据源都涉及了一个新术语，该术语受到人们越来越多的议论，这个术语便是——大数据。

大数据如雨后春笋般地出现在各行各业中，如果能够适当地使用大数据，将可以扩大企业的竞争优势。如果一个企业忽视了大数据，这将会为其带来风险，并导致在竞争中渐渐落后。为了保持竞争力，企业必须积极地去收集和分析这些新的数据源，并深入了解这些新数据源带来的新信息。专业的分析人士将有很多的工作要做！将大数据和其他已经被分析了多年的数据结合在一起，并不是一件容易的事情。

本章首先介绍了大数据的背景、它的作用，然后从企业如何利用大数据的角度做了大量介绍。如果读者想要成功驾驭大数据浪潮，那么在理解本书其他部分的同时，需要更深刻地理解本章内容。1.1 什么是大数据

关于大数据，业界并没有一个统一的定义，但却有几个一致的观点。有两份资料很好地诠释了大数据的本质。第一个定义来自于Gartner公司的Merv Adrian在2011年第一季度刊登在《Teradata Magazine》上的一篇文章。他说，“大数据超出了常用硬件环境和软件工具在可接受的时间内为其用户收集、管理和处理数据的能力。”另一个定义来自于麦肯锡全球数据分析研究所（Mckinsey Global Institute）在2011年5月发表的一篇论文：“大数据是指大小超出了典型数据库软件工具收集、存储、管理和分析能力的数据集。”

这些定义暗示着大数据的界定会随着技术的进步而变化。以往的大数据或今天的大数据，在明天将不再是大数据。大数据的这个定义会使有些人感到不安。前面的定义又暗示着大数据的界定会随着行业甚至企业的不同而不同，因为它们所用工具和技术的处理能力可能大相径庭。我们将在本章的“今天的大数据将不再是明天的大数据”一节中对此展开更详细的讨论。

麦肯锡的论文中列举了一些有趣的事实，这些事实能够帮助读者认识今天的数据量是多么庞大。

在今天，花600美元可以买下一个存储了全球所有音乐的硬盘。

Facebook每个月都会有300亿条新信息被分享。

在美国17大行业中的15个行业，每个企业的平均数据量都超过了美国国会图书馆的数据量。

大数据的“大”并不仅仅指容量

尽管大数据必然包含大量的数据，但是大数据并不仅仅指数据的容量。与过去的数据源相比，大数据的速度（例如，数据传输和接收的速度）、复杂度以及多样性都有所增加。

大数据并不是仅仅指数据的容量即数据量的大小。根据Gartner Group公司的定义，大数据的“大”也涉及大数据源的其他特征。这些特征不仅仅包括不断增加的容量，还包括不断增加的速度和多样性。当然，这些因素也导致了额外的复杂度。这意味着当你在处理大数据时，你并不仅仅是拿到了一堆数据而已。大数据正在以复杂的格式，从不同的数据源高速地朝你奔涌而来。

所以，不难理解为什么我们要用浪潮来比喻涌向我们的大数据，以及为什么驾驭它们是一个挑战！企业的分析技术、流程和系统已经接近或者超越处理的极限了。我们必须利用最新的技术和方法开发更多的分析技术和流程，从而更加有效地分析和处理大数据。在本书中，我们将讨论所有这些主题，论证为什么驾驭大数据所付出的努力是值得的。1.2 大数据中的“大”和“数据”哪个更重要

现在让我们先做一个小测验！在你继续阅读之前，请先停下片刻，并思考这个问题：术语“大数据”中，哪部分是最重要的？是（1）“大”，（2）“数据”，（3）二者同等重要，还是（4）都不重要？请花一分钟时间来思考这个问题，如果你已经锁定了自己的答案，请继续阅读后面的内容。同时，想象一下正在播放着“参赛者正在思考”音乐的游戏节目场景。

好了，既然你已经锁定了答案，让我们来看一下它是否正确。这个问题的答案应该选（4），其实“大”和“数据”都不是大数据中最重要的。根本而言，最重要的应该是企业如何来驾驭这些大数据。你的企业对大数据进行的分析，以及随之采取的业务改进措施才是最重要的。

无论如何，拥有大量的数据本身并不会增加任何价值。也许你拥有的数据比我拥有的数据多，可那又如何？事实上，拥有任何一个数据集，无论它们多大或者多小，其自身都不会带来任何价值。被收集来的数据如果从不使用，不会比存放在阁楼或地下室的垃圾更有价值。如果不投入具体的环境中并付诸使用，数据将毫无意义。对于任何大量或少量的大数据，大数据的威力体现在如何处理这些数据上。如何分析这些数据？基于这些洞察又将采取怎样的行动？如何利用这些数据来改变业务？

或许因为读了很多炒作大数据的文章，很多人开始相信正是由于大数据的大容量、高速和多样性，才使得它们比其他数据更具有优势且更重要。但这并不正确。正如我们将在本章后面“绝大多数大数据并不重要”一节中所讨论的，在很多大数据中，毫无价值或者价值很小的内容所占的比例要比以往数据源中高得多。当你把大数据精简至实际需要的容量时，它们将不再显得如此庞大。但这并不重要，因为不管它是保持原始大小，还是被处理后变得很小，容量并不重要，重要的是如何处理它。

重要的不是它的容量，而是你如何使用它！

当然，我们正在谈论的是大数据！我们并不关注大数据的数据量很大这样的事实，也不关注大数据确实会带来很多内在价值的事实。这些价值体现在你如何分析它们，并采取怎样的措施来提升你的业务。

当我们开始阅读本书时，第一个关键点是要记住大数据的数据量很大，而且大数据是数据。然而，这并不是使你和你的企业为之兴奋的原因。令人激动的部分在于，使用这些数据时采用的所有新的、强大的分析方法。后边我们将讨论到大量全新的分析方法。1.3 大数据有何不同

大数据具有一些区别于传统数据源的重要特征。并非每个大数据源都具备所有这些特征，但是大多数大数据源都会具备其中的一些特征。

首先，大数据通常是由机器自动生成的。在新数据的产生过程中，并不会涉及人工参与，它们完全由机器自动生成。如果你分析一下传统的数据源，它们通常会涉及人工的因素。例如，零售业和银行交易、电话呼叫的详细记录、产品出货，或是发票付款。以上这些都会涉及某个人做某些事情，从而记录或生成一些数据。有人需要储蓄，有人需要采购，还有人需要打电话、发货和进行支付等。在每种情形中，总有一个人参与到新数据的生成流程中。在很多情况下，大数据并不是这样产生的。大量大数据源的产生根本不涉及与人的互动。例如，引擎中内置的传感器，即使没有人触摸或下达指令，它也会自动地生成关于周围环境的数据。

其次，大数据通常是一种全新的数据源，并非仅仅是对已有数据的扩展收集。例如，通过使用互联网，顾客可以与银行或零售商进行在线交易。然而，这些交易和传统的交易方式并没有本质上的差别，顾客仅仅是通过一种不同的渠道进行交易。企业可以收集网络交易数据，但是同他们多年来拥有的传统交易数据相比，这些数据仅仅是数量更多的相同类型数据而已。然而，对顾客在进行交易时的浏览行为进行收集，却产生了一种本质上全新的数据，我们将在第2章中对这类数据进行详细的讨论。

有时，“数量更多的相同类型数据”也可以达到另一个极端，从而变成一种新的数据。例如，或许很多年来都是人工方式读取你的电表。可以这样说，一个每隔15分钟自动读取用电数据的智能电表所产生的仅仅是更多“相同类型的数据”。然而，我们也有理由认为这种“数量更多的相同类型数据”已经不同于以前人工读取的数据，因为它可以使用一种全新的、更深层次的分析，所以它确实是一种新数据源。我们将在第3章讨论这种数据源。

再次，很多大数据源的设计并不友好。事实上，一些数据源根本没有被设计过！以社交媒体网站上的文本流为例，我们不可能要求用户使用一定标准的语法、语序或是词汇表。当人们发布信息时，你可以获得这些数据。处理这些时而规范，时而丑陋的数据是非常困难的事情。我们将在第3章和第6章中讨论文本数据。大多数传统数据源在设计之初都会尽量使其友好。例如，用于收集交易信息的系统通常会以整洁的、预先规范好的模板方式来生成数据，以确保数据容易被加载和使用。部分原因在于曾经对空间高效利用的需求，以前并没有空间记录其他的繁文缛节。

大数据可能是凌乱而丑陋的

传统数据源通常在最开始就被严格地定义。数据的每一个比特都有重要的价值，否则就不会包含这个数据比特。随着存储空间的开销变得微乎其微，大数据源在最开始通常不会被严格地定义，而是去收集所有可能使用到的各种信息。因此，在分析大数据时，可能会遇到各种杂乱无章、充斥着垃圾的数据。

最后，大量数据可能并不蕴含大量的价值。事实上，大部分数据甚至毫无价值。一篇网页日志中会含有非常重要的数据，但其中也包含了很多根本没有价值的数据。对其进行提炼，从而保留有价值的部分是非常必要的。传统数据源在定义之初，就被要求所有的数据要百分之百有用。这主要是由于当时可扩展性的限制，在数据中包含一些不重要信息的代价是非常昂贵的。不仅数据记录的格式被预先定义过了，而且数据中的每一部分都包含了重要价值。而如今，存储空间已不再是主要的瓶颈。因此，大数据会默认收集所有可能使用到的信息，后面再去考虑这种做法可能带来的麻烦。这样可以保证所有信息都不会被遗漏，但同时也导致了分析大数据变得更加棘手和令人头痛。1.4 大数据为何是数量更多的、相同类型的传统数据

作为一个获得了大量关注的新热点，各种关于大数据的言论接踵而至：大数据如何从根本上改变完成分析和使用大数据的方法。如果花一些时间去思考这个问题，你会发现事实并不是这样的。这又是一个被炒作得远离了事实的例子。

大数据的庞大和它们所提出的可扩展性问题并不是一个新话题。大多数新数据源在第一次使用时都会被认为是庞大而难以使用的。大数据仅仅是又一波新的、更大的、突破了当前极限的数据。分析专家能够驾驭传统的数据源，虽然存在瓶颈限制，他也将能够驾驭大数据源。毕竟一直以来，分析专家都在积极努力地探索新的数据源，并将继续探索下去。

谁是第一个开始在电信公司中分析电话详细记录的人？正是分析专家。我的第一份工作是做大型机磁带的客户流失分析。在当时，该分析的数据量是令人难以置信的。谁是第一个深入研究零售点销售数据并找出其中价值的人？是分析专家。起初，分析几千个商店中几万到几十万个商品的数据被认为是一个大难题。而如今，这已经不再是什么难题。

最早涉足这些数据源的分析专家在当时都会被认为是在处理无法想象的大量数据。他们必须找出在当时的瓶颈下分析和利用这些数据的方法。很多人怀疑其可行性，还有些人甚至质疑这些数据是否真的有价值。这听起来很像是今天大数据的情形，难道不是吗？

大数据并不会改变分析专家们正在努力做的事情和他们这样做的原因。即使有些人开始自称为数据科学家而非分析专家，他们的目标其实还是一样的。这些待解决的问题必然会涉及大数据，这和以前的情景没什么两样。最终，就像他们一直以来所做的事情，分析专家和数据科学家们还是会去探索新的、无法想象的庞大数据集，以发现一些有价值的趋势和模式。在本书中，我们会将传统分析专家和数据科学家统一称为“分析专家”。我们将在第7、8、9章更详细地讨论这些专家。在这里要强调的是，大数据虽然听起来很陌生，但是对我们来说，它带来的挑战其实并不陌生。

你没有什么可畏惧的

从很多方面来讲，大数据并没有产生任何你的企业从未遇到过的问题。在数据分析的世界里，驾驭新的、突破了当前可扩展性极限的大数据源是永恒的主题。大数据仅仅是下一代的此类数据而已。分析师对于处理这些状况已经非常熟悉了。如果你的企业曾经驾驭过其他数据，那么它同样可以驾驭大数据。

大数据会改变分析专家的一些工作策略。为了更有效地处理大数据流，需要将新的工具、方法、技术和传统的分析工具结合起来。想要从原始大数据流中提炼出有用信息，需要开发复杂的过滤算法。同时，建模和预测流程也需要更新，我们需要将大数据输入添加到现有输入中。我们将在第4、5、6章更多地讨论这些话题。

工作策略的转变并不会从根本上改变分析的目标和流程。大数据必将催生出新的、创新性的分析方法，并且促使分析专家们继续在扩展性的瓶颈下进行革新。然而，对大数据的处理不会和分析专家们以前所做的事情有太大差别。他们已经准备好了迎接这个挑战。1.5 大数据的风险

大数据会带来一些风险。其中一个风险是企业可能会被大数据压得不堪重负，从而停滞不前。正如我们将在第8章中讨论的，关键是要有合适的掌舵人来保证这些不会发生。你需要这些掌舵人去征服大数据，并处理各种问题。有了他们来处理问题，企业可以避免陷入泥沼而无法前行。

另一个风险是当收集如此庞大的大数据时，其成本的增长速度会快到令企业措手不及。和处理其他事物的方法一样，避免这种情况出现的方法是要保证以适当的步伐前进，使得企业能够及时跟上。没有必要从明天开始行动，一条不漏地收集所有的新数据。而应当立即去做的是，开始收集一些新数据源的样本并试图了解它们。可以使用这些初始样本进行一些实验分析，从而弄清楚数据源中哪些数据是重要的，以及如何使用它们。以样本数据为基础，企业已经做好了有效地处理更大规模数据源的准备。

对于很多大数据源，其最大的风险或许是隐私。如果世界上的每个人都是善良和诚实的，那么我们就没有必要去担心隐私问题了。但不是每个人都是善良和诚实的。事实上，进一步讲，还有很多并不善良和诚实的公司，甚至有的政府机构都不善良和诚实。这使得大数据存在一些潜在的风险。在处理大数据时，必须考虑到隐私问题，否则就无法完全发挥其潜能。如果没有适当的限制，大数据有可能会激发一股抗议风潮，以至于可能会被完全禁止。

回想一下最近受到广泛关注的一些安全性事件，例如，信用卡卡号和政府机密文件被窃取并发布在网上的泄密事件。因此毫不夸张地说，如果把数据储存在那里，总会有人试图去偷取它。一旦坏人拿到了这些数据，他们一定会利用这些数据去做坏事。已经有过几起倍受瞩目的案件，一些大公司由于其含糊不明的隐私政策而陷入麻烦之中。由于数据是以一种顾客不知情、不支持的方式被使用的，因此会产生冲突。随着大数据的爆炸式增长，必须同时对其使用自我约束和施加法律约束。

自我约束非常关键，毕竟它表明了行业对隐私保护的关注程度。每个行业都应该对自身进行约束，并且制定一些所有人都要遵守的法则。自愿接受的法则通常要比政府机构参与制定的法规效果更好一些，但约束力要更差一些，这是因为行业并不善于约束自身。

隐私是大数据的一个大问题

在大数据源的众多敏感特性中，隐私一直是一个焦点。一旦数据放在那里，总有些不诚实的人会在未得到你授权的情况下，试图以未经你批准的方式使用它们。对于大数据的处理、存储和应用，需要有相应的政策和协议与当前的分析能力匹配。确保在制订公司的隐私策略时考虑周全，以保证你的做法完全清白和透明。

人们已经开始担忧他们的网页浏览历史是如何被跟踪到的。同样还有很多担忧是关于通过手机应用和GPS系统跟踪个人位置和操作行为的。恶意使用大数据是完全有可能的，而一旦其成为可能，便总会有人去尝试。因此，需要采取必要措施以防止这种事情的发生。企业需要澄清它们是如何保证数据安全的，并且如果用户同意其数据被收集和分析，它们将如何使用这些数据。1.6 你为什么需要驾驭大数据

目前为止，很多企业在大数据上所做的事情还非常少。幸运的是，在2012年，如果你的企业还没重视大数据，你们落后得还不算很远，除非你是在电子商务这样的行业（在这些行业中，大数据分析已经被标准化了）。然而，随着势头的飞快增长，这种情况会很快改变。迄今为止，大部分企业所错过的仅仅是做领导者的机会。事实上，这对于很多企业来说并不是什么问题。今天，它们仍有机会迎头赶上。然而再过几年，如果一家企业还没有分析大数据，那么它在这场游戏中将很难再赶上别的企业。驾驭大数据最好的时机正是现在！

一家企业完全可以借助新的数据源来获取业务价值，而其竞争对手却没有做同样的事情，这种情况并不常见。这是如今大数据所带来的巨大商机，你将有机会超过你的竞争对手并击败它们。在未来几年内，我们将会继续看到通过大数据分析进行成功业务转型的案例。你将会从很多案例分析中看到，竞争对手是如何被猝不及防地抛进历史的尘埃中。在很多文章、会议以及其他的讨论中，已经有很多此类案例引人瞩目。一些案例正是来自于行业中那些迟钝、落后以及守旧的企业。在电子商务这样新兴而火爆的行业中，情况则完全两样。在第2章和第3章中，我们将会看到很多如何使用大数据的案例。

现在正是时候！

你的企业需要从现在开始驾驭大数据。如果迄今为止，你一直都在忽视大数据，那么你所错过的只是当领导者的机会，你仍有机会可以迎头赶上。再过几年，如果你还在袖手旁观，那么你将会被淘汰。如果你的企业已经开始着手收集数据，并通过分析进行决策，那么对于你们来说，跟上大数据的步伐并不是一件夸张的事情。处理大数据仅仅是你现在所做事情的简单延伸。

事实上，下决心开始驾驭大数据并不是一件困难的事情。大多数企业已经开始着手收集和分析数据，并将其作为其战略的核心部分。数据仓库、报表和分析已经开始普及。一家企业一旦开始认识到数据的价值，那么驾驭和分析大数据仅仅是它们现有工作的扩展和延伸。不要轻信怀疑论者的言论：大数据不值得探索，它们没有得到验证，它们风险太大等。在过去的几十年里，这些同样的借口一直在阻挠着数据分析的进步。对于那些对大数据感到不确定或是不安的人，要让他们明白大数据仅仅是企业现在所做事情的简单延伸。大数据并没有任何翻天覆地的变化，大数据没有什么让我们可畏惧的。1.7 大数据的结构

当你阅读大数据的相关文章时，你可能会遇到很多关于以下概念的讨论，数据如何被结构化、非结构化、半结构化，甚至多结构化。大数据通常被描述为非结构化的，而传统数据则是结构化的。然而它们之间的界限并不像这些标签所划分的那么清楚。让我们以非专家的视角来探讨这3种数据类型，更高深的技术细节超出了本书讨论的范畴。

绝大多数传统数据都是完全结构化的。这意味着传统数据源会以明确的、预先规范好所有细节的格式呈现。每时每刻所产生的新数据，都不会违背这些预先定义好的格式。对于股票交易，其交易信息的第一部分应该是格式为月份/日期/年份的时间信息，接下来的是12位账户数字，而下面紧跟的是由3到5位字母表示的股票代码等。每条信息事先都已很明确了，以规范好的格式和顺序给出，这使得它们很容易被处理。

对于非结构化的数据，你没有或几乎没有控制权，你所做的只能是接收它们。文本数据、视频数据、音频数据都属于这个范畴。每幅图像都是由独立像素通过特定的排列方式组合而成的，但是像素组合成图像的方式却可能千变万化、大相径庭。确实有很多这样完全非结构化的数据。然而，对于大部分数据来说，至少都是半结构化的。

半结构化的数据具有可被理解的逻辑流程和格式，但这些格式并不是用户友好的。有时，半结构化数据也被称为多结构化数据。在这类数据里，有价值的信息参杂在大量噪声和无用的数据中。理解和分析半结构化数据，要比理解和分析规范好文件格式的数据困难。要理解半结构化的数据，必须要有一套复杂的规则，在读到每条信息后，能够动态地决定随后的处理方法。

网络日志是半结构化数据的最好例子。当你看到网络日志时，你会觉得它们非常丑陋；但是，其中每一条信息都有其特定的用处。网络日志是否提供了对你有用的信息则是另外一回事。图1-1给出了一个原始网络日志的例子。图1-1 原始网络日志的例子

你的大数据具有怎样的结构？

事实上，很多大数据源都是半结构化或多结构化的，而不是非结构化的。这些数据具有可被理解的逻辑流程，因此可以从它们中提取出用于分析的信息。处理这类数据不像处理传统结构化数据那么简单。要驾驭半结构化数据，需要花费很多时间，并且要努力才能找出处理它们的最好方法。

网络日志中的信息都有一定的逻辑，尽管第一眼看上去可能并不那么明显。日志中有不同的字段和分隔符，就像结构化的数据一样，其中也蕴含着价值。然而，这些元素并没有按照固定的方式紧密地联系在一起。点击一个网站所产生的日志文本比起一分钟前点击另一个网页产生的日志文本，可能更长，也可能更短。最后，一定要理解半结构化的数据都具有其内在的逻辑，在它的各部分之间建立联系是完全可能的。要做到这一点，需要比处理结构化数据付出更多的努力。

对分析专家来说，完全非结构化的数据要比半结构化数据更加恐怖。想要征服半结构化数据，他们可能需要付出一番努力，但是他们确实可以做到。分析专家们可以将半结构化数据重新组织得非常结构化，并将其运用到他们的分析流程中。然而，征服完全非结构化的数据要困难得多，即使企业已经征服了半结构化的数据，征服非结构化的数据对他们来说，仍将是一个巨大的挑战。1.8 探索大数据

开始着手处理大数据并不是一件困难的事情。很简单，收集一些大数据，让企业的分析专家团队开始探索这些数据可以提供些什么。企业没有必要一开始就设计一个具备生产级标准、持续的数据输入系统。企业所要做的仅仅是让分析专家团队先去切身接触那些数据，然后再开始分析探索工作。分析专家和数据科学家们会逐渐进入角色并完成好他们的工作。

有一个很老的拇指法则：数据分析工作有70%～80%的时间花在收集和准备数据上面，而仅有20%～30%的时间花在分析本身上。在刚开始处理大数据时，这个比例估计会更低。一开始，分析专家可能至少要花95%的时间，甚至几乎100%的时间去弄清楚某一种大数据源，然后才会去思考如何利用这些数据做更深层次的分析。

理解上述做法是非常重要的。弄清楚数据源的本质是分析流程中最重要的一部分。反复地加载数据、检查它们的表现、调整加载过程，从而选择能够更好地服务于目标的数据，虽然看起来不那么吸引人、令人兴奋，但却是至关重要的。如果没有完成这些步骤，也就不可能进入后面的分析环节。

确定大数据中有价值的部分，并且确定如何最优而精确地提取这些部分，这一过程非常关键。可以预料到这一过程会花费很多时间，但即使在它上面花的时间超出了你的预期，也不要感到沮丧。在弄明白新数据源的过程中，企业的分析专家和其业务赞助商应该积极地寻找代价小、见效快的方法。记得要向企业展示一些有价值的东西，不管这些东西是多么的微不足道。这样可以让人们保持对这一过程的兴趣，并帮助人们理解所取得的进展。一个跨部门的团队绝不能在组建一年之后，还宣称他们仍在试图搞明白如何通过大数据来做一些事情。必须能够时不时地迸发出一些想法，即使这些点子很小，然后迅速地采取一些行动。

前进过程中产生的价值

搞明白如何将大数据源应用到你的业务中需要付出很多的努力。企业的分析专家和业务赞助商们在工作过程中，应该积极地寻找代价小、见效快的方法。这样可以向企业证明他们所取得的进展，从而继续为其后面的努力工作赢得支持。这些进展也可以产生稳固的投资回报。

有一个很好的例子来自于一个欧洲的零售商，这家公司想要利用详细的网络日志数据。当通过一个长期而复杂的过程收集好数据之后，这家公司实施了一些简单的举措。他们开始鉴别每个用户所浏览过的商品。利用这些浏览信息，他们随后建立起一个电子邮件系统，向离开网站前浏览过该商品，但并未购买该商品的顾客发送电子邮件。这个简单的举措为这家企业创造了巨大的利润。

除了采取其他类似的基本早期措施，公司还需要对收集和加载网络数据进行投资。更重要的是，它们以前并没有过处理整套数据流的意愿和经验。想象一下未来当它们对数据进行更深层次分析后的回报。正是由于这些迅速而及时的进展，企业里的每个人才乐意继续下去，因为从对数据进行的这些早期举措中，他们已经看到了其强大的威力。况且，他们已经为未来的努力买过单了。1.9 很多大数据其实并不重要

事实上，绝大多数大数据都是无关紧要的。这听起来必然很残酷，不是吗？但这并不是我们对大数据的预期。正如我们已经讨论过的，一个大数据流体现在容量、速度、多样性和复杂度等多个方面。大数据流的很多内容对于某些特定目标来说是没有价值的，而有些内容则没有任何用处。驾驭大数据并不意味着一定要将所有的水牢牢地圈在游泳池中。事实更像是通过一个吸管吸水：你只需要把你所需要的部分吸出来就可以了，剩下的部分就随它去吧。

在一个大数据流中，有些信息具有长期的战略价值，有些信息只具有临时的战术价值，而另外一些信息则毫无价值。驾驭大数据的关键部分是弄清楚不同信息所属的类别。

有个例子能够很好地说明这一点，这就是我们将在第3章中讨论的无线射频标签（RFID），今天很多产品在运输时都会在运货箱上打上这种标签。对于一些昂贵的货物，甚至在每一个货物上都会打上标签。将来，为每件货物打上标签最终会成为一个标准做法。但是在今天的很多情况下，这么做的代价仍然过于昂贵，因此通常只在每个运货箱上打一个标签。这些标签使得运货箱当前的位置、装载和卸载的时间、存放的地点都很容易被追踪到。

想象一个存放了数以万计运货箱的仓库。每个运货箱都打上了一个RFID标签。RFID识别器每隔10秒都要向仓库询问一次：“是谁在那里？”每个运货箱都会给出如下回应：“是我。”让我们来讨论一下，在这个例子中大数据是如何很快瘦身的。

今天第一个到达的运货箱会发出信息：“我是运货箱123456789。我在这里。”在未来3个星期内，只要这个运货箱还在仓库中，那么每隔10秒它都会重复地应答：“我在这里。我在这里。我在这里。”在每隔10秒的轮询过后，非常有必要去分析所有的应答，并鉴别出状态发生了改变的运货箱。通过这种方式，可以确认那些预期的变化，并对状态发生了非预期变化的运货箱采取相应措施。

一旦一个运货箱离开了仓库，它将不再做出任何应答。一旦确认这个运货箱是按照预期方式离开的，那之前所有“我在这里”的记录将不再有用。随着时间的推移，真正有用的是这些运货箱到达和离开的日期和时间。如果这两个时间点相隔了3个星期，我们需要保留的也仅仅是运货箱到达和离开的这两个时间戳。在这期间里，所有那些每隔10秒做出“我在这里”的应答虽然没有任何长期价值，但是仍有必要收集它们。而且在它们产生的每个时刻，都有必要去分析它们。但是那些在这两个时刻点之外的应答将不再有任何长期价值。一旦这个运货箱离开，这些数据便可以被安全地丢弃。

试读结束[说明：试读内容隐藏了图片]

下载完整电子书

驾驭大数据试读：

相关推荐

自动控制原理(txt+pdf+epub+mobi电子书下载)

钳工工艺与实训(txt+pdf+epub+mobi电子书下载)

病毒来袭(txt+pdf+epub+mobi电子书下载)

中国老龄产业发展研究(txt+pdf+epub+mobi电子书下载)

莲花落：华北满铁调查村落的人类学再研究(txt+pdf+epub+mobi电子书下载)

2018年上海市选聘高校毕业生到村任职考试《综合知识和能力》题库【真题精选＋章节题库＋模拟试题】(txt+pdf+epub+mobi电子书下载)

2017年经济师《建筑经济专业知识与实务（中级）》复习全书【要点精讲＋历年真题视频讲解】(txt+pdf+epub+mobi电子书下载)

螺丝起子(txt+pdf+epub+mobi电子书下载)

大变革——互联网重构商业模式(txt+pdf+epub+mobi电子书下载)

作家榜经典：约翰·克利斯朵夫全3册(莫言站着读完的精神成长之书！让你灵魂震撼，重新热爱生活！全新未删节插图珍藏版，作家榜经典文库)大星文化出品(txt+pdf+epub+mobi电子书下载)

中山大学法学院629刑法学A卷历年考研真题视频讲解【6小时高清视频】(txt+pdf+epub+mobi电子书下载)

有些事现在不做，一辈子都不会做了3：一个人的生活(txt+pdf+epub+mobi电子书下载)

适合青少年的微型小说·生活素描(txt+pdf+epub+mobi电子书下载)

家庭医生指南1001问(txt+pdf+epub+mobi电子书下载)

彼岸·《心经》的启示(txt+pdf+epub+mobi电子书下载)

面纱(毛姆长篇作品精选)(txt+pdf+epub+mobi电子书下载)

玩转美味烧烤(txt+pdf+epub+mobi电子书下载)

这年头一定要会点易经(txt+pdf+epub+mobi电子书下载)

全科医生规范化培训模式探索与实践(txt+pdf+epub+mobi电子书下载)

智者人生系列丛书：南怀瑾的人生禅学课+季羡林的人生哲学课+钱钟书的人生智慧课(套装3册)(txt+pdf+epub+mobi电子书下载)

最新文章

人生就要不断精进(txt+pdf+epub+mobi电子书下载)

做个心智成熟的人：人生可以不走弯路(txt+pdf+epub+mobi电子书下载)

跟谁都能聊不停：一看就能用的魔鬼搭讪学(txt+pdf+epub+mobi电子书下载)

赴美留学必知(txt+pdf+epub+mobi电子书下载)

我的男友(txt+pdf+epub+mobi电子书下载)

中国东北与东北亚古代交通史(txt+pdf+epub+mobi电子书下载)

幸福生活讲座(txt+pdf+epub+mobi电子书下载)

情商决定一生(txt+pdf+epub+mobi电子书下载)

夜雨寄北(txt+pdf+epub+mobi电子书下载)

让学生热爱学习(txt+pdf+epub+mobi电子书下载)

On Dreams(txt+pdf+epub+mobi电子书下载)

我的史学人生(txt+pdf+epub+mobi电子书下载)

Creo2.0完全学习手册(txt+pdf+epub+mobi电子书下载)

2018年陕西省军转干部安置考试《公共基础知识》题库【真题精选＋章节题库＋模拟试题】(txt+pdf+epub+mobi电子书下载)

假如给我三天光明(txt+pdf+epub+mobi电子书下载)

带出高效执行力(txt+pdf+epub+mobi电子书下载)

北史（四）(txt+pdf+epub+mobi电子书下载)

影响力的企业富豪(上册)(txt+pdf+epub+mobi电子书下载)

商界40年：逐鹿人(1999-2008)(txt+pdf+epub+mobi电子书下载)

The Boats of the Glen Carrig(txt+pdf+epub+mobi电子书下载)