数据科学与大数据分析 数据的发现 分析 可视化与表示(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-01 04:12:02

点击下载

作者:[美]EMC教育服务团队(EMC Education Services)

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

数据科学与大数据分析 数据的发现 分析 可视化与表示

数据科学与大数据分析 数据的发现 分析 可视化与表示试读:

前言

大数据可以帮助企业从他们最宝贵的信息资产中挖掘到新的商机,从而创造出新的价值并形成竞争优势。对于企业用户而言,大数据可以帮助提高生产效率、提升产品质量和提供个性化的产品和服务,从而帮助改进客户满意度并提升企业利润率。对于学术界而言,大数据分析提供了一种更加先进的分析手段,可以帮助获取更丰富的分析成果和更深入的洞察力。在许多情况下,大数据分析集合了结构化和非结构化数据的实时获取和查询,开拓了创新和洞察的新路径。

本书将介绍大数据分析中从业人员常用的一些关键技术和分析方法。通过掌握这些常用的大数据分析方法,将帮助您胜任大数据分析项目。书中内容会让不同的读者群体受益:业务和数据分析师通过阅读本书,可以学习到很多实用的大数据分析方法;数据库从业人员、商业智能经理、分析师和大数据从业者通过阅读本书可以丰富数据分析技能,大学毕业生通过阅读本书可以了解如何将数据科学做为职业发展领域。

本书包括12章。第1章主要向读者介绍大数据领域、高级数据分析的驱动力和数据科学家的角色作用。

第2章主要介绍根据假设驱动(Hypothesis-driven)的大数据分析的特点和挑战所设计的项目生命周期。

第3章将在开源R分析软件环境下探讨基础的统计方法和技术,此外还将介绍通过数据可视化进行探索性分析的重要性,并回顾基于假设的开发和测试等关键概念。

第4~9章主要介绍一系列先进的数据分析方法,包括:聚类、分类、回归分析、时间序列和文本分析。

第10~11章讲解支持大数据高级分析功能的几种特定技术和工具,特别是MapReduce和它在Hadoop生态系统中的应用实例,以及对SQL和数据库内建文本分析功能的深入讲解。

第12章将指导如何运作大数据分析项目。本章将重点讲解如何将一个分析项目转换成组织运作的资产,如何基于数据创建清晰有用的可视分析结果,完成最终的交付工作。EMC学院联盟

EMC学院联盟就以下主题提供开放式的课程基础教育,我们诚挚邀请大专院校通过加入学院联盟项目的方式访问获取课程内容。● 数据科学与大数据分析;● 信息存储与管理;● 云基础设施与服务;● 备份恢复系统与体系结构。

该项目旨在为学生提供师资和课程资源,以应对当今IT行业不断变化。欲了解更多信息,请访问:http://education.EMC.com/academicalliance 。EMC专家认证证书

EMC专家认证是IT行业领先的教育和认证项目,涵盖了信息存储技术、虚拟化技术、云计算、数据科学与大数据分析等领域。

通过认证是一种很好的自我投资方式,同时也是对自己专业知识的正式验证。

本书可以作为准备数据科学专员(EMCDSA)认证的资料。欲了解更多信息,请访问:http://education.EMC.com 。第1章大数据分析介绍关键概念● 大数据概述● 分析的实践状态● 商业智能与数据科学的对比● 新大数据生态系统中的关键角色● 数据科学家● 大数据分析案例

  产业界、学术界和政府对大数据和高级数据分析的需求已有诸多讨论。随着新数据源的大量出现和更为复杂的分析需求的大量增加,人们开始反思现有的数据架构是否可以发挥大数据分析的优势。此外,对于大数据的定义以及需要什么技能来发挥大数据的最大优势,这在业界也一直存在着较多争论。本章将解释几个关键的概念,以便让您了解什么是大数据、为什么需要高级分析、数据科学和商业智能(Business Intelligence)的区别,以及新的大数据生态系统中需要哪些新角色。1.1 大数据概述

数据在以越来越快的速度不断增长。移动电话、社交媒体和用于医疗诊断的影像技术等新业务,每天都会产生大量的新数据,这些数据都需要存储到起来供日后使用。此外,设备和传感器自动生成的诊断信息也需要得到实时存储和处理。应对如此庞大的数据涌入不是一件很容易的事情,更具挑战的是如何分析这些海量数据,尤其是当这些数据不是传统的结构化数据时,如何才能识别有意义的模式,并且提取有用的信息呢?这些海量数据带来了许多挑战,同时也为改变商业、政府、科学和人们的日常生活带来了可能。

下面几个行业在收集和利用数据方面做的非常出色。● 信用卡公司监控其用户的每一笔交易,并使用从数十亿笔业务的

处理中获得的规则,相当精准地识别欺诈交易。● 移动运营商分析用户的呼叫模式,能够判断哪些用户经常和其他

移动运营商的用户联系。为了避免竞争对手通过低价合同来吸引

自己的用户,运营商可以预先为这些用户提供奖励,以防止用户

流失。● 对于LinkedIn和Facebook这类公司,数据本身就是其主要的产品。

这些公司的估值很大部分源于他们收集和托管的数据,随着数据

的增长,这些数据的内在价值也会越来越多。

具体来说,大数据具有3个基本特征。● 数据体量巨大:大数据的数据体量远不止成千上万行,而是动辄

几十亿行,数百万列。● 数据类型和结构复杂:大数据反映了各种各样新的数据源、数据

格式和数据结构,包括网页上留下的数字痕迹和可供后续分析的

其他数字资料库。● 新数据的创建和增长速度:大数据能够描述高速数据,快速地采

集数据和近乎实时地分析数据。

尽管大数据的体量最受人们关注,通常来讲,数据的种类和速度却能更贴切地定义大数据(业界将大数据归纳为3个V:数量[Volume]、种类[Variety]和速度[Velocity])。由于其数据结构和数据规模的特点,使用传统的数据库或方法已经很难有效地分析大数据了。因此,我们需要新的工具和技术来存储、管理和实现其商业价值。这些新的工具和技术能够创建、操纵、管理大型数据集和用来存储数据集的存储环境。2011年,麦肯锡发布的全球报告给大数据下了一个定义:大数据是具有大规模、分布式、多样性和/或时效性的数据,这些特点决定了必须采用新的技术架构和分析方法才能有效地挖掘这些新资源的商业价值。

麦肯锡公司《Big Data: The Next Frontier for Innovation, Competition, and Productivity》[1]

麦肯锡对大数据的定义表明,公司需要新的数据架构和分析沙盘、新的工具、新的分析方法,以及将多种技能整合到数据科学家的新角色中(这将在1.3节将详细讲解)。图1.1列举了大数据洪流的几个主要来源。图1.1 大数据洪流的几个主要来源

从图1.1中所列的几个来源可见,数据创造的速度正在加快。

大数据中增长最快的数据源是社交媒体和基因测序,它们也是非传统的被用来分析的数据源。

例如,在2012年,Facebook全球用户每秒钟会发布700条状态更新,通过分析这些状态更新信息就可以判断出用户的政治观点和潜在的兴趣产品,从而有针对性地向用户投放广告。比方说,如果某位Facebook女性用户将自己的感情状况从“单身”改为“定婚”,那么就可以有针对性地向这位用户投放婚纱礼服、婚礼策划或更改名称这类服务的广告。

Facebook还可以通过构建社交图来分析用户彼此之间的互联关系。在2013年3月,Facebook就发布了一项名叫“搜图“(Graph Search)的新功能,用户和开发人员可以使用该功能来搜索兴趣、爱好和共享位置相似的用户群。

基因组学也有成功利用大数据的例子。基因测序和人类基因图谱有助于科学家深入了解人类基因的构成和血统。此外,医疗保健行业也正在试图预测人的一生中容易生的疾病,然后使用个性化的医疗方法来预防这些疾病或减轻这些疾病的影响。这类测试也会标记不同药物和医疗用药的反应,以提高特殊药物治疗的风险意识。

虽然数据增长很快,但是执行数据分析的成本却在急剧下降。2001年为人类基因测序的成本要1亿美金,到2011年该项费用只需1万美元,目前该费用还在持续下降。现在,在23andme(见图1.2)这样的网站上进行基因分型(genotyping)只需要不到100美元。虽然基因分型只是分析基因组的一小部分,并且没有基因测序那么细的分析粒度,但还是可以佐证一个事实,那就是数据和复杂的分析正在变得越来越普遍,而且越来越便宜。图1.2 通过基因分型可以学到什么,源于网站23andme.com

社交媒体和基因测序的例子表明,个人和组织都会从分析更为庞大和复杂的数据中受益,而分析这些数据则需要更加强大的分析性能。1.1.1 数据结构

大数据可以有多种形式,包括结构化数据和类似财务数据、文本文件、多媒体文件和基因定位图这样的非结构化数据。不同于传统数据分析,绝大多数的大数据天生是非结构化数据或者半结构化的数据,因而需要被有别于传统的技术和工具来处理和分析[2]。分布式计算环境和大规模并行处理(MPP)架构让数据的并行化采集和分析成为处理这些复杂数据的首选方法。

鉴于此,本节将继续讲解数据的结构。图1.3中列出了数据结构的4种类型,未来80%~90%的增长数据都将是非结构化数据类型[2]。虽然从结构上看数据可以被分成四种类型,可是大部分的数据都是混合类型。例如,一个典型的关系型数据库管理系统(RDBMS)可能存储着软件支持呼叫中心的呼叫日志。RDMBS可能将呼叫的特征存储为典型的结构化数据,它具有时间戳、机器类型、问题类型和操作系统等属性。此外,该系统也可能存储着非结构化、准结构化或者半结构化数据,例如,从电子邮件故障单、客户聊天历史记录、用来描述技术问题和解决方案的通话记录,以及客户通话语音文件中提取出来的自由格式的呼叫日志信息。从呼叫中心的非结构化、准结构化或半结构化数据中可以提取甚多洞见。图1.3 大数据的增长越来越非结构化

虽然结构化数据的分析技术已经非常成熟,但是我们还是需要不同的技术来应对半结构化数据(比如XML格式)、准结构化数据(比如点击流)和非结构化数据分析所带来的新挑战。

下面给出了4种主要数据结构类型的定义和例子。● 结构化数据:数据包括预定义的数据类型、数据格式和数据结构(例如交易数据、在线分析处理[OLAP]数据集、传统的

RDMBS、CSV文件甚至电子表格)。详细信息参考图1.4。图1.4 结构化数据示例● 半结构化数据:有识别模式的文本数据文件,支持语法分析(例

如,有模式定义的和自描述的可扩展标记语言[XML]数据文

件)。详细信息参考图1.5。● 准结构化数据:这类文本数据带有不规则的数据格式,但是可以

通过工具规则化(例如,可能包含不一致的数据值和格式的网页

点击流数据)。详细情况可参考图1.6。● 非结构化数据:数据没有固有的结构,例如文本文件、PDF文件、

图像和视频。详细情况可参考图1.7。

准结构化数据是一种被极大关注的常见数据类型。让我们看看下面这个示例。如果一位用户参加了一年一度的EMC WORLD大会,然后在网上使用谷歌搜索引擎来查找EMC与数据科学相关的信息。这样就产生了一个类似https://www.google.com/#q=EMC+ data+science的URL地址和结果列表,如图1.5中第1张图所示。图1.5 半结构化数据示例

在搜索之后,用户通过访问第2个链接地址,就可以获得更多“数据科学家——EMC教育、培训和认证”的相关内容。这会将用户带到关注该主题的一个emc.com站点以及一个新的URL:https://education.emc.com/guest/campaign/data_science.aspx,如图1.6中第2张图片所示。在该网站,用户还可以了解到数据科学认证的相关流程。通过点击认证页面顶部的链接,就可以访问一个新的URL地址:https://education.emc.com/guest/certification/framework/stf/data_science.aspx,如图1.6中第3张图所示。

访问上述3个网站就增加了3个URL地址到日志文件,该日志文件用于监控用户计算机或者网络的使用情况。这3个URL网址分别如下所示。

https://www.google.com/#q=EMC+data+science

https://education.emc.com/guest/campaign/data_science.aspx

https://education.emc.com/guest/certification/framework/stf/data_science.aspx图1.6 EMC数据科学搜索结果的示例图1.7 非结构化数据示例:南极科考相关视频[3]

这3个URL组反映了查找EMC相关的数据科学信息的网站和操作。因此,数据科学家通过分析和挖掘相关的点击流,可以发现使用模式,揭开点击之间的关系,以及一个或一组网站上的热点区域。

本节介绍的四种数据类型有时被归纳为二类:结构化数据和非结构化数据。而大多数组织机构并不习惯处理大数据,特别是那些非结构化数据。因此,下一节将从大数据分析的角度介绍一些常用的技术架构。1.1.2 数据存储的分析视角

电子表格赋予数据行和列的结构,使得商业用户可以在数据的行和列结构上创建简单的逻辑,从而创建针对业务问题的分析。创建电子表格非常方便快速,并不需要专门的数据库管理员培训。电子表格非常便于分享,用户可以控制所涉及的逻辑。然而,它们的扩散会导致“真相有许多版本”。换句话说,我们很难确定某个特定用户是否拥有最相关的电子表格版本(其中具有最新的数据和逻辑)。而且,笔记本丢失或者文件损坏都可能会造成电子表格内数据和逻辑的丢失。在世界上的许多计算机中都运行着电子表格程序(比如Microsoft Excel),所以这个挑战将持续存在。随着数据岛的增加,数据集中化的需求比以往任何时候都要更加迫切。

随着数据需求的增长,更多可扩展的数据仓库解决方案出现了。这些技术使得数据可以被集中管理,可以提供安全性、故障切换和单一存储仓库,用户可以从中获取到“官方”数据用于财务报表或者其他关键任务。单一数据存储仓库也便于创建OLAP多维数据集和商业智能分析工具,可以用来快速访问关系型数据库管理系统内的一组数据维度。此外,更多的高级功能提供了高性能的深入分析技术,比如回归和神经网络。企业数据仓库(EDW)对于报表和商业智能任务都非常关键,能够解决电子表格增生(proliferating)所引起的许多问题,比如在具有多个版本的电子表格中,无法确定哪一个版本是正确的。EDW和良好的商业智能战略从集中管理、备份和保护的数据源中提供了直接的数据提要(data feed)。

虽然企业数据存储库和商业智能有许多优点,但是它们都会限制在执行健壮的和探索性数据分析时所需要的灵活性。在EDW模型中,IT部门或者数据库管理员(DBA)管理和控制数据,数据分析员必须通过IT部门来访问和修改数据模式。这会导致分析员花费更长的时间来获得数据,大量的时间都浪费在等待审批这类没有意义的工作上。此外,大多数情况下,EDW的规则都会限制分析员构建数据集。因此,经常会用到额外的系统,该系统包含用来构建分析数据集的关键数据,并且由用户在本地管理。一般情况下,IT部门都不喜欢无法控制的数据源,因为不像EDW,这些数据集是不受管理的,而且也没有保护和备份。在分析员看来,EDW和商业智能解决了数据准确性和可用性的问题,但是也带来了灵活性和敏捷性相关的新问题,这些问题在处理电子表格的时候并不明显。

分析沙盘(analytic sandbox)是解决这个问题的一种方法,它试图解决分析员、数据科学家与EDW、严格管理的企业数据之间的冲突。在此模式下,IT部门仍然管理分析沙盘,但是沙盘将进行有针对性的设计,以启用强大的分析能力,同时还能被集中管理和保护。沙盘也被称为工作区,旨在使团队以一种受控的方式来探索更多数据集,通常不用于企业级的财务报表和销售报告。

很多时候,分析沙盘利用数据库内处理(in-database processing)式的高性能计算——分析都是在数据库内部进行。在数据库内部运行分析可以提供更好的分析性能,因为省去了将数据拷贝到位于其他某地的分析工具的步骤。数据库内分析(将在第11章进一步讨论)创建同一组织的多个数据源之间的关联,节省了以个体为基础创建这些数据提要的时间。用于深入分析的数据库处理加速了开发和执行一个新分析模型所用的周转时间,同时减少(但是没有消除)了与存放在本地“影子”文件系统中的数据相关的成本。此外,不同于EDW中典型的结构化数据,分析沙盘可以容纳更多样性的数据,比如,原始数据、文本数据和其他类型的非结构化数据,而且不会与关键的生产数据库形成干扰。表1.1简要地描述了本节提到的数据存储库的特征。表1.1 数据存储库的类型(站在分析员的角度)数据仓库特征电子表格和数据集市电子表格程序和低容量的数据库 分析依赖数据提取(spreadmarts)数据仓库在专用空间中的集中式数据容器 支持商业智能和报(Data 表,但限制强大的分析功能 分析员依靠IT部门和DBAWarehouse来访问和变更数据模式 分析师必须花费很长时间从)多个数据源中抽取数据,然后整合和分解从多个数据源收集的数据资产和用于分析的技术 支持在非生产环境中进行灵活的、高性能的分析;能够分析沙盘 利用数据库内处理 降低数据复制到“影子”文件系(工作区)统产生的成本和风险 “分析员拥有”而非“DBA拥有”

在大数据分析项目中,需要考虑几件事情以确保方法与预期的目标相匹配。由于大数据所具有的特征,这些项目长常用于为高价值但是处理复杂度较高的战略决策提供支持。由于数据量相当大,结构较为复杂,所以在这种环境中使用的技术必须具备迭代性(iterative)和灵活性。快速且复杂的数据分析需要高吞吐量的网络连接,并考虑一个可接受的延迟量。例如,开发一款用于网站的实时产品推荐系统比开发一款近实时推荐系统需要更高的系统需求,因为近实时推荐系统在提供可接受的性能的同时,延迟只是稍大一点点,但是部署成本更低。我们需要使用不同的方法来应对分析中的挑战,下一节将继续讨论这个主题。1.2 分析的实践状态

当前的商业问题为组织机构提供了很多机遇,使其更具分析能力和被数据驱动,如表1.2所示。表1.2 高级分析的商业驱动因素商业驱动力案例优化业务操作销售、报价、利润率、效率识别业务风险客户流失、欺诈、违约预测新的商业增值销售、追加销售、最佳的潜在新客户机会反洗钱、公平信贷、巴塞尔协议II-III、塞班斯-奥克遵守法律或法规要求斯利法案(SOX)

表1.2列出了组织机构需要应对的4种常见的商业问题,在这4种问题中,组织机构有机会使用高级分析技术来创造竞争优势。在这些领域中,组织除了可以执行标准的报告,还可以使用高级的分析技术来优化流程,并且从这些常用的任务中获取更多的价值。前面3个案例都不是新的问题。组织机构多年来都一直在努力避免客户的流失、增加销售业绩和追加销售客户。融合大数据和高级分析技术是一种新的机遇,这样可以为这些传统问题找到更有效的解决途经。最后一个案例描述了新兴的监管需求。大部分法律和法规都已经存在了几十年,但每年都会增加新的需求,这表明组织机构有额外的复杂度和数据需求。反洗钱(AML)和预防欺诈的相关法律需要高级分析技术来妥善处理和管理。1.2.1 商业智能 VS 数据科学

表1.2中列出的4种商业驱动力(Business driver)需要不同的分析技术来正确地解决。虽然有关分析的文章很多,但是区分商业智能和数据科学非常重要。如图1.8所示,有几种方法可以比较这两种数据分析类型。

一种用来评估所执行的分析类型的方法是,检查时间范围以及正在使用的分析方法的类型。商业智能(Business Intelligence)主要提供关于现在和过去时期的商业问题的报表、仪表板(Dashboard)和查询。商业智能系统使得用户可以轻易获取季初到现在(quarter-to-date)的收入、季度目标的完成情况,以及某一产品在某一季度或者某一年的销量数据。这些问题往往都是预设或者可预期的,用于解释当前或者过去的行为,通常用来整合历史数据并以某种方式进行分组。商业智能主要是提供一些事后见解和观点,一般用于解释事件发生的“时间”和“地点”。

相比之下,数据科学(Data Science)主要是用更有前瞻性和探索性的方式来使用分类数据,着重分析当前的情况,为未来的决策提供数据参考。数据科学不是简单地汇集历史数据来看上季度销售了多少产品,而是团队利用数据科学技术(例如时间序列分析,第8章将深入讲解)来预测未来产品的销售和收入情况,而这种预测较之简单地依靠趋势线更为精准。此外,数据科学本质上往往更具有探索性,可以使用场景优化来处理更开放式的问题。这种方法可以通过深度地分析当前活动,来预测未来的事件,一般用来研究事件是“如何”以及“为什么”发生的。

另外,商业智能需要以行和列组织的高度结构化数据才能获得准确的报表,而数据科学项目可以使用多种类型的数据源,包括大型或者非常规的数据集。根据不同的目标,组织机构可以自行选择相应的分析手段。比如,如果要生成报表、创建仪表盘(dashboard)或者执行简单的可视化,可以选择商业智能项目。如果需要用分类或者不同的数据集进行更为复杂的分析,可以选择数据科学项目。图1.8 数据科学与商业智能的对比1.2.2 当前分析架构

前面讲到,数据科学项目需要专门建立的工作台对数据做实验,该工作台应具有灵活和敏捷的数据架构。大多数组织机构都拥有数据仓库,用于为传统的报表和简单的数据分析行为提供良好的支持,但是不能支持强大的分析功能。本节将介绍一种企业中存在的典型的数据分析架构。图1.9所示为一种典型的数据架构,以及数据科学家和试图进行高级分析的其他人员所面临的几种挑战。本节将讲解数据科学家所使用的数据,以及数据科学家如何融入获取数据以便在项目中进行分析的流程。1.为了将数据源加载到数据仓库,我们要先理解数据,然后结构化数据,再使用合适的数据类型定义来标准化数据。虽然这种集中化可以为关键数据提供安全、备份和故障转移功能,但是在数据进入这种受控环境之前,必须经过大量的预处理和检查点(checkpoint)处理,这样将导致数据不适合数据探索和迭代分析。图1.9 典型的分析架构2.由于EDW对数据的严格控制,商业用户往往为了适应灵活的分析需求而创建额外的部门仓库和本地数据集市。这些本地数据集市可能没有与主EDW一致的安全性和结构的约束,从而允许用户进行更深入的分析。但是,这些本地系统通常处于孤立状态,不会保持相互间的数据同步或者与其他数据存储进行集成,甚至可能没有进行备份。3.进入数据仓库后,数据将被企业中的应用程序读取,以便进行商业智能分析和报告。这些都是从数据仓库和储存库中获取关键数据的高优先级业务操作流程。4.在工作流结尾部分,分析员获得用于下游分析的数据。因为用户一般不能在生产数据库中进行自定义或者密集的数据分析,数据分析员会从EDW中提取数据,然后使用R或者其他本地分析工具进行离线数据分析。很多情况下,这些工具是对数据样本进行内存分析,而不是对整个数据集进行分析。因为这些分析是基于从EDW提取的数据并且在EDW外进行,所以分析的结果以及任何与数据质量和异常相关的洞察,都极少被反馈回主数据存储库。

由于严格的验证和数据格式化,导致EDW中新的数据源积累的速度很慢,数据移到EDW的速度也很慢,这样导致数据模式的变化也很慢。部门级数据仓库(Departmental data warehouses)在最初可能只是针对特定的目的和业务需求而设计,但随着时间的推移,部门数据仓库内的数据越来越多,其中一些数据可能被强制转换成现有的模式,以启用商业智能并创建OLAP数据库进行分析和报告。虽然EDW实现了生成报表的目标,有时还能创建仪表盘(Dashboard),但大多数情况下EDW限制了分析员在一个独立的非生产环境中迭代地进行深入的数据分析或者对非结构化数据进行分析的能力。

上述的典型数据架构是为存储和处理关键任务数据,支持企业级应用程序,并可以生成公司报表而设计的。尽管报表和仪表盘(Dashboard)对于企业仍旧非常重要,但是大部分的传统数据架构抑制了数据探索和更复杂的数据分析。另外,传统数据架构对于数据科学家还有额外的影响。● 高价值的数据很难被获取和使用,预测分析和数据挖掘被视为数

据应用的末等环节。因为EDW是专为集中数据管理和报告而设

计的,一般情况下获取用于分析数据的操作被冠以较低优先级。● 数据从EDW被批量移动到本地分析工具。该流程意味着数据科

学家只能进行内存分析(比如,使用R、SRA、SPSS,或者

Excel),这将限制他们可以分析的数据集规模。因此,分析可能

会受到数据采样的约束,这样将影响到模型的精度。● 数据科学项目通常是即席的和孤立的,而不是被集中管理的。这

种孤立意味着组织机构不能可扩展地利用先进的分析方法,并且

数据科学项目经常无法与公司业务目标或战略保持一致性。

相比数据能被持续快速访问以及进行高级分析的环境,传统数据架构的这些症状导致了缓慢的从数据到洞见的过程和较低的商业影响力。 之前提到,引进分析沙盘是解决这个问题的方法之一,它可以让数据科学家在受控和批准的方式下进行高级数据分析。同时,当前的数据仓库解决方案可以继续提供报表和商业智能服务,以支持管理和关键任务操作。1.2.3  大数据的驱动力

为了能够更好地了解与大数据相关的的市场驱动力,我们首先需要了解数据存储的历史、各种存储库和管理数据存储的工具。

如图1.10所示,在20世纪90年代,信息量经常以TB为单位测量。大多数组织机构以行和列的方式结构化和分析数据,使用关系型数据库和数据仓库来存储管理大量的企业信息。在接下来的10年,我们看到各种类型的数据源的增长,数据量也激增到PB级别的规模,这些数据主要通过内容管理系统和网络存储系统等生产力工具进行管理。到2010年,每个人和每件事都会留下数字足迹,而组织机构需要管理许多其他类型的数据信息。图1.10概括了新应用所产生的大数据,以及数据增长的规模和速度。这些应用所产生的数据量都是EB量级,给企业带来了新的分析和挖掘数据新价值的机会。这些新的数据源包括:● 医疗信息,如基因组测序和诊断影像;● 上传到互联网上的照片和视频素材;● 视频监控,如城市中分布的成千上万的摄像头;● 移动设备,它会产生用户的地理位置数据,还有短信数据、电话

记录,以及智能手机上应用程序的使用情况。● 智能设备,包括智能电网、智能建筑等公共和基础设施中传感器

采集的信息。● 非传统IT设备,包括使用的无线电频率识别(RFID)阅读器、

GPS导航系统和地震信息处理。图1.10 数据的演变和大数据源的增长

未来,大数据中越来越多的数据源将产生大量的信息,这些海量的数据都需要高级的分析方法,也需要新的市场玩家来利用这些机会和新的市场动态,下一节将详细讨论。1.2.4  新的大数据生态系统和新的分析方法

由于组织机构和数据收集者意识到个人数据中蕴含着巨大的价值,所以就出现了一种新的经济。随着新兴数字经济不断的发展,市场就出现了数据厂商和数据清洁服务商。数据清洁服务商使用众包(比如,亚马逊Mechanical Turk平台和GalaxyZoo平台)的方式来测试机器学习技术的成果。此外,其他一些数据厂商对开源工具简单重新打包并增加附加价值,然后将这些工具拿到市场上销售。Cloudera、Hortonworks和Pivotal这些厂商就是在开源框架Hadoop的基础上提供增值服务。

随着新的大数据生态系统初步成型,这其中有4种主要的生态参与者,如图1.11所示。● 数据设备[如图1.11中第1部分所示]和“传感器网络”从多个位置

收集数据,并不断产生与这些数据相关的新数据。针对所收集的

每GB(gigabyte)数据,最终大约会额外产生 1个

PB(petabyte)大小的关于这些数据的新数据[2]。● 例如,当人们使用PC、游戏机或智能手机玩在线视频游戏时,视频游戏提供商会抓取游戏玩家的技能和等级相关数据,并通过智能系统监控并记录用户玩游戏的时间和方式。通过利用这些用户数据,游戏提供商可以细调游戏难度,向用户推荐可能会感兴趣的其他相关游戏,以及根据用户的年龄、性别和兴趣为游戏角色提供额外的装备和优化。这些用户信息可以存储在本地或者上传游戏提供商的云上,用来分析用户的游戏习惯和识别特定用户属性,从而增大增值销售和追加销售的机会。● 智能手机提供了另一种丰富的数据源。除了基本的短信息和通话功能,智能手机还可以存储和传输用户上网、使用短信息和实时位置等元数据信息。当用于路况分析时,乘车者的智能手机产生的元数据信息可以用来分析追踪汽车的行驶速度或者繁忙路段的交通拥挤情况。通过这种方式,车载GPS设备可以为司机提供实时路况更新,并提供替代路线以躲过拥堵路段。● 零售商场办理的会员卡不只记录了消费者每次的消费金额,还会记录顾客每次访问的商店位置、购买商品的种类、最常购物的商店以及一起购买的商品组合。通过收集这些数据可以洞悉用户的购物和旅行习惯,以及判断特定促销广告是否会奏效。● 数据收集器[如图1.11中第2部分标记的椭圆形]包括从设备和用户

那里收集数据的样本实体。● 有线电视供应商,他们收集的数据包括用户的观看记录、用户会和不会付费观看的点播电视频道,以及用户愿意花多少钱观看优质节目内容。● 零售商店,通过购物车中带有的RFID芯片追踪消费者的购物路线,利用RFID芯片中收集的地理空间数据可以分析出哪些商品吸引了最多人驻足关注。● 数据整合者(如图1.11中第3部分标记的椭圆形)利用“传感器

网络”或“物联网”收集的数据创造价值。这些组织机构汇总和

解析设备数据和由政府机构、零售商店和网站等收集的设备使用

信息,然后将数据转换和打包成产品出售。比如可以出售给中间

商,后者再利用这些数据锁定特定市场广告营销的目标受众。● 数据使用者和购买者(如图1.11中第4部分所示)直接受益于数

据价值链中其他人收集和汇总的数据。● 零售银行会想要了解哪些客户群体最有可能申请二次抵押或者房屋净值信用额度。为此,零售银行可以从数据整合者手里购买相关数据用于上述分析。这类数据可能包括生活在特定区域的人口统计情况;负担一定债务的人群,这些人群拥有可靠的信用评分(或者其他特征,比如能够按时支付账单和拥有储蓄账户),可以确保放贷的安全;通过搜索网站查找清偿债务或者房屋改造项目等相关信息的人群。在大数据出现之前,上述精准市场营销行为由于缺乏信息和高性能技术而面临诸多挑战。 而现在,一切变得可能。● 人们可以通过Hadoop这类技术对社交媒体网站上的非结构化和文本数据进行自然语言分处理,来预测公众对总统竞选之类事件的反应。比如,人们可以通过分析相关博客和线上评论来了解公众对候选人的态度。类似地,人们可以通过分析社交媒体上的讨论来判断受飓风影响的区域和飓风的移动轨迹,以便追踪和防范自然灾害的发生。图1.11 新兴的大数据生态系统

在这个新兴的大数据生态系统中,数据类型和相关的市场动态变动极大。这些数据集包括传感器数据、文本文件、结构化数据集和社交媒体数据。如果在传统EDW中,这些数据集将无法被处理,因为EDW主要用于简单报表、仪表盘和集中管理。因此,大数据相关的问题和项目需要使用不同的方法来处理。

分析员需要与IT部门、DBA的配合才能获得分析沙盘需要的数据。一个典型的分析沙盘包括原始数据、聚合数据和多种结构类型的数据。沙盘使强大的数据勘探变得可能,但是需要有经验的用户来使用和发挥沙盘环境中的数据优势。1.3 新的大数据生态系统中的关键角色

在1.2.4节介绍的大数据生态系统中,新的生态参与者已经涌现,进行数据的策划(curate)、存储、生产、清除和处理。此外,为了应对日益复杂的业务问题,就需要采用更先进的分析技术,这就推动了新角色、新技术平台和新分析方法的出现。本节将介绍可以解决这些需求的新角色,在后续章节还会介绍一些分析方法和技术平台。

如图1.12所示,大数据生态系统需要三类角色。在麦肯锡2011年5月发布的“大数据全球研究”报告中对这些新角色进行过描述。图1.12 新大数据生态系统的关键角色

第1类:深层分析人才。这类人才精通技术,具有较强的分析能力。他们拥有多项技能,具有处理原始数据和非结构化数据的能力,并且可以应用复杂的大规模分析技术。这类人深入学习过各种量化学科,比如数学、统计学和机器学习。这类人所做的工作一般是在一个强大的分析沙箱或者工作区中进行大规模的数据分析实验。符合这个群体的职业包括统计学家、经济学家、数学家和新兴的数据科学家。

麦肯锡研究报告预测,到2018年美国将会有14万到19万个深层分析人才的缺口。这并不是指市场所需要的深层分析人才的总量,而是表示市场人才需求量和市场可用人才的缺口。这个预测只是反映了美国人才的短缺,相信这个数字在全球范围内会更大。

第2类:数据专业人员。这类人才技术深度较浅,但是具有统计学或机器学习的基本知识,能够定义那些使用高级分析可以回答的关键问题。该组成员通常具有处理数据的基本知识,而且了解一部分数据科学家和其他深层分析人员所做的工作。数据专业人员包括金融分析师、市场研究分析师、生命科学家、营运经理以及业务和职能部门的经理。

麦肯锡研究报告预测,到2018年美国将会有150万数据专业人员的缺口,这个数字是深层分析人才缺口的10倍。经理、董事和领导者们需要开始具备一定的数据专业专员的素质,这样他们才能拥有更宽阔的视野,知道哪些问题可以使用数据来解决。

第3类:技术和数据支持人员。这类人才掌握的专业技术知识可以用于支持分析项目,例如,配置和管理分析沙箱,以及管理企业和其他组织内的大规模数据分析架构。这类人员需要具备计算机工程、编程和数据库管理相关的技能。

这三类人群只有紧密合作才能解决大数据所带来的复杂挑战。大多数组织机构对报告中提到的后两类人比较熟悉,但是对第一类人(深层分析人才)了解不多。关于深层分析人才,本节将重点介绍数据科学家这一新的角色,讲解数据科学家具体要做什么和所需要掌握的技能。

下面是数据科学家经常进行的3类任务。● 将业务的挑战转化为分析的问题。具体而言,就是剖析业务问题,

考虑问题核心,并判断哪种分析方法可以用来解决问题。这个概

念将在第2章中进一步讲解。● 设计、实施、部署大数据的统计模型和数据挖掘技术。这类任务

也是通常人们理解中的数据科学家的职责:运用复杂或高级的分

析方法和数据来解决各种业务问题。本书第3章到第11章将详细

介绍业界流行的几种分析技术和工具。● 产生能被用于指导实践的洞见。需要注意的是,使用高级方法解

决数据问题本身不一定会带来新的商业价值。重要的是要能够从

数据中分析出有效见解并进行有效传播。第12章将简述如何实

现这一点。

数据科学家通常应该具备以下5项主要技能和行为特征,如图1.13所示。● 量化分析技能:比如数学或者统计学。● 技术能力:比如软件工程、机器学习和编程技能。● 怀疑性的和批判性的思维:数据科学家需要以全面的方式仔细检

查自己的工作,这一点非常重要。● 好奇心和创造力:数据科学家应该热衷于数据,寻求创造性的方

式来解决和描述信息。● 沟通和协作能力:数据科学家必须能够清晰地阐述数据项目能带

来的商业价值,并具备和他人(包括项目出资人和利益相关者)

协作的能力。图1.13 数据科学家的形象

一般而言,数据科学家习惯于使用上述技能来获取、管理、分析和可视化数据,然后再就数据讲令人信服的故事。下节将讲解几个大数据分析案例,看看数据科学家如何利用大数据来创造新价值。1.4 大数据分析案例

在介绍完大数据新兴生态系统和支持其发展需要的新角色后,本节将介绍大数据在不同领域中应用的3个例子:零售业、IT基础设施和社交媒体。

前面提到,大数据带来了很多改进销售和市场分析的机会。美国零售商Target便是这样的例子。作者Charles Duhigg在他的The Power of Habit一书[4]中介绍了Target如何使用大数据和高级分析方法来提高销售收入。在分析了消费者的购买行为后,Target公司的统计人员发现零售业很大的一块销售收入来源于下面的三大主要事件。● 结婚,这时人们会倾向于购买很多新东西。● 离婚,这时人们也会购买新产品,并且改变自己的消费习惯。● 怀孕,这时人们会购买许多新东西,并且都是非常迫切地购买。

分析人员还发现在上述三大事件中,怀孕是最让商家赚钱的事件。通过从购物者身上收集的购物数据,Target公司就可以预测哪些购物者可能已经怀孕。有一次,Target公司甚至比一位女顾客的家人更早地判断出这位女顾客已经怀孕[5]。根据这类分析结果,Target公司会对已经怀孕的顾客提供特定的优惠券和激励机制。事实上,Target公司的分析机制不但可以判断某个顾客是否已经怀孕,还可以知道顾客已经怀孕几个月了。这样Target公司就可以更好地管理和调整自己的库存,因为他们知道在每9~10个月的周期中,每个月大致会有哪些特定孕期商品的需求。

另一个大数据创新的例子来自于IT基础设备领域中的Hadoop[6]。Apache Hadoop是一款开源框架,允许公司以高度并行的方式处理大量的信息。Hadoop是由Doug Cutting和Mike Cafarella在2005年设计和实现的一种基于MapReduce计算范式的系统,被用于处理各种不同结构的数据。对于很多需要涉及大量或者难以操作的非传统结构数据的大数据项目来说,Hadoop是一种理想的技术框架。Hadoop的主要优点之一是采用分布式文件系统,这意味着它可以使用分布式集群服务器和商用硬件来处理大量数据。在社交媒体领域中Hadoop的应用案例很常见,在这里Hadoop可以管理事务、更新文字信息和生成数百万用户间的社交图谱。Twitter和Facebook每天都会产生海量的非结构化数据,并通过Hadoop和其生态系统中的工具来管理这些海量数据。第10章将进一步讲解相关内容。

最后,通过社交媒体上的人际互动可以获取许多新的见解,而其中蕴含着巨大的商机。LinkedIn是一家典型的数据即产品的公司。在公司创立初期,LinkedIn创始人Reid Hoffman就意识到可以为职场专业人士创建一个社交网络。截至2014年,LinkedIn拥有超过2.5亿的用户账户,并增加了很多额外的功能和数据相关的产品,例如,招聘、求职者工具、广告和社交图谱InMaps。InMaps可以显示用户的职业社交网络图谱。图1.14是一个InMaps可视化案例,使得LinkedIn用户可以对自己联系人之间的互联关系和脉络有一个更直观的认识。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载