大数据:技术与应用实践指南(第2版)(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-21 22:35:51

点击下载

作者:赵刚

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据:技术与应用实践指南(第2版)

大数据:技术与应用实践指南(第2版)试读:

前言

随着互联网、移动互联网、社交网络、物联网、云计算等新一代信息技术的应用和推广,人类产生的数据成倍增长,数据种类繁多,数据在宽带网络中高速流动,数据的待开发价值越来越大,我们已经进入了大数据时代!短短两三年,大数据的理念已经深入人心,大数据的技术也层出不穷,但大数据技术的应用才刚刚开始。本书把阐述的视角放在了大数据的技术应用上,通过分析大数据应用的关键成功因素,希望为政府、行业和企业的大数据技术开发和应用人员提供一本框架性和系统性的技术与应用实践指南。

全书共分为7章。

第1章是大数据的概念和发展背景,回顾大数据理念和技术的发展历程,梳理大数据发展脉络,并从大数据的体量、数据类型、速度和潜在价值等4个特征定义大数据。

第2章分析大数据应用的业务需求,梳理企业级大数据应用的业务流程,剖析大数据应用对于组织的业务价值,并深入分析互联网、零售、金融、电信、能源等9个行业的大数据应用需求,总结企业级大数据应用的客户分析、绩效分析和风险分析等共性需求。

第3章阐述大数据应用的总体架构和关键技术。总体架构分析基于Apache开源的大数据平台总体架构的参考模型,涵盖了大数据处理、大数据存储、大数据访问、大数据调度、大数据分析展现、大数据与传统数据库连接、大数据管理、安全和备份恢复框架等技术,能够为企业建设大数据应用平台提供框架参考。基于这一架构,本章进一步详细介绍了大数据存储和处理、大数据查询分析、大数据高级分析和可视化等3个方面的关键技术。Hadoop是重要的大数据技术,本章详细介绍了Hadoop的三大核心技术,即分布式文件系统HDFS、分布式计算框架MapReduce、分布式数据库HBase的技术原理、技术构成和应用示例,也详细介绍了Spark等内存计算及Storm等流计算框架。针对大数据查询和分析,本章介绍了SQL on Hadoop技术,包括Hive、Impala等。大数据高级分析和可视化技术也是大数据的关键技术,本章总体阐述了大数据挖掘与高级分析的算法和技术,对非结构化的复杂数据的分析、预测分析和开源的R语言进行了重点介绍,并介绍了大数据可视化的一些工具。

第4章阐述大数据技术应用与企业级应用系统的整合策略。现有企业级数据分析是以关系型数据库为基础的,建立了涵盖网络、存储、服务器、虚拟化、云计算和信息安全等方面的企业IT架构,大数据技术的企业级应用需要实现与这些技术的高效整合,构建新一代的企业级应用架构。本章分别介绍了大数据传输、接入、集成和流程化管理,大数据与存储架构的整合,大数据对网络架构的发展,大数据与虚拟化技术的整合,大数据与容器技术的整合,云计算平台上的大数据云,以及大数据与信息安全等7个方面的内容。

第5章介绍了大数据企业级应用的实践方法论和应用案例。大数据应用的实践方法论阐述了业务需求定义、现状分析、架构规划与设计、技术切入与实施,以及试用、评估与推广等大数据应用的开发流程。通过对Google、Yahoo、Facebook、Amzon、淘宝网等互联网企业应用案例的分析,试图为大数据技术应用和实践提供技术细节和实施方法方面的参考。

第6章介绍了大数据应用的主流商业解决方案。首先介绍大数据产业链上的主要厂商,并进一步介绍了9家主流厂商的解决方案。

第7章是对大数据应用中未来挑战和发展趋势的分析。主要讨论了隐私保护、技术标准、大数据治理等应用发展中的关键挑战和应对策略,最后预测了大数据应用下商业生活的发展趋势。

全书以某商业银行基于大数据的客户分析为案例,便于读者根据案例所阐述的应用场景,结合自身的需求学习和掌握大数据技术应用。

本书的写作最大程度地得益于从事大数据技术研发、应用和研究的社区、业界同仁和爱好者。笔者起的作用仅仅是穿针引线,将大数据技术应用开拓者们分享的研究和应用心得进行了总结,希望有助于更多技术研发、应用人员和爱好者系统地学习和应用大数据。本书也提供了这些成果的网上链接,读者可以更加深入地去学习和研究。当然,本书基于作者在信息化领域多年的研究、咨询和系统集成的实践经验,也基于作者所创立的北京赛智时代信息技术咨询有限公司(www.CIOManage.com)在大数据领域的研究成果。本书引用了CIOManage(赛智咨询)的很多研究成果。感谢所有为大数据技术的应用而努力的同仁们!

本书再版之际,笔者诚惶诚恐,大数据技术远未成熟,大数据技术应用也刚刚拉开帷幕,这样一本技术应用实践指南一定存在诸多问题。但技术应用本来就是一个不断改进和优化的过程,希望笔者和读者在共同学习和应用的过程中,逐步总结出更为精确和实用的经验。欢迎读者与笔者交流,笔者的联系信息如下。

◎微博:http://weibo.com/blogbot

◎博客:http://blog.sina.com.cn/blogbot

◎邮箱:blogbot@sina.com

◎微信号:Knowbot赵刚2016年1月5日于北京嘉铭园第1章大数据的概念和发展背景

本章阐述大数据的概念、发展背景和内涵等。1.1 大数据的发展背景

在20世纪90年代后期,当气象学家在做气象地图分析、物理学家在建立大物理仿真模型、生物学家在建立基因图谱的分析过程中,由于数据量巨大,他们已经不能再用传统的计算技术来完成这些任务时,大数据的概念在这些科学研究领域首先被提出来。面对大量科学数据在获取、存储、搜索、共享和分析中遇到的技术难题,一些新的分布式计算技术陆续被研究和开发出来。

2008年,随着互联网和电子商务的快速发展,当Yahoo、Google等大型互联网和电子商务公司不能用传统手段解决他们的业务问题时,大数据的理念和技术被他们实际应用。他们遇到的共性问题是,处理的数据量通常很大(那时是PB级,1个PB的数据相当于50%的全美学术研究图书馆的藏书和资讯的内容),数据的种类很多(文档、日志、博客、视频等),数据的流动速度很快(包括流文件数据、传感器数据和移动设备的数据的快速流动)。而且,这些数据经常是不完备甚至是不可理解的(需要从预测分析中推演出来)。大数据的新技术和新架构正是在这种背景下被不断开发出来的,以有效地解决这些现实的互联网数据处理问题。

2010年,全球进入Web 2.0时代,Twitter(推特)、Facebook(脸书)、博客、微博、微信等社交网络将人类带入自媒体时代,互联网数据快速激增。随着智能手机的普及,移动互联网时代也已经到来,移动设备所产生的数据海量般地涌入网络。为了实现更加智能的应用,物联网技术也逐步被推广,随之而来的是更多实时获取的视频、音频、电子标签(RFID)、传感器等数据也被联入互联网,[1]数据量进一步暴增。根据美国市场调查公司IDC的预测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。全球在2010年正式进入ZB时代(1个ZB的数据相当于全世界海滩上的沙子数量的总和),预计到2020年,全球将总共拥有35ZB的数据量。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。人类真正进入了一个数据的世界,大数据技术有了用武之地,大数据技术和应用空前繁荣起来。

2011年,全球著名战略咨询公司麦肯锡的全球研究院(MGI)发[2]布了《大数据:创新、竞争和生产力的下一个新领域》研究报告,这份报告分析了数字数据和文档的爆发式增长的状态,阐述了处理这些数据能够释放出的潜在价值,分析了大数据相关的经济活动和业务价值链。这篇报告在商业界引起极大的关注,为大数据从技术领域进入商业领域吹响了号角。

2012年3月29日奥巴马政府以“大数据是一个大生意(Big Data [3]is a Big Deal)”为题发布新闻(如图1-1所示),宣布投资2亿美元启动“大数据研究和发展计划”,涉及美国国家科学基金、美国国防部等6个联邦政府部门,大力推动和改善与大数据相关的收集、组织和分析工具及技术,以推进从大量的、复杂的数据集合中获取知识和洞见的能力。美国政府认为大数据技术事关美国国家安全、科学和研究的步伐。图1-1 美国白宫发布的大数据新闻[4]

2012年5月,联合国发布了一份大数据白皮书,总结了各国政府如何利用大数据更好地服务公民,指出大数据对于联合国和各国政府来说是一个历史性的机遇,联合国还探讨了如何利用包括社交网络在内的大数据资源造福人类。[5]

2012年12月“世界经济论坛”发布《大数据,大影响》报告,阐述大数据为国际发展带来的新的商业机会,建议各国与工业界、学术界、非营利性机构与管理者一起利用大数据所创造的机会。

2012年以来,大数据成为全球投资界所青睐的领域之一,IBM公司通过并购数据仓库厂商Netezza、软件厂商InfoSphere BigInsights和Streams等来增强自己在大数据处理上的实力;EMC公司陆续收购Greenplum(Pivotal)、VMware、Isilo等公司,展开大数据和云计算产业的战略布局;惠普公司通过并购3PAR、Autonomy、Vertica等公司实现了大数据产业链的全覆盖。业界主要的信息技术巨头都纷纷推出大数据产品和服务,力图抢占市场先机。

2012年以来,国内互联网企业和运营商率先启动大数据技术的研发和应用,如淘宝网、百度、腾讯网、中国移动、中国联通、京东商城等企业纷纷启动了大数据试点应用项目,推进大数据应用。

2013年,第4期《求是》杂志刊登中国工程院邬贺铨院士的《大[6]数据时代的机遇与挑战》一文,阐述中国科技界对大数据的重视,郭华东、李国杰、倪光南、怀进鹏等院士也纷纷撰文阐述大数据的战略意义,清华大学、北京大学等高校纷纷设立大数据方面的学院和专业,推进大数据技术的研发。

2015年,《促进大数据发展行动纲要》正式颁布,提出大数据已成为国家基础性战略资源,是推动经济转型和发展的新动力,是重塑城市竞争优势的新机遇,是提升政府治理能力的新途径,中国正式启动和实施国家大数据战略。1.2 大数据的概念和特征1.2.1 大数据的概念

大数据是指无法在一定时间内用传统数据库软件工具对其内容进[7]行抓取、管理和处理的数据集合(引自维基百科)。

这个定义并不严谨,但这是各种学术和应用领域最广泛引用的一个定义,如果接着以大数据的四个特征作为补充,就能给出一个较为清晰的大数据的概念。《促进大数据发展行动纲要》指出,大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合。1.2.2 大数据的特征

大数据有四个主要特征。

1.Volume:数据容量大

容量大是大数据区分于传统数据最显著的特征。一般关系型数据库处理的数据容量在TB级,大数据技术所处理的数据容量通常在 PB级以上。

2.Variety:数据类型多

大数据技术所处理的计算机数据类型早已不是单一的文本形式或者结构化数据库中的表,它包括网络日志、音频、视频、机器数据等各种复杂结构的数据。

3.Velocity:数据存取速度快

存取速度是大数据区分于传统数据的重要特征。在海量数据面前,需要快速实时存取和分析需要的信息,处理数据的效率就是组织的生命。

4.Value:数据应用价值高

在研究和技术开发领域,上述三个特征已经足够表征大数据的特点。但在商业应用领域,第四个特征就显得非常关键!投入如此巨大的研究和技术开发的努力,就是因为大家都洞察到了大数据的潜在的巨大应用价值。如何通过强大的机器学习和高级分析更迅速地完成数据的价值“提纯”,挖掘出大数据的应用价值,这是目前大数据技术应用的发展重点。1.3 大数据的产生

大量数据的产生是计算机和网络通信技术(ICT)广泛应用的必然结果,特别是互联网、云计算、移动互联网、物联网、社交网络等新一代信息技术的发展,起到了巨大的作用,它带来了数据产生的四大变化:一是数据产生由企业内部向企业外部扩展;二是数据产生由Web 1.0向Web 2.0扩展;三是数据产生由互联网向移动互联网扩展;四是数据产生由计算机/互联网(IT)向物联网(IOT)扩展。这四大变化,让数据产生源头成倍地增长,数据量也相应大幅度地快速增长。1.3.1 数据产生由企业内部向企业外部扩展

在企业内部的企业资源计划(ERP)、办公自动化(OA)等业务、管理和决策分析系统所产生的数据,主要存储在关系型数据库中。内部数据是企业内最成熟并且被熟知的数据。这些数据已经通过多年的ERP、数据仓库(DW)、商业智能(BI)和其他相关应用积累,实现了内部数据的收集、集成、结构化和标准化处理,可以为企业决策提供分析报表和商业智能。

一些企业已经关注到交易行为数据的潜在价值,如利用一些非结构化数据的分析方法,挖掘在客户交易过程、业务处理流程和电子邮件中所获得的内部日志等数据,为企业提供客户分析、绩效分析和风险管理等方面的更多洞察力。还有一些大型企业内部的数据量也很大,如电信运营商、石油勘探企业等,这些企业使用大数据有很多年了。例如,一家全球电信公司每天从120个不同系统中收集数十亿条详细呼叫记录,并保存至少9个月时间;一家石油勘探公司分析几万亿字节的地质数据。对于这些公司,大数据虽然是一个新概念,但要做的事情却并不新鲜。他们早就在使用大数据,但由于没有合适的技术手段对这些大数据进行分析,这些大数据中的大部分被丢弃了。

对于所有企业而言,信息化的应用环境在发生着变化,外部数据迅速扩展。企业和互联网、移动互联网、物联网的融合越来越快,企业需要通过互联网来服务客户、联系外部供应商、沟通上下游的合作伙伴,并在互联网上实现电子商务和电子采购的交易。企业需要开通微博、博客等社交网络来进行网络化营销、客户关怀和品牌建设。企业的产品被贴上了电子标签,在制造、供应链和物流的全程中进行跟踪和反馈。伴随着自带设备(BYOD)工作模式的兴起,企业员工自带设备进行工作,个人的数据进一步与企业数据相融合,必将产生更多来自企业外部的数据。

企业内外部数据的产生如表1-1所示。表1-1 企业内外部数据的产生来源:CIOManage(赛智咨询)1.3.2 数据产生从Web 1.0向Web 2.0、从互联网向移动互联网扩展

随着社交网络的发展,互联网进入了Web 2.0时代,每个人从数据的使用者,变成了数据的生产者,数据规模迅速扩张,每时每刻都在产生大量的新数据。例如,从全球统计数据来看,全球每秒钟发送290万封电子邮件,每秒钟电子商务公司Amazon上将产生72.9笔商品订单,每分钟会有20个小时的视频上传到视频分享网站 YouTube,Google上每天需要处理24PB的数据,Twitter上每天发布5千万条消息,每天被每个家庭消费的数据有375MB,每个月网民在Facebook 上要花费7千亿分钟……

从中国来看,数据规模也十分巨大,淘宝网目前已拥有近5亿的注册会员,在线商品8.8亿,每天交易超过数千万笔,其单日数据产生量超过20TB。百度目前数据总量接近1000PB,存储网页数量接近1万亿,每天大约要处理60亿次搜索请求,几十PB数据。新浪微博每天有数十亿外部网页和API接口访问需求,服务器群在晚上高峰期每秒要接收100万个以上的响应请求。

移动互联网的发展让更多人成为数据的生产者,据统计全球每个月移动互联网使用者发送和接收的数据高达1.3EB。在中国,中国联通用户上网记录条数为83万条/秒,即一万亿条/月,对应数据量为300TB/月,或3.6PB/年。1.3.3 数据产生从计算机/互联网(IT)向物联网(IOT)扩展

随着视频设备、传感器、智能设备和RFID等技术的增长,视频、音频、RFID、机器对机器(M2M)、物联网和传感器等数据大量产生,其数据量更是巨大。根据IDC公布的数据,2005年仅由M2M产生的数据占全世界数据总量的11%,预计到2020年这一数值将增加到42%。思科(Cisco)公司预测,仅仅移动设备的数据流量将在2015年达到每月6.3 EB的规模。1.4 数据的量级1.4.1 数据大小的量级

数据量的大小是用计算机存储容量的单位来计算的,基本的单位是字节(Byte),每一级按照千分位递进,如下所示:

1Byte(B)        相当于一个英文字母

1Kilobyte(KB)=1024B  相当于一则短篇故事的内容

1Megabyte(MB)=1024KB 相当于一则短篇小说的文字内容

1Gigabyte(GB)=1024MB 相当于贝多芬第五乐章交响曲的乐谱内容

1Terabyte(TB)=1024GB 相当于一家大型医院中所有的X光图片内容

1Petabyte(PB)=1024TB 相当于50%的全美学术研究图书馆藏书信息内容

1Exabyte (EB)=1024PB 5EB相当于至今全世界人类所讲过的话语

1Zettabyte(ZB)=1024EB 如同全世界海滩上的沙子数量的总和

1Yottabyte(YB)=1024ZB 1024个像地球一样的星球上的沙子数量的总和1.4.2 大数据的量级

目前,传统企业的数据量基本在TB级以上,一些大型企业达到了PB级,Google、百度、腾讯网、阿里巴巴这些企业的数据量在 PB级以上。

大数据技术和应用擅长处理的数量级一般都在 PB级以上。但数据量的巨大是相对处理这些数据的计算设备而言的,例如,对一台小型机或 PC服务器,PB级数据是大数据,但可能对一台智能手机而言,GB级的数据就是“大数据”。就目前大数据技术架构所处理的数据来看,通常是指PB级以上的数据。

摩尔定律是由英特尔(Intel)创始人之一戈登·摩尔(Gordon Moore)提出来的,其内容为:当价格不变时,集成电路上可容纳的晶体管数目约每隔18个月便会增加一倍,性能将提升一倍。这一定律揭示了信息技术进步的速度。吉姆·格雷(Jim Gray)的新摩尔定理认为,每18个月全球新增的信息量是计算机有史以来全部信息量的总和,数据容量每18个月就翻一番。据IDC统计,全球在2010年正式进入ZB 时代,预计到2020年,全球将总共拥有35ZB 的数据量。但是,过去的50年,数据存储的成本大概每两年就能降一半,而存储密度却增加了5000万倍。

因此,我们的世界正在成为一个数据的世界,我们正处于大数据时代,像水、空气、石油一样,数据正成为这个世界中的一种资源。1.5 大量不同的数据类型

大数据不仅仅体现在数量大,也体现在数据类型多。如此海量的数据中,仅有20%左右属于结构化的数据,80%的数据属于广泛存在于互联网、移动互联网、社交网络、物联网等领域的非结构化数据。由我们创造的技术产生的这些数据早已经远远超越了目前人力所能处理的范畴,机器数据日益重要,且数据越来越成为一种资源。1.5.1 按照数据结构分类

按照数据结构,数据分为结构化数据、半结构化的非结构化数据和无结构的非结构化数据。结构化数据是存储在数据库里、可以用二维表结构来逻辑表达实现的数据。相对于结构化数据而言,不方便用数据库二维表结构来表现的数据即称为非结构化数据,包括所有格式的文本文件、XML文档、HTML文档、图片、音频、视频图像、机器数据等。非结构化数据中又包含半结构化数据和无结构的非结构化数据。

1.结构化数据

结构化数据的特点是任何一列的数据不可以再细分,任何一列的数据都有相同的数据类型。所有关系型数据库(如Oracle、SQL Server、DB2、MySQL等)中的数据全部为结构化数据。关系型数据库存储的结构化数据示例如表1-2所示。表1-2 结构化数据示例

2.半结构化数据

半结构化数据,是介于完全结构化数据和完全无结构的数据之间的数据,半结构化数据的格式较为规范,一般都是纯文本数据,可以通过某种方式解析得到每项的数据。最常见的就是日志数据、XML、JSON等格式的数据,它们每条记录可能会有预定义的规范,但是每条记录包含的信息可能不尽相同,也可能会有不同的字段数,包含不同的字段名或字段类型,或者包含着嵌套的格式。这类数据一般都以纯文本的形式输出,管理维护也较为方便,但在需要使用这些数据时,如获取、查询或分析数据时,需要先对这些数据格式进行相应的解析。(1)XML文档

一个XML文档示例如下:

The Joshua Tree

U2

(2)JSON

JSON(JavaScript Object Notation)是一种基于JavaScript的轻量级的数据交换格式,它的格式以键值对(Key/Value)的形式输出数据,示例如下:

{ "people": [

{ "firstName": "Brett","lastName":"McLaughlin","email": "aaaa" },

{ "firstName": "Jason","lastName":"Hunter","email": "bbbb"},

{ "firstName": "Elliotte","lastName":"Harold","email": "cccc" }

]}(3)日志文件

日志文件是在计算机系统运行中由计算机或传感器等生成的数据,用于记录业务或信息系统内执行的自动功能的详细信息。最常见的就是Web日志,它根据预定义的字段顺序打出相应的值,一个Web日志文件的示例如下:

2005-01-0316:44:57218.17.90.60GET/Default.aspx-80 -218.17.90.60Mozilla/4.0+(compatible;+MSIE+6.0;+Windows+NT+5.2;+.NET+CLR+1.1.4322)20000(4)点击流(Click-stream)

客户对企业网站的每一次点击都会被企业网络服务器记录在日志中,由此产生了点击流数据,也是日志的一种。

3.无结构的非结构化数据

无结构的非结构化数据指的是那些非纯文本类数据,没有标准格式,无法直接解析出相应的值。常见的非结构化数据有富文本文档、多媒体(图像、声音、视频等)。这类数据不易收集管理,也无法直接查询和分析,所以对这类数据需要使用一些不同的处理方式。

◎Web网页

◎电子邮件

◎富文本文档(Rich Text Format,简称为RTF)

◎富媒体文件(Rich Media)

它是具有动画、声音、视频和/或交互性的信息传播媒介,包含下列常见的形式之一或者几种的组合:流媒体、声音、Flash及Java、JavaScript、DHTML等程序设计语言。富媒体可应用于各种网络服务中,如网站、电子邮件、旗帜广告(Banner)、按钮式广告(Button)、弹出式广告、插播式广告等。其中:流媒体文件(Stream Media)是采用流式传输的方式在Internet/Intranet播放的媒体格式,如声音流、视频流、文本流、图像流、动画流等。

如图1-2所示为现实生活中的非结构化数据。图1-2 现实世界中的非结构化数据

◎实时多媒体数据

它是在各个行业数字化中产生的大量实时多媒体数据,包括各种视频、图像和音频文件,如CAD/CAM数据、视频会议、视频监控、数字电影、卫星图像、遥感图像、大型实景游戏、扫描仪数据、医学影像、传感器数据、分享视频、分享照片、数字电视等。

◎即时消息或事件数据

如Twitter、微博、微信等。

◎图数据(含社交网络)

◎语义Web(RDF)1.5.2 按照产生主体分类

1.最里层:少量企业应用产生的数据

◎关系型数据库中的数据

◎数据仓库中的数据

2.次外层:大量人产生的数据

◎Twitter,每天5000万tweets、每年1400%的增长率

◎微信(文字、音频、视频)

◎微博(文字、图片和视频)

◎博客、评论、图片和视频分享

◎企业博客、企业微博、企业微信

◎工程师的CAD/CAM数据、设计文档、笔记、日志

◎电子商务在线交易的日志数据、供应商交易的日志数据

◎呼叫中心的评论、留言或者电话投诉等

◎企业应用相关评论数据

3.最外层:巨量机器产生的数据

◎应用服务器日志(Web站点、游戏)

◎传感器数据(天气、水、智能电网)

◎图像和视频(车间监控的视频数据、交通、安全摄像头)

◎RFID、二维码或者条形码扫描的数据

大数据应用需要整合来自不同数据源、采用不同格式、跨不同业务的各类数据。例如,在一个制造企业中,产品创新的创意可能来自电子商务网站的评论数据和社交网站上关于产品的微博评论和转发信息,产品的设计可能需要调用产品知识库中的二维和三维CAD设计文档及三维动画原型,产品的市场宣传可能需要研究竞争产品的视频短片等。而一家医疗机构,需要分析与患者症状相似的很多病人的电子健康档案和电子病历,需要查阅护士和医生的各种病历记录,需要分析患者可穿戴设备的各种检测数据,需要通过远程的家庭医疗设备分析流媒体数据,这些数据种类也是很多样的。分析大数据的前提是能够采集、解析、集成和存储这些不同类型的数据。对于大量非结构化数据,传统的关系型数据库明显力不从心。

如图1-3所示为不同的大数据主体。图1-3 不同的大数据主体1.5.3 按照数据作用方式分类

按照数据作用的方式,分为交易数据和交互数据。

交易数据是指来自电子商务和企业应用的数据,包括ERP、企业对企业(B2B)、企业对个人(B2C)、个人对个人(C2C)、团购等系统,这些数据存储在关系型数据库和数据仓库中,可以执行联机事务处理(OLTP)和联机分析处理(OLAP)。这些数据的规模和复杂性一直在提高。

交互数据指来自相互作用的社交网络的数据,包括社交媒体交互(人为生成交互)和机器交互(设备生成交互)的新型数据。

两类数据的有效融合将是大势所趋,大数据应用要有效集成这两类数据,并在此基础上,实现这些数据的处理和分析。1.6 大数据的速度

大数据的速度是指数据创建、存储、获取、处理和分析的速度,它是由数据从客户端采集、装载并流动到处理器和存储设备,以及在处理器中进行计算的速度所决定的。

在当前的计算环境下,由于处理器和存储等计算技术的不断进步,数据处理的速度越来越快,传统计算技术渐渐不能满足大容量和多种类型的大数据的处理速度的要求。在交互式的计算环境下,海量数据被实时创建,用户需要实时的信息反馈和数据分析,并将这些数据结合到自身高效的业务流程和敏捷的决策过程中。大数据技术必须解决大容量、多种类型数据高速地产生、获取、存储和分析中的问题。

一方面要解决大数据容量下的数据时延问题。所谓数据时延是指,从数据创建或获取到数据可以访问之间的时间差。大数据处理需要解决大容量数据处理的高时延问题,需要采用低时延的技术来进行处理。如对一次 PB级大数据的复杂查询,传统结构化查询语言(SQL)技术可能需要几个小时,基于大数据技术平台希望将这一时延逐步降低到分钟级、秒级、毫秒级、完全实时,大数据技术正在做到这一点。

另一方面要解决时间敏感的流程中实时数据的高速处理问题。对于对时间敏感的流程,例如实时监控、实时欺诈监测或多渠道“实时”营销,某些类型的数据必须进行实时分析,以对业务产生价值,这涉及从数据的批处理、近线处理到在线实时流处理的演变。1.7 大数据的应用价值

大数据的价值是与大数据的容量和种类密切相关的。一般来看,数据容量越大,种类越多,信息量越大,获得的知识越多,能够发挥的应用价值也越大。但这依赖于大数据处理的手段和工具,否则由于信息和知识密度低,可能造成数据垃圾和信息过剩,失去数据的利用价值。[8]

研究表明,数据的价值会随着时间的流逝而降低。简单地看,数据的价值与时间是成反比的。因此,数据处理速度越快,数据价值越能够更好地获得。大数据的价值也与它所传播和共享的范围相关,使用大数据的用户越多,范围越广,信息的价值就越大。大数据价值的充分发挥,依赖于大数据的分析和挖掘技术,更好的分析工具和算法能够获得更为准确的信息,也更能发挥其价值。总之,大数据的价值,可以用如下的公式来简单定义:

因此,大数据处理和分析的技术对于挖掘大数据价值的作用十分关键。1.8 大数据的挑战1.8.1 业务视角不同带来的挑战

以往,企业通过内部ERP、客户关系管理(CRM)、供应链管理(SCM)、BI等信息系统建设,建立高效的企业内部统计报表、仪表盘等决策分析工具,为企业业务敏捷决策发挥了很大作用。但是,这些数据分析只是冰山一角,这些报表和仪表盘其实是“残缺”的,更多潜在的有价值的信息被企业束之高阁。大数据时代,企业业务部门必须改变他们看数据的视角,更加重视和利用以往被放弃的交易日志、客户反馈、社交网络等数据。这种转变需要一个过程,但实现转变的企业则已经从中获得巨大收益。据有关统计,电子商务企业Amazon近三分之一的收入来自基于大数据相似度分析的推荐系统的贡献。花旗银行新产品创新的创意很大程度来自各个渠道收集到的客户反馈数据。因此,在大数据时代,业务部门需要以新的视角来面对大数据,接受和利用好大数据,创造更大的业务价值。1.8.2 技术架构不同带来的挑战

传统的关系型数据库(RDBMS)和结构化查询语言(SQL)面对大数据已经力不从心,更高性价比的数据计算与存储技术和工具不断涌现。对于已经熟练掌握和使用传统技术的企业信息技术人员来说,学习、接受和掌握它需要一个过程,从内心也会认为现在的技术和工具足够好,对新技术产生一种排斥的心理,怀疑它只是一个新的噱头。新技术本身的不成熟性、复杂性和用户不友好性也会加深这种印象。但大数据时代的技术变革已经不可逆转,企业必须积极迎接这种挑战,以学习和包容的方式迎接新技术,以集成的方式实现新老系统的整合。1.8.3 管理策略不同带来的挑战

大容量和多种类型的大数据处理将带来企业信息基础设施的巨大变革,也会带来企业信息技术管理、服务、投资和信息安全治理等方面的新的挑战。如何利用公有云服务来实现企业外部数据的处理和分析?对大数据架构采取什么样的管理和投资模式?对大数据可能涉及的数据隐私如何进行保护?……这些都是企业应用大数据需要面对的挑战。

挑战与机遇并存,但机遇远远大于挑战,大数据应用的热潮已经来到,本书力图指导读者一步一步开启大数据的应用。

[1].2010年IDC提供给EMC的报告,见http://www.emc.com/about/news/press/2010/20100504-01.htm。

[2].http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation。

[3].http://www.whitehouse.gov/blog/2012/03/29/big-data-big-deal。

[4].http://www.unglobalpulse.org/sites/default/files/BigDataforDevelopment-GlobalPulseMay2012.pdf。

[5].http://www3.weforum.org/docs/WEF_TC_MFS_BigDataBigImpact_Briefing_2012.pdf。

[6].邬贺铨,《大数据时代的机遇与挑战》,《求是》杂志,2013年2月。

[7].http://en.wikipedia.org/wiki/Big_data。

[8].《大数据时代:生活、工作与思维的大变革》,维克托·迈尔·舍恩伯格、肯尼思·库克耶著,浙江人民出版社,2013年1月。第2章大数据应用的业务需求

本章阐述大数据应用的主要应用领域、业务价值和业务需求。2.1 大数据应用的业务流程

数据处理的流程包括产生数据,收集、存储和管理数据,分析数据,利用数据等阶段。大数据应用的业务流程也是一样的,包括产生数据、聚集数据、分析数据和利用数据4个阶段,只是这一业务流程是在大数据平台和系统上执行的,如图2-1所示为大数据应用的业务链。图2-1 大数据应用的业务链2.1.1 产生数据

在组织经营、管理和服务的业务流程运行中,企业内部业务和管理信息系统产生了大量存储于数据库中的数据,这些数据库对应着每一个应用系统且相互独立,如ERP数据库、财务数据库、CRM数据库、人力资源数据库等。在企业内部的信息化应用中,也产生了非结构化文档、交易日志、网页日志、视频监控文件、各种传感器数据等非结构化数据,这是在大数据应用中可以被发现潜在价值的企业内部数据。企业建立的外部电子商务交易平台、电子采购平台、客户服务系统等帮助企业产生了大量外部的结构化数据。企业的外部门户、移动App应用、企业博客、企业微博、企业视频分享、外部传感器等系统帮助企业产生了大量外部的非结构化数据。2.1.2 聚集数据

企业架构(EA)的3个核心要素是业务、应用和数据,业务架构描述业务流程和功能结构,应用架构描述处理工具的结构,数据架构描述企业核心的数据内容的组织。企业内外部已经产生了大量的结构化、非结构化数据,需要将这些数据组织和聚集起来,建立企业级的数据架构,有组织地对数据进行采集、存储和管理。首先实现的是不同应用数据库之间的整合,这需要建立企业级的统一数据模型,实现企业主数据管理。所谓主数据是指企业的产品、客户、人员、组织、资金、资产等关键数据,通过这些主数据的属性及它们之间的相互关系能够建立企业级数据架构和模型。在统一模型的基础上,利用提取、转换和加载(ETL)技术,将不同应用数据库中的数据聚集到企业级的数据仓库(DW),实现企业内部结构化数据的集成,这为企业商业智能分析奠定了一个很好的基础。面对企业内外部的非结构化数据,借助数据库和数据仓库的聚集,效果并不好。文档管理和知识管理是对非结构化文档进行处理的一个阶段,仅限于对文档层面的保存、归类和基于元数据的管理。更多非结构化文档的集聚,需要引入新的大数据的平台和技术,如分布式文件系统、分布式计算框架、非 SQL数据、流计算技术等,通过这些技术来加强非结构数据的处理和集聚。内外部结构化、非结构化数据的统一集成则需要实现两种数据(结构化、非结构化)、两种技术平台(关系型数据库、大数据平台)的进一步整合。2.1.3 分析数据

集成起来的企业各种数据是大容量、多种类的大数据,分析数据是提取信息、发现知识、预测未来的关键步骤。分析只是手段,并不是目的。企业内外部数据分析的目的是为了发现数据所反映的组织业务运行的规律,是为了创造业务价值。对于企业来说,可能基于这些数据进行客户行为分析、产品需求分析、市场营销效果分析、品牌满意度分析、工程可靠性分析、企业业务绩效分析、企业全面风险分析、企业文化归属度分析等。对于政府和其他事业机构,可以进行公众行为模式分析、经济预测分析、公共安全风险分析等。2.1.4 利用数据

数据分析的结果,不是仅仅呈现给专业做数据分析的数据科学家,而是需要呈现给更多非专业人员才能真正发挥它的价值,客户、业务人员、高管、股东、社会公众、合作伙伴、媒体、政府监管机构等都是大数据分析结果的使用者。因此,大数据分析结果应当以不同专业角色、不同地位人员对数据表现的不同需求提供给他们,或许是上报的报表、提交的报告、可视化的图表、详细的可视化分析或者简单的微博信息、视频信息。只有数据被重复利用的次数越多,它所能发挥的价值就越大。2.2 大数据应用的业务价值[1]

维克托·迈尔·舍恩伯格认为大数据的重要价值在于建立数据驱动的关于大数据相关关系的分析,而建立在相关关系分析法基础上的预测是大数据的核心!大数据让我们知道“是什么”,也许我们还不明白为什么,但对瞬息万变的商业世界来说,知道是什么比知道为什么更为重要。大数据应用真正要实现的是“用数据说话”,而不是直觉或经验。总结起来,大数据应用的业务价值在于3个方面:一是发现过去没有发现的数据潜在价值;二是发现动态行为数据的价值;三是通过不同数据集的整合创造新的数据价值。如图2-2所示为大数据对企业的潜在价值。图2-2 大数据对企业的潜在价值2.2.1 发现大数据的潜在价值

在大数据应用的背景下,企业开始关注过去不重视、丢弃或者无能力处理的数据,从中分析潜在的信息和知识,用于以客户为中心的客户拓展、市场营销等。例如,企业在进行新客户开发、新订单交易和新产品研发的过程中,产生了很多用户浏览的日志、呼叫中心的投诉和反馈,这些数据过去一直被企业所忽视,通过大数据的分析和利用,这些数据能够为企业的客户关怀、产品创新和市场策略提供非常有价值的信息。2.2.2 发现动态行为数据的价值

以往的数据分析只是针对流程结果、属性描述等静态数据,在大数据应用背景下,企业有能力对业务流程中的各类行为数据进行采集、获取和分析,包括客户行为、公众行为、企业行为、城市行为、空间行为、社会行为等。这些行为数据的获得,是依赖于互联网、物联网、移动互联网等信息基础设施所建立起来的对客观对象行为的跟踪和记录。这就使得大数据应用可能具备还原“历史”和预测未来的能力。2.2.3 实现大数据整合创新的价值

在互联网和移动互联网时代,企业收集了来自网站、电子商务、移动应用、呼叫中心、企业微博等不同渠道的客户访问、交易和反馈数据,把这些数据整合起来,形成关于客户的全方位信息,这将有助于企业给客户提供更有针对性、更贴心的产品和服务。随着技术的发展,更多场景下的数据被连接起来了。连接,让数据产生了网络效应;互动,让数据的关系被激活,带来了更大的业务价值。无论是互联网和移动互联网数据的连接,内部数据和社交媒体数据的连接,线上服务和线下服务数据的连接,还是网络、社交和空间数据的连接,等等,不同数据源的连接和互动,使得人类有能力更加全方位、深入地还原和洞察真实的曾经复杂的“现实”。

如图2-3所示为某运营商的多渠道数据整合分析图。图2-3 某运营商的多渠道数据整合分析图2.3 各行业大数据应用的个性需求

大数据已成为全球商业界一项优先级很高的战略任务,因为它能够对全球新经济时代的商务产生深远的影响。大数据在各行各业都有应用,尤其是在公共服务领域具有广阔的应用前景,如政府、金融、零售、医疗等行业。2.3.1 互联网与电子商务行业

互联网和电子商务领域是大数据应用的主要领域,主要需求是互联网访问用户信息记录、用户行为分析,并基于这些行为分析实现推荐系统、广告追踪等应用。

1.用户信息记录

在Web 2.0和电子商务时代,互联网、移动互联网和电子商务上的用户,大部分是注册用户,通过简单的注册,用户拥有了自己的账户,互联网企业则拥有了用户的基本资料信息,网站具有用户名、密码、性别、年龄、移动电话、电子邮件等基本信息,社交媒体的用户信息内容更多,如新浪微博中用户可以填写自己的昵称、头像、真实姓名、所在地、性别、生日、博客、E-mail、QQ/MSN、自我介绍、用户标签、教育信息、职业信息等信息,在微信或者QQ客户端上可以填写头像、昵称、个性签名、姓名、性别、英文名、生日、血型、生肖、故乡、所在地、邮编、电话、学历、职业、语言、手机等。移动互联网用户的信息与手机绑定,可以获得手机号、手机通信录等用户信息。由于互联网用户在上网期间会留下更多的个人信息,如朋友圈中记录关于家庭、妻子、儿女、个人爱好、同学、同事等信息,在互联网企业的用户数据库中的用户信息会越来越完整。

2.用户行为分析

用户访问行为的分析是互联网和电子商务领域大数据应用的重[2]点。用户行为分析可以从行为载体和行为的效果两个维度进行分类。从用户行为的产生方式和载体来分析用户行为主要包括如下几点。

鼠标点击和移动行为分析。在移动互联网之前,互联网上最多的用户行为基本都是通过鼠标来完成的,分析鼠标点击和移动轨迹是用户行为分析的重要部分。目前国内外很多大公司都有自己的系统,用于记录和统计用户鼠标行为。据了解,目前国内的很多第三方统计网站也可以为中小网站和企业提供鼠标移动轨迹等记录。

移动终端的触摸和点击行为。随着新兴的多点触控技术在智能手机上的广泛应用,触摸和点击行为能够产生更加复杂的用户行为,对此类行为进行记录和分析就变得更加重要。

键盘等其他设备的输入行为。此类设备主要是为了满足不能通过简单点击等进行输入的场景,如大量内容输入。键盘的输入行为不是用户行为分析的重点,但键盘产生的内容却是大数据应用中内容分析的重点。

眼球,眼动行为。基于此种用户行为的分析在国外比较流行,目前在国内的很多领域也有类似用户研究的应用,通过研究用户的眼球移动和停留等,产品设计师可以更容易了解界面上哪些元素更受用户关注,哪些元素设计得合理或不合理等。

基于以上这4类媒介,用户在不同的产品上可以产生千奇百怪、形形色色的行为,可以通过对这些行为的数据记录和分析更好地指导产品开发和用户体验。

针对不同的业务场景,对用户行为效果的分析有所不同,如表2-1所示为互联网用户行为效果分析。表2-1 互联网用户行为效果分析

通过对这些互联网行为数据进行不同方法的建模和推导分析,就可以得出有价值的数据结果,这是互联网和电子商务大数据应用的真正需求。

3.基于大数据相关性分析的推荐系统

Amazon建立推荐系统是互联网和电子商务企业的重要大数据应用。推荐系统已经在电子商务企业中广泛应用,Amazon、当当网等电子商务企业就是根据大量的用户行为数据的相关性分析为读者推荐相关商品的,例如,根据同样的兴趣爱好者的付费购买行为,为用户推荐商品,以同理心来刺激购物消费,如图2-4所示是基于大数据的推荐系统示例。有关数据显示,Amazon、当当网等电子商务企业近1/3的收入来自于它的个性化推荐系统。图2-4 基于大数据的推荐系统

推荐系统的基础是用户购买行为数据,处理数据的基本算法在学术领域被称为“客户队列群体的发现”,队列群体在逻辑和图形上用链接表示,队列群体的分析很多都涉及特殊的链接分析算法。推荐系统分析的维度是多样的,例如可以根据客户的购物喜好为其推荐相关商品,也可以根据社交网络关系进行推荐。如果利用传统的分析方法,需要先选取客户样本,把客户与其他客户进行对比,找到相似性,但是推荐系统的准确性较低。采取大数据分析技术后,大大提高了分析的准确性。

4.网络营销分析

电子商务网站一般都记录包括每次用户会话中每个页面事件的海量数据。这样就可以在很短的时间内完成一次广告位置、颜色、大小、用词和其他特征的试验。当试验表明广告中的这种特征更改促成了更好的点击行为,这个更改和优化就可以实时实施。从用户的行为分析中,可以获得用户偏好,为广告投放选择时机。如通过微博用户分析,获悉用户在每天的4个时间点最为活跃:早起去上班的路上、午饭时间、晚饭时间、睡觉前。掌握了这些用户行为,企业就可以在对应的时间段做某些针对性的内容投放和推广等。病毒式营销是互联网上的用户口碑传播,这种传播通过社交网络像病毒一样迅速蔓延传播,使得它成为一种高效的信息传播方式。对于病毒式营销的效果分析是非常重要的,不仅可以及时掌握营销信息传播所带来的反应(例如对于网站访问量的增长),也可以从中发现这项病毒式营销计划可能存在的问题,以及可能的改进思路,积累这些经验为下一次病毒式营销计划提供参考。

5.网络运营分析

电子商务网站,通过对用户的消费行为和贡献行为产生的数据进行分析,可以量化很多指标服务于产品各个生产和营销环节,如转化率、客单价、购买频率、平均毛利率、用户满意度等指标,从而为产品客户群定位或市场细分提供科学依据。

6.社交网络分析

社交网络系统(SNS)通常有3种社交关系:一是强关系,即我们关注的人;二是弱关系,即我们被松散连接的人,类似朋友的朋友;三是临时关系,即我们不认识但与之临时产生互动的人。临时关系是人们没有承认的关系,但是会临时性联系的,比如我们在SNS中临时评论的回复等。基于大数据分析,能够分析社交网络的复杂行为,能够帮助互联网企业建立起用户的强关系、弱关系甚至临时关系图谱。例如,人立方网站可以帮助我们查询某人的社交图谱,如键入“马云”,可以获得马云的社交图谱,如图2-5所示。图2-5 马云的社交图谱

Facebook从2013年7月开始向全美用户推出社交图谱搜索(Graph Search),该功能支持用户进行更加高级的搜索,如直接搜索“我朋友喜欢的纽约餐厅”“我朋友1996年之前的照片”等,从而获得详细的搜索结果。

7.基于位置的数据分析和服务

很多互联网应用加入了精确的全球定位系统(GPS)位置追踪,精确位置追踪为GPS测定点附近其他位置的海量相关数据的采集、处理和分析提供了手段,进一步丰富了基于位置的应用和服务。2.3.2 零售业

零售行业大数据应用需求目前主要集中在客户行为分析,通过大数据分析来改善和优化货架商品摆放、客户营销等。沃尔玛是零售业大数据应用的标杆。

1.货架商品关联性分析

沃尔玛基于一个庞大的客户交易数据库,对顾客购物行为进行分析,了解顾客购物习惯,发现其中的共性规律。两个著名的应用案例是:“啤酒-纸尿裤关联销售”和“手电筒和蛋挞的关联销售”。沃尔玛的大数据分析发现,啤酒和纸尿裤摆放在一起销售的效果很好,其背后的原因是年轻爸爸一般在买纸尿裤的时候,通常要犒劳一下自己,买一打啤酒。另一个是手电筒和蛋挞的例子,沃尔玛的大数据分析显示,在飓风季,手电筒和蛋挞的销量数据都很高。根据这一特点,在飓风这个季节,沃尔玛把手电筒和蛋挞摆在一起可以大幅增加销量。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载