大数据导论(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-23 13:58:57

点击下载

作者:杨尊琦

出版社:机械工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据导论

大数据导论试读:

前言

回顾过去的十年,科技产品和成果不断涌现,冲击着人类的生活方式和思维方式:智能移动设备、人工智能、云计算、物联网、社交网络和各种各样的“共享”等,使人类认知世界的方式和方法发生了巨大变化。在这些平台和技术的运用中,流淌、堆积着一个强大的资源——大数据!人们对数据的认识和运用由此发生了根本性变化,大数据从技术变成了产业和科学,数据的价值因其“大”而“全”受到前所未有的重视。如果说过去人类社会的发展是由机械驱动、电力驱动或网络驱动的话,那么现在和未来就是由大数据来驱动人类社会的进步。大数据的快速发展和多样性给人们带来巨大的挑战,同时大数据又给各方面带来意想不到的价值和机遇。

大数据涌现:大数据之繁在于其“大”,不仅指其容量的数据单位由TB级别跨越到了DB级别,还体现在多样性、处理速度和复杂度等方面,海量的数据已如决堤之洪流涌入人们的生活,大量信息源产生的数据已远远超越目前人力所能处理的范围,需要人们探索如何对这些数据进行管理及运用;大数据的根本在于“数据”,在互联网及相关平台上利用新技术来采集、存储和分析激增的数据。

大数据价值:大数据之重在于其“全”,蕴含在大数据中的价值使得大数据已经成为信息产业中最具潜力的蓝海,人们赋予数据更多的意义,使数据成为信息资源的载体,具有了资本特性;大数据的价值在于运用,大数据在各个行业的广泛应用,促进社会价值的快速提升才是其最终目的。这也使得学习及掌握大数据处理工具和获得解决方案显得十分迫切。大数据的出现将会对社会各个领域产生深刻影响,“用数据来说话、用数据来管理、用数据来决策、用数据来创新”是这个时代的鲜明特征。大数据技术将对社会各层面的现在和未来产生巨大价值,包括决策、预测和洞见等。

大数据人才:大数据时代需要一大批具备大数据知识和技能的人才,一方面,要有一部分专业人才,不断研究大数据科学和技术;另一方面,其他领域的人才也应该能充分了解大数据并能和自己的专业领域结合,有效地将大数据科学和各行业的应用相结合,推动新技术和新应用的发展,这两个方面的人才都是不可或缺的。因此,以不同的需求,从不同的角度学习和了解大数据是本书编写的基本出发点。

本书的读者对象是社会科学类的高等院校相关专业开设“大数据”有关课程的本科生、研究生,以及各行各业的经济、管理人员。此外,本书对于信息技术专业和理工科类专业的学生,以及有一定实践经验的IT技术人员,也具有一定的参考价值。

本书的编写力求理论联系实际,结合一系列了解和熟悉大数据理念、技术与应用的学习和实践活动,把大数据的相关概念、基础知识和技术技巧融入在实践中,使学生保持浓厚的学习热情,加深对大数据技术和运用的兴趣、认识、理解和掌握。努力让非技术专业的人看懂数据科学的知识和理论及方法。本书在应用部分特别关注医疗、旅游、金融和制造业的典型行业的应用。例如,电子病历的改革、大数据在旅游业中的应用、大数据在金融业中的应用,以及大数据在制造业中的应用,具有较强的行业实践性。为相关章节的知识应用提供了现实场景,以加深读者对大数据实际应用的认识。另外,本书大量应用了直观的图表说明,这些都使本书的逻辑更加清晰,便于理解。

本书由天津财经大学教师和研究生团队编写。参加编写工作的人员具体分工为:杨尊琦、林海负责大纲的制定、全书的校改和第1章的撰写等工作;朱笑笑负责第2章和第8章的撰写;潘婧炜负责第3章和第9章的撰写;王雅萌负责第4章和第5章的撰写;张琳负责第6章和第7章的撰写;刘君玲负责第10章和第11章的撰写。本书在编写过程中参考了很多优秀的教材、专著和网上资料,在此对所有被引用文献的作者表示衷心的感谢。

特别要感谢机械工业出版社的鼎力支持,以及本书编辑的辛勤工作。由于编者水平和能力有限,书中难免有不当之处,希望读者朋友给予指正,不吝赐教。编 者第1章 大数据基础

20世纪末至今,“大数据”一词受到越来越广泛的关注,大数据技术已经开始渗透到社会、经济和个人生活的方方面面,今天的每个组织、每个人无不受到大数据的冲击和影响,而且在可以预见的未来,大数据对人类的影响将更加深远和强烈。

大数据是继工业革命以来给人类带来巨大冲击,引起社会重大变革和发展的又一起“大事件”。工业革命使人类步入了现代化的进程并一直延续到今天。20世纪中叶兴起的信息技术革命,可以说是人类智能化的起步,而智能化无疑是未来的发展方向。如果说工业革命的核心是动力革命,那么信息技术革命的核心是什么呢?从目前的情况看,数据是信息技术的根本,而大数据将是智能化的核心。

大数据是什么?大数据有哪些特征?大数据怎么运用?大数据将是每个人必须学习的知识,就像人类刚开始了解什么是“电”一样,不同的人应该从不同的层面去认知“大数据”。1.1 大数据时代

如今,人们已开始步入大数据时代,本节从大数据技术基础谈起,进而认识大数据引发的社会变革、经济变革和个人生活变革。1.1.1 大数据时代的技术基础

普适计算之父马克·韦泽说:“最高深的技术是那些令人无法察觉的技术,这些技术不停地把它们自己编织进日常生活,直到你无从发现为止”。20世纪末的IT技术的老四大件,包括硬件、软件、通信和网络已经在人们的生活和社会中发挥着关键作用。现在人们又开始深度运用IT技术,新的IT四大件由大数据、云计算、移动互联网和社交网络组成,正在主宰着人们的日常生活并驾驭各个组织的运营。每个组织从技术发展和应用的特征中把握前进方向和获取竞争优势。

1.技术发展范式

英国演化经济学家卡罗塔·佩雷斯绘制了技术-经济范式演化的4个阶段,如图1-1所示。一项技术的出现首先经历爆发期,而后是狂热期,再经过一番调整进入协同期,最后进入成熟期。两个阶段之间会有狂热泡沫之后的调整期。在导入期有大量的金融资本投入到关键产业和基础设施中,此时旧有的范式进行抗争并产生矛盾冲突。这种技术-经济范式在人类经过的几次技术革命中普遍适应。例如,互联网的出现就历经了这样一个过程。

从大型计算机的诞生、微机的产生、浏览器的出现,到网络时代和大数据时代交叠与发展,阿里研究院依据国家统计局的数据绘制了近几十年内技术发展的不同时期,反映出随着时间的推移和新技术的推出,数据被利用的程度逐步加大。图1-2说明了技术的扩散和蔓延及大数据的产生。图1-1 技术-经济范式演化图

图中每一个阶段都包括引入期、扩展期、控制期和集成期,两个相邻的阶段又有交迭,可能加速了发展的进程。从图中可以看出随着时代的进步对数据利用的价值在逐步提高。大数据时代正是走向高峰期。在此期间,各组织会从形式各样的数据中提炼、洞见出有价值内容,为决策者所用。图1-2 技术的扩散和蔓延

数据来源:国家统计局、阿里研究院分析

以云计算、大数据、移动互联网和物联网为代表的新一代信息技术正在改变社会的运行方式,数据价值的挖掘和利用成为组织利用大数据的主要目的。

2.物联网

物联网是新一代信息技术的重要组成部分,也是信息化时代的重要发展阶段。其英文名称是Internet of Things(IoT)。物联网就是物物相联的互联网。这里有两层意思:第一,物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络;第二,其用户端延伸和扩展到了任何物品与物品之间进行信息交换和通信,也就是物物相关。

物联网通过智能感知、识别技术与普适计算等通信感知技术,广泛应用于网络的融合中,物联网是互联网的应用拓展,与其说物联网是网络,不如说物联网是业务和应用。因此,应用创新是物联网发展的核心,以用户体验为核心是物联网发展的灵魂。

物联网是利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化、远程管理控制和智能化的网络。

物联网是互联网的延伸,它包括互联网及互联网上所有的资源,兼容互联网所有的应用,但物联网中所有的元素(所有的设备、资源及通信等)都具有个性化和私有化特征。

3.云计算

云计算的发展为整合打通业务系统、聚合数据提供了技术支撑,大数据技术综合分析并发掘数据价值、创新应用与服务,政府、企业信息化建设模式从以业务应用为中心转变为以数据为中心。企业的服务器的存储方式迅速转化为云端的存储方式。美国得克萨斯大学的研究表明,大数据技术可以有效改善企业的数据资源利用能力,提高从数据到信息的转化率,让企业的决策更为准确,从而提高整体的运营效率。表1-1所示为如果利用了大数据企业人均产出提高情况。但是目前企业大数据的利用率仅为12%左右,数据未得到充分利用。表1-1 大数据利用后企业人均产出提高预测

物联网对应了互联网的感觉和运动神经系统。云计算是互联网的核心硬件层和核心软件层的集合,也是互联网中枢神经系统萌芽。大数据代表了互联网的信息层(数据海洋),是互联网智慧和意识产生的基础。

包括物联网在内,传统互联网和移动互联网在源源不断地向互联网大数据层汇聚数据和接收数据。大数据在移动互联网上产生的数据呈爆发式增长。1.1.2 大数据时代的变革

大数据正在对人类活动的3个层面带来影响:大数据可能引发的社会变革、经济变革和个人生活变革。新技术的出现对各领域的冲击是超乎人们想象的。大数据时代,传统模式已不适用,整合的、跨界的管理创新模式正在形成。数据重构各产业,流量改写未来,传统的运营模式渐渐消失,逐渐变成新的运营模式。

所谓跨界变革,是指不是本专业的,全部来自于另一个领域。广告业、运输业、零售业、酒店业、服务业和医疗卫生等,都可能被新的管理模式击破,更便利、更关联、更全面的商业系统正在逐一形成。

1.大数据引发的社会变革

1)大数据将改变人类社会认识自然和宇宙的方式的深度及广度,改变人与自然的关系。大数据科学和方法及相关工具使人类了解和利用自然时更加全面,更加细化,而随着人们对大自然的更深入了解,人与大自然的关系将更加和谐,今天积极倡导的环境保护和绿色生态建设已经开始利用大数据技术手段,如地理位置信息系统、地球数据资源分析系统等都极大地提高了工作效率和精准度。

2)大数据将改变社会组织、群体结构及其联动方式。涂子沛在《大数据:正在到来的数据革命》一书中指出,“大数据时代是一个更开放的社会、一个权力更分散的社会、一个网状的大社会”。大数据使群体的存在更加多元化、灵活化、网络化、开放化。使群体之间的互动和交流更加快速化、便捷化。近几年人们越来越感觉到世界在变小,对世界的了解越来越方便,数字城市、各项社会服务功能的自动化、智能化等无不有大数据的支持。

3)大数据使社会活动和社会管理的方式发生变革。大数据使人类的活动方式如社交、消费和学习等众多方面都发生了全面变化,如社交网络形成了虚拟与现实结合的群体及其活动,电子商务带来的消费方式的变化和范围的扩展,各种“共享”活动方式等没有大数据支持是不可能的。那么,对这些新的社会活动方式的管理也必然是基于大数据的手段和方法。

大数据给人类社会的发展变化带来了机遇和挑战,人们必须面对并迎接这种挑战,从中发现机会,抓住机会,利用机会,从而不断地适应和推动社会的发展进步。

2.大数据引发的经济变革

新技术的突破对经济方面的影响也十分巨大。数据技术及与之相关的信息技术等是20世纪中叶逐渐发展和成熟起来的技术,其对经济的影响已经初见端倪,物质产品的日益丰富,更新换代的速度之快每个人都能感受到。

1)大数据将改变实体企业生产制造的方式。传统的制造方式走过了批量生产、精细生产、敏捷制造的过程,正在探寻着智能制造的方式。具体表现为:大数据为企业全过程设计、创新、生产、经营、管理、决策服务,为企业的发展战略和目标的实现服务;大数据有利于供应链的优化、产业链的完善、生态链的形成和优化;大数据预测行业和宏观决策调控的实际需求,提高行业和宏观经济管理决策质量、能力;大数据为企业、行业的装备、工艺、生产线、供应链的转型升级服务;大数据在制造业的运用将会是又一次新的工业革命而产生巨大的影响,工业4.0 或中国制造2025等是最直接的表现。

2)大数据将引发产业结构的调整和升级。

对产业的影响表现在以下几个方面。

● 运用大数据和信息技术将农业生产资料和要素整合起来,进行科学、精准的农业科研和生产,实现农业的智慧化、生态化、健康化。

● 第二产业即工业的升级,大数据加速信息化、工业化和智能化同时并举。

● 大数据在第三产业中最大的特点是服务的实时化、精准化、个性化和可追溯化。

● 大数据将打破产业之间和区域之间的界限。大数据也是一种资源,那么围绕着这种资源的竞争和价值的提升与创造,必然产生新的业态,逐渐形成一些产业。

大数据及相关技术的运用意味着一种全新的资源配置手段的出现,它的效率远远高于传统配置方法。

3)大数据引发经营管理模式和商业模式的变革。

大数据对企业的思维层面、组织层面、运作层面、经营层面和技术层面都会产生重大影响,从而导致企业经营管理和商业模式的巨大变革。表1-2列举了大数据对企业生产运营及市场方面的改变。表1-2 大数据影响企业管理内容

这些都是大数据带来的企业经营层面的变革,也可以说是商业模式的变革,这些变革从消费者角度已经被人们越来越多地感受到了。

3.大数据引发个人生活方式变化

大数据将影响人们的思维方式和行为方式,而这两种方式是人类活动的根本特征,这两种活动方式的变化会直接表现在人类的日常生活中,体现在每个人的衣、食、住、行、工作、学习、健康、交友、娱乐活动中。

1)大数据引发的人类思维的变化,是最根本、最深远的,又是渐次的、潜移默化的。大数据之所以引发人类思维方式的变化,主要由于其本身的特点和相关信息技术引发的人们认知世界的手段和工具的改变。

舍恩伯格指出,大数据时代,人们对待数据的思维方式会发生以下3个变化。

● 人们处理的数据从样本数据变成全部数据,需要的是所有的数据,“样本=总体”。

● 由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求,只有接受不精确性,才能打开一扇从未涉足的世界的窗户。

● 人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相关关系,人们不必必须知道现象背后的原因,而是让数据自己“发声”。

这就意味着人类在看待事物、探索世界、解决问题时的角度、方式、深度和广度等都会发生转变,从而认知的结果会产生不同。

2)大数据引发人类行为方式的变化已经越来越被人们感知,从最通俗的人类行为分类来看,人的衣、食、住、行、工作、学习、健康、交友和娱乐活动是最基本、最容易理解的行为,而这些行为在今天正发生着并将继续发生巨大的变化,且与大数据和相关信息技术息息相关。举例如下。

● 网络订餐已经把很多人吃的方式改变了,人们可以通过各种信息精心挑选适合自己的食品。

● 智能家居在每个家庭中都开始使用,使人们居住的环境更加舒适化、智能化。

● 健康运动能够随时查看自己的运动量和身体健康情况,有必要时还可以及时向健康专家咨询。

● 远程诊断。医院利用大数据可视化会诊,以及各种先进的医疗设施等,使人类对健康的理解和关心达到了一个新的层次。

● 社交网络“朋友圈”不仅是一个群体概念,而且延伸到了诸如消费、娱乐等其他方面。

总之,今天的很多人类行为都脱离不了大数据及相关信息技术的影响。1.1.3 信息技术(IT)向数据技术(DT)的转变

IT界有句非常著名的话,称为“人类正在从IT时代走向DT时代。” IT界提到的IT是指Information Technology,即“信息技术”。那么,与此对应,DT就应该是Data Technology,即“数据技术(或数据处理技术)”。以大数据技术为代表的DT时代和过去人们所知的IT时代是两个时代。IT时代是让自己更加强大,DT时代是让别人更加强大,IT时代是让别人为自己服务,DT时代是让自己服务好别人。图1-3显示从IT时代到DT时代的技术转化。图1-3 从IT时代到DT时代的技术转化

DT时代是一个充满流动的时代,会更加透明、利他,更注重责任和体验。

对图1-3的理解可通过表1-3进行对比加以认识。表1-3 两个时代的比较

由数据驱动的时代商业模式将是C2B(Customer to Business)而不是B2C。IT以自我控制、自我管理为主,DT以服务大众、激发生产力为主。

大数据时代已经来临,它将在众多领域掀起变革的巨浪。大数据的核心在于为客户挖掘数据中蕴藏的价值,而不是软硬件的堆砌。因此,针对不同领域的大数据应用模式和商业模式研究将是大数据产业健康发展的关键。大数据就是互联网发展到现今阶段的一种必然产物,既不能神话它也不能谈大数据色变,在以云计算为代表的技术创新平台上,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。

例如,企业应该制定大数据时代应对策略以充分利用其蕴含的商业价值。

1)应当通过云平台实现数据大集中,形成企业数据资产。通过云平台实现集团数据大集中,从而形成企业的数据资产。这是集团企业利用大数据资源的重要基础。只有把集团的信息化架构向云平台迁移,才能促使集团数据的大集中与统一管理,从而在此之上对数据资源的价值进行挖掘,促进企业数据的资产化。

2)应当深度挖掘大数据的价值,推动企业智能决策。企业应当重视对大数据价值的深入分析与挖掘,推动企业决策机制从“业务驱动”向“数据驱动”转变。可以说,数据将成为企业的利润之源,掌握了数据也就掌握了竞争力,企业必须更加注重数据的收集、整理、提取与分析。1.2 什么是大数据

随着社会的发展,技术的不断进步,人们驾驭和管理业务范围逐步扩大,特别是互联网出现以后,社交网络、社交商务平台上的数据、图像、声音及视频的数据增长量远远大于传统的管理系统中运行的结构性数据的数量。由于这部分数据的涌现,管理组织中的对象从一般的数据管理发展到大数据管理。本节将介绍大数据定义和大数据特征,并且回答在数据时代如何利用大数据为组织管理提供有价值的内容和为决策提供支持等问题。1.2.1 数据的基本知识

数据是各种符号,如字符、数字、声音、图片动画和视频多媒体等,数据也是原始事实,要保证其原始性和真实性,通过后期加工才有意义。信息是人们为了某种需求而对原始数据加工重组后形成的有意义、有用途的数据。

在信息的基础上提炼和总结成具有普遍指导意义的内容,包括共性规律、理论和模型模式方法等,称为知识。运用知识,结合经验创造性地预测未来解释现象和问题洞见未来成为智慧。从数据到智慧的步步升级也是从认识局部到认识整体,从描述过去或现在到预测未来的过程。图1-4表明了从数据到信息到知识再到智慧的阶梯式递进方式。图1-4 从数据到智慧阶梯

数据处理技术包括数据的采集、存储、处理、分析和表现等技术,目的是把数据变成有价值的信息,乃至将数据挖掘或处理升华成知识。

数据、信息和知识三者既有区别又有联系:数据是信息的载体,是信息的原始记录,包括数字、语言、文字、声音、图形和图像等多种形态;信息是经过加工后的对某现象具有一定解释力的数据,或者说是有价值的数据;知识是信息的进一步提升,是更加系统化、理论化的信息。运用知识并结合经验创造性地预测、解释和发现是智慧。

事实上,数据处理技术与信息处理技术并无本质区别,都是解决如何将数据处理加工成信息乃至知识的技术。如果非要加以区分的话,可以认为,联机在线事务处理(On-Line Transaction Processing,OLTP)是侧重于数据处理的技术,而联机在线分析处理(On-Line Analytical Processing,OLAP)是侧重于信息和知识处理的技术,而这种区分只能说是“侧重”而已,实际上并无绝对界限。数据处理是基础(比如,将原始的有“噪音”的数据经过“清洗”等处理,变成可以进一步加工处理的数据),信息处理是在此基础上的更高一层的应用,二者紧密相连,不能完全隔离开来。1.2.2 大数据定义

一般的数据定义是基于信息技术发展早期的信息系统里数据库中的数据,或管理本地的数据或驾驭远程的数据库。到了近几年,管理模式不断创新,社会网络的出现、跨界数据管理,以及物联网增长,都催生了大数据的出现。一般数据和大数据有本质的不一样,在谈什么是大数据之前,先认识大数据是如何产生的。

1.大数据来源

1)物联网、云计算、移动互联网、车联网、手机、平板电脑、PC及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

2)有些例子包括网络日志、RFID、传感器网络、社会网络、社会数据(由于数据革命的社会)、互联网文本和文件;互联网搜索索引;呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂和/或跨学科的科研,军事侦察,医疗记录;摄影档案馆视频档案;大规模的电子商务。

图1-5展示了大数据在物联网智能设备上产生的数据存储在云端形成的大数据情况。图1-5 物联网、云计算、互联网和移动互联网的关系

大数据是如此庞大而复杂,需要用专门设计的硬件和软件工具进行处理。该数据集通常是PB或EB的大小。这些数据集收集自各种各样的来源,如传感器、气候信息及公开的信息(如杂志、报纸和文章)。大数据产生的其他例子包括购买交易记录、网络日志、病历、军事监控、视频和图像档案,以及大型电子商务。

2.大数据定义

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中,大数据是指不用随机分析法(抽样调查)这种捷径,而是对所有数据进行分析处理。广义上的数据和大数据里包括信息。

大数据(Big Data),或称巨量资料,是指所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。或定义为,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

Lisa Arthur 在《大数据营销》一书中将大数据定义成纷繁杂乱的、互动的应用程序、信息和流程。她把大数据比喻为数据“毛球”。如图1-6所示。在一些企业中,混乱的数据中包含的信息可能分布于市场营销部门、财务部门、销售部门和客户服务部门。而在另外一些公司,这些混乱的数据可能往往来自市场营销服务提供商、独立的电子商务网站、未归档的呼叫中心的对话录音,以及公司或合作伙伴的部门和部分网页活动数据日志。图1-6 数据“毛球”

麦肯锡全球研究所给出的大数据定义是:一种规模大到在获取、存储、管理和分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

IBM公司赋予大数据“领悟数据,提升见识,洞察秋毫,驱动优化”4个内涵,侧重于大数据技术的应用,强调大数据间相关性的发现,其核心能力是“大数据中的价值发现和应用”。

大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。随着互联网及其应用的发展,不断形成的大数据是一类由互联网衍生而来的重要的人造资源,从管理角度,大数据是一类反映物质世界和精神世界运动状态和状态变化的资源,它具有决策有用性、功能多样性、应用协同性、可重复开采和安全风险性。

大数据通常用来形容一个公司创造的大量非结构化数据和半结构化数据。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的计算机分配工作。每天都产生数以亿计的数据,云计算和云存储的应用有效地将这种隐态资源转化为可用资源,当前这种资源无疑成为国家、组织和个人最重要的财富。1.2.3 大数据的特征

大数据通常用来形容某个组织或企业创造的大量非结构化和半结构化数据,面对复杂的大数据,可以抓住其中的主要特征来理解。

1.大数据的特征

大数据有4个层面特点,也可将其归纳为4个V——Volume、Variety、Value、Velocity。IBM则提出大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)和Veracity(真实性)。表1-4汇总了大数据特征。

1)数据体量巨大(大量)(Volume)。从TB级别跃升到PB级别,数据体量巨大。从TB级别跃升到EB级别(1TB=1024GB;1PB=1024TB;1EB=1024PB)。

2)数据类型繁多(多样)(Variety)。例如,网络日志、视频、图片和地理位置信息等。

3)价值密度低(value)。价值密度低,商业价值高。以视频为例,在连续不间断的监控过程中,可能有用的数据仅仅有1~2秒。

4)处理速度快(Velocity)。由通常的离线处理变为在线处理,由在线事务处理(OLTP)变为在线分析处理(OLAP)。数据是永远在线的,是随时能调用和计算的,这是大数据区别于传统数据最大的特征。现在所谈到的大数据不仅仅是大,更重要的是数据变得实时在线了,这是互联网高速发展背景下的特点。表1-4 大数据特征

2.大数据的3个维度

下面再来系统地认识大数据的维度,可以从理论、技术和实践3个维度来展开。图1-7表明了大数据的3个维度。(1)理论维度

理论是认知的必经途径,也是被广泛认同和传播的基础内容。从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。(2)技术维度图1-7 大数据的3个维度

技术是大数据价值体现的手段和前进的基石。分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。(3)实践维度

实践是大数据的最终价值体现。从互联网的大数据、政府的大数据、企业的大数据和个人的大数据4个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

物联网、云计算、移动互联网、手机、平板电脑、PC,以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

大数据的核心在于为客户挖掘数据中蕴藏的价值,而不是软硬件的堆砌。因此,针对不同领域的大数据应用模式、商业模式研究将是大数据产业健康发展的关键。

3.大数据技术

大数据需要特殊的技术,使用特殊的数据结构来组织和访问巨大数量的数据,以便有效地处理跨多个服务器和离散数据存储的数据。适用于大数据的技术包括大规模并行处理数据库、数据挖掘、信息可视化、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。1.3 大数据结构类型

1.大数据存储容量10

大数据的存储结构小到以字节来表示,大到NB和DB级别。以2逐级增长。下面表示的是数据由小到大的尺寸和存储容量。最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。10

它们按照进率1024(2)来计算。10

1KB(KiloByte)=2B10

1MB(MegaByte)=2KB102030

1GB(GigaByte)=2MB=2KB=2B10203040

1TB(TeraByte)=2GB=2MB=2KB=2B1020304050

1PB(PetaByte)=2TB=2GB=2MB=2B=2B102030405060

1EB(ExaByte)=2PB=2TB=2GB=2MB=2KB=2B

1ZB(ZettaByte)10203040506070=2EB=2PB=2TB=2GB=2MB=2KB=2B

1YB(YottaByte)1020304050607080=2ZB=2EB=2PB=2TB=2GB=2MB=2KB=2B

1NB(NonaByte)102030405060708090=2YB=2ZB=2EB=2PB=2TB=2GB=2MB=2KB=2B

1DB(DoggaByte)102030405060708090=2NB=2YB=2ZB=2EB=2PB=2TB=2GB=2MB=2KB=1002B

一方面,数据规模的“存量”和“增量”在快速增长。另一方面,人们缺乏对 “大数据”的开发利用能力。大数据爆发式的增长情况如表1-5所示。表1-5 大数据在各行业增长

2.大数据结构特征

数据的结构化程度直接关系到处理数据的方法选择。传统的和经典的数据都是结构化的,这些数据存储在数据库中,采用相应的数据库技术完成查询和管理需要。而半结构和非结构的数据,就是今天网页和社交媒体产生的大量音频和视频等数据。数据的结构特征可总结为如表1-6所示。表1-6 大数据结构特征

3.数据的复杂性与多样性(1)数据的复杂性

复杂数据在可以“成熟的”分析和可视化之前需要额外的准备工作。因此重要的是,通过了解数据的复杂程度及它在未来的复杂性趋向,来评估大数据/商业智能项目是否能够胜任这一任务。多重数据源通常意味着脏数据,或者遵循着不同的内部逻辑结构的、简单的多个数据集。为了确保数据源有统一的数据语言,数据必须被转换或整合到一个中央资源库。数据的复杂性表现为处理大数据或异构数据。(2)数据的多样性

文本一直是非结构化数据的典型。早期的非结构化数据,在企业数据的语境里主要是文本,如电子邮件、文档和健康/医疗记录等。随着互联网和物联网的发展,又扩展到网页、社交媒体、感知数据,涵盖音频、图片、视频和模拟信号等,真正诠释了数据的多样性。

从另一个维度上看,数据的多样性又表现在数据来源和用途上。卫生保健数据大致有药理学科研数据,临床数据,个人行为和情感数据,以及就诊/索赔记录和开销数据4类。又如交通领域,北京市交通智能化分析平台数据源来自路网摄像头/传感器、地面公交、轨道交通、出租车,以及省际客运、旅游、化学危险品运输、停车和租车等运输行业,还有问卷调查和GIS数据。例如,面对共享单车治理难题,几个车企都提出“大数据”管理思路,并认为将是未来管理的方向。在ofo广州总部,通过大数据管理可以清楚看到每一辆“小黄车”所在位置和编号、每个网格的车辆数量、区域车辆的活跃程度等,车辆数量随着活跃程度的增加,在屏幕上显示由绿色转成红色。图1-8所示为不断增长的数据多样性与复杂性。图1-8 不断增长的数据多样性与复杂性1.4 大数据的应用

互联网、云计算和移动互联网等新兴技术拓展了人类创造和利用信息的范围和模式。联合国在 2012 年发布的大数据白皮书《大数据促发展:挑战与机遇》中指出,大数据时代已经到来,大数据的出现将会对社会各个领域产生深刻影响。2013 年被称为中国大数据元年,各行各业开始高度关注大数据的研究和应用。在云计算技术和非结构化数据存储技术的助力下,大数据已经成为当前学术界、工业界的热点和焦点。从公司战略到产业生态,从学术研究到生产实践,从城镇管理乃至国家治理,都将发生本质的变化,大数据将成为时代变革的力量。这里分别从个人生活、企业和政府应用三个层面讨论大数据的情况,后续章节从纵深角度探讨典型行业大数据的应用。1.4.1 大数据在个人生活中的应用

大数据时代,每个人都是数据的生产者,5G时代更是大数据时代,它将使得工业4.0、人工智能、无人驾驶和智慧城市发生翻天覆地的变化,改变人与自然、人与人、人与社会的关系。“大数据”已经在服务于普通百姓,通过它,企业可以了解市场行情,获得更多收入;农民可以了解明年种什么菜才能赚更多钱;农民工可以知道哪里更需要工人,哪里待遇更高,哪里能租到房子。而伴随着大数据技术的发展,人们的生活将会彻底改变。

目前的数据都是在即时通信过程中产生的,包括电话、短信、微信、邮件和浏览网页等,特别是社交自媒体每天产生大量的文本、音频及视频也是大数据的主要来源。随着大数据技术与云计算、物联网的进一步融合,未来物联网中的数据将更多地来源于大量传感器。例如,所有的物体上都带有一个标签式的小型传感器,每隔一定时间对外发射信号。人们去商场购物,只要一出门,商场里的多个探测器就会对所有商品进行扫描,人们只需刷卡。下班回家前,可以通过手机用遥控的方式提前打开空调、做饭、放洗澡水。诸如此类,如果每一个物品都“联网”,时间、能源等将得到更有效地利用,人就被解放出来去从事更有创造力的活动。图1-9所示为不同阶段的智能生活方式。图1-9 智能生活模式

例如交通智能软件是如何知道哪个路段出现拥堵的呢?主要有3种途径。

1)大家随身携带的手机,会每隔几秒钟与基站联系一次,当大量手机在某个路段停止或缓慢移动时,基本可以判断该路段出现拥堵。

2)遍布大街小巷的监控摄像头可以直接看到路段的拥堵情况,很多城市的交通管理部门会即时在拥堵路段进行标记。

3)在很多城市的交通管理中应用越来越普遍的小型无人驾驶直升机,也会在因事故等造成的大型拥堵事件中派上用场。

再有购物智能软件可以根据顾客曾经买过的商品的价格,分析顾客的消费水平,同时根据你最近的浏览和搜索,分析顾客当下的需求,二者结合,进行针对性非常强的推销。只要个人账户不变,每个人的数据都会被积累,形成隐形的“消费水平变化曲线图”,并据此自动调整广告内容。

还有个人医疗智能系统依赖具体数据的采集和判断。对“人”的信息感知已经打破了空间(从宏观影像到分子基因,从医院到家庭到随身)和时间(从离散监测到连续监测)的限制。医学诊断正在演化为全人、全过程的信息跟踪、预测预防和个性化治疗。病人的“参与性”和“选择权”的重要性,会愈加显现。1.4.2 大数据在企业中的应用

大数据时代,企业应用从以软件编程为主转变为以数据为中心。欧美国家针对流程工业提出了“智能工厂”的概念。德国提出了工业4.0概念,“工业4.0”本质上是通过信息物理系统(Cyber Physical System)实现工厂的设备传感和控制层的数据与企业信息系统融合,使得生产大数据传到云计算数据中心进行存储、分析,形成决策并反过来指导生产。大数据的作用不仅局限于此,它可以渗透到制造业的各个环节发挥作用,如产品设计、原料采购、产品制造、仓储运输、订单处理、批发经营和终端零售等。

未来车间智能机器人的机械手可以进行自动化排产调度,工件、物料及刀具进行自动化装卸调度,可以达到无人值守的全自动化生产模式。见图1-10所示为智能工厂的构成。图1-10 智能工厂的组成

视觉识别可以自动定位材料位置,更加精准便捷。视觉识别搭配机械手可以进行分拣,不同的数字、颜色可以被分拣出来,并且按顺序排列。

1.大数据改善订单处理方式

大数据技术不管是在哪个行业当中进行应用,其最为根本的优势就是预测能力,用户利用大数据的预测能力可以精准地了解市场发展趋势、用户需求及行业走向等多方面的数据,从而为用户自身企业的发展制定更适合的战略和规划。企业通过大数据的预测结果,便可以得到潜在订单的数量,然后直接进入产品的设计、制造及后续环节。

也就是说,企业可以通过大数据技术,在客户下单之前进行订单处理。而传统企业通过市场调研与分析,得到粗略的客户需求量,然后开始生产加工产品,等到客户下单后,才开始订单处理。这大大延长了产品的生产周期。现在已经有很多制造业行业的企业用户开始利用大数据技术来对销售数据进行大数据分析,这对于提升企业利润来说是非常有利的。

2.大数据改变传统仓储运输

由于大数据能够精准预测出个体消费者的需求及消费者对于产品价格的期望值,企业在产品设计制造之后,可直接派送到消费者手中。虽然此时消费者还没有下单,但是消费者最终接受产品是一个大概率事件。这使得企业不存在库存过剩的问题,也就没有必要进行仓储运输和批发经营。

3.大数据使工业采购变得更加精准

大数据技术可以从数据分析中获得知识并推测趋势,可以对企业的原料采购的供求信息进行更大范围的归并、匹配,效率更高。大数据通过高度整合的方式,将相对独立的企业各部门信息汇集起来,打破了原有的信息壁垒,实现了集约化管理。

用户可以根据流程当中每一个环节的轻重缓急来更加科学地安排企业的费用支出,同时,利用大数据的海量存储还可以对采购的原料的附带属性进行更加精细化的描述与标准认证,通过分类标签与关联分析,可以更好地评估企业采购资金的支出效果。

4.大数据让产品设计更优化

借助大数据技术,人们可以对原物料的品质进行监控,发现潜在问题立即做出预警,以便能及早解决问题,从而维持产品品质,大数据技术还能监控并预测加工设备未来的故障几率,以便让工程师即时执行最适决策。大数据技术还能应用于精准预测零件的生命周期,在需要更换的最佳时机提出建议,帮助制造业者达到品质与成本的双赢。

例如,日本的Honda汽车公司就将大数据分析技术应用到了电动车的电池上,由于电动车不像汽车或油电混合车那样,可以使用汽油作为动力来源,其唯一的动力就是电池,所以Honda希望进一步了解电池在什么情况下绩效表现最好、使用寿命最长。Honda公司通过大数据技术搜集并分析车辆在行驶中的一些数据,如道路状况、车主的开车行为及开车时的环境状态等,这些数据一方面可以帮助汽车制造公司预测电池目前的寿命还剩下多长,以便及时提醒车主进行更换,另一方面也可以提供给研发部门,作为未来设计电池的参考。

对于工业制造业来说,由于自身在技术创新性等方面的特殊需求,对于大数据的需求是非常庞大的,这就需要在实际应用过程当中将海量数据变得能够真正被实际工作所用,那么大数据在工业领域和制造业领域等方面也就能起到非常重要的意义了。

总之,充分利用互联网与大数据这一新的战略性人造资源,可以不断提高产品智能化水平、研发与生产过程的开放式创新水平,以及基于产品的服务化水平,并能重构制造资源组合,优化制造业生态系统。有关大数据在制造业中的应用实例将在后续章节中讲授。1.4.3 大数据在政府部门中的运用

各国政府面临一系列问题及挑战,如环境污染问题、疾病防御与预警、资源分配、交通拥堵和养老问题等。传统的政府部门管理方式和方法远远不够适应今天瞬息万变的环境并解决这些问题与挑战。大数据环境下政务智能的框架模型如图1-11所示。

1.分享层是大数据的来源

移动政务作为政府数字化转型的重要内容予以重点推进。我国借由在移动互联的先发优势和天然的用户基础,政务服务在移动终端的发展已取得显著进展。截至2017年底,经过微博平台认证的政务微博达到173569个,其中政务机构官方微博134827个,公务人员微博38742个。政务微博的规模继续稳定增长,并朝矩阵化、专业化、垂直化的方向发展。用手机缴纳交通罚款、生活缴费、挂号预约、参与社会治理等已成为生活常态。这些数据的积累、传输为交换层等提供依据,可降低决策成本,服务于政府监管,充分发挥政府职能。图1-11 智慧政府平台

2.交换层是大数据分析的中间环节

通过互联网、通信网、有线电视网及物联网完成数据抓取、数据融合、数据分析和数据决策的任务。采用云计算的技术,消灭信息孤岛。把存储器、服务器存储到有保障的云存储中心去收集和存储数据。在政务人员中培养使用大数据的习惯,政府部门应该率先应用,形成示范作用。

3.创新、洞见层是构建智慧政府必然

创新、洞见层为智慧政务留出了创新的空间和可能。大数据的核心就是预测,智慧政府决策基于大数据的挖掘技术、统计分析技术、并行化技术、数据可视化技术以及云计算、人工智能等技术的应用,辅助政府捕获实时的决策信息并精准预测和准确分析现实状况,建立虚拟决策模型,寻找规律并验证决策假设,使政府不仅对决策的合理性进行宏观把握,还能做到精准预测和客观分析。

智慧政府平台架构有助于提升政府服务和监管效率、降低政府决策成本,并为政务智能的研究和应用提供新的思路。

总之,智慧政府平台的应用,可大大提高政务的透明度和及时响应度,满足民意需求和诉求,达到以下目标:

1)智能政务可以使相关数据分析人员从收集、整理和汇总数据的烦琐工作中解脱出来,利用智能政务发现数据中存在的关系和规则,根据现有的数据预测未来的发展趋势,提高政府决策的科学性、准确性。

2)集中政府各有关部门的业务数据,进行整合、分析,可以形成系统的数据、资料,使各自独立的职能部门全面了解政府各相关部门的业务信息,按需应用,促进信息共享,从而有利于各个职能部门更为高效、协同地行使职能。

3)由于政务智能广泛采用了开源技术,不仅有效降低了实施成本,也在一定程度上确保了信息安全。1.5 数据科学和大数据技术

在大数据爆发式增长的时代,在理论层面,对数据利用的理论体系正逐步形成,因而数据科学的诞生成为必然;在实践层面,随着数据科学的理论架构逐步成熟,相应的对数据的加工提炼及挖掘技术也伴随而生。数据科学理论可以指导人们对大数据的利用,数据技术和工具成为挖掘数据的有力工具。1.5.1 数据科学

目前大数据的工程技术研究已走在科学研究的前面。美国政府 6 个部门启动的大数据研究计划中,国家科学基金会的研究内容提到要“形成一个包括数学、统计基础和计算机算法的独特学科”。图灵奖得主吉姆.格雷描绘了数据密集型科研第四范式的愿景,将大数据科研从第三范式(计算机模拟)中分离出来单独作为一种科研范式,是因为其研究方式不同于基于数学模型的传统研究方式。大数据研究能成为一门科学的前提是,在一个领域发现的数据的相互关系和规律具有可推广到其他领域的普适性。提炼“大数据”的共性还需要一段时间的实践积累才会逐步清晰、明朗。将大量多元异构、交互性和时效性强,并包含大量噪声的数据作为研究对象的专门学科,依然具备了鲜明的学科特征。

数据科学的目标,同时也是人类的一个目标:获得洞察力和理解能力。数据科学是统计学、软件工程和领域专业知识的组合。数据科学是以数据为中心的科学。可以理解为从现实世界到数据世界的投影。通过对数据的分析,来解释、预测、洞见和决策为现实世界服务。数据科学是大数据时代面临的新问题、新挑战、新机遇和新方法的一套知识体系。

数据科学的特征表现在以下几个方面。

● 由原来的被动式变为主动式。

● 由数值报表的传统角色转变为支持决策的角色。

● 传统的技术方法转为现代的技术方法。

● 成为大数据时代需要的、独立的一整套科学体系。

统计学、机器学习、可视化和领域知识与经验构成了数据科学的4个方面。

数据科学以统计学、机器学习、数据可视化及其他领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理。1.5.2 大数据技术与工具

大数据技术与工具包括:大数据采集及预处理、大数据分析、大数据可视化、Hadoop平台、HDFS和Common概论、MapReduce概论、NoSQL技术、R与Python等。借助这些大数据的平台和工具,分析、研究大量的数据过程中的模式、相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。图1-12所示为大数据分析所采用的技术平台、方法和语言。此处不一一列举,仅就数据可视化技术、Hadoop平台、R语言和Python语言谈一下大数据技术及工具。图1-12 大数据分析的技能图谱

1.数据可视化技术

数据可视化旨在借助于图形化手段,清晰、有效地传达与沟通信息。为了有效地传达思想观念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,无法达到其主要目的,也就是传达与沟通信息。

数据可视化与信息图形、信息可视化、科学可视化及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。(1)科学可视化

科学可视化(Scientific Visualization)是科学中的一个跨学科研究与应用领域,主要关注的是三维现象的可视化,如建筑学、气象学、医学或生物学方面的各种系统。重点在于对体、面及光源等的逼真渲染,甚至还包括某种动态成分。此类数字型表现形式或数据集可能会是液体流型(fluid flow)或分子动力学之类的计算机模拟的输出,或者经验数据(如利用地理学、气象学或天体物理学设备所获得的记录)。就医学数据(CT、MRI和PET等)而言,常常听说的一条术语就是“医学可视化”。图1-13所示为人类的颅骨CT片。图1-13 人类的颅骨CT片

科学可视化本身并不是最终目的,而是许多科学技术工作的一个构成要素。这些工作之中通常会包括对于科学技术数据和模型的解释、操作与处理。科学工作者对数据加以可视化,旨在寻找其中的种种模式、特点、关系及异常情况;换句话说,也就是为了帮助理解。因此,应当把可视化看作是任务驱动型,而不是数据驱动型。(2)信息可视化

信息可视化(Information Visualization)是一个跨学科领域,旨在研究大规模非数值型信息资源的视觉呈现(如软件系统中众多的文件或者一行行的程序代码)。通过利用图形图像方面的技术与方法,帮助人们理解和分析数据。与科学可视化相比,信息可视化则侧重于抽象数据集,如非结构化文本或者高维空间当中的点(这些点并不具有固有的二维或三维几何结构)。图1-14所示为云标签分析出的文本。图1-14 云标签(3)可视化分析

就目标和技术方法而言,信息可视化与可视化分析之间存在着一些重叠。当前,关于科学可视化、信息可视化及可视化分析之间的边界问题,还没有达成明确清晰的共识。不过,大体上来说,这三个领域之间存在着以下几点区别。

① 科学可视化处理的是那些具有天然几何结构的数据(如MRI数据、气流等)。②信息可视化处理的是抽象数据结构,如树状结构或图形。③可视化分析尤其关注的是意会和推理。

任何事物都是一类信息,如表格、图形、地图,甚至包括文本在内,无论其是静态的还是动态的,都将为人们提供某种方式或手段,从而让人们能够洞察其中的缘由,找出问题的答案,发现形形色色的关系,或许还能让人们理解在其他形式的情况下不易发觉的事情。不过,如今在科学技术研究领域,信息可视化这条术语则一般适用于大规模非数字型信息资源的可视化表达。有关可视化的内容将在后续章节中进一步讨论。

2.Hadoop软件框架

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的结点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理来加快处理速度。Hadoop 还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点。

1)高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

2)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的结点中。

3)高效性。Hadoop能够在结点之间动态地移动数据,并保证各个结点的动态平衡,因此处理速度非常快。

4)高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

Hadoop带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。图1-15所示为Hadoop构架。图1-15 Hadoop构架

3.R与Python语言

做数据分析、科学计算等离不开编程语言的使用,目前该领域的主流编程语言是R语言、Python语言等。(1)R语言

R语言是统计领域广泛使用的、诞生于1980年左右的S语言的一个分支。可以认为R语言是S语言的一种实现。而S语言是由AT&T贝

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载