大数据管理概论(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-16 09:07:53

点击下载

作者:孟小峰

出版社:机械工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据管理概论

大数据管理概论试读:

前言

当下大数据技术发展变化日新月异,大数据应用已经遍及工业和社会生活的方方面面,原有的数据管理理论体系与大数据产业应用之间的差距日益加大,而工业界对于大数据人才的需求却急剧增加。大数据专业人才的培养是新一轮科技较量的基础,高等院校承担着大数据人才培养的重任。因此大数据相关课程将逐渐成为国内高校计算机相关专业的重要课程。但纵观大数据人才培养课程体系尚不尽如人意,多是已有课程的“冷拼盘”,顶多是加点“调料”,原材料没有新鲜感。现阶段无论多么新多么好的人才培养计划,都只能在20世纪六七十年代编写的计算机知识体系上施教,无法把当下大数据带给我们的新思维、新知识传导给学生。

为此我们意识到,缺少基础性工作和原始积累,就难以培养符合工业界需要的大数据复合型和交叉型人才。因此急需在思维和理念方面进行转变,为现有的课程和知识体系按大数据应用需求进行延展和补充,加入新的可以因材施教的知识模块。我们肩负着大数据时代知识更新的使命,每一位学者都有责任和义务去为此“增砖添瓦”。

在此背景下,我们策划和组织了这套大数据管理丛书,希望能够培养数据思维的理念,对原有数据管理知识体系进行完善和补充,面向新的技术热点,提出新的知识体系/知识点,拉近教材体系与大数据应用的距离,为受教者应对现代技术带来的大数据领域的新问题和挑战,扫除障碍。我们相信,假以时日,这些著作汇溪成河,必将对未来大数据人才培养起到“基石”的作用。

丛书定位:面向新形势下的大数据技术发展对人才培养提出的挑战,旨在为学术研究和人才培养提供可供参考的“基石”。虽然是一些不起眼的“砖头瓦块”,但可以为大数据人才培养积累可用的新模块(新素材),弥补原有知识体系与应用问题之前的鸿沟,力图为现有的数据管理知识查漏补缺,聚少成多,最终形成适应大数据技术发展和人才培养的知识体系和教材基础。

丛书特点:丛书借鉴Morgan&Claypool Publishers出版的Synthesis Lectures on Data Management,特色在于选题新颖,短小精湛。选题新颖即面向技术热点,弥补现有知识体系的漏洞和不足(或延伸或补充),内容涵盖大数据管理的理论、方法、技术等诸多方面。短小精湛则不求系统性和完备性,但每本书要自成知识体系,重在阐述基本问题和方法,并辅以例题说明,便于施教。

丛书组织:丛书采用国际学术出版通行的主编负责制,为此特邀中国人民大学孟小峰教授(email:xfmeng@ruc.edu.cn)担任丛书主编,负责丛书的整体规划和选题。责任编辑为机械工业出版社华章分社姚蕾编辑(email:yaolei@hzbook.com)。

当今数据洪流席卷全球,而中国正在努力从数据大国走向数据强国,大数据时代的知识更新和人才培养刻不容缓,虽然我们的力量有限,但聚少成多,积小致巨。因此,我们在设计本套丛书封面的时候,特意选择了清代苏州籍宫廷画家徐扬描绘苏州风物的巨幅长卷画作《姑苏繁华图》(原名《盛世滋生图》)作为底图以表达我们的美好愿景,每本书选取这幅巨卷的一部分,一步步见证和记录数据管理领域的学者在学术研究和工程应用中的探索和实践,最终形成适应大数据技术发展和人才培养的知识图谱,共同谱写出我们这个大数据时代的盛世华章。

在此期望有志于大数据人才培养并具有丰富理论和实践经验的学者和专业人员能够加入到这套书的编写工作中来,共同为中国大数据研究和人才培养贡献自己的智慧和力量,共筑属于我们自己的“时代记忆”。欢迎读者对我们的出版工作提出宝贵意见和建议。前言

陈寅恪先生说:“一时代之学术,必有其新材料与新问题。取用此材料,以研求问题,则为此时代学术之新潮流。治学之士,得预于此潮流者,谓之预流(借用佛教初果之名)。其未得预者,谓之未入流。”对今天的信息技术而言,“新材料”即为大数据,而“新问题”则是产生于“新材料”之上的新的应用需求。

对数据库领域而言,真正的“预流”是Jim Gray和Michael Stone-braker等大师们。十三年前面对“数据库领域还能再活跃30年吗”这一问题,Jim Gray给出的回答是:“不可能。在数据库领域里,我们已经非常狭隘。”但他转而回答到:“SIGMOD这个词中的MOD表示‘数据管理’。对我来说,数据管理包含很多工作,如收集数据、存储数据、组织数据、分析数据和表示数据,特别是数据表示部分。针对数据查询已经做了相当多的工作,但这些工作仅仅围绕查询画了个‘艾普西龙球面’,而没有真正超越它。所以,如果我们还像以前一样把研究与现实脱离开来,还继续保持狭隘的眼光审视自己所做的研究,数据库领域将要消失,因为那些研究越来越偏离实际。现在人们已经拥有太多数据,而我对许多人说我们仅仅希望拥有更多的时间。所以,整个数据收集、数据分析和数据简单化的工作就是能准确地给予人们所要的数据,而不是把所有的数据都提供给他们。这个问题不会消失,而是会变得越来越重要。如果你用一种大而广的眼光看,数据库是一个蓬勃发展的领域;如果采用审视的眼光看,现在做的很多研究对30年后的人们不会产生任何影响”(见《数据库大师访谈录》)。

最近人们提出了“数据湖”,以区别传统的“数据库”技术。两者的差别到底何在呢?偶读了费孝通先生所著的《乡土中国》后,笔者略有所悟。费老分析总结了中国乡土社会结构,指出中国社会呈现出所谓的“差序格局”,而西方社会呈现的是“团体格局”。传统数据库结构关系单一,呈现状态犹如“团体格局”,即以单个实体为本位,实体之间的关系好比一捆柴,几根成一把,几把成一扎,条理清楚,有共同的模式可循。而当下大数据来源广泛,关系复杂,远近亲疏各不同,这种关系就好比“差序格局”,以语义主题为本位,每类实体都以自我为中心按照与其他实体的语义关系为主线结成网络,这个网络按照语义关系的紧密亲疏呈现“差序”状态,就如同湖面丢下的石子形成的水波纹依中心扩散开去的样子。这种状态随着实体间关系的变化而动态演化,并且每个网络的大小不同,体现的语义关系也不同,蕴含的价值也不同。

数据库的“团体格局”本质上是先有模式后有数据,因此数据集成可以采用中介模式(GAV和LAV)以自顶向下的方式实现集成。数据湖的“差序格局”是先有数据后有模式,因此需要按照自底向上的方式以一种大数据融合的方法实现集成。大数据融合即建立数据间、信息间、知识片段间多维度、多粒度的关联关系,实现更多层面的知识交互,从而聚敛出数据湖中一个个维系我们社会的“水波纹”(即语义关联的紧密程度)。

本书集成了大数据融合、存储、分析、隐私和系统等方面的工作,其组织结构如下:第1章描述大数据的概念、演变过程和处理模式;第2章提出大数据融合的概念,分析大数据融合的独特性和任务,给出大数据融合的方法论;第3章介绍大数据存储与管理方法;第4章描述大数据分析技术,包括实时分析、交互分析、智能分析等;第5章讲述大数据涉及的隐私问题,主要介绍不同领域中的隐私保护问题及其隐私保护技术;第6章介绍大数据管理系统,并分析其体系结构;第7章是基于大数据的交叉学科研究,介绍在线用户行为演化的相关研究。

本书中涉及的研究工作得到众多科研项目的支持,其中包括:国家自然基金重点项目——“大规模关联数据管理的关键技术研究”(编号:61532010);国家自然基金重点项目——“面向大数据内存计算的计算机体系结构”(编号:61532016);国家重点研发项目——“科学大数据管理系统”(编号:2016YFB1000600);中国人民大学重点科学研究基金重大基础研究项目——“社会计算若干关键问题研究”(编号:11XNL010);高等学校博士学科点专项科研基金优先领域课题——“云计算环境下的在线聚集技术研究”(编号:20130004130001);国家自然基金重大研究计划重点项目——“大数据开放与治理中的隐私保护关键技术研究”(编号:91646203)。

本书架构的安排以及统稿、审校工作由孟小峰组织完成,这里要特别感谢王春凯、杜治娟、郭崎、杨晨、王硕、叶青青和李勇,在本书的编写过程中他们给予了极大的帮助。

本书涉及面广,内容丰富,术语量大,如果在阅读过程中发现有不当之处,恳请读者批评指正;如果有任何建议或意见,欢迎发邮件与作者(xfmeng@ruc.edu.cn)联系。孟小峰2016年9月28日于北京作者简介

孟小峰 中国人民大学信息学院教授,博士生导师。现为中国计算机学会会士、中国保密协会隐私保护专业委员会副主任,《Journal of Computer Science and Technology》《Frontiers of Computer Science》《软件学报》《计算机研究与发展》等编委。先后获中国计算机学会“王选奖”一等奖(2009年),北京市科学技术奖二等奖(2011年)等奖励,入选“第三届北京市高校名师奖”(2005年)。发表论文200余篇,近期结合近十年的研究工作出版了“网络与移动数据管理三部曲”(《Web数据管理:概念与技术》《XML数据管理:概念与技术》《移动数据管理:概念与技术》,清华大学出版社),获得国家专利授权12项。近期主要研究领域为网络与移动大数据管理,包括Web数据管理、云数据管理、面向新型存储器的数据库系统、大数据隐私管理、社会计算等。第1章概述1.1 大数据的基本概念

已故的图灵奖得主Jim Gray在其《事务处理》一书中提到:6000年以前,苏美尔人(Sumerians)就使用了数据记录的方法,已知最早的数据是写在土块上,上面记录着皇家税收、土地、谷物、牲畜、奴隶和黄金等情况。随着社会的进步和生产力的提高,类似土块的处理系统演变了数千年,经历了殷墟甲骨文、古埃及纸莎草纸、羊皮纸等。19世纪后期打孔卡片出现,用于1890年美国人口普查,用卡片取代土块,使得系统可以每秒查找或更新一个“土块”(卡片)。可见,用数据记录社会由来已久,而数据的多少和系统的能力是与当时社会结构的复杂程度和生产力水平密切相关的。

随着人类进入21世纪,尤其是互联网和移动互联网技术的发展,使得人与人之间的联系日益密切,社会结构日趋复杂,生产力水平得到极大提升,人类创造性活力得到充分释放,与之相应的数据规模和处理系统发生了巨大改变,从而催生了当下众人热议的大数据局面。

从历史观的角度看,数据(D)和社会(S)形成了一定的对应关系,即:D~f(S),…,D~f(S),…,1SumeriansbigpresentD~f(S)。从量的关系上,D,…,D,…,D可能存在大小nfuture1bign关系,还可形成包含关系,但它们只是与当时的社会发展状况相对应:D不可能反映代表未来的D,因为我们不知道未来会有什么新的社bign会结构(诸如当下社交网络一类的事物)出现,也不知道会有什么新的生产活动(诸如电商一类的事物)产生;同样D也不需要具有D1big的规模,因为当时人们并没有如此频繁的联系。近期,美国加州大学伯克利分校Michael I.Jordan教授提出“大数据的冬天即将到来”,如果我们能历史地认识D的地位,没有把D当D,就不存在“冬天”bigbign与“春天”的问题。这是历史客观发展的事实。

基于以上分析,当下大数据的产生主要与人类社会生活网络结构的复杂化、生产活动的数字化、科学研究的信息化相关,其意义和价值在于可帮助人们解释复杂的社会行为和结构,以及提高生产力,进而丰富人们发现自然规律的手段。本质上,大数据具有以下三方面的内涵,即大数据的“深度”、大数据的“广度”以及大数据的“密度”。所谓“深度”是指单一领域数据汇聚的规模,可以进一步理解为数据内容的“维度”;“广度”则是指多领域数据汇聚的规模,侧重体现在数据的关联、交叉和融合等方面;“密度”是指时空维上数据汇聚的规模,即数据积累的“厚度”以及数据产生的“速度”。

面对不断涌现的大数据应用,数据库乃至数据管理技术面临新的挑战。传统的数据库技术侧重考虑数据的“深度”问题,主要解决数据的组织、存储、查询和简单分析等问题。其后,数据管理技术在一定程度上考虑了数据的“广度”和“密度”问题,主要解决数据的集成、流处理、图结构等问题。这里提出的大数据管理是要综合考虑数据的“广度”“深度”“密度”等问题,主要解决数据的获取、抽取、集成、复杂分析、解释等技术难点。因此,与传统数据管理技术相比,大数据管理技术难度更高,处理数据的“战线”更长。1.2 大数据的演变过程

从数据库(Database,DB)到大数据(Big Data,BD),看似只是一个简单的技术演进,但细细考究不难发现两者有着本质上的差别。大数据的出现必将颠覆传统的数据管理方式,在数据来源、数据处理方式和数据思维等方面都会带来革命性变化。

如果要用简单的方式来比较传统的数据库和大数据的区别的话,我们认为“池塘捕鱼”和“大海捕鱼”是一个很好的类比。“池塘捕鱼”代表着传统数据库时代的数据管理方式,而“大海捕鱼”则对应着大数据时代的数据管理方式,“鱼”是待处理的数据。“捕鱼”环境条件的变化导致了“捕鱼”方式的根本性差异。这些差异主要体现在如下几个方面:

1)数据规模:“池塘”和“大海”最明显的区别就是规模。“池塘”规模相对较小,即便是先前认为比较大的“池塘”,譬如VLDB(Very Large DataBase),与“大海”XLDB(Extremely Large DataBase)相比仍旧偏小。“池塘”的处理对象通常以MB为基本单位,而“大海”则常常以GB甚至是TB、PB为基本处理单位。

2)数据类型:过去的“池塘”中,数据的种类单一,往往仅仅有一种或少数几种,这些数据又以结构化数据为主。而在“大海”中,数据的种类繁多,数以千计,而这些数据又包含着结构化、半结构化以及非结构化的数据,并且半结构化和非结构化数据所占份额越来越大。

3)模式(schema)和数据的关系:传统的数据库都是先有模式,然后才会产生数据。这就好比是先选好合适的“池塘”,然后才会向其中投放适合在该“池塘”环境生长的“鱼”。而大数据时代在很多情况下难以预先确定模式,模式只有在数据出现之后才能确定,且模式随着数据量的增长处于不断的演变之中。这就好比先有少量的鱼类,随着时间推移,鱼的种类和数量都在不断地增长。鱼的变化会使大海的成分和环境处于不断的变化之中。

4)处理对象:在“池塘”中捕鱼,“鱼”仅仅是其捕捞对象。而在“大海”中,“鱼”除了是捕捞对象之外,还可以通过某些“鱼”的存在来判断其他种类的“鱼”是否存在。也就是说传统数据库中数据仅作为处理对象,而在大数据时代,要将数据作为一种资源来辅助解决其他诸多领域的问题。

5)处理工具:捕捞“池塘”中的“鱼”,一种渔网或少数几种基本就可以应对,也就是所谓的“One Size Fits All”。但是在“大海”中,不存在一种渔网能够捕获所有鱼类的情况,也就是所谓的“No Size Fits All”。

从“池塘”到“大海”,不仅仅是规模的变大。传统的数据库代表着数据工程(data engineering)的处理方式,大数据时代的数据已不仅仅是工程处理的对象,需要采取新的数据思维来应对。图灵奖获得者、著名数据库专家Jim Gray博士观察并总结指出,人类自古以来,在科学研究上先后历经了实验、理论和计算三种范式。当数据量不断增长和累积到今天,这三种传统范式在科学研究,特别是一些新的研究领域已经无法很好地发挥作用,需要有一种全新的范式来指导新形势下的科学研究。基于这种考虑,Jim Gray提出了一种新的数据探索型研究方式,他称之为科学研究的“第四种范式”(The Fourth [1]Paradigm)。

四种范式的比较如表1-1所示。第四种范式的实质就是从以计算为中心,转变到以数据处理为中心,也就是我们所说的数据思维。这种方式需要我们从根本上转变思维。正如前面提到的捕鱼方式的转变,在大数据时代,数据不再仅仅是捕捞的对象,而应当转变成一种基础资源,来协同解决其他诸多领域的问题。例如,计算社会科学(computational social science)基于特定社会需求,在特定的社会理论指导下,收集、整理和分析数据足迹(data print),以便进行社会解释、监控、预测与规划的过程和活动。计算社会科学是一种典型的需要采用第四种范式来做指导的科学研究领域。Duncan J.Watts在《Nature》杂志上的文章“A twenty-first century science”也指出借助于社交网络和计算机分析技术,21世纪的社会科学有可能实现定量化的研究,从而成为一门真正的自然科学。表1-1 科学研究上发现的四种范式

[1] Kristin M Tolle,D Stewart W,Tansley,et al.The Fourth Paradigm:Data-intensive Scientific Discovery[C].Proceedings of the IEEE.NJ:IEEE,2011,99(8):1334-1337.1.3 大数据应用

人类历史上从未有哪个时代同今天一样产生如此海量的数据。数据的产生已经完全不受时间、地点的限制。从采用数据库作为数据管理的主要方式开始,人类社会的数据产生方式大致经历了3个阶段,而正是数据产生方式的巨大变化才最终导致大数据的产生。

1)运营式系统阶段:数据库的出现使得数据管理的复杂度大大降低,实际中数据库大都为运营系统所采用,作为运营系统的数据管理子系统。比如超市的销售记录系统、银行的交易记录系统、医院病人的医疗记录系统等。人类社会数据量第一次大的飞跃正是从运营式系统广泛使用数据库开始的。这个阶段最主要的特点是数据往往伴随着一定的运营活动而产生并记录在数据库中,比如超市每销售一件商品就会在数据库中产生一条相应的销售记录。这种数据的产生方式是被动的。

2)互联网系统阶段:互联网的诞生促使人类社会数据量出现第二次大的飞跃。但是真正的数据爆发产生于Web2.0时代,而Web2.0的最重要标志就是用户原创内容(User Generated Content,UGC)。这类数据近几年一直呈现爆炸性增长,主要有两个方面的原因。首先是以博客、微博为代表的新型社交网络的出现和快速发展,使得用户产生数据的意愿更加强烈。其次就是以智能手机、平板电脑为代表的新型移动设备的出现,这些易携带、全天候接入网络的移动设备使得人们在网上发表自己意见的途径更为便捷。这种数据的产生方式是主动的。

3)感知式系统阶段:人类社会数据量第三次大的飞跃最终导致了大数据的产生,今天我们正处于这个阶段。这次飞跃的根本原因在于感知式系统的广泛使用。随着技术的发展,人们已经有能力制造极其微小的带有处理功能的传感器,并开始将这些设备广泛地布置于社会的各个角落,通过这些设备来对整个社会的运转进行监控。这些设备会源源不断地产生新数据,这种数据的产生方式是自动的。

简单来说,数据产生经历了被动、主动和自动三个阶段。这些被动、主动和自动产生的数据共同构成了大数据的数据来源,但其中自动式数据才是大数据产生的最根本原因。

正如谷歌公司的首席经济学家Hal Varian所说,数据是广泛可用的,所缺乏的是从中提取出知识的能力。数据收集的根本目的是根据需求从数据中提取有用的知识,并将其应用到具体的领域之中。不同领域的大数据应用有不同的特点,表1-2列举了若干具有代表性的大数据应用及其特征。表1-2 典型大数据应用的比较

正是由于大数据的广泛存在,才使得大数据问题的解决极具挑战性。而它的广泛应用,则促使越来越多的人开始关注和研究大数据问题。

如图1-1所示,大数据应用的三要素包括大数据(big data)、大知识(big knowledge)和大应用(big application)。“大数据”关联和融合凝聚成“大知识”,促使开发“大应用”。图1-1 大数据应用的三要素1.4 大数据的处理模式

无论是工业界还是学术界,都已经广泛使用高级集群编程模型来处理日益增长的数据,如MapReduce。这些系统将分布式编程简化为自动提供位置感知(locality-aware)调度、容错以及负载均衡,使得大量用户能够在商用集群上分析庞大的数据集。

大多数现有的集群计算系统都是基于非循环数据流模型(acyclic data flow model),从稳定的物理存储(如分布式文件系统)中加载记录,一组确定性操作构成一个有向无环图(Directed Acyclic Graph,DAG),记录被传入这个DAG,然后写回稳定存储。通过这个DAG数据流图,运行时自动完成调度工作及故障恢复。

尽管非循环数据流是一种很强大的抽象方法,但有些应用仍然无法使用这种方式描述,包括:①机器学习和图应用中常用的迭代算法(每一步对数据执行相似的函数);②交互式数据挖掘工具(用户反复查询一个数据子集)。此外基于数据流的架构也不明确支持这种处理,所以需要将数据输出到磁盘,然后在每次查询时重新加载,从而带来较大的开销。

当前大数据分析处理系统的发展趋势主要有两个方向:一种是以Hadoop和MapReduce为代表的批处理(batch processing)系统,另一种是为各种特定应用开发的流处理(stream processing)系统,批处理是先存储后处理(store-then-process),而流处理则是直接处理(straight-through processing)。1.4.1 批处理

Google公司于2004年提出的MapReduce编程模型是最具代表性的批处理模式。一个完整的MapReduce过程如图1-2所示。图1-2 MapReduce执行流程图

MapReduce模型首先将用户的原始数据源进行分块,然后分别交给不同的Map任务去处理。Map任务从输入中解析出键/值对集合,然后对这些集合执行用户自行定义的Map函数得到中间结果,并将该结果写入本地硬盘。Reduce任务从硬盘上读取数据之后,会根据key值进行排序,将具有相同key值的数据组织在一起。最后用户自定义的Reduce函数会作用于这些排好序的结果并输出最终结果。

从MapReduce的处理过程我们可以看出,MapReduce的核心设计思想在于:①将问题分而治之;②把计算推至数据而不是把数据推至计算,有效避免数据传输过程中产生的大量通信开销。MapReduce模型简单,且现实中很多问题都可用MapReduce模型来表示。因此该模型公开后立刻受到极大的关注,并在生物信息学、文本挖掘等领域得到广泛应用。

无论是批处理还是流处理,都是大数据处理的可行思路。大数据的应用类型很多,在实际的大数据处理中,常常并不是简单地只使用其中的某一种,而是将二者结合起来。互联网是大数据最重要的来源之一,很多互联网公司根据处理时间的要求将自己的业务划分为在线(online)、近线(nearline)和离线(offline),比如著名的职业社交网站LinkedIn。这种划分方式是按处理所耗时间来划分的。其中在线的处理时间一般为秒级,甚至是毫秒级,因此通常采用上面所说的流处理;离线的处理时间可以以天为基本单位,基本采用批处理方式,这种方式可以最大限度地利用系统I/O;近线的处理时间一般为分钟级或者是小时级,对处理模型并没有特别的要求,可以根据需求灵活选择,但在实际中多采用批处理模式。1.4.2 流处理

流处理的基本理念是数据的价值会随着时间的流逝而不断减少,因此尽可能快地对最新的数据作出分析并给出结果是所有流数据处理模式的共同目标。需要采用流数据处理的大数据应用场景主要有网页点击数的实时统计、传感器网络和金融中的高频交易等。

流处理的处理模式将数据视为流,源源不断的数据组成了数据流。当新的数据到来时就立刻处理并返回所需的结果。图1-3是流处理中基本的数据流模型。图1-3 基本的数据流模型

数据的实时处理是一个极具挑战性的工作,数据流本身具有持续达到、速度快且规模巨大等特点。为了确保分布式数据流的实时处理,需要对数据流的传输和模型进行说明。①数据流传输。为保证实时、完整且稳定地将数据流传输到处理系统,一般可通过消息队列和网络Socket传输等方法完成,以保证将数据发送至每个物理节点,为数据处理提供保障。利用消息队列的方式进行数据采集和传输是较为常用的一种方法,常见的消息队列产品有Facebook的Scribe、LinkedIn的Kafka和Cloudera的Flume等。②数据流模型。在查询处理过程中,由于数据流的来源不同,需要针对不同的数据源制订不同的数据样式。一般来讲,通用的数据流管理系统支持关系型数据模型,数据定义语言是基于关系型的原子类型,便于以属性和元组的形式划分和发送数据;针对特殊领域的数据流管理系统,可根据领域数据的特点设计基于对象类型的复合数据类型。1.5 大数据管理的关键技术

综上所述,大数据时代的数据存在如下几个特点:多源异构、分布广泛、动态增长、先有数据后有模式。正是这些与传统数据管理迥然不同的特点,使得大数据时代的数据管理面临着新的挑战,下面会对其中的主要挑战进行详细分析。1.5.1 大数据融合

数据的广泛存在性使得数据越来越多地散布于不同的数据管理系统中,为了便于进行数据分析,需要进行数据集成。数据集成看起来并不是一个新的问题,但是大数据时代的数据集成却有新的需求,因此也面临着新的挑战。

1)广泛的异构性。传统的数据集成也会面对数据异构的问题,但是在大数据时代这种异构性出现了新的变化。主要体现在:①数据类型从以结构化数据为主转向结构化、半结构化、非结构化三者的融合。②数据产生方式的多样性带来了数据源的变化。传统的电子数据主要产生于服务器或者是个人计算机,这些设备位置相对固定。随着移动终端的快速发展,手机、平板电脑和GPS等产生的数据量呈现爆炸式增长,且产生的数据带有很明显的时空特性。③数据存储方式发生变化。传统数据主要存储在关系数据库中,但越来越多的数据迫使人们开始采用新的数据存储方式来应对数据爆炸,比如存储在Hadoop的HDFS中。这就必然要求在集成的过程中进行数据转换,而这种转换的过程是非常复杂和难以管理的。

2)数据质量。数据量大不一定就代表信息量或者数据价值的增大,相反很多时候意味着信息垃圾的泛滥。一方面很难有单个系统能够容纳下从不同数据源集成的海量数据;另一方面如果在集成的过程中仅仅简单地将所有数据聚集在一起而不进行任何数据清洗,会使得过多的无用数据干扰后续的数据分析过程。大数据时代的数据清洗过程必须更加谨慎,因为相对细微的有用信息混杂在庞大的数据量中。如果信息清洗的粒度过细,很容易将有用的信息过滤掉;清洗的粒度过粗,又无法达到真正的清洗效果,因此在质与量之间需要进行仔细的考量和权衡。1.5.2 大数据分析

传统意义上的数据分析主要针对结构化数据展开,且已经形成了一整套行之有效的分析体系。首先利用数据库来存储结构化数据,在此基础上构建数据仓库,根据需要构建数据立方体进行联机分析处理(Online Analytical Processing,OLAP),可以进行多个维度的下钻(drill-down)或上卷(roll-up)操作。对于从数据中提炼更深层次的知识的需求导致数据挖掘技术的产生,并促使人们发明了聚类、关联分析等一系列在实践中行之有效的方法。这一整套处理流程在处理相对较少的结构化数据时极为高效。但是随着大数据时代的到来,半结构化和非结构化数据量的迅猛增长给传统的分析技术带来了巨大的冲击和挑战,主要体现在如下几方面。

1)数据处理的实时性。随着时间的流逝,数据中所蕴含的知识价值往往也在衰减,因此很多领域对于数据的实时处理有需求。随着大数据时代的到来,更多应用场景的数据分析从离线转向了在线,开[1]始出现实时处理的需求,比如KDD2012最佳论文所探讨的实时广告竞价问题。大数据时代的数据实时处理面临着一些新的挑战,主要体现在数据处理模式的选择及改进上。在实时处理的模式选择中,主要有三种思路,即流处理模式、批处理模式以及二者的融合。相关研究成果在上一节已经有详细介绍。虽然已有的研究成果很多,但是仍未有一个通用的大数据实时处理框架。各种工具实现实时处理的方法不一,支持的应用类型都相对有限,这导致实际应用中往往需要根据自己的业务需求和应用场景对现有技术和工具进行改造。

2)动态变化环境中索引的设计。关系数据库中的索引能够加速查询速率,但是传统的数据管理中模式基本不会发生变化,因此在其上构建索引主要考虑的是索引创建、更新等的效率。大数据时代的数据模式随着数据量的不断变化可能会处于不断的变化之中,这就要求索引结构的设计要简单、高效,能够在数据模式发生变化时很快进行调整来适应。在数据模式变更的假设前提下设计新的索引方案将是大数据时代的主要挑战之一。

3)先验知识的缺乏。传统分析主要针对结构化数据展开,这些数据在以关系模型进行存储的同时就隐含了这些数据内部关系等先验知识。比如我们知道所要分析的对象会有哪些属性,通过属性我们又能大致了解其可能的取值范围等。这些知识使得我们在进行数据分析之前就已经对数据有了一定的理解。而在面对大数据分析时,一方面是半结构化和非结构化数据的存在,这些数据很难以类似结构化数据的方式构建出其内部的正式关系;另一方面很多数据以流的形式源源不断地到来,对这些需要实时处理的数据很难有足够的时间去建立先验知识。

[1] Perlich C,Dalessandro B,Hook R,et al.Bid Optimizing and Inventory Scoring in Targeted Online Advertising[C].Proceedings of the18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD).New York:ACM,2012:804-812.1.5.3 大数据隐私

隐私问题由来已久,计算机的出现使得越来越多的数据以数字化形式存储在计算机中,互联网的发展则使数据更加容易产生和传播,数据隐私问题越来越严重。

1)隐性的数据暴露。很多时候人们会有意识地将自己的行为隐藏起来,试图达到隐私保护的目的。但是互联网,尤其是社交网络的出现,使得人们在不同的地点产生越来越多的数据足迹。这种数据具有累积性和关联性,单个地点的信息可能不会暴露用户的隐私,但是如果有办法将某个人的很多行为从不同的独立地点聚集在一起,他的隐私就很可能会暴露,因为有关他的信息已经足够多了,这种隐性的数据暴露往往是个人无法预知和控制的。从技术层面来说,可以通过数据抽取和集成来实现用户隐私的获取。而在现实中通过所谓的“人肉搜索”的方式往往能更快速、准确地得到结果,这种人肉搜索的方式实质就是众包。大数据时代的隐私保护面临着技术和人力层面的双重考验。

2)数据公开与隐私保护的矛盾。如果仅仅为了保护隐私就将所有的数据加以隐藏,那么数据的价值根本无法体现。数据公开是非常有必要的,政府可以从公开的数据中来了解整个国民经济社会的运行,以便更好地指导社会运转。企业则可以从公开的数据中了解客户的行为,从而推出具有针对性的产品和服务,最大化其利益。研究者则可以利用公开的数据,从社会、经济、技术等不同的角度来进行研究。因此大数据时代的隐私性主要体现在不暴露用户敏感信息的前提下进行有效的数据挖掘,这有别于传统的信息安全领域更加关注文件的私密性等安全属性的情况。统计数据库数据研究中最早开展数据隐私性技术方面的研究,近年来此项技术逐渐成为相关领域的研究热[1]点,比如很多学者致力于隐私保护数据挖掘方面的研究。主要集中于研究新型的数据发布技术,尝试在尽可能少地损失数据信息的同时最大化地隐藏用户隐私。但是数据信息量和隐私之间是有矛盾的,因此尚未出现非常好的解决办法。Dwork于2006年提出了新的差分隐私[2](differential privacy)方法。差分隐私保护技术可能是解决大数据中隐私保护问题的一个方向,但是这项技术离实际应用还很远。

3)数据动态性。大数据时代数据的快速变化除了要求有新的数据处理技术应对之外,也给隐私保护带来了新的挑战。现有隐私保护技术主要基于静态数据集,而在现实中数据模式和数据内容时刻都在发生着变化。因此在这种更加复杂的环境下实现对动态数据的利用和隐私保护将更具挑战性。

[1] Agrawal R,Srikant R.Privacy Preserving Data Mining[J].ACM Sigmod Record2000,29(2):439-450.

[2] Zuba M.Cynthia Dwork on Differential Privacy[J].ACM Crossroads,2013,20(1):58-59.1.5.4 大数据能耗

在能源价格上涨、数据中心存储规模不断扩大的今天,高能耗已逐渐成为制约大数据快速发展的一个主要瓶颈。从小型集群到大规模数据中心都面临着降低能耗的问题,但是尚未引起足够多的重视,相关的研究成果也较少。在大数据管理系统中,能耗主要由两大部分组成:硬件能耗和软件能耗,二者之中又以硬件能耗为主。在理想状态下,整个大数据管理系统的能耗应该与系统利用率成正比。但是实际[1]情况并不符合预期,系统利用率较低时仍然有较高的能量消耗。针对这个问题,《纽约时报》和麦肯锡公司经过一年的联合调查,最终[2]在《纽约时报》上发表文章“Power,Pollution and the Internet”。调查显示Google数据中心年耗电量约为300万瓦,而Facebook则在60万瓦左右。最令人惊讶的是在这些巨大的能耗中,只有6%~12%的能量被用来响应用户的查询并进行计算。绝大部分的电能用以确保服务器处于闲置状态,以应对突如其来的网络流量高峰,这种类型的功耗最高可以占到数据中心所有能耗的80%。从已有的一些研究成果来看,可以考虑以下两个方面来改善大数据能耗问题。

1)采用新型低功耗硬件。从《纽约时报》的调查中可以知道绝大部分的能量都耗费在磁盘上。在空闲的状态下,传统的磁盘仍然具有很高的能耗,并且随着系统利用率的提高,能耗也在逐渐升高。新型非易失存储器件的出现给大数据管理系统带来了新的希望,如闪存、PCM等新型存储硬件具有低能耗的特性。虽然随着系统利用率的提高,闪存、PCM等的能耗也有所升高,但是其总体能耗仍远远低于传统磁盘。

2)引入可再生的新能源。数据中心所使用的电能绝大部分都是从不可再生的能源中产生的。如果能够在大数据存储和处理中引入诸如太阳能、风能之类的可再生能源,将在很大程度上缓解对不可再生[3]能源的消耗问题。这方面的工作很少,参考文献探讨了如何利用太阳能构建一个绿色环保的数据库。

[1] Schall D,Hudlet V.Wattdb:An Energy-proportional Cluster of Wimpy Nodes[C].Proceedings of the2011ACM SIGMOD International Conference on Management of data(SIGMOD).New York:ACM,2011:1229-1232.

[2] Glanz J.Power,Pollution and the Internet[J].The New York Times,2012,22.

[3] Chen C,He B,Tang X,et al.Green Databases Through Integration of Renewable Energy[C].Proceedings of sixth Biennial Conference on Innovative Data Systems Research(CIDR).2013,1-11.1.5.5 大数据处理与硬件的协同

硬件的快速升级换代有力地促进了大数据的发展,但是这也在一定程度上造成了大量不同架构硬件共存的局面。日益复杂的硬件环境给大数据管理带来的主要挑战有如下两点。

1)硬件异构性带来的大数据处理难题。整个数据中心(集群)内部不同机器之间的性能会存在明显的差别,因为不同时期购入的不同厂商的服务器在IOPS、CPU处理速度等性能方面会有很大的差异。这就导致了硬件环境的异构性,而这种异构性会给大数据的处理带来诸多问题。一个典型的例子就是在MapReduce任务过程中,其总的处理时间很大程度上取决于Map过程中处理时间最长的节点。如果集群中硬件的性能差异过大,则会导致大量的计算时间浪费在性能较好的服务器等待性能较差的服务器上。在这种情况下服务器的线性增长并不一定会带来计算能力的线性增长,因为“木桶效应”制约了整个集群的性能。一般的解决方案是考虑硬件异构的环境下将不同计算强度的任务智能地分配给计算能力不同的服务器,但是当这种异构环境的规模扩展到数以万计的集群时问题将变得极为复杂。

2)新硬件给大数据处理带来的变革。所有的软件系统都构建在传统的计算机体系结构(即CPU-内存-硬盘三级结构)之上。CPU的发展一直遵循着摩尔定律,且其架构已经从单核转入多核,因此需要深入研究如何让软件更好地利用CPU多核心之间的并发机制。由于机械特性的限制,基于磁性介质的机械硬盘(Hard Disk Drive,HDD)的读写速率在过去几十年中提升不大,而且未来也不太可能出现革命性提升。基于闪存的固态硬盘(Solid State Disk,SSD)的出现从硬件层为存储系统结构的革新提供了支持,为计算机存储技术的发展和存储能效的提高带来了新的契机。SSD具有很多优良特性,主要包括极高的读写性能、较好的抗震性、较低的功耗、较小的体积等,因此正得到越来越广泛的应用。但是直接将SSD应用到现有的软件上并不一定会带来软件性能的大幅提升,比如SSD的读写速率是HDD的60~150倍,基于SSD的数据库系统的查询时间却仅仅提升了不到10倍[1]。

二者之间的巨大差距主要是由SSD的一些特性造成的,这些特性包括SSD写前擦除特性导致的读写操作代价不对称、SSD存储芯片的擦除次数有限等。软件设计之时必须仔细考虑这些特性才能够充分利用SSD的优良特性。与大容量磁盘和磁盘阵列相比,固态硬盘的存储容量相对较低,单位容量的价格远高于磁盘,不同类型的固态硬盘产品性能差异较大。且将固态硬盘直接替换磁盘应用到现有的存储体系中难以充分发挥其性能。因此现阶段可以考虑通过构建HDD和SSD的混合存储系统来解决大数据处理问题。当前混合存储系统的实现主要有三种思路:HDD作为内存的扩展充当SSD写缓冲;HDD和SSD同时用作二级存储;SSD用作内存的扩展充当HDD读写缓冲。国外的Google、Facebook,国内的百度、淘宝等公司已经开始在实际运营环境中大规模使用混合存储系统来提升整体性能。在这三级结构之中,内存的发展处于一个相对缓慢的阶段,一直没有出现革命性变化。构建任何一个软件系统都会假设内存是一个容量有限的易失结构体。随着以PCM为代表的SCM的出现,未来的内存极有可能会兼具现在内存和磁盘的双重特性,即处理速度极快且非易失。虽然PCM尚未有可以大规模量产的产品推出,但是各大主流厂商都对其非常重视,三星电子在2012年国际固态电路会议(ISSCC2012)上发表了采用20nm工艺制程的容量为8GB的PCM元件。一旦PCM能够大规模投入使用,必将给现有的大数据处理带来一场根本性变革。譬如前面提到的流处理模式就可以不再将内存的大小限制作为算法设计过程中的一个主要考虑因素。

[1] Lee S W,Moon B.Design of Flash-based DBMS:An In-page Logging Approach[C].Proceedings of the2007ACM SIGMOD international conference on Management of data(SIGMOD).New York:ACM,2007:55-66.1.6 小结

随着云计算、物联网等技术的发展,数据呈现爆炸式增长,人们正被数据洪流所包围,大数据时代已经到来。正确利用大数据给人们的生活带来了极大的便利,但与此同时也给传统的数据管理方式带来了极大的挑战。

本章对最近几年国内外大数据相关的研究成果进行了全面的回顾和总结,介绍了大数据的基本概念,详细分析了大数据的演变过程、应用要素、处理模式和关键技术。余下章节将根据大数据时代面临的挑战,重点阐述大数据融合、大数据存储、大数据分析、大数据隐私和大数据管理系统等相关核心技术。第2章大数据融合2.1 引言

大数据时代人们面临的最根本挑战是从数据中凝练可领悟的知识[1][3][2],其关键技术是数据的集成或融合。进入21世纪以来,这些技[4]术已经取得了重大进展,如深网(Deep Web)数据集成技术、知[5][6]识库(Knowledge Base,KB)技术、关联数据(Linked Data)集[7][8]成技术、大数据集成技术等。这些技术在结构化、半结构化、非结构化等各种类型的数据处理上已形成优势,并广泛应用于各个领[9]域:①商业领域,如Google搜索引擎借助Google知识图谱、微软的[10]必应搜索引擎借助知识库Satori提高检索质量和检索效率;②科学[11][12]领域,如IBM的Watson问答系统借助DBpedia、YAGO、[13]Freebase提供语义感知的问答服务;③专业领域,如生命科学利[14][15]用Bio2RDF、Neurocommons等知识图谱作问答和决策。

然而,在使用这些已有技术获取知识时出现了如下问题:①获取的知识规模宏大,但缺乏可理解性和可实用性。以知识库为例,如[16]Google知识图谱目前包含多于5亿实体和350亿条实体间的关系信息,至少囊括几千种谓词,这些谓词还在不断增加和变化。要想让用户掌握这些谓词和模式不太现实,所以,当他们面对这些千丝万缕的关系时,很难从本质上理解和消化这些知识,从而降低了大数据应有[17]的价值。②得到的知识品质有差别,存在不一致性甚至冲突,尤其是时态型数据,知识的品质更难以有效甄别。并且融合的结果缺乏可解释性,从而导致其可靠性受到质疑。③缺乏与领域知识的结合,并且获取的知识只处于表层理解,导致融合结果与实际应用需求存在鸿沟,例如,一些已被发现的表层现象、规律等没有进一步形成普适机理,使得这种规律性的发现不能有效反馈给融合过程。

经研究发现,引发这些问题的关键是大数据在不断动态演化,并且需要从多个维度、多种粒度进行解释。此外,数据的组织方式不同得到的知识品质也会有差异,犹如碳原子既可以构成钻石,也可以构成石墨。所以我们认为当下面临的一个突出问题是如何有效地融合知识使大数据的价值最大化,此即大数据融合问题,其关键是突破上述局限——需要把目标聚焦于大数据新的特征和融合方式。

为此,2.2节给出了大数据融合的概念,并分析了融合需求和融合对象的独特性。2.3节总结归纳了现有融合范式,并分析对比了这些融合范式的共同点和各自的优缺点,以及面对大数据,这些融合范式存在的共同缺陷,提出适合大数据的新型融合方法论——动态演化的数据融合与多维度、多粒度的知识融合双环驱动的大数据融合。2.4至2.6节分别探讨大数据融合中数据融合、知识融合和驱动枢纽的内涵、实现方法和技术难点。

[1] Suchanek F,Weikum G.Knowledge Bases in the Age of Big Data Analytics[C].Proceedings of the VLDB Endowment(VLDB),2014,7(13):1713-1714.

[2] Suchanek F,Weikum G.Knowledge Harvesting in the Big-data Era[C].Proceedings of the2013ACM SIGMOD International Conference on Management of Data(SIGMOD).New York:ACM,2013:933-938.

[3] Lenzerini M.Data Integration:A Theoretical Perspective[C].Proceedings of the 21st ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems(SIGMOD).New York:ACM,2002:233-246.

[4] 孟小峰,刘伟,姜芳艽,等.Web数据管理:概念与技术.北京:清华大学出版社,2014.

[5] Dong X,Gabrilovich E,Heitz G,et al.Knowledge Vault:A Web-scale Approach to Probabilistic Knowledge Fusion[C].Proceedings of the20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD).New York:ACM,2014:601-610.

[6] Auer S,Bizer C,Kobilarov G,et al.Dbpedia:A Nucleus for A Web of Open Data[J].Springer Berlin Heidelberg,2007.

[7] Jan M.Linked Data Integration[D].Prague:Charles University in Prague,2013.

[8] Dong X L,Srivastava D.Big Data Integration[C].Proceedings of Data Engineering(ICDE),2013IEEE29th International Conference on.NJ:IEEE,2013:1245-1248.

[9] Dong X,Gabrilovich E,Heitz G,et al.Knowledge Vault:A Web-scale Approach to Probabilistic Knowledge Fusion[C].Proceedings of the20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD).New York:ACM,2014:601-610.

[10] Qian R.Understand Your World with Bing,Bing Search Blog[EB/OL].http://blogs.bing.com/.2013Available.

[11] Auer S,Bizer C,Kobilarov G,et al.Dbpedia:A Nucleus for A Web of Open Data[J].Springer Berlin Heidelberg,2007.

[12] Suchanek F M,Kasneci G,Weikum G.Yago:A Core of Semantic Knowledge[C].Proceedings ofthe16th International Conference on World Wide Web(WWW).New York:ACM,2007:697-706.

[13] Bollacker K,Evans C,Paritosh P,et al.Freebase:A Collaboratively Created Graph Database for Structuring Human Knowledge[C].Proceedings of the2008ACM SIGMOD International Conference on Management of Data(SIGMOD).New York:ACM,2008:1247-1250.

[14] Belleau F,Nolin M A,Tourigny N,et al.Bio2RDF:Towards A Mashup to Build Bioinformatics Knowledge Systems[J].Journal of biomedical informatics,2008,41(5):706-716.

[15] Ruttenberg A,Rees J A,Samwald M,et al.Life Sciences on the Semantic Web:the Neurocommons and Beyond[J].Briefings in Bioinformatics,2009,10(2):193-204.

[16] Dong X,Gabrilovich E,Heitz G,et al.Knowledge Vault:A Web-scale Approach to Probabilistic Knowledge Fusion[C].Proceedings of the20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(SIGKDD).New York:ACM,2014:601-610.

[17] Dong X L,Srivastava D.Big Data Integration[C].Proceedings of Data Engineering(ICDE),2013IEEE29th International Conference on.NJ:IEEE,2013:1245-1248.

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载