实战大数据(txt+pdf+epub+mobi电子书下载)

作者:鲍亮,李倩

出版社:清华大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

实战大数据

实战大数据试读:

版权信息COPYRIGHT INFORMATION书名:实战大数据作者:鲍亮,李倩排版:吱吱出版社:清华大学出版社出版时间:2014-03-01ISBN:9787302348665本书由清华大学出版社有限公司授权北京当当科文电子商务有限公司制作与发行。— · 版权所有 侵权必究 · —前 言

大数据时代已经到来,大数据处理已经成为当今信息处理的热点研究内容。不同于大规模数据,大数据具有自身鲜明的4V特征:Volume(规模性)、Variety(多样性)、Velocity(高速性)和Veracity(真实性)。大数据不仅规模大,更需要采取新的数据思维来应对,其必然导致理论和技术上的革新。因此,大数据分析也被认为是继实验、理论和计算之后的科学研究第四范式。大数据的出现必将颠覆传统的数据管理方式,在数据来源、数据处理方式和数据思维方面都会对其带来革命性的变化。

2013年初,美国计算机协会数据库专家委员会联合研究界、产业界和政府部门的相关研究人员,发布了大数据研究白皮书,提出了大数据分析的5个重要阶段:数据获取和记录,数据抽取、清洗和注记,数据集成、聚集和表示,数据分析和建模,数据解释。在这5个阶段中需要考虑数据的异构性、规模、时效性、复杂性和隐私问题。本书以此为提纲进行内容组织,首先介绍了5个阶段中相关的科学与技术问题,然后以实际案例的形式详细介绍了数据采集、数据存储与检索、数据处理、数据访问与转换4个大数据领域的重要问题,最后以股票市场预测系统、海量视频检索系统和云文件系统3个大数据实际应用系统为例详细介绍如何进行问题分析、数据建模以及系统的设计与实现。本书强调理论联系实际,重点在于介绍如何利用现有技术解决实际的大数据问题。

目前市场上以大数据为主题的书籍较多,但经过作者调研,未见以“利用现有技术解决大数据问题”为主题的大数据实战类书籍。本书编写团队核心成员自2010年起陆续承担了一些与大数据采集、存储、处理、分析、挖掘和检索方面的研究与应用开发工作,具有丰富的项目实践经验。这些实际项目经验形成了本书最为核心的第6~12章的内容。通过项目实战,我们积累了一些解决大数据问题的宝贵经验,对大数据的核心技术有了较为深刻的理解,认为有必要将自己的经验和认识整理出来,以满足广大读者利用现有技术解决大数据实际问题的迫切需求与心情,这也是书名的由来。

本书适合不同层次的读者阅读,建议读者根据自己的兴趣和目的有选择性地阅读:希望了解大数据相关的基础理论与技术的读者,可以重点阅读第1~5章;对于大数据领域的初学者,可以重点阅读第1~9章;对于已经掌握大数据基础理论,具有一定的技术基础,想解决实际大数据问题的读者,可以重点阅读第10~12章。

除封面署名的作者之外,参与编写的还有李江、张翔、杨阳、王贺、刘凯、王学良、张静、周文琳、刘晓静、张艳华、王炎楠、黄鹏、高小青。还需要感谢阚传奇、蒋帆的大力帮助,感谢我的导师陈平教授在大数据科学研究方面对我的启发与悉心指导。

由于大数据涉及的学科面很广,研究问题纷繁复杂,相关资料目前还比较少,加之作者水平有限,时间紧迫,书中难免存在错误与不当,恳请读者批评指正。建议和意见请发至作者邮箱baoliang@mail.xidian.edu.cn。编者2013年12月第一篇大数据基础篇第1章大数据介绍

IT行业总不乏新鲜的主题,而大数据正当其兴,被业界热情传诵。“数据是重要资产”这一概念已成为大家的共识,众多公司争相分析、挖掘大数据背后的重要资源。为了帮助读者理解大数据的来龙去脉,本章将从大数据的历史与发展、大数据的定义、大数据的研究内容、大数据问题在国内外政府、公司和大学的研究现状等方面进行论述,为这一新兴概念勾勒出一个雏形。1.1 大数据相关概念1.1.1 大数据的历史

大数据(Big Data)目前已经成为IT领域最为流行的词汇,其实它并不是一个全新的概念。早在1980年,著名未来学家阿尔文·托夫勒便在《第三次浪潮》一书中,明确提出“数据就是财富”这一观点,并将大数据热情地赞颂为“第三次浪潮的华彩乐章”。

大数据中的“大”是一个相对概念,数据库、数据仓库、数据集市等信息管理领域的技术,很大程度上也是为了解决大规模数据的问题。被誉为数据仓库之父的Bill Inmon早在20世纪90年代就经常将“大数据”这一概念挂在嘴边了。

目前得到广泛认可的大数据概念首先由知名咨询公司Gartner的一位资深分析师Douglas Laney提出。他于2001年在Application Delivery Strategies上撰写了一篇名为“3D Data Management: Controlling Data Volume, Velocity, and Variety”的文章,指出大数据管理面临三个V的挑战:数据量(Volume)、数据多样性(Variety)、高速(Velocity)。“3V”后来成为大数据公认的三个基本特征。随后,Gartner发布了大数据的模型,强调大数据需要管理采用传统数据管理技术无法管理的数据,比如微博数据、海量交易数据、多媒体数据,等等。

2008年9月,自然杂志推出《大数据》专刊,通过“The next Google”、“Data wrangling”、“Welcome to the petacentre”、“Distilling meaning from data”等多篇文章,全方位介绍了大数据问题的产生及对各个研究领域的影响,首次将“大数据”这一概念引入科学家和研究人员的视野。

2009年8月,Adam Jacobs在ACM Queue上发表文章“The Pathologies of Big Data”,文章讨论了大数据问题的起源、发展与现状,指出“大数据”这一概念是相对的,并提出应该考虑为什么会出现“大数据”这一现象、“大数据”产生的很大一部分原因是数据录入更加容易等观点。

2011年2月11日的《科学》杂志专门推出《数据处理》(Dealing with Data)专刊,对大数据现象在科学领域的现状进行了全面分析。该专刊首先联合《科学》杂志的兄弟期刊Science Signaling、Science Translational Medicine和Science Careers,展开了对各科学领域研究数据规模急剧增大情况下各种问题的调研,问题包括“研究数据的规模”、“研究数据如何存储”,等等。随后,该专刊发表多篇文章,对天文学、气象学、生态学、神经科学、信号处理、社会科学、生物学等多个学科的大数据问题进行了解释和阐述,内容涵盖数据采集、分析、处理、挖掘和可视化等多个方面。

2011年5月,麦肯锡全球研究院发表Big data: The next frontier for innovationb, competition, and productivity白皮书,指出企业正在面临海量的交易数据、顾客信息、供货商信息和运营数据等,需要对这些数据进行管理与挖掘。在物联网环境下,传感器、智能手机、工业设备等都在产生海量数据。互联网中的多媒体数据量也在以指数级上升,如何处理这些数据,为用户提供有用的信息,成为需要考虑的重要问题。

2011年5月26日,经济学人发表“Building with big data”指出在数据极度膨胀的时代,要掌握数据的分析与处理能力,成为数据的主人,而不要成为数据的奴隶。

2012年2月11日,纽约时报发表“The Age of Big Data”,向大众宣传大数据时代的到来。

2012年3月22日,奥巴马宣布以2亿美元投资大数据领域,在次日的电话会议上,美国政府将数据定义为“未来的新石油”,美国政府认识到了一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来对数据的占有和控制甚至将成为继陆权、海权、空权之外的另一种国家核心资产。

2012年7月10日,联合国在纽约总部发布了一份大数据政务白皮书,总结了各国政府如何利用大数据更好地服务和保护人民。1.1.2 大数据的定义

1.维基百科的定义

大数据是指其大小或复杂性无法通过现有常用的软件工具,以合理的成本并在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析和可视化。

2.Garnter的定义

Garnter咨询公司关注大数据的三个量化指标:数据量、数据种类和处理速度。一般企业所面对的数据管理管理的是数据库、结构化数据,以及所能预先安装好的管理软件所带来的数据。大数据管理的往往是我们无法管理的数据,比如来自企业外部,微博、社交网站和多媒体等各种载体的数据。

数据多样性将是大数据的一个重点。它意味着未来数据的产生将更加方便、快捷,无所不在。数据种类随着物联网等技术的不断兴起而飞速增加,特别是以多媒体数据为代表的非结构化数据迅速增加,为大数据的分析与处理带来了很大难度。处理速度与企业CIO关注的系统性能不是等同的关系。这里的速度指的是从数据产生到最终针对数据产生决策的速度,包括存储的过程、计算的过程、系统模型和以什么方式提交出最后的结果。因此,速度不仅是计算能力和存储性能的问题,还要考虑数据管理、数据保护等方面的响应与处理速度。在大数据问题中,速度往往是性命攸关的。比如对于灾难的预测,当灾难发生时,要很快对灾难发生的程度、影响的区域范围、对长远的影响等量化出来。这是大数据很典型的应用,如果短时间内没有计算出来,那么数据就没用了。

另一方面,Garnter认为在越来越大的数据集上工作能够得到更大的好处,大数据的数据增长挑战(或机遇)是三维立体的:不断增长的数据量、不断增加的速率(数据I/O的速度)和不断增加的种类(数据类型、数据源)。而传统的存储技术难以应对大数据处理的三大挑战。

● 挑战一:不断增长的数据量。在大数据背景下,数据通常是不能删除的,这是企业的宝贵的财富,因此数据将不断积累增长。与此同时,增长有加速的趋势,经常会超出人们预计或规划,从而对信息系统带来了极大的挑战。信息中心需要管理TB级甚至PB级数据。要为这些数据提供存储、保护和使用的方案,IT系统需要不断地做相应升级或重构,需要投入大量人力物力。

● 挑战二:多格式数据。海量数据包括了越来越多不同格式的数据,这些不同格式的数据也需要不同的处理方法。从简单的电子邮件、数据日志和信用卡记录,再到仪器收集到的科学研究数据、医疗数据、财务数据以及丰富的媒体数据(包括照片、音乐、视频等),都具有这个特点。比如视频文件格式就非常多,有各软件厂商的厂商标准的格式,工业标准组织的工业标准格式。各种格式在当前高清化的趋势下,数据粒度更小,处理更精细,更复杂的格式还不断出现,造成单一文件的体积成倍增加,从而要求处理速度也成倍增加。

● 挑战三:性能。速度是指数据从客户端到处理器和存储的移动速度,涉及终端数据处理能力、数据流访问和交付、服务器计算处理能力以及后端存储的吞吐能力。速度意味着要求数据必须以多快的频率被处理。大数据处理需要不同于交易类应用的速度,通常其对带宽的要求比IO操作的速度更重要。

3.IBM对大数据的定义

IBM专门开辟了大数据专栏,从大数据的定义、大数据处理平台等多个方面对大数据问题及解决方案进行了阐述。

Big data spans three dimensions: Volume, Velocity and Variety.

Volume: Enterprises are awash with ever-growing data of all types, easily amassing terabytes-even petabytes-of information.

Velocity: Sometimes 2 minutes is too late. For time-sensitive processes such as catching fraud, big data must be used as it streams into your enterprise in order to maximize its value.

Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together.

IBM认为大数据横跨三个层面:规模、速度和种类。

● 规模:企业充斥着日益增长的所有数据类型,容易积累TB级甚至PB级的信息数据。

● 速度:对于有些应用来说,两分钟的处理时间都为时已晚。对于欺诈追踪等时间敏感的处理流程而言,大数据必须快速流入企业信息系统,并得到快速处理,以最大化其价值。

● 种类:大数据可以是任何类型的数据,包括文本、传感器数据、音频、视频、单击流、日志文件等结构化和非结构化数据。当能够一起分析这些类型的数据时,就可以得到新的见解。

从上述定义可以看出,IBM把大数据概括为三个V,即大规模(Volume)、高速度(Velocity)和多样化(Variety),这些特点也反映了大数据所潜藏的价值(Value,第四个“V”)。因此大数据的特征可以整体概括为:“海量+多样化+快速处理+价值”。

4.微软对大数据的定义

微软在SQL Server产品网站上开辟专栏,给出了大数据的相关概念,强调需要将大数据转化为企业的洞察力。

Big data is the increasingly large and complex data that is now challenging traditional database systems

Data volume is exploding: In the last few decades computing and storage capacity have grown exponentially, driving down cost to near zero. The rise of new technologies like Hadoop is significantly changing the economics of large scale data processing by enabling customers to analyze petabytes of data with industry standard hardware. According to IDC the digital universe will grow to 35 zettabytes (i.e. 35 trillion terabytes) globally by 2020.

The variety of data is increasing. It’s all getting stored and nearly 85 percent of new data is unstructured data. The real questions now are: How do you put all this captured and stored data to good use? How do you analyze it to make better decisions?

The velocity of data is speeding up the pace of business. Data capture has become nearly instantaneous thanks to new customer interaction points and technologies. Real-time analytics is more important than ever.

微软对大数据的定义也采用了“3V”模型,并进一步指出:(1)由于硬件成本的持续降低和新型数据源(RFID、互联网和社交媒体等)的加入,数据量会持续增加;(2)文本、博客、视频、图片、购买历史等多样化的数据大大增加了数据的种类,数据具有鲜明的多样性特征;(3)随着网站、ATM取款机、POS收款机等设备成为大数据的数据源,数据产生速度飞速增加。

5.SAS对大数据的定义

作为专业的商业分析软件与服务供应商,SAS在大数据传统“3V”模型定义的基础上加入了“可变性”和“复杂性”两个重要特征。

● Variability. In addition to the increasing velocities and varieties of data, data flows can be highly inconsistent with periodic peaks. Is something big trending in the social media? Perhaps there is a high-profile IPO looming. Maybe swimming with pigs in the Bahamas is suddenly the must-do vacation activity. Daily, seasonal and event-triggered peak data loads can be challenging to manage-especially with social media involved.

● Complexity. When you deal with huge volumes of data, it comes from multiple sources. It is quite an undertaking to link, match, cleanse and transform data across systems. However, it is necessary to connect and correlate relationships, hierarchies and multiple data linkages or your data can quickly spiral out of control. Data governance can help you determine how disparate data relates to common definitions and how to systematically integrate structured and unstructured data assets to produce high-quality information that is useful, appropriate and up-to-date

可变性主要反映了数据流可能具有高度的不一致性,并存在周期性的峰值。例如社交网络中的某个热点趋势可能是一次高收益的IPO。对日常的、季节性和时间驱动的峰值数据流的管理具有挑战性,特别是当社交媒体介入的情况下。

复杂性主要体现在数据来源的多样性上。连接、匹配、清洗和转化来自多个系统的数据是一件非常复杂的事情。除此以外,还需要考虑不同数据源之间的连接关系、关联关系和层次关系等。需要实施数据治理策略,帮助企业系统地集成结构化和非结构化数据资产,产生高质量、恰当的、最新的有用信息。1.2 大数据研究内容

2012年冬季,来自IBM、微软、谷歌、HP、MIT、斯坦福、加州大学伯克利大学、UIUC等产业界和学术界的数据库领域专家通过在线的方式共同发布了一个关于大数据的白皮书:“Challenges and Opportunities with Big Data”。该白皮书首先指出大数据面临着5个主要问题,分别是异构性(Heterogeneity)、规模(Scale)、时间性(Timeliness)、复杂性(Complexity)和隐私性(Privacy)。在这一背景下,大数据的研究工作将面临5个方面的挑战:

● 数据获取问题。数据海啸需要我们对“哪些数据需要保存,哪些数据需要丢弃,如何可靠地存储我们需要的数据(同时存储该数据正确的元数据)”等问题进行决策,目前这些决策还只能采用特定方法(ad hoc)给出。

● 数据结构问题。tweet和blog是没有结构的数据;图像和视频在存储和显示方面具有结构,但无法包含语义信息并进行检索。如何将这种没有语义的内容转换为结构化的格式,并进行后续处理,是需要应对的另外一项重要挑战。

● 数据集成问题。只有将数据之间进行关联,才能充分发挥数据的作用,因此数据集成也是一项挑战。

● 数据分析、组织、抽取和建模是大数据本质的功能性挑战。数据分析是许多大数据应用的瓶颈,目前底层算法缺乏伸缩性、对待分析数据的复杂性估计不够。

● 如何呈现数据分析的结果,并与非技术领域的专家进行交互。

白皮书对大数据的“3V”模型进行了解释,指出现有的工作对数据的隐私性和易用性方面考虑不周。另外,大数据的分析包含多个步骤,目前的研究大多关注数据建模和分析,而对其他阶段关注不够。即使在数据分析阶段,目前的研究仍然没有很好地理解数据建模与分析在多租户集群环境中的复杂性,在该环境中,多个用户程序会并发执行。

为了应对上述挑战,白皮书建议采用现有成熟技术解决大数据带来的挑战,并给出了大数据分析的分析步骤,如图1.1所示。图1.1 大数据处理参考框架

从图1.1中可以看出,大数据处理过程可以大致分为数据获取/记录、信息抽取/清洗/注记、数据集成/聚集/表现、数据分析/建模和数据解释5个主要阶段,贯穿所有节点,系统需要考虑数据的异构性、规模、时间性、隐私性和人机协作等方面的因素。在每一个阶段,都面临着各自的研究问题与挑战。

1.数据获取和记录(Data Acquisition and Recording)

面临的挑战包括:

● 如何对原始数据进行智能化处理,过滤不需要的数据;

● 在线处理技术,直接对数据进行处理,而不需要存储后再进行过滤;

● 自动生成正确的元数据,描述记录了什么数据以及数据的记录和度量方式。

可能的研究方向:

● 研究数据压缩(reduction)中的科学问题,能够智能地处理原始数据,在不丢失信息的情况下,将海量数据压缩到人可以理解的程度;

● 研究“在线”数据分析技术,能够处理实时流数据;

● 研究元数据自动获取技术和相关系统;研究数据来源(data provenance)技术,追踪数据的产生和处理过程。

2.信息抽取和清洗(Information Extraction and Cleaning)

一般来说,收集到的信息通常不能直接用来进行数据分析,而需要一个信息抽取过程,将需要的信息从底层数据源中抽取出来,形成适于分析的结构,完成这样的工作需要持续的技术挑战。抽取的对象可能包含图像、视频等具有复杂结构的数据,而且该过程通常是与应用高度相关的。除此以外,由于监控摄像头、装载有GPS的智能手机、相机和其他便携设备无处不在,丰富的、高保真度的位置和轨迹数据也应该被收集与处理。

一般认为,大数据通常会反映事实情况,实际上大数据中广泛存在着虚假数据。关于数据清洗的现有工作通常假设数据是有效的、组织良好的,或对其错误模型具有良好的先验知识,这些假设在大数据领域将不再正确。

3.数据集成、聚集和表现(Data Integration, Aggregation, and Representation)

由于大量异构数据的存在,大数据处理不能只对数据进行记录,然后就将其放入存储中。如果仅仅是将一堆数据放入存储中,那么其他人就可能无法查找改数据,更不用说使用数据了。即使各个数据源都存在元数据,将异构数据整合在一起仍然是一项巨大的挑战。

对大规模数据进行有效分析需要以自动化的方式对数据进行定位、识别、理解和引用。为了实现该目标,需要研究数据结构和语义的统一描述方式与智能理解技术,实现机器自动处理,从这一角度看,对数据结构与数据库的设计也显得尤为重要。

4.查询处理、数据建模和分析(Query Processing, Data Modeling, and Analysis)

查询和挖掘大数据的方法,从根本上不同于传统的、基于小样本的统计分析方法。大数据中的噪声数据很多,具有动态性、异构性、相互关联性、不可信性等多种特征。尽管如此,即使是充满噪声的大数据也可能比小样本数据更有价值,因为通过频繁模式和相关性分析得到的一般统计数据通常强于具有波动性的个体数据,往往透露更可靠的隐藏模式和知识。此外,互联的大数据可形成大型异构的信息网络,可以披露固有的社区,发现隐藏的关系和模式。此外,信息网络可以通过信息冗余以弥补缺失的数据、交叉验证冲突的情况、验证可信赖的关系。

数据挖掘需要完整的、经过清洗的、可信的、可被高效访问的数据,以及声明性的查询(例如SQL)和挖掘接口,还需要可扩展的挖掘算法及大数据计算环境。与此同时,数据挖掘本身也可以提高数据的质量和可信度,了解数据的语义,并提供智能查询功能。

大数据也使下一代的交互式数据分析实现实时解答。未来,对大数据的查询将自动生成网站上创作的内容、形成专家建议,等等。在TB级别上的可伸缩复杂交互查询技术是目前数据处理的一个重要的开放性研究问题。

当前大数据分析的一个问题是缺乏数据库系统之间的协作,这些数据库存储着数据并提供SQL查询,而且具有对多种非SQL处理过程(例如数据挖掘、统计等)支持的工具包。今天的数据分析师一直受到“从数据库导出数据,进行数据挖掘与统计(非SQL处理过程),然后再写回数据库”这一烦琐过程的困扰。现有的数据处理方式是前述的交互式复杂处理过程的一个障碍,需要研究并实现将声明性查询语言与数据挖掘、数据统计包有机整合在一起的数据分析系统。

5.解释(Interpretation)

仅仅有能力分析大数据本身,而无法让用户理解分析结果,这样的效果价值不大。如果用户无法理解分析,最终,一个决策者需要对数据分析结果进行解释。对数据的解释不能凭空出现,通常包括检查所有提出的假设并对分析过程进行追踪。此外,分析过程中可能引入许多可能的误差来源:计算机系统可能有缺陷、模型总有其适用范围和假设、分析结果可能基于错误的数据,等等。在这种情况下,大数据分析系统应该支持用户了解、验证、分析计算机所产生的结果。大数据由于其复杂性,这一过程特别具有挑战性,是一项重要的研究内容。

在大数据分析的情景下,仅仅向用户提供结果是不够的。相反,系统应该支持用户不断提供附加资料,解释这种结果是如何产生的。这种附加资料(结果)称之为数据的出处(data provenance)。通过研究如何最好地捕获、存储和查询数据出处,同时配合相关技术捕获足够的元数据,就可以创建一个基础设施,为用户提供解释分析结果,重复分析不同假设、参数和数据集的能力。

具有丰富可视化能力的系统是为用户展示查询结果,进而帮助用户理解特定领域问题的重要手段。早期的商业智能系统主要基于表格形式展示数据,大数据时代下的数据分析师需要采用强大的可视化技术对结果进行包装和展示,辅助用户理解系统,并支持用户进行协作。

此外,通过简单的单击操作,用户应该能够向下钻取到每一块数据,看到和了解数据的出处,这是理解数据的一个关键功能。也就是说,用户不仅需要看到结果,而且需要了解为什么会产生这样的结果。然而,数据的原始出处(特别是考虑到整个分析过程具有管线结构)对于用户来说技术性太强,无法抓住数据背后的思想。基于上述问题,需要研究新的交互方式,支持用户采用“玩”的方式对数据分析过程进行小的调整(例如对某些参数进行调整,等等),并立即对增量化的结果进行查看。通过这种方法,用户能够对分析结果有一个直观的理解,从而更好地理解大数据背后的价值。1.3 大数据研究现状1.3.1 学术界现状

1.国外学术界大数据研究现状(1)MIT

2012年5月31日,MIT计算机科学和人工智能实验室(CSAIL)与英特尔联合成立了“bigdata@CSAIL”大数据研究项目。该项目主要关注大数据在计算平台、可伸缩的算法、机器学习和理解、隐私和安全4个方面的科学问题与解决方案。该项目汇聚了CSAIL中以Sam Madden为代表的29位研究者,分别从系统风险分析、智能城市、数据存储、机器学习算法、信用记录分析、交互式数据可视化、计算机系统结构仿真、下一代搜索引擎等多个子项目入手,从多个方面对大数据问题进行了深入的研究。(2)加州大学伯克利分校

美国政府于2012年3月为加州大学伯克利分校注资1000万美元,开展Big Data Research and Development Initiative(大数据研究与开发)项目的研究。该项目旨在采用机器学习技术和云计算技术解决大数据问题,挖掘大数据中的重要信息。

加州大学伯克利分校Lawrence国家实验室的研究人员领导着“Scalable Data Management, Analysis, and Visualization”研究中心,该中心联合了7所大学和5所其他国家实验室,主要从事大数据管理、分析和可视化方面的研究工作。

2012年11月,加州大学伯克利分校开设了一门关于大数据的公开课Analyzing Big Data With Twitter。该课程由大学教授和Twitter技术主管穿插讲解,内容以Twitter上面临的实际大数据挑战为蓝本,着重从软件工程的角度介绍大数据的分析技术,探讨解决大数据问题的方法。

2013年8月,加州大学伯克利分校西蒙计算理论研究中心组织了一系列的“大数据研讨会(Big Data Boot Camp)”活动,探索大数据分析与处理过程中的理论计算问题。(3)斯坦福大学

斯坦福大学医学系专门成立了生物医学专业大数据组,定期组织生物学、医学、计算机等方面的专家就大数据问题进行研讨,旨在跨学科地研究和探讨大数据问题。

在教育培训方面,斯坦福大学提供了大规模数据挖掘(Mining Massive Data Sets)认证课程,学校内的学生可以选修相关课程,获得认证。(4)华盛顿大学

华盛顿大学计算机科学与工程系利用自身在数据管理、机器学习和开放信息抽取方面的传统优势,开展了研究和学位教育方面的工作。

在研究方面,华盛顿大学计算机科学与工程系展开了大数据管理、数据可视化、大数据系统、Web上的大数据、大数据和发现等多项科研项目。

在大数据管理领域,开展了包括AstroDB、Myria、Nuage、CQMS、Data Eco$y$tem和SQLShare6个有代表性的研究项目,其中AstroDB是计算机科学与工程系2008年以来一直与华盛顿大学天文学系共同合作的项目,旨在构建能够存储、管理、分析和处理天文学领域大数据的系统。Myria项目主要关注构建一个快速、灵活的大数据管理系统,将系统以云服务的形式对外暴露。Nuage项目关注大数据与云计算相关的技术问题,特别关注科学应用问题。CQMS关注辅助大数据系统使用的相关工具。Eco$y$tem项目关注大数据市场以及数据管理和定价等方面的问题。SQLShare是一个基于云计算技术的数据库即服务平台,关注关系数据库自动化使用方面的相关问题,包括安装、配置、数据库模式设计、性能调优和应用构建等问题。

在大数据可视化方面,主要通过设计交互式可视化分析工具,增强数据的分析和交流能力,该项目涉及可视化、交互技术和评估技术的研究与系统实现等方面的问题。

在大数据架构和编程方面,主要研究在计算机系统结构、编程和系统层面上对大数据的支持,主要包括基于PCM(Phase-Change Memory)的存储系统研究、大规模非规则并行计算(如图分析等)、硬件多线程系统,等等。

在大数据系统方面,主要研究超大规模内存机器、大规模并行系统中的可预测尾延迟(predictable tail-latency)技术等。

在Web大数据方面,主要研究Web范围内的信息抽取系统,该系统能够读取Web上的任意文本数据,抽取有意义的信息,并将其存储到一个统一的知识库中,便于后续的查询工作。

在人才培养和教育方面,计算机科学与工程系于2013年9月开始招收数据科学的博士学位(特别关注大数据问题)。华盛顿大学将利用整个大学的资源,打造一个跨学科的大数据方面的博士学位。除此以外,华盛顿大学还开设一个关于数据科学方面的认证项目,提供相关的教育与培训服务。

2.国内学术界大数据研究现状(1)中国科学院

英特尔公司与中国科学院自动化研究所联合成立“中国英特尔物联技术研究院”,计划未来5年投资2亿元人民币,着力攻克大数据处理技术、传输技术和智能感知等物联网核心技术。该研究院还将与国际国内一流科研院所、院校和企业合作,建立一个开放式的研究中心。

中国科学院软件研究所2012年5月31日承办了“走进大数据时代研讨会”。国内众多知名大学教授,及行业代表围绕大数据的相关议题展开共同探讨。分析了当前大数据的行业现状,大数据的最新动态及发展趋势。“大数据”概念正在引领中国互联网行业新一轮的技术浪潮。(2)清华大学

清华大学计算机科学与技术系、地球系统科学研究中心等机构一直从事大数据方向的研究,取得了一些成果,包括清华云存储系统、大数据存储系统、大数据处理平台、社交网络云计算和海量数据处理系统,等等。

2013年7月,人人游戏将向清华大学捐赠1000万元,与后者共同建设一个“行为与大数据实验室”。该实验室将主要用于研究网络虚拟社区心理和体验经济心理,为人人游戏的产品开发提供理论和技术支撑。(3)北京航空航天大学

在科学研究方面,北京航空航天大学计算学院、爱丁堡大学信息学院、香港科技大学计算机系、宾夕法尼亚大学和百度公司于2012年9月联合创建“大数据科学与工程”国际研究中心,旨在以当前互联网和大数据时代新型信息技术为牵引,创造新的学术领域和应用增长点。

在人才培养方面,北京航空航天大学计算机学院、北京航空航天大学软件学院、工信部CSIP移动云计算教育培训中心于2013年联合创办了国内第一个“大数据科学与应用”软件工程硕士专业。该专业以实际需求为牵引,结合企业内训和项目实践,期望学生掌握大数据在数据管理、系统开发、数据分析与数据挖掘等方面的核心技能。(4)中国人民大学

中国人民大学“云计算与大数据实验室”是由周晓方教授、陆嘉恒副教授领导的,主要关注云计算、非结构化数据、海量数据、数据库等方向研究的团队,隶属于数据工程与知识工程教育部重点实验室(DEKE)和信息学院计算机系。

该实验室主要包括海量Web数据管理、空间数据库管理技术、分布式与云计算以及XML数据查询和管理4个主要研究方向。研究内容包括海量数据管理的理论知识(一致性理论、分区策略、容错策略、存储和查询模型等)、流行的数据管理方法和已推出的众多数据管理系统、空间数据的表示和建模、存储与索引、查询处理、空间数据挖掘、XML查询优化、XML关键字查询、XML查询改写以及XML Twig查询等。1.3.2 产业界现状

1.国外公司大数据研究现状(1)谷歌

MapReduce是2004年由谷歌提出的面向大数据集处理的编程模型,起初主要用作互联网数据的处理,如文档抓取、倒排索引的建立等。但由于其简单而强大的数据处理接口和对大规模并行执行、容错及负载均衡等实现细节的隐藏,该技术一经推出便迅速在机器学习、数据挖掘、数据分析等领域得到广泛应用。

继MapReduce之后,谷歌又推出了Big Query服务,能够通过使用类SQL查询语言在几秒钟内筛选数十亿行的数据。具体来说,BigQuery允许用户上传超大规模数据,并直接对数据进行交互式分析;对于开发者来说,BigQuery还提供了基于Web服务的编程接口,使得开发者可以利用谷歌的后台架构运行SQL语句,对超大规模的虚拟数据库进行操作。BigQuery引擎可以快速扫描70TB未经压缩处理的数据,并且可马上得到分析结果。从技术的角度看,BigQuery是一个在云端的SQL服务,可以提供海量数据的实时分析,客户端不需要做任何事情。(2)IBM

针对大数据问题,IBM推出了InfoSphere大数据分析平台。该平台包括BigInsights和Streams两个产品系列,二者互补。BigInsights对大规模的静态数据进行分析,它提供多节点的分布式计算,可以随时增加节点,提升数据处理能力。Streams则采用内存计算方式分析实时数据。InfoSphere大数据分析平台还集成了数据仓库、数据库、数据集成、业务流程管理等组件。

BigInsights基于Hadoop,增加了文本分析、统计决策工具,同时在可靠性、安全性、易用性、管理性等方面提供了相应工具,可与DB2、Netezza等系统集成,适合企业级应用需求。Streams是一款满足即时处理、过滤和分析流数据需要的应用程序。需要注意的是,BigInsights和Streams是数据仓库的补充,而不能直接代替数据仓库。一方面因为Hadoop等技术的成熟度较低,还需要进一步稳定,另一方面的原因是某些特定的企业应用需求还需要数据仓库的支持。

具体来说,BigInsights静态大数据分析平台能够在常用、低成本的硬件上运行,并行支持线性可伸缩性,可用于支持半结构化或非结构化的信息,同时不需要烦琐的预处理,允许跨信息类型动态添加结构和关联。另外,它还可以支持主动风险管理与预测、实体识别与情绪趋势分析等新型工作负载,同时配备了高级文本分析功能。Streams大数据实时分析平台则是一个擅长处理流动数据的高性能计算平台。它允许用户开发的应用在信息从成千上万个实时源到达时便快速对其进行采集、分析和关联操作,及时捕捉并处理关键业务数据。目前,Streams能够满足用户当前对反应时间和可扩展性的要求,并支持高容量、结构化和非结构化流数据源。(3)微软

微软在数据检索、数据处理和数据存储等方面对大数据问题进行了研究,开发出了一系列产品。

在数据检索方面,为了呈递高质量的搜索结果,微软在Bing中分析了超过100PB的数据。在数据存储方面,微软提出并行数据仓库(PDW)概念,能够处理超过600TB的大数据量,并提供企业级的计算能力。在数据处理与计算方面,微软为LINQ to HPC(高性能计算)提供了分布式的运行时和编程模型,并支持将Windows Server和Windows Azure等平台构建在分布式的Apache Hadoop之上,以提高系统的处理能力和扩展性。(4)SAS

自1976年以来,SAS就一直致力于向企业提供数据分析服务,目前支持着世界上最大的数据集。SAS的大数据产品主要包括高性能分析服务器(SAS High-Performance Analytics Server)、SAS可视化分析(SAS Visual Analytics)和SAS DataFlux数据流处理引擎(SAS DataFlux Event Stream Processing Engine)。为科学计算、时间序列趋势预测、作业成本管理、金融大数据整体解决方案、客户智能、财务智能、政府行业解决方案等提供了有效的支持。(5)EMC

EMC针对大数据推出了Greenplum数据引擎软件,为新一代数据仓库所需的大规模数据和复杂查询功能提供支持。Greenplum基于MPP(海量并行处理)和Shared-Nothing(完全无共享)架构,采用开源软件和X86商用架构。Greenplum在其数据库中引入了MapReduce处理功能,其执行引擎可以同时处理SQL查询和MapReduce任务,这种混合方式在代码级整合了SQL和MapReduce:SQL可以直接使用MapReduce任务的输出,同时MapReduce任务也可以使用SQL的查询结果作为输入。

针对Hadoop,EMC还推出了GreenplumHD。该工具包含Hadoop分布式文件系统HDFS、MapReduce、Hive、Pig、HBase和Zookeeper。GreenplumHD包装了Hadoop的分布式技术,消除了从头开始构建分布Hadoop集群所带来的不便。Greenplum也纳入到Hadoop的可插拔存储层,使用者能够在数据存储过程中选择多种存储方式而无需改变现有应用程序。

针对数据处理过程的协作问题,EMC推出用于大数据处理的社交工具集Greenplum Chorus,使得数据科学家可以通过类似Facebook的社交方式进行协作完成数据处理任务。该软件基于开放架构,能够用于数据挖掘和协作分析,包括数据探索、个人项目工作空间、数据协作分析和发布等几个主要环节。在数据探索阶段,Greenplum Chorus通过搜索引擎快速查找数据,并将数据进行关联,从而实现数据采集的可视化;在处理阶段,采集来的数据被放到个人沙盒中进行处理,这个处理过程不会影响整个数据库的运行;在协作分析阶段,数据分析人员可以共享工作空间、代码,协同工作兼具灵活性和安全性;最后,相关的处理结果被发布出来。上述处理过程循环往复,最终完成数据处理工作。(6)Teradata

Teradata针对大数据问题,推出了Aster Data产品,该产品将SQL和MapReduce进行结合,针对大数据分析提出了SQL/MapReduce框架,该框架允许用户使用C++、Java、Python等语言编写MapReduce函数,编写的函数可以作为一个子查询在SQL中使用,从而同时获得SQL的易用性和MapReduce的开放性。除此以外,Aster Data基于MapReduce实现了30多个统计软件包,从而将数据分析推向数据库内进行(数据库内分析),提高了数据分析的性能。

2.国内公司大数据研究现状(1)百度

百度作为最大的中文搜索引擎公司,拥有海量的数据,当前估计有三千亿左右的中文网页,大约有10至50个PB,并且这些数据每隔一小时就会发生较大的变化。另外还拥有结构化的日志信息、高要求广告信息、百度知道、百度文库等用户实时产生的内容等。百度大数据的特点是大而杂,为了实现数据的实时性、一致性、可扩展性等高标准要求,百度采用了自行开发的存储系统,该系统有三个方面的特点:

● 网页存储,通过先存后写的策略将随机写过程转换成顺序写;

● 存储优化,包括针对访问模式的优化和单机性能的提升,等等;

● 删除Flash Special,直接针对Flash多通道存储数据;利用多副本存储,服务器可以找到备份,保持业务的连续性;针对大文件进行拆片存储。(2)阿里数据

2005年,淘宝成立商业智能部门,开发了第一款数据分析产品—“淘数据”,为各业务公司、部门提供经营报表。

2009年,阿里数据开始进入产品化时代。“淘数据”从一个内部报表系统跃升为内部数据统称。2009年4月和12月,商业智能团队又分别开发出可预警的“KPI系统”、服务于业务部门的“数据门户”。

2009年,将集团各公司自行搭建的Hadoop集群统一,开发出“云梯”系统,以实现公司内部所有数据的打通、整合的管理和共享。2010年初,淘宝推出“数据魔方”,向市场开放全局市场数据。

2011年,淘宝接连推出“观星台”、“地动仪”、“黄金策”、“淘宝指数”和“淘宝时光机”等多款大数据产品。“观星台”是一个高度可视化的仪表盘,选择最关键的数据在几秒内展示全局运营状况;“地动仪”则可以看到用户投诉最多的功能有哪些,甚至可以获取最原始的客服电话录音;“淘宝指数”可以告诉用户数据的长期走势、购买商品的人群特征、商品成交排行等重要信息。(3)新浪

2013年,新浪推出大数据产品——微博Page,这是一个聚合了用户兴趣爱好、社交关系数据的综合展示页面,话题、图书、音乐、餐饮美食等内容都能在微博上生成专属的Page页面。通过Page页面,网友可以很方便地查看到有价值的微博内容。

2012年4月15日,中国数据库技术大会(DTCC)“NoSQL数据库创新专场”中新浪微博开放平台资深工程师唐福林发表主题演讲《新浪微博:Redis的大数据之路》,介绍了NoSQL数据库Redis在新浪微博的使用场景及经验教训。新浪微博从2010年底开始使用Redis,各项业务指标在经历了2011年全年的疯狂增长之后,发现在很多场合Redis已经不再适用。Redis适用于数据量不太大的存储,以及数据量大的缓存。在选择数据存储介质的时候要分清数据量的大小和数据的冷热:小而热的数据适合使用内存,大而冷的数据适合使用磁盘,大而热的数据是否适合使用SSD,仍待探讨。(4)腾讯

腾讯的产品线非常广泛,从门户网站到微博、视频、电子商务、无线、开放平台等多个跨平台领域。腾讯的大数据战略,主要分为2C(个人)和2B(商家)两个部分,前者是提升用户体验,后者带来有效的广告收益。

腾讯将调动7亿活跃账户的数据支持门户服务,打造基于用户社交关系链的“下一代腾讯网”。下一代腾讯网利用大数据和关系链,为用户筛选、推荐最适合他的内容。在此基础上,腾讯的广告产品也将不再只是基于传统网络媒体的展示,而是更多基于用户社交关系链的口碑营销。1.3.3 政府机构现状

1.联合国大数据研究现状

联合国于2012年7月在纽约总部发布了一份大数据政务白皮书,总结了各国政府如何利用大数据更好地服务和保护人民。

在名为《大数据促发展:挑战与机遇》的白皮书中,联合国指出大数据对于联合国和各国政府来说是一个历史性的机遇,主要探讨如何利用包括社交网络在内的大数据资源造福人类。该报告是联合国“全球脉搏”项目的产物。“全球脉搏”是联合国发起的一个全新项目,旨在利用消费互联网的数据推动全球发展。利用自然语言解码软件,对社交网络和手机短信中的信息进行情绪分析,从而对失业率增加、区域性开支降低或疾病暴发等进行预测。

联合国的大数据白皮书还建议联合国成员国建设“脉搏实验室(Pulse Labs)”,开发网络大数据的潜在价值。印度尼西亚和乌干达作为两个标杆国家率先在各自的首都雅加达和坎贝拉建设了脉搏实验室。其中雅加达的脉搏实验室于2012年9月投入运行,由澳大利亚提供资助。

2.美国政府大数据研究现状

2012年3月29日美国政府公布了“大数据研发计划”(Big Data Research and Development Initiative)。该计划的目标是改进现有人们从海量和复杂的数据中获取知识的能力,从而加速美国在科学与工程领域发明的步伐,增强国家安全,转变现有的教学和学习方式。2012年3月底,美国政府发布《大数据研究开发倡议》,以美国科学与技术政策办公室为首,美国国家科学基金会、美国国立卫生研究院、国防部、能源部等已经开始了与民间企业或大学开展多项大数据相关的各种研究开发。美国政府为此拨出超过2亿美元的研究开发预算。

在这一背景下,美国政府各个部门纷纷开展了相关的研究计划。(1)多尺度异常检测(ADAMS)项目。该项目旨在解决大规模数据集的异常检测和特征化问题。项目中对异常数据的检测指对现实世界环境中各种可操作的信息数据及线索的收集。最初的ADAMS应用程序进行内部威胁检测,在日常网络活动环境中,检测单独的异常行动。(2)网络内部威胁(CINDER)计划。该项目旨在开发新的方法来检测军事计算机网络与网络间谍活动。作为一种揭露隐藏操作的手段,CINDER适用于将对不同类型对手的活动统一成“规范”的内部网络活动,并提高对网络威胁检测的准确性和速度。(3)Insight计划。该计划主要解决目前情报、监视和侦察系统的不足,进行自动化和人机集成推理,使得能够提前对时间敏感的更大潜在威胁进行分析。该计划旨在开发出资源管理系统,通过分析图像和非图像的传感器信息和其他来源的信息,进行网络威胁的自动识别和非常规的战争行为。(4)Machine Reading项目。该项目旨在实现人工智能的应用和发展学习系统的过程中对自然文本进行知识插入,而不是依靠昂贵和费时的知识表示目前的进程,并需要专家和相关知识工程师所给出的语义表示信息。(5)Mind's Eye项目。该项目旨在为机器建立视觉的智能。传统的机器视觉研究的对象选取广泛的物体来描述一个场景的属性名词,而Mind's Eye旨在增加在这些场景的动作认识和推理需要的知觉认知基础。总之,这些技术可以建立一个更完整的视觉智能效果。(6)视频和图像的检索和分析工具(VIRAT)计划。该计划旨在开发一个系统,能够利用图像分析师收集的数据进行大规模军事图像分析。VIRAT希望能够帮助图像分析师在相关活动发生时建立警报。该系统还包含一套开发工具,能够以较高的准确率和召回率从大量视频库中对视频内容进行检索。(7)XDATA项目。该项目旨在开发用于分析大量半结构化和非结构化数据的计算方法和软件工具。该项目需要解决的核心问题包括:可伸缩算法在分布式数据存储环境中的应用方式;如何使人机交互工具有效、迅速定制不同任务,以方便对不同数据进行可视化处理;灵活使用开源软件工具包,使得能够处理大量国防应用中的数据,等等。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书

若在网站上没有找合适的书籍,可联系网站客服获取,各类电子版图书资料皆有。

客服微信:xzh432

登入/注册
卧槽~你还有脸回来
没有账号? 忘记密码?