大数据技术基础与应用导论(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-11 06:45:50

点击下载

作者:杨毅

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据技术基础与应用导论

大数据技术基础与应用导论试读:

前言

“大数据”这个词汇已经与“移动互联网”“云计算”“人工智能”等一起成为科技从业人员中,甚至是街头巷尾的流行词汇之一。中国工程院邬贺铨院士在2013年撰写的大数据时代的机遇与挑战至今已被引用200多次;同年出版的维克托·迈尔·舍恩伯的专著《大数据时代》则一直在亚马逊的热销图书商品排名中,其热度可见一斑。从2016年美国总统选举到相亲网站用户匹配,大数据的身影无处不在,每个人的工作和日常生活,都自觉或不自觉地受到大数据的影响和支配。但什么是大数据,每个人、每个机构,甚至每个国家,都对此有不同的答案。我们需要给大数据一个清晰的、统一的、完整的定义。幸运的是,麦肯锡全球研究所给出了一个标准答案:大小超出了传统数据库软件工具的抓取、存储、管理、分析能力的数据群被称为大数据。

虽然大数据如此之热,但是在具体深入研究下去后就会发现,大数据技术的研究和应用的主要领域仍然集中在与IT产业密切相关的互联网产业界,在电子商务、搜索推荐、可穿戴设备、无人车/机等方向上,各种规模的创新、创业公司层出不穷,各类应用更是五花八门、纷繁复杂,而大数据相关的国内外文献也是种类繁多、涉及广泛。

大数据分析应用于科学、医药、商业等各个领域,用途差异巨大,但其目标可以归纳为如下几类。第一,获得知识与推测趋势。大数据包含大量原始的、真实的信息,大数据分析能够有效摒弃个体差异,帮助人们可以透过现象更准确地把握事物背后的规律。第二,分析掌握个性化特征。企业通过长时间、多维度的数据积累,可以分析用户的行为规律,更准确地描绘个体轮廓,为用户提供更好的个性化产品和服务,以及更准确的广告推荐等。第三,通过分析辨识真相。由于网络中的信息传播更加便利,所以网络虚假信息造成的危害也更大。由于大数据的来源广泛且具有多样性,因此在一定程度上可以帮助实现信息的去伪存真。目前,人们开始尝试利用大数据进行虚假信息的识别。

相应地,大数据技术也面临巨大的挑战,主要包括:(1)当前的数据量正以指数方式增长,而大数据处理和分析的能力远远跟不上数据量增长的速度。高效率和低成本的存储技术、非结构化和半结构化数据的高效处理技术、大数据去冗降噪技术、数据挖掘和基于大数据的预测分析技术等都有待发展和完善。(2)大数据包含丰富的个人信息,通过整合分析,可以精准判断个人的喜好乃至性格,揭示行为规律,使个人的隐私信息更加容易暴露。如何在加强数据获取能力的同时更好地保护个人隐私,是未来大数据研究的一个重大挑战。(3)大数据使人类对信息掌控的程度相对过去有了质的提升,从这个意义来看,从信息时代进入大数据时代超越了从机械计算时代进入电子计算时代,对于大数据的观念、态度必须要能够适应新时代的要求。

本书尝试从大数据的前身——数据挖掘技术入手,首先介绍在大数据这个词汇发明之前,数据挖掘技术是如何用于金融投资、识别欺诈并保障网络安全的;随后对大数据技术中使用的采集、存储及分析方法,如目前流行的HDFS及MapReduce进行详细阐述,以便使入门者快速掌握相关的技术;随后以语音识别中的连续语音识别和多语言语音识别为例,介绍大数据信息处理技术在IT行业中的关键应用;大数据分析与场景密切相关,因此提供了一系列基于场景分析基础上的大数据信息处理应用,如MOOC大数据教学分析系统、社交网络大数据关系推荐系统和金融服务大数据风险预警系统等;以互联网+大数据为特色的应用非常广泛,仅选取了电子商务、互联网金融、城市可持续发展、能源大数据、智能电网大数据等差异性较大的行业应用进行了简单介绍;进一步的大数据信息处理应用则涉及场景感知这一更加复杂的课题,场景感知更近似于人类对场景的观察、判断、分析与响应,相比于场景分析具有更强的灵活性、实时性、准确性,无人驾驶汽车操控系统就是场景感知的典型综合应用案例。

本书包括大数据、数据挖掘和场景感知等基本内容及其应用,可作为IT相关专业本科及研究生学习大数据理论、技术与应用的入门用书,对工程人员来说也是一本综合性较强的参考手册。同时,本书引用了大量国内外最新技术实例及作者的国家基金项目研究成果,对互联网领域的技术研究人员也有一定的参考价值。

本书在编写过程中,北京交通大学袁保宗教授、中国科学院声学研究所颜永红教授、北京理工大学谢湘副教授等专家给予了大力指导和支持,并得到国家自然科学基金重大项目(NSFC:11590770)的支持,在此表示衷心的感谢!

由于编著者水平和经验有限,书中错误之处在所难免,敬请读者指正。编著者2018年5月第1章绪论1.0引言

随着计算机网络用户数量的增长,每天都产生上万亿比特的数据,大数据(Big Data)时代已经到来,这是过去几十年计算机领域没有预见的,这给计算机信息处理技术带来了新的挑战,必须利用新的思路和理念来处理与日俱增的数据。

对于越来越多的海量数据,用以往的方法已经很难进行有效的处理,因此人们开始关注和研究海量数据的处理方法。2011年6月,麦肯锡全球研究所发布了《大数据:创新、竞争和生产力的下一个前沿》的报告,对“大数据”的概念进行了清晰的阐释。报告将“大小超出了传统数据库软件工具的抓取、存储、管理、分析能力的数据群”称为大数据。2012年1月,在瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会议报告宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。2012年3月,奥巴马宣布美国政府将投资2亿美元启动“大数据研究和发展计划”,用于研究开发科学探索、环境和生物医学、教育和国家安全等重大领域与行业急需的大数据处理技术和工具,这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为,大数据是“未来的新石油”,并将对大数据的研究上升为国家意志,这必将对未来的科技与经济发展产生深远影响。在这些事件的推动下,大数据逐渐变为全球关注的热门概念,人们甚至将2012年称为“大数据元年”。

尽管各国政府都对大数据技术高度重视,都不遗余力地大力推动大数据的研究。但事实上,大数据技术研究和应用的主要战场,仍然在企业界,特别是在和信息产业密切相关的互联网产业界。如果将大数据的技术版图进行划分,则呈现出以下三大板块,各自有不同的特点。

1.Google提出并引领大数据技术

大数据概念被关注之前,对于不断增多的数据,人们的应对方法是不断提升服务器的性能、增加服务器集群数量。在海量数据的冲击下,这种模式付出的成本代价越来越大,最终将达到一个无法承受的程度。例如,Oracle海量数据库系统Exadata,每个定制集群系统需2000千万美元,仅能存储10 TB的数据,因此急需研究大数据的索引和查询技术。

在大数据处理技术上具有里程碑意义的事件,是Google于2003年发表的三篇大数据的技术论文——MapReduce、Google File System、BigTable。这三篇论文描述了采用分布式计算方式来进行大数据处理的全新思路,其主要思想是将任务分解,然后在多台处理能力较弱的计算节点中同时处理,再将结果合并,从而完成大数据处理。这种方式不再采用昂贵的硬件,而是采用廉价的PC级服务器集群,实现海量数据的管理。MapReduce是一种用于大规模数据集并行计算的编程模型,可将一个大作业拆分为多个小作业的框架,进行作业调度和容错管理。Google File System是一个使用廉价的商用机器构建的大型分布式文件系统,由文件系统来完成容错任务,利用软件方法保证可靠性,使存储成本大幅下降。Big Table是一个建立在Google File System之上的适用性广泛、可扩展、高性能、高可用性的、非关系型分布式结构化数据存储系统,处理的数据通常是分布在数千台普通服务器上的PB级的数据。

2.开源Hadoop提供技术基础

Google的论文给全世界带来了震撼,但由于是私有的技术,无法被其他公司使用。在Google思路的启发下,相应的开源项目得到了极大发展,最重要的就是Apache 基金会下的Hadoop项目。Hadoop项目起源于2005年,包含了和Google大数据技术相对应的Google MapReduce、HDFS和HBase等组成部分。Hadoop可以视为Google技术的开源实现,因此具有高可靠性、高扩展性、高效性、高容错、低成本等一系列特点。

Hadoop技术尽管仍然不能达到Google论文中声称的性能,但是它开源的特性使得所有人都可以学习、研究和改进它,同时由于它背后有Yahoo、Facebook等IT巨头的强力支持,已经完全可以满足当前大数据应用的需求。2011年以后Hadoop的应用越来越多,连IBM的智力问答机器人沃森也是基于MapReduce数据并行处理的。

3.各大企业推动大数据应用

在IT行业,Yahoo、Facebook、Linkedin和eBay等众多企业纷纷转向Hadoop平台,推动和完善Hadoop项目,并搭建分布式数据处理平台进行大数据的采集、分析和处理。

Yahoo投入了大量的资源到Hadoop的研究中,目前Yahoo在Hadoop上的贡献率占了70%。从2005年起,Yahoo就成立了专门的团队,致力推动Hadoop的研发,并将集群从20个节点发展到2011年的42000个节点,初具生产规模。在应用领域,Yahoo更是积极地将Hadoop应用于自己的各种产品中,在搜索排名、内容优化、广告定位、反垃圾邮件、用户兴趣预测等方面得到了充分的应用。Facebook拥有超过10亿的活跃用户,需要存储和处理的数据量巨大。它使用Hadoop平台建立日志系统、推荐系统和数据仓库系统等。2012年,Facebook甚至宣布放弃自行研发的开源项目Cassandra,全面采用HBase为邮件系统提供数据库支持。Facebook目前运行着的可能是全球最大规模的基于Hadoop的数据搜集平台。另一方面,Facebook也以自身的强大实力,为Hadoop提供强力的支持。2012年,Facebook宣布开源Corona项目,这是MapReduce 的改进版本,可以更好地利用集群资源。阿里巴巴同样是Hadoop技术的积极响应者,2009年,阿里推出了以Hadoop为基础的分布式数据平台“云梯”。Hadoop使得大数据的应用已成燎原之势,除了IT企业,金融、传媒、零售、能源、制药等传统行业在大数据技术应用方面也积极响应,行业应用如系统研发、服务需求和计算模型研究等都在开展中。

大数据已成为继云计算之后信息技术领域的另一个信息产业增长点。据Gartner公司预测,2013年大数据将带动全球IT支出340亿美元,到2016年全球在大数据方面的总花费将达到2320亿美元。Gartner将大数据技术列入2012年对众多公司和组织机构具有战略意义的十大技术与趋势之一。不仅如此,作为国家和社会的主要管理者,各国政府也是大数据技术推广的主要推动者。2009年3月美国政府上线了data.gov网站,向公众开放政府所拥有的公共数据。随后,英国、澳大利亚等政府也开始了大数据开放的进程。截至目前,全世界已经有35个国家和地区构建了自己的数据开放门户网站。美国政府联合6个部门宣布了2亿美元的“大数据研究与发展计划”。2012年,中国通信学会、中国计算机学会等重要学术组织先后成立了大数据专家委员会,为我国大数据应用和发展提供学术咨询。

云计算技术和物联网技术的产生给大数据时代的到来提供了必要条件,是计算机行业又一次重大的革命性变革,并直接影响广大计算机用户、企事业单位和政府机关的活动方式,以及它们之间的交流途径。数据是大数据时代的最重要的核心内容,企业、消费者和网民之间的界限在大数据时代变得模糊,这对企业的运行、经营、管理和发展方向都产生了重要影响,同时也带来各种挑战和机遇。

由于传统计算机硬件的限制,使得计算机网络存在诸多的应用局限,需要将目前的计算机网络转换为云计算机网络,这是大数据时代计算机信息处理技术的发展趋势。事实上,未来计算机网络的发展理念是将计算机硬件和网络数据分开,实现将目前的云计算转化为云计算机网络。未来的计算机会与信息网络形成大数据网络系统,两者不可分离。

本章将着重介绍大数据相关的背景和基础知识,包括:数据的定义与属性、大数据概念与定义、大数据和小数据、结构化数据和非结构化数据、大数据信息处理技术及其应用等。本章内容为后面的章节做了基础铺垫。1.1数据的定义与属性

数据是信息的表现形式和载体,可以是符号、文字、数字、语音、图像、视频等。数据和信息是不可分离的,数据是信息的表达,信息是数据的内涵。数据本身没有意义,数据只有对实体行为产生影响时才成为信息。总的来说,数据是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的值,如声音、图像,称为模拟数据;也可以是离散的值,如符号、文字,称为数字数据。

在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息。在计算机科学中,数据是指所有能输入计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。1.2大数据概念与定义

近年来,大数据迅速发展成为科技界和企业界甚至世界各国政府关注的热点。《自然》(Nature)和《科学》(Science)等期刊相继出版专刊专门探讨大数据带来的机遇和挑战。对于大数据,研究机构Gartner给出了这样的定义:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。麦肯锡还认为,数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于大数据的挖掘和运用,预示着新一波生产力增长和消费盈余浪潮的到来。大数据已成为社会各界关注的新焦点,大数据时代已然来临。

所谓的大数据,顾名思义就是数据量巨大的意思,指的是信息的数据量巨大,以目前的计算机主流软件无法在短时间内实现对其进行获取、处理、存储、传输等管理功能,以便为客户提供合理的信息技术服务。对于数据量巨大到什么程度,业内目前还没有统一的标准,一般认为数据量在10 TB~1 PB(1 TB=1024 GB,1 PB=1024 TB)以上。

从宏观世界角度来讲,大数据是融合物理世界(Physical World)、信息空间和人类社会(Human Society)三元世界的纽带,因为物理世界通过互联网、物联网等技术有了在信息空间(Cyberspace)中的大数据反映,而人类社会则借助人机界面、脑机界面、移动互联等手段在信息空间中产生自己的大数据映像。从信息产业角度来讲,大数据还是新一代信息技术产业的强劲推动力。所谓新一代信息技术产业,其本质上是构建在第三代平台上的信息产业,主要是指大数据、云计算、移动互联网(社交网络)等。从社会经济角度来讲,大数据是数字经济的核心内涵和关键支撑。

相较于传统的数据,人们将大数据的特征总结为五个V,即体量大(Volume)、速度快(Velocity)、模态多(Variety)、难辨识(Veracity)和价值大密度低(Value)。

根据来源的不同,大数据大致可分为如下几类。(1)来自人们在互联网上的活动,以及使用移动互联网过程中产生的各类数据,包括文字、图片、视频等信息;(2)来自各类计算机信息系统产生的数据,以文件、数据库、多媒体等形式存在,也包括审计、日志等自动生成的信息;(3)来自各类数字设备所采集的数据,如摄像头产生的数字信号、医疗物联网中产生的人的各项特征值、天文望远镜所产生的大量数据等。

大数据的主要难点并不在于数据量大,因为通过对计算机系统的扩展可以在一定程度上缓解数据量大带来的挑战。其实,大数据真正难以对付的挑战来自数据类型多样(Variety)、要求及时响应(Velocity)和数据的不确定性(Veracity)。数据类型多样使得一个应用往往既要处理结构化数据,同时还要处理视频、语音等非结构化数据,这对现有数据库系统来说是难以应付的;在快速响应方面,在许多应用中时间就是利益;在数据的不确定性方面,数据真伪难辨是大数据应用的最大挑战。追求高数据质量是对大数据的一项重要要求,最好的数据清理方法也难以消除某些数据固有的不可预测性。为了应对大数据带来的上述困难和挑战,以Google、Facebook、Linkedin、Microsoft等为代表的互联网企业在近几年推出了各种不同类型的大数据处理系统。借助于新型的处理系统,深度学习、知识计算、可视化等大数据分析技术得以迅速发展,并逐渐被广泛应用于不同的行业和领域。

目前大数据分析应用于科学、医药、商业等各个领域,用途差异巨大,但其目标可以归纳为如下几类。(1)获得知识与推测趋势。人们进行数据分析由来已久,最初且最重要的目的就是获得知识、利用知识。由于大数据包含大量原始、真实信息,大数据分析能够有效地摒弃个体差异,帮助人们透过现象、更准确地把握事物背后的规律。基于挖掘出的知识,可以更准确地对自然或社会现象进行预测。典型的案例是Google公司的Google Flu Trends网站,它通过统计人们对流感信息的搜索,查询Google服务器日志的IP地址判定搜索来源,来发布对世界各地流感情况的预测;又如,人们可以根据Twitter信息预测股票行情等。(2)分析掌握个性化特征。个体活动在满足某些群体特征的同时,也具有鲜明的个性化特征,正如“长尾理论”中那条细长的尾巴那样,这些特征可能千差万别。企业通过长时间、多维度的数据积累,可以分析用户行为规律,更准确地描绘其个体轮廓,为用户提供更好的个性化产品和服务,以及更准确的广告推送。例如,Google通过其大数据产品对用户的习惯和爱好进行分析,帮助广告商评估广告活动效率,预估在未来可能存在高达数千亿美元的市场规模。(3)通过分析辨识真相。错误信息不如没有信息,由于网络中信息的传播更加便利,所以网络虚假信息造成的危害也更大。例如,2013年4月24日,美联社Twitter账号被盗,发布虚假消息称奥巴马总统遭受恐怖袭击受伤,虽然虚假消息在几分钟内被禁止了,但是仍然引发了美国股市短暂跳水。由于大数据来源广泛及其多样性,它在一定程度上可以帮助实现信息的去伪存真,目前人们已开始尝试利用大数据进行虚假信息识别。例如,社交点评类网站Yelp利用大数据对虚假评论进行过滤,为用户提供更为真实的评论信息;Yahoo和Thinkmail等利用大数据分析技术来过滤垃圾邮件。1.3大数据和小数据

数据技术是一个不断完善的过程,经历了由无数据到小数据、由小数据到大数据的演变。在数据采集、存储、传输、处理、安全等技术环节取得全面突破的前提下,大数据由空想走向理想,由理想走向现实。大数据与小数据判断原则如下。

· 数据的量;

· 数据的种类、格式;

· 数据的处理速度;

· 数据的复杂度。

很多事情在小规模数据的基础上是无法完成的,小数据是对数据价值的全面肯定,它使人类行为摆脱了对经验的依赖,使人类的决策由主观性开始走向客观性,是人类智慧对蒙昧的一次重要胜利。但是小数据不过是人类的权宜之计,随着数据采集技术、存储技术、传输技术、处理技术和安全技术的全面创新,人类正在告别小数据时代,走向大数据时代。大数据相对于小数据,是一种批判式继承,既继承了小数据的优秀,又创造性地开创了全新的大数据范式。大数据时代只是刚刚开启,数据技术尚需进一步完善。从小数据向大数据进化的路径已经清晰,我们需要的仅仅是耐心的等待,在不完善的大数据中去发现问题,最终实现理想中的大数据。我们应该以“未来大数据”看待“现实大数据”,在这个阶段,“谁拥有大数据”比“怎么使用大数据”更重要。1.4结构化数据和非结构化数据

在信息社会,信息可以划分为两大类:一类信息能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号;而另一类信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据。结构化数据属于非结构化数据,是非结构化数据的特例。

小数据是以“人力为主、机器为辅”的运行模式,在数据的采集、存储、传输和处理中大量地依赖人力资源。因此,小数据在数据类型上,只能采用人类能够识别的文字、图片、声音、视频等结构化数据。但是并不是所有的社会事物都能够通过结构化语言来进行描述的,还存在着大量的非结构化语言。大数据是以“机器为主、人力为辅”的运行模式,计算机等各类数据设备成为数据采集、存储、传输和处理的主体,人力只在模型设计、参数设置、编辑矫正等环节发挥作用。[11]大数据能够处理的数据来源更加广泛,不仅包括结构化数据,而且包括只有机器方能处理的非结构化数据。例如,Cookie等非结构化数据,是计算机等智能化设备所能处理的数据类型,它们的出现使人类逐渐摆脱了“语言困境”。

随着网络技术的发展,特别是Internet和Intranet技术的飞速发展,使得非结构化数据的数量日趋增大。这时,主要用于管理结构化数据的关系型数据库的局限性暴露得越来越明显了。因而,数据库技术相应地进入了“后关系型数据库时代”,发展进入基于网络应用的非结构化数据库时代。所谓非结构化数据库,是指数据库的变长记录由若干不可重复和可重复的字段组成,而每个字段又可由若干不可重复和可重复的子字段组成。简单地说,非结构化数据库就是字段可变的数据库,用它不仅可以处理结构化数据(如数字、符号等信息),而且更适合处理非结构化数据(如全文文本、图像、声音、影视、超媒体等信息)。

非结构化Web数据库主要是针对非结构化数据而产生的,与以往流行的关系型数据库相比,其最大区别在于它突破了关系型数据库结构定义不易改变和数据定长的限制,支持重复字段、子字段和变长字段,并实现了对变长数据和重复字段进行处理以及数据项的变长存储管理,在处理连续信息(包括全文信息)和非结构化信息(包括各种多媒体信息)中有着传统关系型数据库所无法比拟的优势。1.5大数据信息处理技术及其应用

计算机信息处理技术是数据传输、获取、分析、处理的结合体,主要包括计算机技术、通信技术、网络技术和微电子技术等。计算机信息处理技术的类型主要包括信息系统技术、数据库技术和检索技术。信息处理技术是以计算机技术为核心,配合数据库和通信网络技术进行信息分析的技术。其中数据库技术是关键技术,它能将相关信息进行整合,存储有序信息并进行有效的利用。大数据时代同时提供了机遇和挑战,除了诸如计算机病毒、盗版软件,以及对服务器的恶意攻击等这些熟悉的问题,我们还能看到新出现的一些问题,如操纵和篡改他人数据,以及伪造和假冒他人身份等问题。所有这些问题都会降低人们对于互联网的信任,而这样的信任一直以来都是互联网良好服务品质的标志。计算机信息处理技术的进步必须有助于解决这些问题,更加智能的内容感知网络技术将进一步消除这些因素的威胁。

1.大数据时代下的计算机信息处理技术(1)DeepWeb数据感知与获取技术。DeepWeb技术是网络深层空间技术,其数据具有信息规模大、信息动态变化、分布式和访问方式特殊等特点。DeepWeb技术充分利用网络空间的数据,进行高质量的数据集成,进而进行数据的抽取和整合。(2)分布式数据存储。分布式数据存储技术的具体实现是由Google提出的GFS技术。此技术在IBM、百度等公司得到了大量的应用和快速发展。分布式数据存储利用的是列存储的概念。列存储是以列为单位进行存储,相比于行存储,具有数据压缩、快循环等优点。当今较流行的技术是行列混合式存储结构,该结构能够快速加载海量数据、缩短查询时间、高效利用磁盘空间等。在研究中,要继续优化数据的分布式存储方法,提高大数据的存储和处理效率。(3)数据高效索引。Google提出的BigTable技术是目前主流的索引技术,当前的研究热点是聚簇索引和互补式聚簇索引。其中聚簇索引按照索引顺序存储全部的数据结构;而互补式聚簇索引则以多副本为索引列创建互为补充的索引表,同时结合查询结果估算办法,进行最优的数据查询。(4)基于内容的数据挖掘。基于内容的数据挖掘是指网络搜索技术和实体关联分析。当今的互联网信息搜索的热点是排序学习算法,该算法主要是针对社交媒体的信息提出的。社交媒体的关注数据的特点为短文本特征,排序学习算法正是基于这个特征提出的,常见的排序学习算法主要有逐点、逐对和逐列三种。(5)遗传算法和神经网络。遗传算法是借鉴生物界的进化规律而演化出的随机化搜索算法,遗传算法的寻优采用概率化,能够自动调整搜索方向。遗传算法技术已经被应用在机器学习、信号处理、物流选址等多个方面。神经网络是受来自生物神经网络结构和运作的启发而提出的,神经网络算法模拟动物运动神经的网络行为,是进行分布式并行信息处理的数学算法。(6)分类分析和聚类分析。分类分析是指先对数据点进行归类,再确定新的数据点,在明确假设和客观结构的前提下,预测客户行为;而聚类分析,是指在不知道限制因素的前提下,将集合分成若干对象组,然后对对象组进行分析。分类分析和聚类分析主要应用于数据挖掘。(7)关联规则学习和机器学习。关联规则学习是指在数据处理的过程中,找到数据之间的关联规则;而机器学习则是指研究计算机模拟人类的学习行为,重新组织已有的知识体系,机器学习是人工智能的核心。关联规则学习和机器学习也可用于数据发掘。(8)数据分析技术。数据分析技术主要包括情感分析、网络分析、空间分析、时域序列分析和回归分析。其中,情感分析是对自然语言进行的主观分析,网络分析是基于网络的特征分析,空间分析是基于拓扑、几何和地理编码技术的统计分析。(9)可视化技术。为了方便人们对大数据分析结果的理解和沟通,需要使用可视化技术进行创建图片、图表和动画等。Clustergram是一种典型的可视化技术,其基础是聚类分析,该技术可用于显示数据集的个别成员是如何分配到集群的。

2.大数据时代下计算机信息处理技术的发展方向(1)计算机网络朝着云计算网络发展。现在的计算机网络构架多以硬件为基础,局限性较大。基于互联网的云是当今的主要技术,计算机网络应正朝着云计算、大数据的方向发展。(2)计算机技术朝着开放式网络传输的方向发展,通过定义网络构架,将网络信息与硬件分离。(3)计算机与计算机网络相互融合,成为一体。以后的计算机信息处理技术不再依靠单独的计算机硬件设备,而是靠网络进行连接。只有基于网络技术的计算机信息处理技术才能满足大数据时代的要求。1.6大数据技术面临的挑战

大量事实表明,如果大数据未被妥善处理的话,有可能会对用户的隐私造成极大的侵害。根据需要保护的内容不同,隐私保护又可以进一步细分为位置隐私保护、标识符匿名保护、连接关系匿名保护等。人们面临的威胁并不仅限于个人隐私泄漏,还有基于大数据对人们状态和行为的预测。

目前用户数据的收集、存储、管理与使用等均缺乏规范,更缺乏监管,主要依靠企业的自律,用户无法确定自己隐私信息的用途。在商业化场景中,用户应有权决定自己的信息是如何被利用的,实现用户可控的隐私保护。例如,用户可以决定自己的信息在何时、以何种形式被披露,以及何时被销毁,涉及数据采集时的隐私保护,如数据精度处理;数据共享、发布时的隐私保护,如数据的匿名处理、人工加扰等;数据分析时的隐私保护;数据生命周期的隐私保护;隐私数据的可信销毁等。

大数据可信性的威胁之一是伪造或刻意制造的数据,而错误的数据往往会导致错误的结论。若数据应用场景明确,就可能有人刻意制造数据、营造某种“假象”,诱导分析者得出对其有利的结论。由于虚假信息往往隐藏于大量的信息中,使得人们无法鉴别真伪,从而做出错误判断。例如,一些点评网站上的虚假评论混杂在真实评论中,使得用户无法分辨,可能误导用户去选择某些劣质商品或服务。由于当前网络社区中虚假信息的产生和传播变得越来越容易,其所产生的影响不可低估。用信息安全技术手段鉴别所有来源的真实性是不可能的。

大数据可信性的威胁之二是数据在传播中的逐步失真。原因之一是人工干预的数据采集过程可能引入误差,从而导致数据失真与偏差,最终影响数据分析结果的准确性。此外,数据失真还有数据的版本变更的因素,在传播过程中,现实情况发生了变化,早期采集的数据已经不能反映真实情况。例如,餐馆电话号码已经变更,但早期的信息已经被其他搜索引擎或应用收录,所以用户可能看到矛盾的信息而影响其判断。

因此,大数据的使用者应该有能力基于数据来源的真实性、数据传播途径、数据加工处理过程等,了解各项数据的可信度,防止分析得出无意义或者错误的结果。密码学中的数字签名、消息鉴别码等技术可以用于验证数据的完整性,但在应用于验证大数据的真实性时面临很大的困难,主要原因在于数据粒度的差异。例如,数据的发源方可以对整个信息进行签名,但是当信息分解成若干组成部分时,该签名则无法验证每个部分的完整性;而数据的发源方也无法事先预知哪些部分被利用、如何被利用,难以事先为其生成验证对象。

如果要对大数据进行访问控制,也存在一些问题。

首先,难以预设角色,实现角色划分。由于大数据应用范围广泛,它通常会被来自不同组织或部门、不同身份与目的的用户所访问,实施访问控制是基本需求。然而,在大数据的场景下,有大量的用户需要实施权限管理,且用户具体的权限要求未知。面对未知的大量数据和用户,预先设置角色十分困难。

其次,难以预知每个角色的实际权限。由于大数据场景中包含海量数据,安全管理员可能缺乏足够的专业知识,无法准确地为用户指定其可以访问的数据范围,而且从效率角度来讲,定义用户所有授权规则也不是理想的方式。以医疗领域应用为例,医生为了完成其工作可能需要访问大量的信息,但对于数据能否访问应该由医生来决定,不需要管理员对每个医生做特别的配置;但同时又应该能够提供对医生访问行为的检测与控制,限制医生对病患数据的过度访问。此外,不同类型的大数据中可能存在多样化的访问控制需求。例如,在Web2.0个人用户数据中,存在基于历史记录的控制;在地理地图数据中,存在基于尺度及数据精度的访问控制需求;在流数据处理中,存在数据时间区间的访问控制需求,等等。如何统一地描述与表达访问控制需求也是一个具有挑战性的难题。

总而言之,大数据技术面临的挑战,主要体现在以下三个方面。(1)当前的数据量以指数级增长,而大数据处理和分析的能力远远跟不上数据量增长的水平。高效率低成本的存储技术、非结构化和半结构化数据的高效处理技术、大数据去冗降噪技术、数据挖掘和基于大数据的预测分析技术等都有待发展和完善。(2)大数据中包含了丰富的个人信息,通过整合分析,可以精准判断个人的喜好乃至性格,揭示其行为规律,使个人的隐私信息更加容易暴露。如何在加强数据获取能力的同时,更好地保护个人隐私,是未来大数据研究的一个重大挑战。(3)大数据使人类对信息掌控的程度相对于过去有了质的提升,从这个意义来看,从信息时代进入大数据时代不同于从机械计算时代进入电子计算时代。因此,我们对于大数据的观念、态度等必须适应新时代的要求。1.7大数据服务与信息安全

由于上述挑战的存在,衍生了大数据服务与信息安全这一全新的技术方向,主要包括以下两方面内容。

1.基于大数据的威胁发现技术

由于大数据分析技术的出现,企业可以超越以往的“保护-检测-响应-恢复”模式,更加主动地发现潜在的安全威胁。例如,IBM推出了名为IBM大数据安全智能的新型安全工具,可以利用大数据来侦测来自企业内外部的安全威胁,包括扫描电子邮件和社交网络,标识出明显心存不满的员工,提醒企业注意,预防其泄露企业机密。“棱镜”计划也可以理解为应用大数据方法进行安全分析的成功案例,通过收集各个国家不同类型的数据,利用安全威胁数据和安全分析形成系统方法发现潜在危险局势,在攻击发生之前识别威胁。

相比于传统的技术方案,基于大数据的威胁检测技术具有以下优点。

第一,分析内容的范围更大。传统的威胁检测主要针对的内容为各类安全事件,而一个企业的信息资产则包括数据资产、软件资产、实物资产、人员资产、服务资产和其他为业务提供支持的无形资产。由于传统威胁检测技术的局限性,它并不能覆盖上述六类信息资产,因此所能发现的威胁也是有限的。而通过在威胁检测方面引入大数据分析技术,可以更全面地发现针对这些信息资产的攻击。例如,通过分析企业员工的即时通信数据、电子邮件数据等,可以及时发现人员资产是否面临其他企业“挖墙脚”的攻击威胁;再如,通过对企业的客户部订单数据的分析,也能够发现一些异常的操作行为,进而判断是否危害公司利益。可以看出,分析内容范围的扩大使得基于大数据的威胁检测更加全面。

第二,分析内容的时间跨度更长。现有的许多威胁检测技术都是内存关联性的,也就是说实时收集数据,采用分析技术发现攻击。分析窗口通常受限于内存大小,无法应对持续性和潜伏性的攻击。而引入大数据分析技术后,威胁分析窗口可以横跨若干年的数据,因此发现威胁的能力更强。

第三,攻击威胁的可预测性。传统的安全防护技术或工具大多是在攻击发生后对攻击行为进行分析和归类,并做出响应。而基于大数据的威胁检测,可进行超前的预判,能够寻找潜在的安全威胁,对未发生的攻击行为进行预防。

第四,对未知威胁的检测。传统的威胁检测通常是由经验丰富的专业人员根据企业需求和实际情况展开的,然而这种威胁分析的结果在很大程度上依赖于个人经验,同时,分析所发现的威胁也是已知的。而大数据分析的特点是侧重于普通的关联分析,而不是侧重于因果分析,因此通过采用恰当的分析模型,可发现未知威胁。

虽然基于大数据的威胁检测技术具有上述的优点,但是该技术目前也存在一些问题和挑战,主要集中在分析结果的准确度上。一方面,大数据的收集很难做到全面,而数据又是分析的基础,它的片面性往往会导致分析结果的偏差。为了分析企业信息资产面临的威胁,不但要全面收集企业内部的数据,还要对一些企业外的数据进行收集,这在某种程度上是一个大问题。另一方面,大数据分析能力的不足会影响分析的准确性。例如,纽约投资银行每秒会有5000次网络事件,每天会从中捕获25 TB数据,如果没有足够的分析能力,要从如此庞大的数据中准确地发现极少数预示潜在攻击的事件,进而分析出威胁几乎是不可能完成的任务。

2.基于大数据的认证技术

身份认证是信息系统或网络中确认操作者身份的过程,传统的认证技术主要是通过用户所知的秘密(如口令)或者持有的凭证(如数字证书)来鉴别用户的。这些技术面临如下两个问题。第一,攻击者总能找到方法来骗取用户所知的秘密,或窃取用户持有的凭证,从而通过认证机制的认证。例如,攻击者利用钓鱼网站窃取用户口令,或者通过社会工程学方式接近用户,直接骗取用户所知秘密或持有的凭证。第二,传统认证技术中的认证方式越安全往往意味着用户的负担越重。例如,为了加强认证安全而采用的多因素认证,用户往往需要同时记忆复杂的口令,还要随身携带硬件USBkey,一旦忘记口令或者忘记携带USBkey,就无法完成身份认证。为了减轻用户负担,出现了一些生物认证方式,利用用户具有的生物特征,如指纹等,来确认其身份。然而,这些认证技术要求设备必须具有生物特征识别功能,如指纹识别,因此很大程度上限制了这些认证技术的广泛应用。在认证技术中引入大数据分析则能够有效解决这两个问题。基于大数据的认证技术指的是收集用户行为和设备行为数据,并对这些数据进行分析,获得用户行为和设备行为的特征,进而通过鉴别操作者行为及其设备行为来确定其身份。这与传统认证技术中利用用户所知秘密、所持有凭证或具有的生物特征来确认其身份有很大不同。具体地,这种新的认证技术具有如下优点。

首先,攻击者很难模拟用户行为特征来通过认证,因此更加安全。利用大数据技术所能收集到的用户行为和设备行为数据是多样的,可以包括用户使用系统的时间、经常采用的设备、设备所处物理位置,甚至是用户的操作习惯数据。通过这些数据的分析能够为用户勾画出一个行为特征的轮廓,而攻击者很难在方方面面都模仿用户行为,因此与真正用户的行为特征轮廓必然存在一个较大的偏差,致使无法通过认证。

其次,减小了用户负担。用户行为和设备行为的特征数据采集、存储和分析都是由认证系统完成的,相比于传统的认证技术,极大地减轻了用户的负担。

最后,可以更好地支持各系统认证机制的统一。基于大数据的认证技术可以让用户在整个网络空间采用相同的行为特征进行身份认证,而避免因不同系统采用不同认证方式,且用户所知秘密或所持有凭证也各不相同而带来的种种不便。

虽然基于大数据的认证技术具有上述优点,它也存在一些问题和挑战亟待解决。

首先是初始阶段的认证问题。基于大数据的认证技术是建立在大量用户行为和设备行为数据分析的基础上的,而初始阶段不具备大量数据,因此,在初始阶段无法分析出用户行为特征,或者分析的结果不够准确。

其次是用户隐私问题。基于大数据的认证技术为了获得用户的行为习惯,必然要长期、持续地收集大量的用户数据。那么如何在收集和分析这些数据的同时,确保用户隐私也是亟待解决的问题,这也是影响这种新的认证技术是否能够推广应用的主要因素。1.8本章小结

随着计算机网络用户数量的增长,每天都产生上万亿GB的数据,大数据时代已经到来,这是过去几十年计算机领域没有预见的,给计算机信息处理技术带来了新的挑战和机遇。本章着重介绍了大数据相关的基础知识,给出大数据的定义,辨析其与“小数据”的区别以及结构化数据和非结构化数据的区别,介绍了大数据时代下计算机信息处理的研究热点及大数据安全等内容。参考文献

[1]耿冬旭.“大数据”时代背景下计算机信息处理技术分析[J].网络安全技术与应用,2014(1):19-19.

[2]张允壮,刘戟锋.大数据时代信息安全的机遇与挑战:以公开信息情报为例[J].国防科技,2013,34(2):6-9.

[3]童应学,吴燕.计算机应用基础教程[M].武汉:华中师范大学出版社,2010.

[4]金懿.大数据下的广告营销战略发展趋势[J].中国传媒科技,2013(14):33-34.

[5]Manyika J,Chui M,Brown B,Bughin J,Dobbs R,et al.Big data: The next frontier for innovation, competition,and productivity [EB/OL].http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation,2016-05-01.

[6]Li G.Research Status and Scientific Thinking of Big Data[J].Bulletin of Chinese Academy of Sciences,2012.

[7]Wang YZ,Jin XL,Cheng XQ.Network big data: Present and future [J].Chinese Journal of Computers,2013,36(6):1125−1138.

[8]Arthur WB.The second economy [EB/OL].http://www.images-et-reseaux.com/sites/default/files/medias/blog/2011/12/the-2ndeconomy.pdf,2016-05-01.

[9]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域[J].中国科学院院刊,2012,27(6):647-657.

[10]程学旗,靳小龙,王元卓,等.大数据系统和分析技术综述[J].软件学报,2014(9):1889-1908.

[11]王成文.数据力:“大数据”PK“小数据”[J].中国传媒科技,2013(19): 67-70.

[12]王建民,丁贵广,朱妤晴.一种基于云计算环境的非结构化数据的管理方法[P].CN:102012912A.2011.

[13]庄晏冬.智能信息处理技术应用与发展[J]. 黑龙江科技信息,2011.

[14]耿冬旭.“大数据”时代背景下计算机信息处理技术分析[J].网络安全技术与应用,2014(1):19.

[15]冯潇婧.“大数据”时代背景下计算机信息处理技术的分析 [J].计算机光盘软件与应用,2014(5):105.

[16]艾伯特拉斯洛,巴拉巴西,著.爆发:大数据时代预见未来的新思维.马慧,译.北京:中国人民大学出版社,2012.

[17]邹捷.大数据技术发展研究综述[J].科技风,2014(14):258-259.

[18]冯登国,张敏,李昊.大数据安全与隐私保护[J].计算机学报,2014,37(1):246-258.第2章数据信息挖掘技术基础2.0引言

目前的网络通信发展,正如邬贺铨院士所言,已经进入了大数据、智慧城市、物联网、移动互联网和云计算时代。大数据提升了决策智能化水平,成了两化融合的抓手,大数据用于社会管理和民生服务将创造出显著社会效应,大数据对中国既是机遇也是挑战,全社会都需要重视和挖掘大数据的应用。

网络通信的飞速发展及其广泛应用,使得企业、政府部门和其他各种形式的组织积累了大量的数据。过去简单的查询、统计技术仅仅能对数据进行基本的处理,不能进行更高层次的分析,无法自动和智能地将待处理的数据转化为有用的知识。数据挖掘正是在这样的背景之下得到广泛重视和深入研究并取得重大进展的重要研究领域。数据挖掘是一个从数据中提取隐含在其中的、人们事先不知道的、具有潜在价值的知识的过程,被称为未来信息处理的骨干技术之一。目前,数据挖掘不仅被许多研究人员看作模式识别及机器学习等领域的重要研究课题之一,而且被许多产业界人士看作一个能带来巨大回报的重要研究领域。数据是相当庞杂的,但是从中发现的模式、知识却是非常有意义的,并能产生一定的经济效益。

随着信息技术应用的广泛深入,特别是电子扫描枪、条码技术、图像识别技术、管理信息系统、数据库系统的普遍使用,人们产生和收集数据的能力迅速提高。在日常的生活及管理过程中,大量的数据已经存储在科研机构、企业、政府、银行等各个领域的信息系统中,并呈现出了爆炸式的增长。然而与此形成鲜明对比的是人们进行数据处理和数据分析的能力非常有限,互联网的飞速发展更加加剧了“数据爆炸,知识匮乏”的趋势,数据挖掘就是在这样的背景下得到广泛重视并且被深入研究、逐步取得一定进展的重要研究领域。

数据挖掘(Data Mining)是一个多学科交叉的研究领域,它融合了数据库(Database)、机器学习(Machine Learning)、人工智能(Artificial Intelligence)、知识工程(Knowledge Engineering)、统计学(Statistics)、面向对象方法(Object-Oriented Method)、高性能计算(High-Performance Computing)、信息检索(Information Retrieval),以及数据可视化(Data Visualization)等技术领域的研究成果。经过十几年的研究,产生了许多新概念和新方法,一些基本概念和方法趋于稳定和清晰,其研究正向更深入的多学科交叉方向发展。

数据挖掘之所以被称为未来信息处理的骨干技术之一,主要在于它正以一种全新的概念改变着人类利用数据的方式。在20世纪,数据库技术取得了重大的成果并且得到了广泛的应用。但是,数据库技术作为一种基本的信息存储和管理方式,仍然以联机事务处理为核心应用,缺少对决策、分析、预测等高级功能的支持机制。众所周知,随着硬盘存储容量的激增,以及磁盘阵列的普及,数据库容量增长迅速,数据仓库(Data Warehouse)和新型数据源的出现,联机分析处理(On-line Analytic Processing)、决策支持(Decision Support)、分类(Classification)、聚类(Clustering)等复杂应用成为必然。面对这样的挑战,数据挖掘和知识发现(Knowledge Discovery)技术应运而生,并显现出强大的生命力。数据挖掘和知识发现使数据处理技术进入了一个更加高级的阶段,它不仅能对过去的数据进行查询,而且能够找出过去数据之间的潜在联系,进行更高层次的分析,以便更好地做出决策、预测未来的发展趋势,等等。通过数据挖掘,有价值的知识、规则或更高层次的信息就能够从数据库的相关数据集合中抽取出来,从而使大型数据库作为一个丰富、可靠的资源,为知识的提取提供服务。

麻省理工学院的《科技评论》杂志提出:在未来几年将对人类产生重大影响的新兴技术,数据挖掘处在第三的位置。数据挖掘技术一开始就是面向应用的。由于现在各行各业的业务操作都向着流程自动化的方向发展,在企业的内部产生了大量的业务数据。一般来说,这些业务数据是由于商业运作而产生的,企业收集了大量的业务数据后却不知道该如何分析这些数据,不知道这些数据背后隐含了哪些知识,对企业的决策能起到什么样的作用。因此,数据挖掘的应用成为高层次数据分析和决策支持的基础。在很多领域,尤其是电信、银行、交通、保险、零售等商业领域,数据挖掘成了研究与应用的重点;在分析生物学、天文学等科学研究方面,数据挖掘也体现出相对的技术优势。

数据挖掘技术在美国银行和金融领域应用广泛。金融事务需要收集和处理大量数据,对这些数据进行分析,可以发现潜在的客户群、评估客户的信用等。例如,美国的银行使用数据挖掘工具,可以根据消费者的家庭贷款、赊账卡、储蓄、投资产品等,将客户进行分类,进而预测何时向哪类客户提供什么样的产品。另外,近年来数据挖掘在信用卡积分的相关应用和研究方面也取得了很多进展。数据挖掘也可以应用在金融投资方面,典型的金融分析领域有投资评估和股票交易市场预测,分析的方法一般采用模型预测法(如统计回归技术或者神经网络)。这方面的系统有“精确股票选择系统”和“LSB资本管理系统”,前者的任务是使用神经网络模型选择投资,后者则使用了专家系统、神经网络和基因算法技术辅助管理多达6亿美元的有价证券。

数据挖掘还可以应用在甄别欺诈方面。银行以及其他商业领域经常发生欺诈行为,如恶意透支、恶意欠费等,这方面应用非常成功的系统有FALCON和FAIS系统。FALCON是HNC公司开发的信用卡欺诈估测系统,它已经被很多银行用于探测可疑的信用卡交易;FAIS是一个用于识别与洗钱有关的金融交易系统,它使用一般的政府数据表单,釆用数据挖掘技术进行分析。

数据挖掘技术在电信行业也得到了广泛的应用,这些应用可以帮助电信企业制定合理的电话收费和服务标准、针对客户群的优惠政策、防止费用欺诈等。比如IBM公司就利用其软硬件技术,包括数据挖掘技术为电信行业提供了一整套的商业智能解决方案,在市场业务发展分析、竞争分析、客户分析、客户关系管理,以及市场策略、综合决策分析等方面提供了很好的支持。

近年来,数据挖掘也开始应用到了尖端科学的探索中。数据挖掘在生物学上的应用主要集中在分子生物学,特别是基因工程的研究上。近几年来,生物分子序列分析方法,尤其是基因数据库搜索技术已经在基因研究中做出了许多重大的发现。比如,序列分析被认为人类征服顽疾的最有前途的攻关课题,但是,序列的构成是千变万化的,数据挖掘技术的应用可以为发现特殊疾病隐藏的基因排列信息等提供新的解决方法。数据挖掘在分子生物学上的应用可以大致分为两种:一种是从各种生物体的DNA序列中定位出具有某种功能的基因串;另一种是在基因数据库中搜索与某种蛋白质相似的高阶结构,而不仅仅是简单的线性结构。

数据挖掘在天文学上有一个非常著名的应用系统——SKICAT,它是加州理工学院喷气推进实验室与天文科学家合作开发的用于帮助天文学家发现遥远的类星体的一个工具。SKICAT的任务是构造星体分类器对星体进行分类,使用了决策树方法构造分类器,结果使得能分辨的星体较以前的方法在亮度上要低一个数量级之多,而且新的方法要比以往方法的效率高40倍以上。

随着网络上需要进行存储和处理的敏感信息日益增多,安全问题逐渐成为网络和系统的首要问题,信息安全的概念和实践不断深化和扩展。现代信息安全的内涵已经不仅仅局限于信息的保护,而是对整个信息系统的防御和保护,包括对信息的保护、检测、反应和恢复能力等。传统的信息安全系统概括性差,只能发现模式规定的、已知的入侵行为,难以发现新的入侵行为。人们希望能够对审计数据进行自

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载