架构大数据:大数据技术及算法解析(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-05 17:11:59

点击下载

作者:赵勇

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

架构大数据:大数据技术及算法解析

架构大数据:大数据技术及算法解析试读:

前言

大数据被称为新时代的黄金和石油,相关技术发展迅猛,所应用的行业也非常广泛,从传统行业如医疗、教育、金融、旅游,到新兴产业如电商、计算广告、可穿戴设备、机器人等。大数据技术更是国家科技发展和智慧城市建设的基础。当前“互联网+”新业态的发展,其核心也是大数据的采集、分析、价值挖潜和应用。

当今全球大数据的竞争及战略布局,突出体现在大数据的技术创新和人才培养方面。技术创新能够保障在大数据发展的浪潮中始终处于引领地位,而大数据人才体系则是能最终实现技术创新和实践的根本。政府正在设立大数据局等管理和创新机构并开放政府数据,很多大型企业开始设立首席数据官(CDO)的职位,凸显对数据驱动的经济和业务模式的重视。未来5年全球将有数十万名的大数据人才缺口,以及数百万名大数据的管理和支持人员缺口,因此美国的哈佛商业评论把“数据科学家”称为21世纪最性感的职业,全球都在开始上演大数据的人才争夺战。

我们在《大数据革命——理论、模式与技术创新》一书中对数据科学理论、大数据创新模式以及大数据技术作了初步的探索和介绍,在成书的过程中我觉得如果有一本更深入、更全面的技术类的大数据书籍,能够更有效地帮助读者掌握和运用大数据,这也是写这本书的初衷。由于大数据技术是当今最前沿的技术,所涉及的领域及知识跨度都非常大,发展又日新月异,所以有些内容在开始写的同时,就面临老化的危险。过去一两年的时间里大数据技术的更新令人咋舌,老牌的Hadoop大数据处理平台已经成熟并广泛应用在诸多行业,而很多新兴的系统和算法,如加州大学伯克利分校研究开发的Spark大数据通用计算平台、用于图像和视频识别的深度学习大有后来居上的势头。因此我们也是尽量跟上形势,努力提供给读者一个大数据技术的全景画卷。

本书对大数据相关的技术及算法做了系统性的分析和描述,梳理了大数据的技术分类如基础架构支持、大数据采集、大数据存储、大数据处理、大数据展示及交互,列举了资源管理调度、数据分析和挖掘、深度学习、精准营销、社会计算等大数据相关算法,还融合了大数据行业的最新技术进展和大型互联网公司的大数据架构实践,目的是为了帮助大数据产业及技术人才全面认识和了解大数据的相关技术及算法,掌握大数据行业的最新发展动态,学习互联网巨头的大数据架构实践,进而培养大数据的技术选型和系统架构能力,成为大数据时代的创新创业先锋。

最后感谢电子科技大学极限网络计算与服务实验室的老师和同学们为本书所付出的辛勤和努力,也感谢清华大学苏州研究院大数据处理中心的行业应用实践为本书提供的指导和建议。我之前在微软的同事沈寓实和李雨航两位专家在云计算体系及安全防护方面提供了详细的资料和建议。我想向本书的责任编辑董亚峰先生和电子工业出版社的编辑们致敬,他们是本书的幕后英雄。我的妻子昆和女儿Sophie给予我最大的理解和支持,我爱你们。

由于我们对大数据相关技术及算法的理解和专业知识水平都有局限,本书的错误和疏漏之处在所难免,敬请各位读者谅解和指正。请将您的意见和建议发送至dyf@phei.com.cn,感谢您的支持。赵勇2015年5月12日第1章大数据技术概述

近年来,以物联网、移动互联网、云计算和大数据(Big Data)为代表的新一代信息技术发展迅猛,而大数据则风头最劲。无所不在的移动终端、智能设备、无线传感器等每分每秒都在产生数据,拥有数以亿计用户的互联网服务时时刻刻在产生巨量的交互,比如,百度每天大约要处理几十PB的数据,Twitter每天会产生7TB的数据,Facebook每天生成300TB以上的日志数据等。数据产生的速度太快,要处理的数据量也太大。据IDC预测,到2020年全球将拥有35ZB(1ZB=1021字节)的数据。与此同时,数据的价值也在不断凸显,数据被类比为新时代的黄金和石油,现代企业快节奏的业务需求和竞争压力对数据处理的实时性和有效性提出了更高的要求,传统的数据处理技术已经完全不能满足大量数据的实时处理的需求,大数据就全面爆发了。大数据涉及国家战略、区域及企业发展、社会民生的方方面面,掌握大数据的核心理念、模式和技术,就把握了新时代的脉搏。2013年被称为大数据元年,在2014年,大数据不管在技术还是应用方面都取得了很大的发展。本书主要介绍大数据技术及算法的相关知识及最新进展,帮助大数据从业人士了解、掌握和架构大数据。

在本章中,我们将重点介绍大数据的相关概念、历史发展、大数据的价值、大数据问题、大数据处理流程以及大数据技术分类等几个方面。1.1 大数据的概念

大数据指的是无法在规定时间内用现有的常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术则特指新一代的创新型的技术,能够突破常规软件的限制,是对大数据进行采集、存储和处理的技术的统称。

大数据(Big Data)一词正式出现是在2011年麦肯锡全球研究院发布的《大数据:下一个创新、竞争和生产力的前沿》研究报告中。但其实从20世纪90年代至21世纪初,大数据已经开始萌芽。那时对于大数据的研究主要集中在算法、模型、模式、识别等几个方面,数据挖掘理论和数据库技术也在趋于成熟,一批数据仓库、知识管理系统等商业智能工具逐步出现并被应用。这些方面的研究为大数据时代的到来奠定了良好的理论基础。

从2003年开始,业内学者开始围绕着半结构化数据或非结构化数据的处理进行探索,大数据的发展也取得了一定的突破。传统的数据处理技术能够较好地处理结构化的数据,而对非结构化的数据则难以应对。对非结构化数据的处理带动了数据处理技术的发展。2005年Hadoop项目诞生,由多个软件产品组成的Hadoop生态系统为结构化和复杂数据的处理提供了一个快速、可靠分析的平台。其中分布式文件系统HDFS的可靠数据存储服务和高性能的MapReduce并行数据处理服务为大数据的处理提供了良好的技术基础。

2006—2009年,并行计算和分布式系统成为主流,大数据技术的发展进入成熟期。从2009年开始,各国政府对于大数据技术的重视和应用已经初现端倪。在2009年,联合国启动了“全球脉动”(Global Pulse)计划,旨在推动数字数据快速收集和分析方式的创新;美国启动Data.gov网站,向公众开放各种政府数据;欧洲一些领先的研究型图书馆和科技信息研究机构开始合作,从而改善在互联网上获取科学数据的简易性。

2010年以来,智能手机的应用日益广泛,随之而来的数据的碎片化、分布式、流媒体等特征更加明显,移动数据量急速增长。2011年5月,麦肯锡全球研究院发布的《大数据:下一个创新、竞争和生产力的前沿》研究报告中指出,大数据已经渗透到当今的每一个行业和业务职能领域成为重要的生产因素。报告中提出了可能改变世界格局的12项技术,包括云计算、物联网、移动互联网、知识工作自动化、先进机器人等,而大数据则是这些技术的基础,每项技术都离不开大数据。同年12月,信息处理技术作为4项关键技术之一在我国的十二五规划上被提出来,其中包括海量数据存储、数据挖掘、图像视频智能分析等技术,而这些都是大数据的重要组成部分。另外3项关键技术,包括信息感知技术、信息传输技术、信息安全技术,也都与大数据密切相关。

2012年1月份,在瑞士达沃斯召开的世界经济论坛上,大数据是主题之一,会上发布的报告《大数据,大影响》宣称,数据像货币或黄金一样,已经成为一种新的经济资产类别。2012年3月,美国政府发布了《大数据研究和发展倡议》,并划拨2亿美元的专项支持资金,标志着大数据已经成为重要的时代特征。美国政府对数据领域的投资,也使得大数据的应用从一开始单纯的商业行为上升到国家科技战略,引发了全球对大数据的关注和追捧。

2012年4月,美国的大数据处理公司Splunk成功上市,这也是第一家上市的大数据处理公司。该公司提供大数据监测和分析服务的软件,其成功上市也促使其他IT公司加快对大数据技术和应用的布局。7月,阿里巴巴推出数据分享平台“聚石塔”,为淘宝、天猫上的电商和电商服务商提供数据云服务,希望通过分享和挖掘海量数据,为国家和中小企业提供价值。阿里巴巴集团也成为国内最早提出企业数据化运营的企业。

2012年7月,联合国在纽约发布了一份关于大数据政务的白皮书,总结了各国政府如何利用大数据更好地服务和保护人民。这份白皮书举例说明在一个数据生态系统中,个人、公共部门和私人部门各自的角色、动机和需求。例如通过对价格关注和更好服务的渴望,个人提供数据和众包信息,并对隐私和退出权力提出需求;公共部门出于改善服务、提升效益的目的,提供统计数据、设备信息、健康指标及税务和消费信息等,并对隐私和退出权力提出需求;私人部门出于提升客户认知和预测趋势目的,提供汇总数据、消费和使用信息,并对敏感数据所有权和商业模式更加关注。联合国还以爱尔兰和美国的社交网络活跃度增长可以作为失业率上升的早期征兆为例,表明政府如果能合理分析所掌握的数据资源,将能“与数俱进”,快速应变。

2013年称为大数据元年,几乎所有的大型互联网企业都将业务范围延伸至大数据产业。电子商务平台、社交平台、门户网站等,都存在着大数据的影子。大数据也由技术热词逐渐演变成社会浪潮,影响着国家、社会和生活的各个方面。

全球大数据产业的日趋活跃,技术演进和应用创新的加速发展,使各国政府逐渐认识到大数据在推动经济发展,改善公共服务,增进人民福祉,乃至保障国家安全方面的重大意义。2014年5月,美国白宫发布了2014年全球“大数据”白皮书的研究报告《大数据:抓住机遇、守护价值》。报告鼓励使用数据以推动社会进步,特别是在市场与现有的机构并未以其他方式来支持这种进步的领域;同时,也需要相应的框架、结构与研究,来帮助保护美国人对于保护个人隐私、确保公平或防止歧视的坚定信仰。

近年来大数据不断地向社会各行各业渗透,已经开始广泛应用于教育、金融、医疗等各个行业,使得大数据的技术领域和行业边界愈来愈模糊不定,应用创新已超越技术本身更受到青睐。大数据技术可以为每一个领域带来变革性影响,并且正在成为各行各业颠覆性创新的原动力和助推器。

大数据需要满足数据量足够大(Volume)、数据的种类多样(Variety)、数据的增长及处理速度快(Velocity)、数据蕴藏价值大(Value)这4个根本特征,才能称之为大数据。

数据量大(Volume)指的是数据的采集、存储和计算的量都非常大,大数据通常指10TB以上规模的数据量。造成数据量增大的原因有很多,例如,很多监控和传感设备的使用,使我们感知到更多的事务,这些事务的数据将被部分或者完全存储;(移动)通信设备的使用,使得交流的数据量成倍增长;基于互联网和社会化网络的应用的发展,数以亿计的用户每天产生大量的数据。

数据种类多(Variety)是指数据的种类和来源较多,例如多种传感器、智能设备、社交网络等。数据的种类包括结构化、半结构化和非结构化数据,包括图片、音频、视频、地理位置等多类型的数据。

数据的增长及处理速度快(Velocity)指数据每分每秒都在爆炸性地增长,而对数据的处理速度要求也很高,数据的快速动态的变化使得流式数据成为大数据的重要特征,对大数据的处理要求具有较强的时效性,能够实时地查询、分析、推荐等。

数据的价值大(Value)是指在海量的数据中,存在着巨大的被挖掘的商业价值,然而由于数据总量的不断增加,数据的单位价值密度却相对较低,如何通过强大的数据挖掘算法,结合企业的业务逻辑来从海量数据中获取有用的价值是大数据要解决的重要问题。

除了上述的4个主要特征外,大数据与传统的数据处理技术最明显的一个特征区别是,大数据的处理要求是在线的。例如,用户在使用某一网站或应用时,需要及时地把用户行为数据传送给企业,通过相应的数据处理或数据挖掘算法,分析出用户的行为特征,并根据处理结果对用户进行精准的内容推荐或行为预测,在提升用户体验的同时,增加用户黏度,为企业带来更多的商业价值。而离线的数据处理,则不能满足这一需求,在线实时处理也是大数据发展的重要趋势和特点。1.2 大数据的行业价值

大数据在过去几年得到了全社会的关注和快速的发展,几乎在每个行业都可以见到大数据应用的影子。大数据的应用范围越来越广,应用的行业也越来越多,我们几乎每天都可以看到大数据的一些新奇应用,大数据的价值也已经体现在方方面面。大数据目前较多的应用领域主要有互联网、金融、医疗、教育、政府等行业,应用的环境也不尽相同,下面介绍几种大数据的典型应用场景。

1.分析用户行为,建立数据模型,并进行预测

大数据在用户行为分析和预测方面的应用是最突出的。企业通过对用户社交网站的行为数据、浏览器的日志信息、传感器的数据等进行收集和分析,就可以得到用户的行为习惯,通过建立出数据模型,可以对用户的下一步行为进行预测。

在用户的行为分析方面,最经典的案例应该是美国沃尔玛公司(WalMart)将尿不湿和啤酒摆放在一起的销售策略。沃尔玛对顾客的购物习惯进行关联规则分析,从中得出顾客会经常一起购买哪些商品。沃尔玛利用数据挖掘工具对其保存在数据仓库里面的所有门店的交易数据进行分析,得出了和尿不湿一起购买最多的商品是啤酒的结论。沃尔玛在所有的门店里将尿不湿与啤酒并排摆放在一起,结果是尿不湿与啤酒的销售量双双增长。

另外一个比较著名的例子就是Target怀孕预测的案例。他们对商品数据库里的数万类商品和女性顾客的商品购买记录进行分析,挖掘出与怀孕高度相关的25项商品,制作“怀孕预测”指数,可以精确地预测到客户在什么时候想要小孩,推算出孕妇的预产期等,从而抢先一步给女性推荐相关的产品。

在用户行为预测方面,也有不少成功案例。例如美国统计学家内特•西尔弗建立统计模型,成功预测了2012年美国大选的结果。通过他的预测,看到奥巴马有431种胜利途径,对比罗姆尼仅有76种,奥巴马总统连任的机会是86.3%。在其他行业,电信可以通过大数据预测用户的流失,从而可以提前采取相应的手段留住客户;汽车保险行业可以了解客户的驾驶水平和需求,来为顾客推荐合适的保险等。大数据对于当代企业能够更好地运营所体现出的价值已经不言而喻。

2.提升企业的资产管理,优化企业的业务流程

大数据也可以帮助企业提升资产管理和优化业务流程。企业利用实时数据能够实现预测性的维护并减少故障,推动产品和服务开发。比如在交通和物流领域,大数据最广泛的应用就是供应链以及配送路线的优化。通过结合传感器数据,以及社交媒体、网络搜索以及天气预报数据,可以挖掘出有价值的信息。利用地理定位和无线电频率的识别追踪货物和送货车,利用实时交通路线数据制定更加优化的路线。

UPS快递高效地利用了地理定位数据。为了使总部能在车辆出现晚点的时候跟踪到车辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器和GPS。同时,这些设备也方便了公司监督、管理员工并优化行车线路。UPS为货车定制的最佳行车路径是根据过去的行车经验总结而来的。2011年,UPS的驾驶员少跑了近4828万千米的路程。

DHL是全球知名的邮递和物流公司。它是一家传统行业的企业,然而在移动互联网和大数据浪潮中却并不落后,在瑞典推出了众包模式送货的移动应用MyWays,人们可以通过移动应用报名投递自己行动路线附近的包裹,并获取报酬。此外,DHL还把大数据应用于管理物流风险,从而为客户提供更好的服务。

3.大数据服务智慧城市、智慧交通

智慧城市是当前我国城镇化改革的建设重点,大数据技术是实现智慧城市的核心支撑技术。智慧城市就是运用信息和通信技术手段感测、分析、整合城市运行核心系统的各项关键信息,从而对包括政务、民生、社会化管理、企业发展在内的各种需求做出智能响应。其实质是利用先进的信息技术,实现城市智慧式管理和运行,进而为城市中的人创造更美好的生活,促进城市的和谐、可持续成长。目前,在国内外,每天都会涌现出新的大数据智慧城市的应用案例。我们选取几个有代表性的案例。

随着智能电网的提出,智能电表得到了极大的普及,目前全国范围内至少有1亿块智能电表在使用,不仅极大地方便了普通用电用户,而且电力公司也因此收集了大量的用电数据。这些海量数据在日积月累的过程中逐渐给用电信息采集系统带来了存储和计算的压力,而且随着业务的不断深化,智能电表历经多次升级换代,采集项数翻了几倍,采集频率也逐步从一天一次向15分钟一次(96次/天)升级。以一个用电用户超过2000万户的省公司来说,一天的数据入库量接近20亿次,再加上实时统计分析的要求,原有系统基于传统关系型数据库的架构已无力支撑。在这种情况下,该省公司基于清华大数据处理中心的以Hadoop为基础的HBase解决方案进行用电数据的存储和结果查询,使用Hive进行相关的统计分析。经过业务梳理,选择了3个计算场景和一个查询场景进行尝试。通过实际业务数据的计算对比,3个计算场景用时比现有系统快10~20倍,查询场景的响应时间则缩短了两个数量级,而整体集群的硬件造价仅为现有系统的1/6,并且还具备极佳的横向扩展能力。

法国里昂市与IBM的研究者合作开发出能够缓解道路拥堵的系统方案。IBM为里昂开发的系统名为Decision Support System Optimizer(决策支持系统优化器),可以基于实时的交通情况报告来侦测和预测交通拥堵。当交管人员发现某地即将发生交通拥堵,可以及时调整信号灯让车流以最高效率运行。这个系统对于突发事件也很有用,例如帮助救护车尽快到达医院。而且随着运行时间的积累,这套系统还能够“学习”过去的成功处置方案,并运用到未来预测中。

SpotHero是预订停车位的一个移动应用,它的网站和移动应用可以较好地解决司机找不到停车位的问题。SpotHero能够实时跟踪停车位数据变化,打开SpotHero,将会显示附近可用的停车位的公交车和价格,同时提供导航服务,并且可以使用预付费来占领未被使用的停车位。目前,已经能够实时监控包括华盛顿、纽约、芝加哥、巴尔的摩、波士顿、密尔沃基和纽瓦克七个城市的停车位。

4.变革公共医疗卫生,对疾病进行预测

谷歌的FluTrend可以利用搜索关键词和大数据技术成功预测流感的散布趋势。在流感爆发前,人们用谷歌搜索流感的相关资讯或措施的比例将会增加,谷歌通过对无数流感关键词进行分析,可以准确快速地预测流感将在哪里出现,以及流感的散布范围。这一项目的成功也刮起了大数据变革公共卫生的浪潮。目前,谷歌又孵化了一个医疗健康项目,名为Baseline,它主要用大数据来预防癌症。

百度公司也在疾病预测方面做了一些工作。2014年7月,在百度推出世界杯预测之后,又上线了一个最新服务:疾病预测。它能为用户提供流感、肝炎、肺结核和性病4种疾病的趋势预测,并可依据过去30天的资料,对未来7天疾病变化进行预测。目前该服务已经涵盖了中国331个城市,2870个区县,并且某些城市已经细化到商圈为目标单位,未来甚至可以细化到个人的粒度。

对于目前正在暴发的埃博拉病毒,也可以通过大数据技术来预防疾病的传播,对疫情进行更好的控制,做好民众的救助工作。首先,西非等地的跨国电信业者与国际卫生组织合作,提供当地居民行为通信资料,通过分析绘制当地居民聚落位置和人口移动地图,来预测病毒散布的位置。其次,非洲政府可以根据用户的手机定位,分析出当地居住区位置的移动轨迹,规划医疗救助站的位置,从而安排最佳的救助路线,使居民远离疫情较为严重的区域。

除了在疾病预测方面,利用大数据的计算和分析能力,能够让我们在几分钟内解码整个DNA,制定出最新的治疗方案。大数据技术目前已经在医院应用监视早产婴儿和患病婴儿的情况,通过记录和分析婴儿的心跳,医生针对婴儿的身体可能会出现不适症状做出预测,这样可以帮助医生更好地救助婴儿。

大数据已经在医疗和健康领域取得了一定的成果,将疾病防治关口前移,可以大大节省医疗资源的消耗。有效的数据分析也可以提前对民众进行医疗健康知识的普及教育,从而较好地预防疾病的发生。

5.在金融行业利用大数据进行战略决策和精准营销

银行、证券和保险是金融类企业的3个重要部分。国内不少银行已经开始尝试通过大数据来驱动业务运营。例如民生银行,其80%以上的客户是小微企业。借助大数据平台,民生银行的每家小微企业客户的信息都能够实时上报民生的“数据加工厂”,并生产出有价值的信息,使总行能够更加快速、准确地获得各个行业的市场需求信息,从而快速、精确地进行战略决策和市场规划。

基于大数据平台,民生银行实现了内部管理的精细化,“用数据说话、靠数据决策”已经成为民生银行的一种管理文化。依据大数据平台和专业金融技术工具,民生银行目前能够准确计算出每位客户的利润贡献度,从而真正做到个性化定价和个性化服务。在产品定价方面,以往银行都按照批量定价模式,向客户销售贷款;而个性化定价,则根据客户的存款、贷款、业务经营情况等综合指标进行科学定价,不仅能够吸引优质客户,提高客户黏性,降低客户流失率,也能够提高整体收益。基于大数据平台,民生银行实现了从“广撒网”到“批量定向开发”的转变。除了民生银行,光大银行建立了社交网络信息数据库,招商银行利用大数据发展小微贷款,中信银行信用卡中心使用大数据技术实现了实时营销。

在证券行业,大数据主要包含几个方面的应用:股价预测、客户关系管理和投资景气指数。

现在很多股权的交易都利用大数据算法进行,这些算法现在越来越多地考虑了社交媒体和网站新闻来决定在未来几秒内是买入还是卖出。IBM日本的新系统仅用6小时就预测出分析师需要花费数日才能计算出的预测值,它结合其他相关经济数据的历史数据分析与股价的关系,从而得出预测结果。

对客户关系的管理包括两个方面,对客户进行细分和客户流失的预测。通过对客户的账户状态进行分析,对客户进行聚类和细分,从而发现客户交易,找出最有价值和盈利潜力的客户群,为他们提供个性化服务。证券公司通过对客户的历史交易行为和流失情况进行分析,建立客户流失模型,从而预测客户流失。

在保险行业,大数据应用也包括3个方面:客户细分及精细化营销、欺诈行为分析和精细化运营。例如友邦保险使用了大数据魔镜软件,开发出客户挖掘、精准投放、二次开发、战略指导、全民分析等多种智能分析模型,为管理层提供最直接的数据依据,之前每个保险业务员从200个电话中,可能才能挖掘出两三个意向客户,而精准的投放使得平均拨打一个电话就可以得到一个客户。

6.利用大数据保障公共安全

大数据的应用和发展可以帮助公共服务更好地优化模式,提升社会安全保障能力和面对突发情况的应急能力。作为大数据方面的开拓者——美国,在应用大数据来治理社会和稳定社会这方面的成绩显著。

美国国家安全局和交通安全局基于数据挖掘技术,开发了计算机辅助乘客筛选系统,为美国本土各个机场提供应用接口。该系统将乘客购买机票时提供的姓名、联系地址、电话号码、出生日期等信息输入商用数据库中,商用数据库则据此将隐含特殊危险等级的数字分值传送给交通安全局:绿色分值的乘客将接受正常筛选,黄色分值的乘客将接受额外筛选,红色分值的乘客将被禁止登机,且有可能受到法律强制性的关照。

同时,利用大数据也可预防犯罪案件的发生。加利福尼亚州桑塔克鲁兹市使用犯罪预测系统,对可能出现犯罪的重点区域、重要时段进行预测,并安排巡警巡逻。在所预测的犯罪事件中,有2/3真的发生。系统投入使用一年后,该市入室行窃减少了11%,偷车减少了8%,抓捕率上升了56%。

另外,大数据也可以推进案件的侦破。这方面最经典的案例应该是波士顿连环爆炸的成功告破。2013年4月15日,美国波士顿在举办马拉松比赛的过程中发生连续炸弹爆炸案,导致3人死亡、183人受伤。案件发生后警方不仅走访了事发地点附近12个街区的居民,收集可能存在的各种私人录像和照片,还大量收集网上信息,包括信息社交网站上出现的相关照片、录像等,并在这些网站上向公众提出收集相关信息的请求。通过对各方面数据的比对、查找,警方从录像中截取出了嫌疑人照片并发出通缉令,从而为最终追捕罪犯提供了确凿的证据和可靠的参考。

7.利用大数据促进教育行业变革

在教育工作中,特别是学校教育,数据成为教学改进显著的目标。美国国家教育统计中心已经把中小学和大学的学生学习行为、考试分数和职业规划等重要的数据存储起来,用于统计和分析。而近年来越来越多的网络在线教育和大规模开放式网络课程的兴起,使教育领域中的大数据获得了更为广阔的应用空间。

教育领域中大数据分析的最终目的是提高学生的学习成绩。美国教育部门创造了一套“学习分析系统”,将教育和大数据相结合。该系统是一个数据挖掘和案例运用的联合框架,主要向教育工作者提供影响学习成绩的原因等信息,为教师提供提高学生成绩更准确有效的办法。

美国已经存在一些企业成功地商业化运作了教育中的大数据。例如,IBM与亚拉巴马州的莫白儿县公共学区在大数据方面展开合作,从而较好地改善了该学区的辍学情况;希维塔斯学习(Civitsa Learnig)在高等教育领域建立了最大跨校学习数据库,通过这些海量数据,可以看到学生的分数、出勤率、辍学率和保留率等数据的主要趋势;梦盒学习(Dream Box Learning)公司和纽顿(Knewton)公司已经成功创造并发布了各自的利用大数据的适应性学习系统。

在我国,百度推出了“百度预测”,在2014年也通过数据分析,预测出高考作文题目的出题范围将会在“生命的多彩”、“时间的馈赠”等六个领域中,并且给出了各领域命中的精确概率。对试题的精确预测,也可以较大程度上提高学生的学习成绩。

8.大数据在改善着每个人的生活

大数据不仅应用在政府、企业,对于生活中的每个人都有较大的影响。例如,用户之前在电子商务网站想要购买某样东西的时候,需要从海量的购物列表里面找到自己喜欢的商品。电商网站能通过用户的性别、年龄、购物偏好、职业、收入、生活习惯,对用户的浏览内容进行记录,分析到用户对物品、价格等的需求,向用户推荐相应的物品,可以节省用户时间,提高交易成功率。

人们一般通过电视或者智能手机接收天气预警。而目前全球人口高达70亿,据WeatherBug应用开发商Earth Networks称,在非洲、南美洲和亚洲等一些欠发达地区,仍有将近60亿人不能在恶劣天气到来前接到预警。因此该公司利用遍布全球的数十万个传感器,监测温度、风力和雷电的变化情况,给用户提供领先的恶劣天气分析及预警。

一些婚恋网站一直都会进行各种各样的数字统计,例如全国有多少单身男女,单身比例,每个地方的男生(女生)喜欢什么样的女生(男生),不同年龄段的单身女生又会喜欢什么样的男生等。百合网独创了“心灵匹配测评系统”,系统里面涉及30多个维度,再加上实名认证,从而发现两个异性之间在生活习惯、价值观、兴趣爱好等各方面的契合度,从而形成高效率的精准速配,用户也可以通过百合网的分析数据来找到属于自己的合适的对象。1.3 大数据问题的爆发

我们看到,传统的IT基础架构和数据管理分析方法已经不能适应大数据的快速增长,大数据的爆发是我们在信息化和社会发展中遇到的棘手问题,需要我们采用新的数据管理模式,研究和发展新一代的信息技术才能解决。我们把大数据问题归纳为7类。

1.速度方面的问题

传统的关系型数据库管理系统(RDBMS)一般都是集中式的存储和处理,没有采用分布式架构,在很多大型企业中的配置往往都基于IOE(IBM服务器,Oracle数据库,EMC存储)。在这种典型配置中单台服务器的配置通常都很高,可以多达几十个CPU,内存也能达到上百GB,数据库的存储放在高速大容量的磁盘阵列上,存储空间可达TB级。这种配置对于传统的管理信息系统(MIS)需求来说是可以满足需求的,然而面对不断增长的数据量和动态数据使用场景,这种集中式的处理方式就日益成为瓶颈,尤其是在速度响应方面捉襟见肘。在面对大数据量的导入导出、统计分析、检索查询方面,由于依赖于集中式的数据存储和索引,性能随着数据量的增长而急速下降,对于需要实时响应的统计及查询场景更是无能为力。比如在物联网中,传感器的数据可以多达几十亿条,对这些数据需要进行实时入库、查询及分析,传统的RDBMS就不再适合应用需求了。

2.种类及架构问题

RDMBS对于结构化的、固定模式的数据,已经形成了相当成熟的存储、查询、统计处理方式。随着物联网、互联网以及移动通信网络的飞速发展,数据的格式及种类在不断变化和发展。在智能交通领域,所涉及的数据可能包含文本、日志、图片、视频、矢量地图等来自不同数据采集监控源的、不同种类的数据。这些数据的格式通常都不是固定的,如果采用结构化的存储模式将很难应对不断变化的需求。因此对于这些种类各异的多源异构数据,需要采用不同的数据和存储处理模式,结合结构化和非结构化数据存储。在整体的数据管理模式和架构上,也需要采用新型的分布式文件系统及分布式NoSQL数据库架构,才能适应大数据量及变化的结构。

3.体量及灵活性问题

如前所述,大数据由于总体的体量巨大,采用集中式的存储,在速度、响应方面都存在问题。当数据量越来越大,并发读、写量也越来越大时,集中式的文件系统或单数据库操作将成为致命的性能瓶颈,毕竟单台计算机的承受压力是有限的。我们可以采用线性扩展的架构和方式,把数据的压力分散到很多台计算机上,直到可以承受,这样就可以根据数据量和并发量来动态增加和减少文件或数据库服务器,实现线性扩展。

在数据的存储方面,需要采用分布式可扩展的架构,比如大家所熟知的Hadoop文件系统和HBase数据库。同时在数据的处理方面,也需要采用分布式的架构,把数据处理任务,分配到很多计算节点上,同时还须考虑数据存放节点和计算节点之间的位置相关性。在计算领域中,资源分配、任务分配实际上是一个任务调度问题。其主要任务是根据当前集群中各个节点上面的资源(包括CPU、内存、存储空间和网络资源等)的占用情况,和各个用户作业服务质量要求,在资源和作业或者任务之间做出最优的匹配。由于用户对作业服务质量的要求是多样化的,同时资源的状态也在不断变化,因此,为分布式数据处理找到合适的资源是一个动态调度问题。

4.成本问题

集中式的数据存储和处理,在硬件、软件选型时,基本采用的方式都是配置相当高的大型机或小型机服务器,以及访问速度快、保障性高的磁盘阵列,来保障数据处理性能。这些硬件设备都非常昂贵,动辄高达数百万元,同时软件也经常是国外大厂商如Oracle、IBM、SAP、微软等的产品,对于服务器及数据库的维护也需要专业技术人员,投入及运维成本很高。在面对海量数据处理的挑战时,这些厂商也推出了形似庞然大物的“一体机”解决方案,如Oracle的Exadata、SAP的HANA等,通过把多服务器、大规模内存、闪存、高速网络等硬件进行堆叠,来缓解数据压力,然而在硬件成本上,更是大幅跳高,一般的企业很难承受。

新型的分布式存储架构、分布式数据库如HDFS、HBase、Cassandra、MongoDB等由于大多采用去中心化的、海量并行处理MPP架构,在数据处理上不存在集中处理和汇总的瓶颈,同时具备线性扩展能力,能有效地应对大数据的存储和处理问题。在软件架构上也都实现了一些自管理、自恢复的机制,以面对大规模节点中容易出现的偶发故障,保障系统整体的健壮性。因此对每个节点的硬件配置,要求并不高,甚至可以使用普通的PC作为服务器,在服务器成本上可以大大节省,在软件方面开源软件也占据非常大的价格优势。

当然,在谈及成本问题时,我们不能简单地进行硬件、软件的成本对比。要把原有的系统及应用迁移到新的分布式架构上,从底层平台到上层应用都需要做很大的调整。尤其是在数据库模式以及应用编程接口方面,新型的NoSQL数据库与原来的RDBMS存在较大的差别,企业需要评估迁移及开发成本、周期及风险。除此之外,还须考虑服务、培训、运维方面的成本。但在总体趋势上,随着这些新型数据架构及产品的逐渐成熟与完善,以及一些商业运营公司基于开源基础为企业提供专业的数据库开发及咨询服务,新型的分布式、可扩展数据库模式必将在大数据浪潮中胜出,从成本到性能方面完胜传统的集中式大机模式。

5.价值挖掘问题

大数据由于体量巨大,同时又在不断增长,因此单位数据的价值密度在不断降低。但同时大数据的整体价值在不断提高,大数据被类比为石油和黄金,因此从中可以发掘巨大的商业价值。要从海量数据中找到潜藏的模式,需要进行深度的数据挖掘和分析。大数据挖掘与传统的数据挖掘模式也存在较大的区别:传统的数据挖掘一般数据量较小,算法相对复杂,收敛速度慢。然而大数据的数据量巨大,在数据的存储、清洗、ETL(抽取、转换、加载)方面都需要能够应对大数据量的需求和挑战,在很大程度上需要采用分布式并行处理的方式,比如Google、微软的搜索引擎,在对用户的搜索日志进行归档存储时,就需要多达几百台甚至上千台服务器同步工作,才能应付全球上亿用户的搜索行为。同时,在对数据进行挖掘时,也需要改造传统数据挖掘算法以及底层处理架构,同样采用并行处理的方式才能对海量数据进行快速计算分析。Apache的Mahout项目就提供了一系列数据挖掘算法的并行实现。在很多应用场景中,甚至需要挖掘的结果能够实时反馈回来,这对系统提出了很大的挑战,因为数据挖掘算法通常需要较长的时间,尤其是在大数据量的情况下,可能需要结合大批量的离线处理和实时计算才可能满足需求。

数据挖掘的实际增效也是我们在进行大数据价值挖掘之前需要仔细评估的问题。并不见得所有的数据挖掘计划都能得到理想的结果。首先需要保障数据本身的真实性和全面性,如果所采集的信息本身噪声较大,或者一些关键性的数据没有被包含进来,那么所挖掘出来的价值规律也就大打折扣。其次也要考虑价值挖掘的成本和收益,如果对挖掘项目投入的人力物力、硬件及软件平台耗资巨大,项目周期也较长,而挖掘出来的信息对于企业生产决策、成本效益等方面的贡献不大,那么片面地相信和依赖数据挖掘的威力,也是不切实际和得不偿失的。

6.存储及安全问题

在大数据的存储及安全保障方面,大数据由于存在格式多变、体量巨大的特点,也带来了很多挑战。针对结构化数据,关系型数据库管理系统RDBMS经过几十年的发展,已经形成了一套完善的存储、访问、安全与备份控制体系。由于大数据的巨大体量,也对传统RDBMS造成了冲击,如前所述,集中式的数据存储和处理也在转向分布式并行处理。大数据更多的时候是非结构化数据,因此也衍生了许多分布式文件存储系统、分布式NoSQL数据库等来应对这类数据。然而这些新兴系统,在用户管理、数据访问权限、备份机制、安全控制等各方面还须进一步完善。安全问题,如果简而言之,一是要保障数据不丢失,对海量的结构、非结构化数据,需要有合理的备份冗余机制,在任何情况下数据不能丢失。二是要保障数据不被非法访问和窃取,只有对数据有访问权限的用户,才能看到数据,拿到数据。由于大量的非结构化数据可能需要不同的存储和访问机制,因此要形成对多源、多类型数据的统一安全访问控制机制,还是亟待解决的问题。大数据由于将更多、更敏感的数据汇集在一起,对潜在攻击者的吸引力更大,若攻击者成功实施一次攻击,将能得到更多的信息,“性价比”更高,这些都使得大数据更易成为被攻击的目标。LinkedIn在2012年650万用户账户密码泄露;雅虎遭到网络攻击,致使45万用户ID泄露。2011年12月,CSDN的安全系统遭到黑客攻击,600万用户的登录名、密码及邮箱遭到泄露。

7.互连互通与数据共享问题

大数据要发挥威力,需要融合多行业的数据分析决策,这在智慧城市建设中尤其重要。为实现跨行业的数据整合,需要制定统一的数据标准、交换接口以及共享协议,这样不同行业、不同部门、不同格式的数据才能基于一个统一的基础进行访问、交换和共享。对于数据访问,还须制定细致的访问权限,规定什么样的用户在什么样的场景下,可以访问什么类型的数据。在大数据及云计算时代,不同行业、企业的数据可能存放在统一的平台和数据中心之上,需要对一些敏感信息进行保护,比如涉及企业商业机密及交易信息方面的数据,虽然是依托平台来进行处理,但是除了企业自身的授权人员之外,要保证平台管理员以及其他企业都不能访问此类数据。1.4 大数据处理流程

整个大数据的处理流程可以定义为:在合适工具的辅助下,对广泛异构的数据源进行抽取和集成,结果按照一定的标准进行统一存储,并利用合适的数据分析技术对存储的数据进行分析,从中提取有益的知识并利用恰当的方式将结果展现给终端用户。具体来说,从数据源到数据的最终应用,其中的处理流程可以分为数据抽取与整合、数据分析、数据可视化。根据大数据处理的整个流程我们可以引出大数据所需的基础技术。大数据的处理流程如图1.1所示。图1.1 大数据的处理流程1.5 大数据技术

我们依据以上的大数据处理流程,总结梳理出大数据的技术栈,见表1.1。表1.1 大数据技术栈续表1.5.1 基础架构支持

大数据处理需要拥有大规模物理资源的云数据中心和具备高效的调度管理功能的云计算平台的支撑。云计算管理平台能为大型数据中心及企业提供灵活高效的部署、运行和管理环境,通过虚拟化技术支持异构的底层硬件及操作系统,为应用提供安全、高性能、高可扩展、高可靠和高伸缩性的云资源管理解决方案,降低应用系统开发、部署、运行和维护的成本,提高资源使用效率。

云计算平台可分为3类:以数据存储为主的存储型云平台,以数据处理为主的计算型云平台以及计算和数据存储处理兼顾的综合云计算平台。目前在国内外已经存在较多的云计算平台,开源的有OpenStack、CloudStack、Apache Hadoop、10gen MongoDB、Abiquo AbiCloud、加利福尼亚大学的Eucalyptus项目、Enomalism弹性云计算平台以及科学云计算平台Nimbus等。商业化的云计算平台有Google的Google AppEngine,核心技术包括MapReduce、Bigtable、GFS;微软的Azure平台;Amazon有EC2、S3、SimpleDB、SQS;Oracle EC2上的Oracle数据库、Oracle VM、Sun xVM; Saleforce的Force.com服务;EMC的Atoms云存储系统;阿里云;中国移动的BigCloud大云平台等。1.5.2 数据采集

足够的数据量是企业大数据战略建设的基础,因此数据采集是大数据价值挖掘中的重要的一环,其后的分析挖掘都建立在数据采集的基础上。

数据的采集有基于物联网传感器的采集,也有基于网络信息的数据采集。比如在智能交通中,数据的采集有基于GPS的定位信息采集、基于交通摄像头的视频采集、基于交通卡口的图像采集、基于路口的线圈信号采集等。而在互联网上的数据采集是对各类网络媒介,如搜索引擎、新闻网站、论坛、微博、博客、电商网站等的各种页面信息和用户访问信息进行采集,采集的内容主要有文本信息、URL、访问日志、日期和图片等。之后我们需要把采集到的各类数据进行清洗、过滤、去重等各项预处理并分类归纳存储。

在分布式系统中,经常需要采集各个节点的日志,然后进行分析。在数据量呈爆炸式增长的今天,数据的种类丰富多样,也有越来越多的数据需要将存储和计算放到分布式平台。数据采集过程中的ETL工具将分布的、异构数据源中的不同种类和结构的数据抽取到临时中间层后进行清洗、转换、分类、集成,最后加载到对应的数据存储系统,如数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。企业每天都会产生大量的日志数据,对这些日志数据的处理需要特定的日志系统。因为与传统的数据相比,大数据的体量巨大,产生速度非常快,对数据的预处理需要实时快速,因此在ETL的架构和工具选择上,也需要采用分布式内存数据、实时流处理系统等现代信息技术。根据实际生活环境中应用环境和需求的不同,目前已经产生了一些高效的数据采集工具,包括Flume、Scribe、Chukwa和Kafka等。1.5.3 数据存储

云计算中的数据存储是实现云计算系统架构中的一个重要组成部分。云存储专注于解决云计算中海量数据的存储问题,它既可以给云计算技术提供专业的存储解决方案,又可以独立发布存储服务。云存储将存储作为服务,它将分别位于网络中不同位置的大量类型各异的存储设备通过集群应用、网格技术和分布式文件系统等集合起来协同工作,通过应用软件进行业务管理,并通过统一的应用接口对外提供数据存储和业务访问功能。目前,云存储的兴起正在颠覆传统的存储系统架构,其正以良好的可扩展性、性价比和容错性等优势得到业界的广泛认同。云存储系统具有良好的可扩展性、容错性,以及内部实现对用户透明等特性,这一切都离不开分布式文件系统的支撑。现有的云存储分布式文件系统包括Google GFS、Hadoop HDFS、Lustre、FastDFS、Clemsom大学的PVFS、Sun PFS、加州大学Santa Cruz分校Sage Weil设计的Ceph和Taobao TFS等。

目前存在的数据库存储方案有SQL、NoSQL和NewSQL。

SQL是目前为止企业应用中最为成功的数据存储方案,仍有相当大一部分的企业把SQL数据库作为数据存储方案。关系型数据库能够较好地保证事务的ACID特性,但在可扩展性、可用性等方面,表现出较大的不足,并且只能处理结构化的数据,面对数据的多样性、处理数据的实时性等方面,都不能满足大数据时代环境下数据处理的需要。使用较多的SQL产品有IBMDB2、ORACLE、MySQL、MSSQL Server等。

NoSQL是为了解决SQL的不足而产生的。但它在设计时放松了事务的ACID特性。根据CAP定理,NoSQL数据库不可能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance)三个特性。NoSQL数据库在设计时经常会保证分区容错性,而牺牲一致性和可用性,因而NoSQL的应用范围也受到了很大的限制。如何构建具有高可扩展性、高可用性、高性能的,同时还能保证ACID事务特性的数据库就成为了新的发展方向。现有的NoSQL数据库有很多,例如HBase、Cassandra、MongoDB、CouchDB、Hypertable、Redis等。

NewSQL是为解决上述数据库存在的不足,顺应科技发展的产物。该类数据库要求,不仅要具有NoSQL对海量数据的存储管理能力,还要保持对传统数据库支持ACID和SQL等特性。目前NewSQL系统产品有H-Store、VoltDB、NuoDB、TokuDB、MemSQL等。1.5.4 数据计算

在大数据的环境下,数据计算除了标准的查询、统计、分析之外,主要还体现在数据挖掘、深度学习、社交计算、计算广告等几个方面。

数据挖掘又称从数据库中发现知识(KDD)、数据分析、数据融合以及决策支持。数据挖掘领域已经有了较长时间的发展,但随着研究的不断深入、应用的愈发广泛,数据挖掘的关注焦点也逐渐有了新的变化。其总的趋势是数据挖掘研究和应用更加“大数据化”和“社会化”。在用户层面,移动计算设备的普及与大数据革命带来的机遇使得搜索引擎对用户所处的上下文环境具有了前所未有的深刻认识,但对于如何将认识上的深入转化为用户信息获取过程的便利仍然缺乏成功经验。近年来,以用户个性化、用户交互等为代表的研究论文的数量大幅增加。除此之外,社交网络服务的兴起对互联网数据环境和用户群体均将形成关键性的影响,如何更好地面对相对封闭的社交网络数据环境和被社交关系组织起来的用户群体,也是数据挖掘面临的机遇与挑战。

深度学习是机器学习研究中的一个新的领域。它在于建立模拟人脑进行分析学习的神经网络,模仿人脑机制来解释一些特定类别的数据,例如图像、语音和文本。它是无监督学习的一种。深度学习的主要思想是增加神经网络中隐藏层的数量,使用大量的隐藏层来增强神经网络对特征筛选的能力,以增加网络层数的方式来取代之前依赖人工技巧的参数调优,从而能够用较少的参数表达出复杂的模型函数,从而逼近机器学习的终极目标——知识的自动发现。

社交网络每天都会产生大量的用户数据,它吸引着无数研究者从无序的数据中发掘有价值的信息。在社交网络的分析与研究过程中,会利用到社会学、心理学甚至是医学的基本理论来作为指导。社交网络上的传播模型,虚假信息和机器人账号的识别,基于社交网络信息对股市、大选以及传染病的预测,社区圈子的区别,社交网络中人物的影响力等,都可以作为社交网络中的研究课题。通过人工智能领域的机器学习、图论等算法对社交网络中行为和未来的趋势进行模拟和预测。

计算广告是一门正在兴起的分支学科。它由信息科学、统计学、计算机科学以及微观经济学等学科交叉融合而成。它涉及大规模搜索和文本分析、信息获取、统计模型、机器学习、分类、优化及微观经济学。计算广告学所面临的最主要挑战是在特定语境下特定用户和相应的广告之间找到“最佳匹配”。语境可以是用户在搜索引擎中输入的查询词,也可以是用户正在读的网页,还可以是用户正在看的电影等。而用户相关的信息可能非常多也可能非常少。潜在广告的数量可能达到几十亿。因此,取决于对“最佳匹配”的定义,面临的挑战可能导致在复杂约束条件下的大规模优化和搜索问题。

面向大数据处理的数据查询、统计、分析、挖掘等计算需求,促生了大数据计算的不同计算模式,整体上我们把大数据计算分为离线批处理计算和实时计算两种。

离线批处理计算模式最典型的应该是Google在2004年提出的MapReduce编程模型。

MapReduce的核心思想如下。

① 将大数据并行处理问题分而治之,即将一个大数据通过一定的数据划分方法,分成多个较小的具有同样计算过程的数据块,数据块之间不存在依赖关系,将每一个数据块分给不同的节点去处理,最后再将处理的结果进行汇总。

② 上升到抽象语言模型Map和Reduce。将对大量顺序式数据元素或者记录进行扫描和对每个数据元素或记录做相应的处理并获得中间结果信息的两个过程抽象为Map操作;将对中间结果进行收集整理和产生最终结果并输出的过程抽象为Reduce操作。

③ 以统一架构为程序员隐藏系统层细节,MapReduce提供的统一框架实现了自动并行化计算,可负责自动完成多种系统底层的相关处理,如计算任务的自动划分和调度,数据的自动化分布存储和划分,处理数据与计算任务的同步,结果数据的收集整理,系统通信、负载平等、计算性能优化处理,处理系统节点出错检测和失效恢复等,这些自动实现的并行计算,为程序员隐藏了系统层细节。

实时计算最重要的一个需求是能够实时响应计算结果,一般要求为秒级。主要有以下两种应用场景:一种是数据源是实时的、不间断的,同时要求对用户请求的响应时间也是实时的;另一种是数据量大,无法进行预算,但要求对用户请求实时响应。

实时计算的过程一般可以分为3个阶段:数据的产生与采集、数据的实时计算、实时查询服务。

数据的实时采集阶段,要保证可以完全地采集到所有的日志数据,为实时应用提供实时数据。响应的时间也要保证实时性,1秒左右的低延迟,系统的配置简单、部署容易、可靠稳定。目前,已经有较多的互联网企业有自己的数据采集工具,主要有Facebook的Scribe、Cloudera的Flume、LindedIn的Kafka、淘宝的TimeTunnel、Hadoop的Chukwa等,他们都可以满足每秒对数百兆日志数据的采集和传输需求。

数据的实时计算,包括数据的传输与分析计算。在流数据不断变化的运动过程中实时地进行分析,捕捉到可能对用户有用的信息,并把结果发送出去。整个过程中,数据分析处理系统是主动的,而用户却处于被动接收的状态。数据的实时计算框架需要能够适应流式数据的处理,可以进行不间断的查询,同时要求系统稳定可靠,具有较强的可扩展性和可维护性。目前较为主流的实时流计算框架包括Yahoo的S4、Twitter开源的Storm,还有Esper、Streambase、HStreaming等。

实时查询服务,是存储对象对外提供服务的过程。包括3种类型的数据库:一是全内存查询,其直接提供数据读取服务,定期转存到磁盘或者数据库,进行持久化;二是半内存查询,主要有Redis、Memcache、MongoDB、BerkeleyDB等内存数据库提供数据实时查询服务,由这些系统进行持久化操作;三是全磁盘查询,使用HBase等以分布式文件系统(HDFS)为基础的NoSQL数据库,对于key-value引擎,关键是设计好key的分布。1.5.5 展现与交互

计算结果需要以简单直观的方式展现出来,才能最终为用户所理解和使用,形成有效的统计、分析、预测及决策,应用到生产实践和企业运营中,因此大数据的展现技术,以及数据的交互技术在大数据全局中也占据重要的位置。

Excel形式的表格和图形化展示方式是人们熟知和使用已久的数

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载