大数据及其可视化(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-28 10:38:59

点击下载

作者:周苏 王文

出版社:中国铁道出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

大数据及其可视化

大数据及其可视化试读:

前言

大数据(Big Data)的力量正在积极地影响着社会的方方面面,它冲击着许多主要的行业,包括零售业、电子商务和金融服务业等,同时,也正在彻底地改变人们的教育方式、生活方式、工作方式。如今,通过简单、易用的移动应用和基于云端的数据服务,人们能够追踪自己的行为以及饮食习惯,还能提升个人的健康状况。因此,有必要真正理解大数据这个极其重要的议题。

中国是大数据最大的潜在市场之一。据估计,中国有近6亿网民,这就意味着中国的企业拥有绝佳的机会来更好地了解其客户并提供更个性化的体验,同时,为企业增加收入并提高利润。阿里巴巴就是一个很好的例子,其不但在商业模式上具有颠覆性,而且还掌握了与购买行为、产品需求和库存供应相关的海量数据。除了阿里巴巴高层的领导能力之外,大数据必然是其成功的一个关键因素。

然而,仅有数据是不够的。对于身处大数据时代的企业而言,成功的关键还在于找出大数据所隐含的真知灼见。“以前,人们总说信息就是力量,但如今,对数据进行分析、利用和挖掘才是力量之所在。”

很多年前,人们就开始对数据进行利用。例如,航空公司利用数据为机票定价,银行利用数据搞清楚贷款对象,信用卡公司则利用数据侦破信用卡诈骗等。但直到最近,数据才真正成为人们日常生活的一部分。随着谷歌(Google)以及QQ、微信、淘宝等的出现,大数据游戏被永远改变了。你和我,或者任何一个享受这些服务的用户都生成了一条数据足迹,它能够反映出人们的行为。每次进行搜索时,如查找某个人或者访问某个网站,都加深了这条足迹。互联网企业开始创建新技术来存储、分析激增的数据——结果就迎来了被称为“大数据”的创新爆炸。

进入2012年以来,由于互联网和信息行业的快速发展,大数据越来越引起人们的关注,已经引发云计算、互联网之后IT行业的又一大颠覆性的技术革命。人们用大数据来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。云计算主要为数据资产提供保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营信息、互联网世界中的商品物流信息,互联网世界中的人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题,也是云计算内在的灵魂和必然的升级方向。

对于在校大学生来说,大数据及其可视化的理念、技术与应用是一门理论性和实践性都很强的“必修”课程。在长期的教学实践中,我们体会到坚持“因材施教”的重要原则,把实践环节与理论教学相融合,抓实践教学促进理论知识的学习,是有效改善教学效果和提高教学水平的重要方法之一。本书的主要特色是:理论联系实际,结合一系列了解和熟悉大数据理念、技术与应用的学习和实践活动,把大数据及其可视化的相关概念、基础知识和技术技巧融入实践中,使学生保持浓厚的学习热情,加深对大数据技术的兴趣、认识、理解和掌握。

本书系统、全面地介绍了大数据及其可视化的基本知识和应用技能,详细介绍了大数据与大数据时代、数据可视化之美、Excel数据可视化方法、Excel数据可视化应用、大数据的商业规则、大数据激发创造力、大数据预测分析、支撑大数据的技术、数据引导可视化、Tableau可视化初步、Tableau数据管理与计算、Tableau可视化设计、Tableau地图与预测分析,以及Tableau分享与发布等内容,具有较强的系统性、可读性和实用性。

本课程的教学评测可以从这样几个方面入手,即:(1)每章课前【案例导读】(14次)。(2)每章课后【实验与思考】(14次)。(3)课程设计(附录)。(4)课程实验总结(附录)。(5)结合平时考勤。(6)任课老师认为必要的其他考核方法。

与本书配套的教学PPT课件等文档可从中国铁道出版社教学资源网站(www.tdpress.com\51eds)的下载区下载,欢迎教师与作者交流并索取为本书教学配套的相关资料并交流:zhousu@qq.com,QQ:81505050,个人博客:http://blog.sina.com.cn/zhousu58。

本书由周苏、王文等编著,并得到浙江大学城市学院、浙江商业职业技术学院、温州安防职业技术学院等多所院校师生的支持,王硕苹、张丽娜、张健、吴林华等参与了本书的部分编写工作,在此一并表示感谢!

由于编者水平有限,加之时间仓促,书中难免存在疏漏和不足之处,恳请读者批评指正。

周苏2016年初夏于西子湖畔第1章大数据与大数据时代【案例导读】 亚马逊推荐系统

虽然亚马逊的故事大多数人都耳熟能详,但只有少数人知道它早期的书评内容最初是由人工完成的。当时,亚马逊公司(见图1-1)聘请了一个由20多名书评家和编辑组成的团队,他们写书评、推荐新书,挑选非常有特色的新书标题放在亚马逊的网页上。这个团队创立了“亚马逊的声音”版块,成为当时公司皇冠上的一颗宝石,是其竞争优势的重要来源。《华尔街日报》的一篇文章中热情地称他们为全美最有影响力的书评家,因为他们使得书籍销量猛增。

图1-1 亚马逊公司

亚马逊公司的创始人及总裁杰夫·贝索斯决定尝试一个极富创造力的想法:根据客户个人以前的购物喜好,为其推荐相关的书籍。

从一开始,亚马逊就从每一个客户那里搜集了大量的数据。比如说,他们购买了什么书籍?哪些书他们只浏览却没有购买?他们浏览了多久?哪些书是他们一起购买的?客户的信息数据量非常大,所以亚马逊必须先用传统的方法对其进行处理,通过样本分析找到客户之间的相似性。但这些推荐信息是非常原始的,就如同你在买一件婴儿用品时,会被淹没在一堆差不多的婴儿用品中一样。詹姆斯·马库斯回忆说:“推荐信息往往为你提供与你以前购买物品有微小差异的产品,并且循环往复。”

亚马逊的格雷格·林登很快就找到了一个解决方案。他意识到,推荐系统实际上并没有必要把顾客与其他顾客进行对比,这样做在技术上也比较烦琐,需要做的是找到产品之间的关联性。1998年,林登和他的同事申请了著名的“item-to-item”协同过滤技术的专利。方法的转变使技术发生了翻天覆地的变化。

因为估算可以提前进行,所以推荐系统不仅快,而且适用于各种各样的产品。因此,当亚马逊跨界销售除书以外的其他商品时,也可以对电影或烤面包机这些产品进行推荐。由于系统中使用了所有的数据,推荐会更理想。林登回忆道:“在组里有句玩笑话,说的是如果系统运作良好,亚马逊应该只推荐你一本书,而这本书就是你将要买的下一本书。”

现在,公司必须决定什么应该出现在网站上,是亚马逊内部书评家写的个人建议和评论,还是由机器生成的个性化推荐和畅销书排行榜?

林登做了一个关于评论家所创造的销售业绩和计算机生成内容所产生的销售业绩的对比测试,结果他发现两者之间相差甚远。他解释说,通过数据推荐产品所增加的销售远远超过书评家的贡献。计算机可能不知道为什么喜欢海明威作品的客户会购买菲茨杰拉德的书。但是这似乎并不重要,重要的是销量。最后,编辑们看到了销售额分析,亚马逊也不得不放弃每次的在线评论,最终,书评组被解散。林登回忆说:“书评团队被打败、被解散,我感到非常难过。但是,数据没有说谎,人工评论的成本是非常高的。”

如今,据说亚马逊销售额的1/3都来自于它的个性化推荐系统。有了它,亚马逊不仅使很多大型书店和音乐唱片商店歇业,而且当地数百个自认为有自己风格的书商也难免受转型之风的影响。

知道人们为什么对这些信息感兴趣可能是有用的,但这个问题目前并不是很重要,而知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅仅只是电子商务。所有行业中的销售人员早就被告知,他们需要了解是什么让客户做出了选择,要把握客户做决定背后的真正原因,因此专业技能和多年的经验受到高度重视。大数据却显示,还有另外一个在某些方面更有用的方法。亚马逊的推荐系统梳理出了有趣的相关关系,但不知道背后的原因——知道是什么就够了,没必要知道为什么。(本案例由作者根据相关资料改写)

阅读上文,请思考、分析并简单记录:(1)你了解亚马逊等电商网站的推荐系统吗?请列举一个这样的实例(你选择购买什么商品,网站又给你推荐了其他什么商品)。

答:____________________________________________________

________________________________________________________________

________________________________________________________________(2)亚马逊书评组和林登推荐系统各自成功的基础是什么?

答:____________________________________________________

________________________________________________________________

________________________________________________________________(3)为什么书评组最终输给了推荐系统?请阐述你的观点。

答:____________________________________________________

________________________________________________________________

________________________________________________________________(4)简单描述你所知道的上一周内发生的国际、国内或者身边的大事。

答:____________________________________________________

________________________________________________________________

________________________________________________________________1.1大数据概述

信息社会所带来的好处是显而易见的:每个人口袋里都揣有一部手机,每台办公桌上都放着一台计算机,每间办公室内都连接到局域网甚至互联网。半个世纪以来,随着计算机技术全面和深度地融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。信息总量的变化导致了信息形态的变化——量变引起质变。最先经历信息爆炸的学科,如天文学和基因学,创造出了“大数据”(Big Data)这个概念。如今,这个概念几乎应用到所有人类致力于发展的领域中。1.1.1 数据与信息

数据是反映客观事物属性的记录,是信息的具体表现形式。数据经过加工处理之后,就成为信息;而信息需要经过数字化转变成数据才能存储和传输。所以,数据和信息之间是相互联系的。

数据和信息也是有区别的。从信息论的观点来看,描述信源的数据是信息和数据冗余之和,即数据=信息+数据冗余。数据是数据采集时提供的,信息是从采集的数据中获取的有用信息,即信息可以简单地理解为数据中包含的有用的内容。

一个消息越不可预测,它所含的信息量就越大。事实上,信息的基本作用是消除人们对事物了解的不确定性。信息量是指从N个相等的可能事件中选出一个事件所需要的信息度量和含量。从这个定义看,信息量与概率是密切相关的。1.1.2 天文学——信息爆炸的起源

综合观察社会各个方面的变化趋势,我们能真正意识到信息爆炸或者说大数据的时代已经到来。以天文学为例,2000年斯隆数字巡天项目(见图1-2)启动时,位于新墨西哥州的望远镜在短短几周内搜集到的数据,就比世界天文学历史上总共搜集的数据还要多。截至2010年,信息档案已经高达1.4×2 42 B。不过,预计2016年底,在智利投入使用的大型视场全景巡天望远镜在5天之内即可获得同样多的信息。

天文学领域发生的变化在社会各个领域都在发生。2003年,人类第一次破译人体基因密码时,辛苦工作了十年才完成了三十亿对碱基对的排序。大约十年之后,世界范围内的基因仪每15min就可以完成同样的工作。在金融领域,美国股市每天的成交量高达70亿股,而其中2/3的交易都是由建立在数学模型和算法之上的计算机程序自动完成的,这些程序运用海量数据来预测利益和降低风险。

图1-2 美国斯隆数字巡天望远镜

互联网公司更是要被数据淹没。谷歌公司每天要处理超过24拍字节(PB,2 50 B)的数据,这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物所含数据量的上千倍。

从科学研究到医疗保险,从银行业到互联网,各个不同的领域都在讲述着一个类似的故事,那就是爆发式增长的数据量。这种增长超过了人们创造机器的速度,甚至超过了人们的想象。人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度快9倍,每个人都受到了这种极速发展的冲击。

以纳米技术为例。纳米技术专注于把东西变小而不是变大。其原理就是当事物到达分子级别时,它的物理性质就会发生改变。一旦知道这些新的性质,就可以用同样的原料做以前无法做的事情。铜本来是用来导电的物质,但它一旦到达纳米级别就不能在磁场中导电了。银离子具有抗菌性,但当它以分子形式存在时,这种性质就会消失。一旦到达纳米级别,金属可以变得柔软,陶土可以具有弹性。同样,当人们增加所利用的数据量时,也就可以做很多在小数据量的基础上无法完成的事情。

大数据的科学价值和社会价值正是体现在这里。一方面,对大数据的掌握程度可以转化为经济价值的来源。另一方面,大数据已经撼动了世界的方方面面,从商业科技到医疗、政府、教育、经济、人文以及社会的其他各个领域。尽管人们还处在大数据时代的初期,但人们的日常生活已经离不开它。1.1.3 大数据的定义

所谓大数据,狭义上可以定义为:用现有的一般技术难以管理的大量数据的集合。对大量数据进行分析,并从中获得有用观点,这种做法在一部分研究机构和大企业中早已存在。现在的大数据和过去相比,主要有3点区别:第一,随着社交媒体和传感器网络等的发展,人们身边正产生出大量且多样的数据;第二,随着硬件和软件技术的发展,数据的存储、处理成本大幅下降;第三,随着云计算的兴起,大数据的存储、处理环境已经没有必要自行搭建。

所谓“用现有的一般技术难以管理”,是指用目前在企业数据库占据主流地位的关系型数据库无法进行管理的、具有复杂结构的数据。或者也可以说,是指由于数据量的增大,导致对数据的查询(Query)响应时间超出允许范围的庞大数据。

研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

麦肯锡说:“大数据指的是所涉及的数据集规模已经超过了传统数据库软件获取、存储、处理和分析的能力。这是一个被故意设计成主观性的定义,并且是一个关于多大的数据集才能被认为是大数据的可变定义,即并不定义大于一个特定数字的TB才叫大数据。因为随着技术的不断发展,符合大数据标准的数据集容量也会增长;并且定义随不同的行业也有变化,这依赖于在一个特定行业通常使用何种软件和数据集有多大。因此,大数据在今天不同行业中的范围可以从几十TB到几PB。”

随着“大数据”的出现,数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用正逐渐成为行业人士争相追捧的利润焦点,在全球引领了又一轮数据技术革新的浪潮。1.1.4 用3V描述大数据特征

从字面来看,“大数据”这个词可能会让人觉得只是容量非常大的数据集合而已。但容量只不过是大数据特征的一个方面,如果只拘泥于数据量,就无法深入理解当前围绕大数据所进行的讨论。因为“用现有的一般技术难以管理”这样的状况,并不仅仅是由于数据量增大这一个因素所造成的。

IBM说:“可以用3个特征相结合来定义大数据:数量(Volume,或称容量)、种类(Variety,或称多样性)和速度(Velocity),或者就是简单的3V,即庞大容量、极快速度和种类丰富的数据”如图1-3所示。

1.Volume(数量)

用现有技术无法管理的数据量,从现状来看,基本上是指从几十TB到几PB这样的数量级。当然,随着技术的进步,这个数值也会不断变化。

如今,存储的数据数量正在急剧增长中,人们存储所有事物包括:环境数据、财务数据、医疗数据、监控数据等。有关数据量的对话已从TB级别转向PB级别,并且不可避免地会转向ZB级别。但是,随着可供企业使用的数据量不断增长,可处理、理解和分析的数据的比例却不断下降。

图1-3 按数量、种类和速度来定义大数据

2.Variety(种类、多样性)

随着传感器、智能设备以及社交协作技术的激增,企业的数据也变得更加复杂,因为它不仅包含传统的关系型数据,还包含来自网页、互联网日志文件(包括单击流数据)、搜索索引、社交媒体论坛、电子邮件、文档、主动和被动系统的传感器数据等原始、半结构化和非结构化数据。

种类表示所有的数据类型。其中,爆发式增长的一些数据,如互联网上的文本数据、位置信息、传感器数据、视频等,用企业中主流的关系型数据库是很难存储的,它们都属于非结构化数据。

当然,在这些数据中,有一些是过去就一直存在并保存下来的。和过去不同的是,除了存储,还需要对这些大数据进行分析,并从中获得有用的信息,例如监控摄像机中的视频数据。近年来,超市、便利店等零售企业几乎都配备了监控摄像机,最初目的是为了防范盗窃,但现在也出现了使用监控摄像机的视频数据来分析顾客购买行为的案例。

例如,美国高级文具制造商万宝龙(Montblane)过去是凭经验和直觉来决定商品陈列布局的,现在尝试利用监控摄像头对顾客在店内的行为进行分析。通过分析监控摄像机的数据,将最想卖出去的商品移动到最容易吸引顾客目光的位置,使得销售额提高了20%。

3.Velocity(速度)

数据产生和更新的频率,也是衡量大数据的一个重要特征。就像搜集和存储的数据量和种类发生了变化一样,生成和需要处理数据的速度也在变化。不要将速度的概念限定为与数据存储相关的增长速率,应动态地将此定义应用到数据,即数据流动的速度。有效处理大数据需要在数据变化的过程中对它的数量和种类进行分析,而不只是在它静止后执行分析。

例如,遍布全国的便利店在24h内产生的POS机数据、电商网站中由用户访问所产生的网站点击流数据、高峰时达到每秒近万条的微信短文、全国公路上安装的交通堵塞探测传感器和路面状况传感器(可检测结冰、积雪等路面状态)等,每天都在产生着庞大的数据。

IBM在3V的基础上又归纳总结了第四个V——Veracity(真实和准确)。只有真实而准确的数据才能让对数据的管控和治理真正有意义。随着社交数据、企业内容、交易与应用数据等新数据源的兴起,传统数据源的局限性被打破,企业愈发需要有效的信息治理以确保其真实性及安全性。

IDC(互联网数据中心)说:“大数据是一个貌似不知道从哪里冒出来的大的动力。但实际上,大数据并不是新生事物。然而,它确实正在进入主流,并得到重大关注,这是有原因的。廉价的存储、传感器和数据采集技术的快速发展、通过云和虚拟化存储设施增加的信息链路,以及创新软件和分析工具,正在驱动着大数据。大数据不是一个‘事物’,而是一个跨多个信息技术领域的动力/活动。大数据技术描述了新一代的技术和架构,其被设计用于:通过使用高速(Velocity)的采集、发现和/或分析,从超大容量(Volume)的多样(Variety)数据中经济地提取价值(Value)。”

这个定义除了揭示大数据传统的3V基本特征,还增添了一个新特征:Value(价值)。总之,大数据是个动态的定义,不同行业根据其应用的不同有着不同的理解,其衡量标准也在随着技术的进步而改变。

从广义层面上再为大数据下一个定义(见图1-4):“所谓大数据,是一个综合性概念,它包括因具备3V特征而难以进行管理的数据,对这些数据进行存储、处理、分析的技术,以及能够通过分析这些数据获得实用意义和观点的人才和组织。”

图1-4 广义的大数据“存储、处理、分析的技术”,指的是用于大规模数据分布式处理的框架Hadoop、具备良好扩展性的NoSQL数据库,以及机器学习和统计分析等;“能够通过分析这些数据获得实用意义和观点的人才和组织”,指的是目前十分紧俏的“数据科学家”这类人才,以及能够对大数据进行有效运用的组织。1.1.5 大数据的结构类型

大数据具有多种形式,从高度结构化的财务数据,到文本文件、多媒体文件和基因定位图的任何数据,都可称为大数据。由于数据自身的复杂性,作为一个必然的结果,处理大数据的首选方法就是在并行计算的环境中进行大规模并行处理(Massively Parallel Processing,MPP),这使得同时发生的并行摄取、并行数据装载和分析成为可能。实际上,大多数的大数据都是非结构化或半结构化的,这需要不同的技术和工具来处理和分析。

大数据最突出的特征是它的结构。图1-5显示了几种不同数据结构类型数据的增长趋势,由图可知,未来数据增长的80%~90%将来自于不是结构化的数据类型(半、准和非结构化)。

图1-5 数据增长日益趋向非结构化

虽然图1-5显示了4种不同的、相分离的数据类型,实际上,有时这些数据类型是可以被混合在一起的。例如,有一个传统的关系数据库管理系统保存着一个软件支持呼叫中心的通话日志,这里有典型的结构化数据,如日期/时间戳、机器类型、问题类型、操作系统,这些都是在线支持人员通过图形用户界面上的下拉式菜单输入的。另外,还有非结构化数据或半结构化数据,如自由形式的通话日志信息,这些可能来自包含问题的电子邮件,或者技术问题和解决方案的实际通话描述。另外一种可能是与结构化数据有关的实际通话的语音日志或者音频文字实录。即使是现在,大多数分析人员还无法分析这种通话日志历史数据库中最普通和高度结构化的数据,因为挖掘文本信息是一项强度很大的工作,并且无法简单地实现自动化。

人们通常最熟悉结构化数据的分析,然而,半结构化数据(XML)、“准”结构化数据(网站地址字符串)和非结构化数据代表了不同的挑战,需要不同的技术来分析。

如今,人们不再认为数据是静止和陈旧的。但在以前,一旦完成了搜集数据的目的之后,数据就会被认为已经没有用处了。比如说,在飞机降落之后,票价数据就没有用了。又如,某城市的公交车因为价格不依赖于起点和终点,所以能够反映重要通勤信息的数据就可能被丢弃——设计人员如果没有大数据的理念,就会丢失掉很多有价值的数据。

今天,大数据是人们获得新的认知、创造新的价值的源泉,大数据还是改变市场、组织机构,以及政府与公民关系的方法。大数据时代对人们的生活,以及与世界交流的方式都提出了挑战。实际上,大数据的精髓在于人们分析信息时的3个转变,这些转变将改变人们理解和组建社会的方法,且是相互联系和相互作用的。1.2思维变革之一:样本=总体

大数据时代的第一个转变,是要分析与某事物相关的更多的数据,有时甚至可以处理和某个特别现象相关的所有数据,而不再是只依赖于分析随机采样的少量的数据样本。

19世纪以来,当面临大量数据时,社会都依赖于采样分析。但是采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物。以前人们通常把这看成是理所当然的限制,但高性能数字技术的流行让人们意识到,这其实是一种人为的限制。与局限在小数据范围相比,使用一切数据为人们带来了更高的精确性,也让人们看到了一些以前样本无法揭示的细节信息。

在某些方面,人们依然没有完全意识到自己拥有了能够搜集和处理更大规模数据的能力,仍在信息匮乏的假设下做很多事情,假定自己只能搜集到少量信息。这是一个自我实现的过程,人们甚至发展了一些使用尽可能少的信息的技术。例如,统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。事实上,人们形成了一种习惯,那就是在制度、处理过程和激励机制中尽可能地减少数据的使用。1.2.1 小数据时代的随机采样

数千年来,政府一直都试图通过搜集信息来管理国民,只是到最近,小企业和个人才有可能拥有大规模搜集和分类数据的能力。

以人口普查为例。据说古代埃及曾进行过人口普查,《旧约》和《新约》中对此都有所提及。那次由奥古斯都恺撒(见图1-6)主导实施的人口普查,提出了“每个人都必须纳税”。

图1-6 奥古斯都恺撒

1086年的《末日审判书》对当时英国的人口、土地和财产做了一个前所未有的全面记载。皇家委员穿越整个国家对每个人、每件事都做了记载,然而,人口普查是一项耗资且费时的事情,尽管如此,当时搜集的信息也只是一个大概情况,实施人口普查的人也知道他们不可能准确地记录下每个人的信息。实际上,“人口普查”这个词来源于拉丁语的“censere”,本意就是推测、估算。

三百多年前,一个名叫约翰·格朗特的英国缝纫用品商提出了一个很有新意的方法,来推算出鼠疫时期伦敦的人口数,这种方法就是后来的统计学。这个方法不需要一个人一个人地计算,也比较粗糙,但采用这个方法,人们可以利用少量有用的样本信息来获取人口的整体情况。虽然后来证实他能够得出正确的数据仅仅是因为运气好,但在当时他的方法大受欢迎。样本分析法一直都有较大的漏洞,因此,无论是进行人口普查还是其他大数据类的任务,人们还是一直使用清点这种“野蛮”的方法。

考虑到人口普查的复杂性以及耗时耗费的特点,政府极少进行普查。古罗马在拥有数十万人口时每5年普查一次。美国宪法规定每10年进行一次人口普查,而随着国家人口越来越多,只能以百万计数。直到19世纪,这样不频繁的人口普查依然很困难,因为数据变化的速度超过了人口普查局统计分析的能力。

新中国成立后,先后于1953、1964和1982年举行过3次人口普查。前3次人口普查是不定期进行的,自1990年第4次全国人口普查开始改为定期进行。根据《中华人民共和国统计法实施细则》和国务院的决定以及国务院2010年颁布的《全国人口普查条例》规定,人口普查每10年进行一次,尾数逢0的年份为普查年度。两次普查之间,进行一次简易人口普查。2020年为第七次全国人口普查时间。

新中国第一次人口普查的标准时间是1953年6月30日24时,所谓人口普查的标准时间,就是规定一个时间点,无论普查员入户登记在哪一天进行,登记的人口及其各种特征都是反映那个时间点上的情况。根据上述规定,不管普查员在哪天进行入户登记,普查对象所申报的都应该是标准时间的情况。通过这个标准时间,所有普查员普查登记完成后,经过汇总就可以得到全国人口的总数和各种人口状况的数据。1953年11月1日发布了人口普查的主要数据,当时全国人口总数为601938035人。

第六次人口普查的标准时间是2010年11月1日零时。2011年4月,发布了第六次全国人口普查主要数据。此次人口普查登记的全国总人口为1339724852人。与2000年第五次人口普查相比,10年增加7390万人,增长5.84%,年平均增长0.57%,比1990年到2000年年均1.07%的长率下降了0.5个百分点。

美国在1880年进行的人口普查,耗时8年才完成数据汇总。因此,他们获得的很多数据都是过时的。1890年进行的人口普查,预计要花费13年的时间来汇总数据。然而,税收分摊和国会代表人数确定都是建立在人口的基础上的,这些必须获得正确且及时的数据,很明显,人们已有的数据处理工具已经不适用当时的情况。后来,美国人口普查局就委托发明家赫尔曼·霍尔瑞斯(被称为现代自动计算之父)用他的穿孔卡片制表机(见图1-7)来完成1890年的人口普查。

图1-7 霍尔瑞斯普查机

经过大量的努力,霍尔瑞斯成功地在1年时间内完成了人口普查的数据汇总工作。这在当时简直就是一个奇迹,它标志着自动处理数据的开端,也为后来IBM公司的成立奠定了基础。但是,将其作为搜集处理大数据的方法依然过于昂贵。毕竟,每个美国人都必须填一张可制成穿孔卡片的表格,然后再进行统计。对于一个跨越式发展的国家而言,十年一次的人口普查的滞后性已经让普查失去了大部分意义。

这就是问题所在,是利用所有的数据还是仅仅采用一部分呢?最明智的自然是得到有关被分析事物的所有数据,但是,当数量无比庞大时,这又不太现实。如何选择样本?事实证明,问题的关键是选择样本时的随机性。统计学家们证明:采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。虽然听起来很不可思议,但事实上,研究表明,当样本数量达到某个值之后,从新个体身上得到的信息会越来越少,就如同经济学中的边际效应递减一样。

在商业领域,随机采样被用来监管商品质量。这使得监管商品质量和提升商品品质变得更容易,花费也更少。以前,全面的质量监管要求对生产出来的每个产品进行检查,而现在只需从一批商品中随机抽取部分样品进行检查即可。本质上来说,随机采样让大数据问题变得更加切实可行。同理,它将客户调查引进了零售行业,将焦点讨论引进了政治界,也将许多人文问题变成了社会科学问题。

随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨。但这只是一条捷径,是在不可搜集和分析全部数据的情况下的选择,它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机性,但是实现采样的随机性非常困难。一旦采样过程中存在任何偏见,分析结果就会相去甚远。此外,随机采样不适合考察子类别的情况。因为一旦继续细分,随机采样结果的错误率会大大增加。因此,在宏观领域起作用的方法在微观领域却失去了作用。1.2.2 大数据与乔布斯的癌症治疗

由于技术成本大幅下跌以及在医学方面的广阔前景,个人基因排序(DNA分析)成为一门新兴产业。从2007年起,硅谷的新兴科技公司23andMe就开始分析人类基因,价格仅为几百美元。这可以揭示出人类遗传密码中一些会导致其对某些疾病抵抗力差的特征,如乳腺癌和心脏病。23andMe希望能通过整合顾客的DNA和健康信息,了解到用其他方式不能获取的新信息。公司对某人的一小部分DNA进行排序,标注出几十个特定的基因缺陷。这只是该人整个基因密码的样本,还有几十亿个基因碱基对未排序。最后,23andMe只能回答其标注过的基因组表现出来的问题。发现新标注时,该人的DNA必须重新排序,更准确地说,是相关的部分必须重新排列。只研究样本而不是整体,有利有弊:能更快更容易地发现问题,但不能回答事先未考虑到的问题。

苹果公司的传奇总裁史蒂夫·乔布斯在与癌症斗争的过程中采用了不同的方式,成为世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用,这是23andMe报价的几百倍之多。所以,他得到了包括整个基因密码的数据文档。

对于一个普通的癌症患者,医生只能期望他的DNA排列同试验中使用的样本足够相似。但是,史蒂夫·乔布斯的医生们能够基于乔布斯的特定基因组成,按所需效果用药。如果癌症病变导致药物失效,医生可以及时更换另一种药。乔布斯曾经开玩笑地说:“我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人。”虽然他的愿望都没有实现,但是这种获得所有数据而不仅是样本的方法还是将他的生命延长了好几年。1.2.3 全数据模式:样本=总体

采样的目的是用最少的数据得到最多的信息,而当人们可以获得海量数据时,采样也就失去了意义。如今,感应器、手机导航、网站点击和微信等被动地搜集了大量数据,而计算机可以轻易地对这些数据进行处理——数据处理技术已经发生了翻天覆地的改变。

在很多领域,从搜集部分数据到搜集尽可能多的数据的转变已经发生。如果可能,人们会搜集所有的数据,即“样本=总体”,这是指人们能对数据进行深度探讨。

分析整个数据库,而不是对一个小样本进行分析,能够提高微观层面分析的准确性。所以,人们经常会放弃样本分析这条捷径,而选择搜集全面而完整的数据。人们需要足够的数据处理和存储能力,也需要最先进的分析技术。同时,简单廉价的数据搜集方法也很重要。过去,这些问题中的任何一个都很棘手。在一个资源有限的时代,要解决这些问题需要付出很高的代价。但现在,解决这些难题已经变得简单容易得多。曾经只有大公司才能做到的事情,现在绝大部分的公司都可以做到。1.3思维变革之二:接受数据的混杂性

大数据时代的第二个转变,是人们乐于接受数据的纷繁复杂,而不再一味追求其精确性。

在越来越多的情况下,使用所有可获取的数据变得更为可能,但为此也要付出一定的代价。数据量的大幅增加会造成结果的不准确,与此同时,一些错误的数据也会混进数据库。如何避免这些问题,适当忽略微观层面上的精确度会让人们在宏观层面拥有更好的洞察力。1.3.1 允许不精确

对“小数据”而言,最基本、最重要的要求是减少错误,保证质量。因为搜集的信息量比较少,所以必须确保记录下来的数据尽量精确。无论是确定天体的位置还是观测显微镜下物体的大小,为了使结果更加准确,很多科学家都致力于优化测量的工具,发展了可以准确搜集、记录和管理数据的方法。在采样时,对精确度的要求更高更苛刻。因为搜集信息的有限性意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。

然而,在不断涌现的新情况里,允许不精确地出现已经成为一个亮点。因为放松了容错的标准,人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情。这样就不是大量数据优于少量数据那么简单了,而是大量数据创造了更好的结果。

同时,人们需要与各种各样的混乱作斗争。混乱,简单地说就是随着数据的增加,错误率也会相应增加。所以,如果桥梁的压力数据量增加1000倍,其中的部分读数就可能是错误的,而且随着读数量的增加,错误率可能也会继续增加。在整合来源不同的各类信息时,因为它们通常不完全一致,所以也会加大混乱程度。

混乱还可以指格式的不一致性,因为要达到格式一致,就需要在进行数据处理之前仔细地清洗数据,而这在大数据背景下很难做到。

当然,在萃取或处理数据时,混乱也会发生。因为在进行数据转化时,我们是在把它变成另外的事物。比如,葡萄是温带植物,温度是葡萄生长发育的重要因素,假设要测量一个葡萄园的温度,但是整个葡萄园只有一个温度测量仪,那就必须确保这个测量仪是精确的而且能够一直工作。反过来,如果每100棵葡萄树就有一个测量仪,有些测试的数据可能会是错误的,可能会更加混乱,但众多的读数合起来就可以提供一个更加准确的结果。因为这里面包含了更多的数据,而它不仅能抵消掉错误数据造成的影响,还能提供更多的额外价值。

大数据在多大程度上优于算法,这个问题在自然语言处理上表现得很明显。2000年,微软研究中心的米歇尔·班科和埃里克·布里尔一直在寻求改进Word程序中语法检查的方法。但是他们不能确定是努力改进现有的算法、研发新的方法,还是添加更加细腻精致的特点更有效。所以,在实施这些措施之前,他们决定往现有的算法中添加更多的数据,看看会有什么不同的变化。很多对计算机学习算法的研究都建立在百万字左右的语料库基础上。最后,他们决定往4种常见的算法中逐渐添加数据,先是一千万字,再到一亿字,最后到十亿。

结果有点令人吃惊。他们发现,随着数据的增多,4种算法的表现都大幅提高。当数据只有500万时,有一种简单的算法表现得很差,但当数据达10亿时,它变成了表现最好的,准确率从原来的75%提高到了95%以上。与之相反地,在少量数据情况下运行最好的算法,在加入更多的数据时,也会像其他的算法一样有所提高,但是却变成了在大量数据条件下运行最不好的。

后来,班科和布里尔在他们发表的研究论文中写到,“如此一来,我们得重新衡量一下更多的人力物力是应该消耗在算法发展上还是在语料库发展上。”1.3.2 大数据的简单算法与小数据的复杂算法

20世纪40年代,计算机由真空管制成,要占据整个房间这么大的空间。而机器翻译也只是计算机开发人员的一个想法。所以,计算机翻译也成了亟待解决的问题。

最初,计算机研发人员打算将语法规则和双语词典结合在一起。1954年,IBM以计算机中的250个词语和六条语法规则为基础,将60个俄语词组翻译成英语,结果振奋人心。IBM701通过穿孔卡片读取了一句话,并将其译成了“我们通过语言来交流思想”。在庆祝这个成就的发布会上,一篇报道提到这60句话翻译得很流畅。这个程序的指挥官利昂·多斯特尔特表示,他相信“在三五年后,机器翻译将会变得很成熟”。

事实证明,计算机翻译最初的成功误导了人们。1966年,一群机器翻译的研究人员意识到,翻译比他们想象的更困难,他们不得不承认自己的失败。机器翻译不能只是让计算机熟悉常用规则,还必须教会计算机处理特殊的语言情况。毕竟,翻译不仅仅只是记忆和复述,也涉及选词,而明确地教会计算机这些非常不现实。

在20世纪80年代后期,IBM的研发人员提出了一个新的想法。与单纯教给计算机语言规则和词汇相比,他们试图让计算机自己估算一个词或一个词组适合用来翻译另一种语言中的一个词和词组的可能性,然后再决定某个词和词组在另一种语言中的对等词和词组。

20世纪90年代,IBM这个名为Candide的项目花费了大概十年的时间,将大约有300万句之多的加拿大议会资料译成了英语和法语并出版。由于是官方文件,翻译的标准非常高。用那个时候的标准来看,数据量非常之庞大。统计机器学习从诞生之日起,就聪明地把翻译的挑战变成了一个数学问题,而这似乎很有效,计算机翻译能力在短时间内就提高了很多。但这次飞跃之后,IBM公司尽管投入了很多资金,但取得的成效不大。最终,IBM公司停止了这个项目。

2006年,谷歌公司也开始涉足机器翻译,这被当作实现“搜集全世界的数据资源,并让人人都可享受这些资源”这个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的数据库,也就是全球的互联网,而不再只利用两种语言之间的文本翻译。

为了训练计算机,谷歌翻译系统会吸收它能找到的所有翻译。它从各种各样语言的公司网站上寻找对译文档,还会寻找联合国和欧盟这些国际组织发布的官方文件和报告的译本。它甚至会吸收速读项目中的书籍翻译。谷歌翻译部的负责人弗朗兹·奥齐是机器翻译界的权威,他指出,“谷歌的翻译系统不会像Candide一样只是仔细地翻译300万句话,它会掌握用不同语言翻译的质量参差不齐的数十亿页的文档。”不考虑翻译质量的话,上万亿的语料库就相当于950亿句英语。

尽管其输入源很混乱,但较其他翻译系统,谷歌的翻译质量相对而言还是最好的,而且可翻译的内容更多。到2012年年中,谷歌数据库涵盖了60多种语言,甚至能够接受14种语言的语音输入,并有很流利的对等翻译。之所以能做到这些,是因为它将语言视为能够判别可能性的数据,而不是语言本身。如果要将印度语译成加泰罗尼亚语,谷歌就会把英语作为中介语言。因为在翻译时它能适当增减词汇,所以谷歌的翻译比其他系统的翻译灵活很多。

谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制与这是因为谷歌翻译增加了很多各种各样的数据。从谷歌的例子来看,它之所以能比IBM的Candide系统多利用成千上万的数据,是因为它接受了有错误的数据。2006年,谷歌发布的上万亿的语料库,就是来自于互联网的一些废弃内容。这就是“训练集”,可以正确地推算出英语词汇搭配在一起的可能性。

谷歌公司人工智能专家彼得·诺维格在一篇题为《数据的非理性效果》的文章中写道,“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”他们指出混杂是关键。“由于谷歌语料库的内容来自于未经过滤的网页内容,所以会包含一些不完整的句子、拼写错误、语法错误以及其他各种错误。况且,它也没有详细的人工纠错后的注解。但是,谷歌语料库的数据优势完全压倒了缺点。”1.3.3 纷繁的数据越多越好

通常传统的统计学家都很难容忍错误数据的存在,在搜集样本时,他们会用一整套的策略来减少错误发生的概率。在结果公布之前,他们也会测试样本是否存在潜在的系统性偏差。这些策略包括根据协议或通过受过专门训练的专家来采集样本。但是,即使只是少量的数据,这些规避错误的策略实施起来还是耗费巨大。尤其是当搜集所有数据时,在大规模的基础上保持数据搜集标准的一致性不太现实。

如今,人们已经生活在信息时代,人们掌握的数据库也越来越全面,包括了与这些现象相关的大量甚至全部数据。人们不再需要那么担心某个数据点对整套分析的不利影响,要做的就是要接受这些纷繁的数据并从中受益,而不是以高昂的代价消除所有的不确定性。

在华盛顿州布莱恩市的英国石油公司(BP)切里波因特炼油厂(见图1-8)中,无线感应器遍布于整个工厂,形成无形的网络,能够产生大量实时数据。在这里,酷热的恶劣环境和电气设备的存在有时会对感应器读数有所影响,形成错误的数据。但是数据生成的数量之多可以弥补这些小错误。随时监测管道的承压使得BP能够了解到有些种类的原油比其他种类更具有腐蚀性。以前,这都是无法发现也无法防止的。

图1-8 炼油厂

有时候,当人们掌握了大量新型数据时,精确性就不那么重要了,人们同样可以掌握事情的发展趋势。除了一开始会与人们的直觉相矛盾之外,接受数据的不精确和不完美反而能够更好地进行预测,也能够更好地理解这个世界。

值得注意的是,错误性并不是大数据本身固有的特性,而是一个亟需人们去处理的现实问题,并且有可能长期存在,它只是人们用来测量、记录和交流数据的工具的一个缺陷。因为拥有更大数据量所能带来的商业利益远远超过增加一点精确性,所以通常人们不会再花大力气去提升数据的精确性。这又是一个关注焦点的转变,正如以前,统计学家们总是把他们的兴趣放在提高样本的随机性而不是数量上。如今,大数据带来的利益,让人们能够接受不精确的存在。1.3.4 5%的数字数据与95%的非结构化数据

据估计,只有5%的数字数据是结构化的且能适用于传统数据库。如果不接受混乱,剩下95%的非结构化数据都无法被利用,如网页和视频资源。

如何看待使用所有数据和使用部分数据的差别,以及如何选择放松要求并取代严格的精确性,将会让人与世界的沟通产生深刻的影响。随着大数据技术成为日常生活中的一部分,人们应该开始从一个比以前更大更全面的角度来理解事物,也就是说应该将“样本=总体”植入人们的思维中。

相比依赖于小数据和精确性的时代,大数据更强调数据的完整性和混杂性,帮助人们进一步接近事实的真相。当视野局限在可以分析和能够确定的数据上时,人们对世界的整体理解就可能产生偏差和错误。不仅失去了尽力搜集一切数据的动力,也失去了从各个不同角度来观察事物的权利。

大数据要求人们有所改变,人们必须能够接受混乱和不确定性。精确性似乎一直是人们生活的支撑,但认为每个问题只有一个答案的想法是站不住脚的。1.4思维变革之三:数据的相关关系

在传统观念下,人们总是致力于找到一切事情发生背后的原因,然而很多时候,寻找数据间的关联并利用这种关联就已足够。这些思想上的重大转变导致第三个变革:人们尝试着不再探求难以捉摸的因果关系,转而关注事物的相关关系。相关关系也许不能准确地告知人们某件事情为何会发生,但是它会提醒人们这件事情正在发生。在许多情况下,这种提醒的帮助已经足够大。

如果数百万条电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么找出具体的药理机制就没有这种治疗方法本身来得重要。同样,只要知道什么时候是买机票的最佳时机,就算不知道机票价格疯狂变动的原因也无所谓。大数据告诉我们“是什么”而不是“为什么”。在大数据时代,不必知道现象背后的原因,只须让数据自己发声。人们不再需要在还没有搜集数据之前,就把分析建立在早已设立的少量假设的基础之上。让数据发声,会注意到很多以前从来没有意识到的联系的存在。1.4.1 关联物,预测的关键

虽然在小数据世界中相关关系也是有用的,但如今在大数据的背景下,通过应用相关关系,人们可以比以前更容易、更快捷、更清楚地分析事物。

所谓相关关系,其核心是指量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相关关系,如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定的词条,该地区就有更多的人患了流感。相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生变化。例如,我们可以寻找关于个人的鞋码和幸福的相关关系,但会发现它们几乎扯不上什么关系。

相关关系通过识别有用的关联物来帮助人们分析一个现象,而不是通过揭示其内部的运作机制。当然,即使是很强的相关关系也不一定能解释每一种情况,比如两个事物看上去行为相似,但很有可能只是巧合。相关关系没有绝对,只有可能性。也就是说,不是亚马逊推荐的每本书都是顾客想买的书。但是,如果相关关系强,一个相关链接成功的概率还是很高的。这一点很多人可以证明,他们的书架上有很多书都是因为亚马逊推荐而购买的。

通过找到一个现象的良好的关联物,相关关系可以帮助人们捕捉现在和预测未来。如果A和B经常一起发生,那我们只需要注意到B发生了,就可以预测A也发生了。这有助于我们捕捉可能和A一起发生的事情,即使不能直接测量或观察到A。更重要的是,它还可以帮助我们预测未来可能发生什么。当然,相关关系是无法预知未来的,它们只能预测可能发生的事情,但是,这已极其珍贵。

在大数据时代,建立在相关关系分析法基础上的预测是大数据的核心。这种预测发生的频率非常高,以至于人们经常忽略了它的创新性。当然,它的应用会越来越多。

在社会环境下寻找关联物只是大数据分析法采取的一种方式。同样有用的一种方法是,通过找出新种类数据之间的相互联系来解决日常需要。比如说,一种称为预测分析法的方法就被广泛地应用于商业领域,它可以预测事件的发生。这可以指一个能发现可能的流行歌曲的算法系统——音乐界广泛采用这种方法来确保它们看好的歌曲真的会流行;也可以指那些用来防止机器失效和建筑倒塌的方法。现在,在机器、发动机和桥梁等基础设施上放置传感器变得越来越平常,这些传感器被用来记录散发的热量、振幅、承压和发出的声音等。

一个东西要出故障,不会是瞬间的,而是慢慢地出问题。通过搜集所有的数据,人们可以预先捕捉到事物要出故障的信号,比如发动机的嗡嗡声、引擎过热都说明它们可能要出故障了。系统把这些异常情况与正常情况进行对比,就会知道什么地方出了毛病。通过尽早发现异常,系统可以提醒人们在故障之前更换零件或者修复问题。通过找出一个关联物并监控它,人们就能预测未来。1.4.2 “是什么”,而不是“为什么”

在小数据时代,相关关系分析和因果分析都不容易,耗费巨大,都要从建立假设开始,然后进行实验——这个假设要么被证实要么被推翻。但是,由于两者都始于假设,这些分析就都有受偏见影响的可能,极易导致错误。与此同时,用来做相关关系分析的数据很难得到。

另一方面,在小数据时代,由于计算机能力的不足,大部分相关关系分析仅限于寻求线性关系。而事实上,实际情况远比人们所想象的要复杂。经过复杂的分析,人们能够发现数据的“非线性关系”。

多年来,经济学家和政治家一直认为收入水平和幸福感是成正比的。从数据图表上可以看到,虽然统计工具呈现的是一种线性关系,但事实上,它们之间存在一种更复杂的动态关系。例如,对于收入水平在1万美元以下的人来说,一旦收入增加,幸福感会随之提升;但对于收入水平在1万美元以上的人来说,幸福感并不会随着收入水平提高而提升。如果能发现这层关系,人们看到的就应该是一条曲线,而不是统计工具分析出来的直线。

这个发现对决策者来说非常重要。如果只看到线性关系,那么政策重心应完全放在增加收入上,因为这样才能增加全民的幸福感。而一旦察觉到这种非线性关系,策略的重心就会变成提高低收入人群的收入水平,因为这样明显更划算。

大数据时代,专家们正在研发能发现并对比分析非线性关系的技术工具。一系列飞速发展的新技术和新软件也从多方面提高了相关关系分析工具发现非因果关系的能力。这些新的分析工具和思路为人们展现了一系列新的视野被有用的预测,看到了很多以前不曾注意到的联系,还掌握了以前无法理解的复杂技术和社会动态。但最重要的是,通过去探求“是什么”而不是“为什么”,相关关系帮助人们更好地了解世界。1.4.3 通过相关关系了解世界

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载