数据之美:一本书学会可视化设计(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-30 03:47:53

点击下载

作者:(美)邱南森

出版社:中国人民大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

数据之美:一本书学会可视化设计

数据之美:一本书学会可视化设计试读:

版权信息书名:数据之美:一本书学会可视化设计作者:[美]邱南森排版:吱吱出版社:中国人民大学出版社出版时间:2014-02-27ISBN:9787300186122本书由北京人大数字科技有限公司授权北京当当科文电子商务有限公司制作与发行。— · 版权所有 侵权必究 · —引言可视化是一种媒介

什么是好的可视化设计?如果只看光秃秃的原始数据,你可能会忽视掉某些东西。好的可视化是一种表达数据的方式,能帮助你发现那些盲点。你可以通过可视化展示的趋势、模式和离群值来了解自己以及身处的世界。最好的可视化设计能让你有一见钟情的感觉,你知道眼前的东西就是你想看到的。有时候,可视化设计仅仅只是一个条形图,但大多数时候可视化会复杂得多,因为数据本来就很复杂。可视化让数据更可信

数据集犹如即时快照,能帮助我们捕捉不断变化的事物。数据点聚集在一起就形成了数据集合以及统计汇总,可以告诉你预期的收获。这就是平均数、中位数和标准差,它们用来描述世界各地以及人口的状况,并用来比较不同的事物。你可以去了解每个数据的具体细节。这就是所谓的数据集人性化,它会使数据更加可信。

从抽象意义上说,包含信息和事实的数据是所有可视化的基础。对原始数据了解得越多,打造的基础就越坚实,也就越可能制作出令人信服的数据图表。人们往往会忽略一点:好的可视化设计是一个曲折的过程,需要具备统计学和设计方面的知识。没有前者,可视化只是插图和美术练习;而没有后者,可视化就只是分析结果。统计学和设计方面的知识都只能帮助你完成数据图形的一部分。只有同时具备了这两种技能,你才可以随心所欲地在数据研究和讲故事两者间自如转换。

这本书是为那些对设计和数据分析过程感兴趣的人而写的。我们在每一章都介绍了通往可视化的一个步骤。在这里,可视化不只是剪贴画上大大的数字,而是向我们传递了数据的意义。可视化创作是一个迭代的过程,不同的数据集迭代周期不同。

本书第一部分主要帮助读者了解自己的数据,以及把数据可视化的意义。由于数据代表了一定的人物、地点和事物,所以除了真实的数字之外,还有重要的背景信息。数据是关于谁的?它从哪里来以及是什么时候收集的?虽然是计算机生成并输出数据,但我们也需要对这些由人处理的部分负责。除此之外,大部分数据集都是估算的,并不是绝对真实的,犹如人生一样,充满不确定性和可变性。

本书的中间部分,我们会带你进入探索模式。通过数据挖掘,你可以自由地提出问题并解答这些问题。你还可以寻找数据中的模式、关联以及所有看起来不大对劲的东西。由于拼写错误,经常会出现缺失值。你可以借此机会进行大量的实验,从不同角度观察数据。你可能会有一些意外的发现,也许最终这就是数据所能呈现的最有趣的东西。由于种种原因,人们往往会跳过探索阶段,这导致最终的成果往往让人难以理解。花一些时间去了解数据以及它们所代表的东西,能加倍提升可视化的效果。

当你找到了潜在的故事,接下来就要将其传达给更多的客户。这是本书的最后一部分,要用设计来美化一下。为4个熟悉该话题并且阅读过所有相关重要论文的人所做的图表,和为不熟悉这一话题的普通读者所做的图是不一样的。

这些步骤并非要按部就班地进行。如果你已经在和数据打交道了,那就会知道在研究已有数据时经常会发现需要新的数据。同样地,设计过程会迫使你看到之前没有注意到的细节,让你不得不重新回到探索阶段或者回到起点。如果你是新手,在阅读本书时就会了解到这个过程,并且你会自信能把从本书中学到的知识用到自己的项目中。在数据和故事间来回往返是很有趣的。《数据之美》是对我的上一本书《鲜活的数据》的完美补充。《鲜活的数据》介绍了可视化设计可以使用的工具,提供了具体的编程示例;《数据之美》则描述了整个可视化的过程和思想,涉及更大的数据项目并且不涉及任何软件。换句话说,这两本书互为补充。《鲜活的数据》为准备制作图表的人提供了技术指南,而《数据之美》则描述了数据及其可视化的过程,以便帮助你创造出更好的、更有意义的东西。可视化不只是一种工具

在本书中,我们将可视化看作是一种媒介,而非一种特定的工具。如果把可视化当成死板的工具,你很容易以为几乎所有的图形都比条形图好。对于大部分图表而言,确实如此,但前提是必须是在适合的条件下。譬如,在分析模式中,你通常会期望图表便于快速阅读且十分精确。但如果目标是激发感情和好奇心呢?可视化是一种表达数据的方式,是对现实世界的抽象表达。它像文字一样,为我们讲述各种各样的故事。报纸文章和小说不能用同一个标准来评判,同样,数据艺术也不能用商业图表的标准来衡量。

无论哪一种可视化类型都有其规则可循。这些规则并不取决于设计或统计数字,而受人类感知的支配。它们确保读者能准确解读编码数据。这样的规则很少,例如,当用面积作为视觉暗示时,要将面积按大小恰当地排序,其余的都只是建议。

你需要区分规则和建议。规则是应该时时遵循的,而建议则要具体分析,视情况而定是否采纳。很多初学者会犯这样的错误,遵循了具体的建议,结果丢失了数据的背景信息。例如,爱德华·塔夫特(Edward Tufte)建议剔除图表中所有的垃圾信息,但所谓的垃圾是相对而言的。一个图表中需要剔除的东西,在另一个图表中也许是有用的。正如塔夫特所说:“大多数设计原则都应受到质疑。”

同样,统计学家威廉·克利夫兰(William Cleveland)和罗伯特·麦吉尔(Robert McGill)关于感知和精确度的研究成果也经常被人们引用。他们发现,在如散点图这样的常见图表中,位置信息是能被最精确解码的,接下来依次是长度、角度和斜率。这些结果是基于研究试验得出的,也有其他的研究支持,因此人们很容易把克利夫兰和麦吉尔的发现误当作规则。然而,克利夫兰也指出,好的图表不只是要能快速理解,还包括它显示的内容如何,以及它是否帮助你看到了之前没有看到的东西?

是时候回到值得可视化的数据上了。幸运的是,你有大量的数据可用,而且数据源始终在增长。过去几年里的每一个星期里,都会有一篇文章讲述数据洪流以及淹没其中的危险。但你知道,数据量是可控的,你可以轻松地筛选和聚集数据。数据存储费用越来越便宜,而且可以无限存储,这就意味着会“游泳”的人能得到更多的快乐。他们面临的挑战就是学习如何潜得更深。

好吧,我说得太多了,让我们来开始一段快乐的旅程吧。第1章 你真的理解数据了吗

数据是什么?大部分人会含糊地回答说,数据是一种类似电子表格的东西,或者一大堆数字。有点儿技术背景的人会提及数据库或数据仓库。然而,这些回答只说明了获取数据的格式和数据的存储方式,并未说明数据的本质是什么,以及特定的数据集代表着什么。你很容易陷入一种误区,因为当你需要数据的时候,通常会得到一个计算机文件,你很难把计算机输出的信息看作其他任何东西。然而,透过现象看本质,就能得到更多有意义的东西。数据表达了什么

数据不仅仅是数字。要想把数据可视化,就必须知道它表达的是什么。数据描绘了现实的世界。与照片捕捉了瞬间的情景一样,数据是现实世界的一个快照。

请看图1—1,它和其他事物没有任何关联,我也没告诉过你关于这张照片的故事,如果你无意中看到了这张照片,那么在你看来,它只不过是一张普普通通的婚礼照片,你从中再也得不到更多的信息了。然而对我来说,它记录了我生命中最美好的时刻。照片里左边是我的妻子,穿着美丽的婚纱;右边是我,穿着和平时的T恤牛仔裤风格完全不同的正装。主持婚礼的牧师是我妻子的叔叔,这为婚礼增添了个性化色彩。他后面的那位家族世交承担了全程录像的重任,尽管我们也花钱雇请了一位专业摄影师。婚礼上的鲜花和拱门由距此一小时车程的一家当地供应商提供。婚礼是初夏时在加利福尼亚州洛杉矶举行的。图1—1 一张照片,一个数据点

仅仅一张照片就包含了如此多的信息。同样地,数据也会传递给我们大量的信息。(对一些人来说,包括我在内,照片也是数据。)一个数据点可以包含时间、地点、人物、事件、起因等因素,因此很容易让一个数字不再只是沧海一粟。可是从一个数据点中提取信息并不像看一张照片那么简单。你可以猜到照片里发生的事情,但如果对数据心存侥幸,认为它非常精确,并和周围的事物紧密相关,就会曲解真实的数据。你需要观察数据产生的来龙去脉,并把数据集作为一个整体来理解。关注全貌,比只注意到局部时更容易作出准确的判断。

想象一下,如果我没有告诉你那张照片背后的故事,你怎样才能知道更多的信息?看了婚礼前后其他的照片又会怎样呢?(见图1—2)

在图1—2中,你看到了更多的照片,这些照片组成了婚礼中的一个个环节,包括新娘第一次走出来,新人宣誓,以及向双方父母和我的奶奶敬茶等。同样,这里的每一张照片背后都有故事,例如,岳父把女儿交给我时热泪盈眶;我挽着新娘走过教堂走廊时感受到了巨大的快乐和幸福。这些照片捕捉到了婚礼中从我的视角无法看到的瞬间,因此看这些照片时,我甚至感觉自己也像你一样是一个局外人。我告诉你那天的故事越多,那天的情景就变得越清晰。图1—2 相格

尽管如此,这些毕竟只是一组快照,你不知道这些瞬间之外还发生了什么。(当然,你可以猜测。)想要完整地知道那天的事情,要么你得在现场,要么就只能去看视频了。即便如此,你也只能从有限的几个角度看到这场婚礼,因为通常不大可能拍摄到每一个细节。例如,当我们点蜡烛时,蜡烛却总是被风吹灭,这引起了大约5分钟的混乱。我们划完了所有的火柴后也没能点燃蜡烛,于是婚礼策划师到处寻找可以救急的东西。幸运的是,有一位吸烟的来宾贡献了打火机。照片却错过了这一幕,还是因为它们只是提取真实事物的一个个片段。

这是我们采样的方式,你不大可能记录下一切,因为成本太高或者缺少人力,或二者皆有。你只能获取零碎的信息,然后寻找其中的模式和关联,凭经验猜测数据所表达的含义。数据是对现实世界的简化和抽象表达。当你可视化数据的时候,其实是在将对现实世界的抽象表达可视化,或至少是将它的一些细微方面可视化。可视化是对数据的一种抽象表达,所以,最后你得到的是一个抽象的抽象,真是个有趣的挑战。

无论如何,这并不是说可视化模糊了你的视角。恰恰相反,可视化能帮助你从一个个独立的数据点中解脱出来,换一个不同的角度去探索它们。可以说是见树又见林。让我们继续说说婚礼照片这个例子。图1—3使用了完整的婚礼数据集,图1—1和图1—2里的照片只是它的子集。每一个矩形都代表我们婚礼相册中的一张照片。它们按时间顺序排列,每一张照片都用其中的主色调来填充。

按时间顺序排列照片,你可以发现婚礼的高潮处。婚礼的高潮处摄影师拍了很多照片。你也可以看到相对平静的时候,只有很少几张照片。图中的几个高峰,毫无疑问都发生在一些重要的时刻,例如,我第一次看到新娘身穿婚纱走出来,还有婚礼刚开始的时候。之后,我们与亲朋好友合影,因此图中出现了另一个高峰。接下来是宴饮时间,略显平静,尤其是摄影师在4点前短暂休息的时候。然后,婚礼又开始大张旗鼓地继续进行,直到晚上7点左右才结束。之后,只留下我和妻子在夕阳的余晖中相依相偎。

由于照片是线性呈现,在相格(grid layout)中就看不到上述的模式。所有的事情看上去都等距发生,而实际上大部分照片是在最激动人心的时刻拍摄的。扫一眼也能大致领略到婚礼中的颜色,黑色的是西装,白色的是婚纱,花童和伴娘身着珊瑚色礼服,整个婚礼现场和签到台则被绿树环绕着。你能从中得到和看真实照片一样多的细节吗?不能,但在一开始往往没必要了解那么多细节。有时候你需要先看看总体模式,然后再放大细节。有时候只有在了解了整体以及一个独立点与整体之间的关系后,才能知道它是否值得细看。婚礼的颜色

每一个矩形都代表婚礼中的一张照片,每张照片都用其最丰富的颜色填充。图1—3 婚礼中的颜色

其实你可以跳出来换个角度,只去关注照片数,而暂时忽略那些颜色和一张张独立的照片。如图1—4所示,可能你以前看过这样的图表。它是条形图,显示了与图1—3一样的高峰和低谷,但是它给人的感觉不一样,提供了不同的信息。这个简单的条形图强调了每15分钟拍摄了多少张照片,而图1—3仍带有相册的感觉。图1—4 各时间段的照片数

有一个重要的事实需要注意,这四个视图显示的数据相同。更确切地说,它们都描绘了我结婚那天的情景。每一张图表都用不同的方式从婚礼的各个方面展现了那一天的情景。对数据的诠释可以随着它所呈现的视觉形式而改变。对于传统的数据,通常用条形图进行考察和研究,但那并不意味着你必须失去每一张照片里所包含的感情。有时候,你需增加注解以便读者能更好地理解数据,而有时候数字传达的信息则是清晰的,可以从可视化图表中直观地获得。

数据和它所代表事物之间的关联既是把数据可视化的关键,也是全面分析数据的关键,同样还是深层次理解数据的关键。计算机可以把数字批量转换成不同的形状和颜色,但是你必须建立起数据和现实世界的联系,以便使用图表的人能够从中得到有价值的信息。

有时候很难找到这个关联,比如,当你在研究涉及成千上万陌生人这样的大规模数据时。当研究一个个体时,这种关联就明显多了。你甚至可以直接联系那个人,即使你从来没有见过他。例如,来自波特兰的软件开发者亚伦·帕拉茨基(Aaron Parecki)在2008年到2012年的三年半时间里用手机收集了250万个GPS坐标位置,每2~6秒就记录一个坐标点。图1—5是这些坐标点的地图,不同颜色代表不同的年份。图1—5 亚伦·帕拉茨基收集的GPS追踪信息

如你所期望的,这张地图显示出了帕拉茨基经常出入的那些道路和区域的颜色比其他地方要亮。他搬了几次家,你可以看到他的出行模式每年都在变。2008年到2010年期间,他的出行路线(蓝色)很分散。到了2012年,黄色路线显示帕拉茨基看上去像是活动在几个紧挨在一起的很小的区域里。因为没有更多的背景介绍,所以你很难再说出其他信息,因为你所看到的仅仅是地理位置。但是对帕拉茨基来说,这些数据更具有个人色彩,就像那张婚礼照片对于我一样。它是三年多时间里一个人在一个城市里的足迹。因为帕拉茨基有原始的记录,有时间信息,他可以基于这些数据做出更好的决定,比如什么时候去上班最好。

然而,如果在个人的时间和地理位置信息上附加更多的信息将会怎样?如果在记录你身处何处的同时,也记下了在某些指定的时刻发生了什么,又将会怎样?这就是艺术家蒂姆·克拉克(Tim Clark)在2010年到2011年间完成的“习惯图集”(Atlas of the Habitual)项目。像帕拉茨基一样,克拉克用GPS设备记录了他在200天里的地理位置信息。在这200天里,他跨越了几乎整个佛蒙特州本宁顿,行程大约3200千米。之后克拉克根据回忆,按年份标注出具体的行程和共处的人。各时间段的照片数

我们的摄影师在具有纪念意义的时刻抓拍了更多的照片,因而产生了一个15分钟63张照片的峰值。

如图1—6所示,带有可点击的分类标签和时间框架的地图集展示了他在200天里的活动足迹,看上去像是一本日记。选择“跑腿”,可以看到注解:“日常活动,或跑步去杂货店,或每周日开车到48千米外的南佛蒙特州唯一一家自行车店。”他的足迹基本停留在本镇,只有两条路线长长地伸向了远方。

还有一个条目叫“重温分手”。克拉克写道:“我搬家前相处了很久的女友立刻和我分手了,这里记录了我从情感挫折中逐渐走出来的那段时光。”图中出现了两条小路,一条在市区内,一条在郊外。这个数据突然变得非常私人化。[1]

这可能是量化生活(Quantified Self)运动背后的诉求,其目标在于结合技术手段来收集与人们的活动和习惯有关的数据。有些人会追踪自己的体重、饮食以及就寝时间等相关信息。他们的目标通常是活得更健康,更长寿。也有一些人追踪更多的数据仅仅是为了比照镜子能更多地了解自己。收集个人数据变成了像一天结束时用来自我反省的日记一样的东西。[2]

尼古拉斯·费尔顿(Nicholas Felton)因其个人年度报告而成为这个领域里的知名人物。这些个人年度报告彰显了费尔顿的设计天赋和在个人数据收集上的严谨性。除了地理位置,他还持续追踪了每年他相处的人、吃饭的地方、看的电影、读的书以及其他大量的信息。图1—7是费尔顿2010年到2011年的个人年度报告中的一页。图1—6 从蒂姆·克拉克的“习惯图集”中的几幅地图

资料来源http://www.tlclark.com/atlasofthehabitual/图1—7 尼古拉斯·费尔顿2010年到2011年年度报告中的一页(http://feltron.com)

2005年费尔顿设计了他的第一本年度报告,从那以后每年出一本。每一本都是那么漂亮,让人爱不释手,也满足了人们窥探陌生人生活的奇怪欲望。然而,我觉得最有趣的是,他的报告逐渐暴露了越来越多的私生活,数据也越来越丰富。看看他的第一份报告,如图1—8所示,你会发现它看上去更像是一本融入了费尔顿个人色彩的设计习作,实际上它说的是数字。随着时间的推移,这些数据变得越来越像是一本本日记,而不再只是单纯的报告。图1—8 尼古拉斯·费尔顿2005年年度报告中的几页

资料来源:http://feltron.com

这个特点在2010年的年度报告中表现最为明显。这一年费尔顿的父亲去世,终年81岁。设计这本年度报告时,费尔顿没有总结自己,而是通过整理日历、幻灯片、明信片以及父亲的其他私人物品,把父亲的一生进行了分类编目,如图1—9所示。同样,对我们而言,尽管它记录的是陌生人的信息,但我们还是很容易从深红的数字中感受到制作者的情感。

看着这样的作品,我们很容易就能理解个人数据对每个人的价值。或许,收集关于自己的八卦也未尝不可。这些信息现在也许没有什么用,但十年后可能就会大有用处。就像偶然翻出小时候的日记一样,记忆是有价值的。如果你在用社交网络,如Twitter、Facebook、Foursquare,那么你已经在以各种方式记录生活中的点滴信息了。一次状态的更新或者一条微博的发布,就像是在显示任意时刻你正在做什么的迷你快照一样。一张带有时间痕迹的能与人分享的照片在多年以后可能会有更多的意义,而每一次登录网站更是把你的数字世界和现实生活牢牢地捆在了一起。

想必你已经明白数据对于一个人的价值是什么了。那么,研究许多人的数据集将会怎样呢?美国人口普查局(United States Census Bureau)每十年统计一次美国的人口,这个数据对于国家分配拨款是很有帮助的。随着一次次的人口普查,从人口的波动也可以发现人们在国内迁移的规律、社区组成的改变以及各地区的扩张和萎缩情况。总之,人口数据描绘了一幅美国众生图。然而,政府统计和维护的这些数据,也就只能透露这么多信息了,从中你无法得知数据代表的实际上是哪些人。比如,他们喜欢什么?讨厌什么?他们的性格怎样?相邻的城镇间差异大不大?

媒体艺术家罗杰·卢克·杜布瓦(Roger Luke DuBois)通过发起一[3]个叫做“超完美联盟”(A More Perfect Union)的项目,用在线交友网站上的1900万个个人简介做了一个完全不同的调查。当加入一个在线交友网站时,你必须先介绍自己,说清你是谁、你的籍贯以及兴趣爱好等。硬着头皮填完这些信息后(也许选择了不公开其中的部分信息),你会描述理想中的伴侣。用杜布瓦的话来说,这最后几句才是实话。而前面的那些,你多多少少撒了些谎。因此,汇总了人们的在线交友个人简介后,得到的是人们如何看待自己与希望自己在他人眼中的形象相结合的信息。图1—9 尼古拉斯·费尔顿2010年年度报告中的几页

资料来源:http://feltron.com

在“超完美联盟”里,杜布瓦把在线交友信息进行分类,借用邮政编码将人们的希望和梦想数字化,然后找出每个地区最独特的关键词。在兰德·麦克纳利地图(Rand McNally Map)上,用每个城市独特的关键词替换城市名,就会得到一幅非常特别的、个性化的、易辨认的美国地图。

如图1—10所示,在加利福尼亚州南部那个电影胜地,出现的是类似“表演”、“编剧”和“娱乐业”这些词。而在华盛顿特区,关键词则是“官员”、“党派”、“民主”,如图1—11所示。这些都是和职业相关的,也有些地区出现的词与个人的特性、最爱的事物以及重大事件有关。图1—10 罗杰·卢克·杜布瓦的“超完美联盟”中的加利福尼亚州地图(2011)

资料来源:http://perfect.lukedubois.com图1—11 “超完美联盟”中的华盛顿特区地图(2011)图1—12 “超完美联盟”中的路易斯安那州地图(2011)

图1—12中的路易斯安那州,映入眼帘的是“卡津”(Cajun)[4][5]、“弯道”、“小龙虾”、“波旁威士忌”以及“秋葵浓汤”。但在新奥尔良,最独特的关键词则是“洪水”,这是受2005年卡特里娜飓风的影响。

人们通常被用类似种族、年龄、性别等人口统计学数据来划分,但他们自身更喜欢用业余爱好、经历以及打交道的人等来标识自己。“超完美联盟”的最伟大之处就是你可以看到全国范围内这样的数据。

这一点也可以从费尔顿的报告、克拉克的地图集以及帕拉茨基的GPS追踪的信息中得到印证。数据点就是人的回忆,而报告就如同肖像和日记。统计学专家和开发人员把这叫作分析,而艺术家和设计者则称其为讲述。就从数据中提取信息以理解数据表达了什么来看,分析和讲述其实是一回事。数据会因其可变性和不确定性而变得复杂,但放入合适的背景信息中,就会变得容易理解了。注释[1]一种将科学技术引入日常生活中的技术革命。——译者注[2]尼古拉斯·费尔顿是Daytum.com的创始人之一,目前是Facebook产品设计团队的成员。——译者注[3]杜布瓦从人们发布在交友网站上的简介中提取一些词,然后在地图上标注他们,最终得到了一个全国范围的视图。——译者注[4]卡津人是法裔加拿大人的后裔,现定居路易斯安那州南部地区。——译者注[5]密西西比河在该州内多弯道。——译者注数据的可变性

在德国的一个小镇,物理学家兼业余摄影师克里斯蒂安·克维塞克(Kristian Cvecek)经常晚上带着相机到森林里,用长时间曝光摄影,抓拍萤火虫在树丛中飞舞的情景。如图1—13所示,这种昆虫特别小,在白天几乎看不见,但是在晚上,除了树林里,又很难在别的地方看到。

虽然对观察者来说,萤火虫飞行中的每个时刻都像是空间中随机的点,但克维塞克的照片中还是出现了一个模式。如图1—14所示,看上去萤火虫们好像沿着小径,环绕着大树,朝既定的方向飞舞。

然而,这些依然是随机的。下一次你可以根据这条飞行路线图猜测萤火虫会往哪儿飞,但是你能肯定吗?一只萤火虫随时可以上下左右地飞窜,这种变化使得萤火虫的每次飞行都是独一无二的。也正因为如此,观察萤火虫才那么有趣,拍出来的照片才那么漂亮。你关心的是萤火虫飞行的路径,它们的起点、终点和平均位置并没有那么重要。

从这些数据中,我们可以发现一些模式、趋势和周期,但从A点到B点往往都不是一条平滑的线路(实际上,几乎从来都不是)。总数、平均值和聚合测量可能很有趣,但它们都只揭示了冰山一角而已。数据中的波动才是最有趣、最重要的部分。图1—13 克里斯蒂安·克维塞克拍摄的黑夜中的萤火虫

资料来源:http://quit007.deviantart.com/

从2001年到2010年,根据美国国家公路交通安全管理局(National Highway Traffic Safety Administration)发布的数据,全美共发生了363839起致命的公路交通事故。毫无疑问,这个总数是那么地沉重,它代表着逝去的生命。把所有的注意力放在这个数字上,如图1—15所示,能让你深思,甚至反省自己的一生。

然而,除了安全驾驶之外,从这个数据中你还学到了什么?美国国家公路交通安全管理局提供的数据具体到了每一起事故及其发生的时间和地点,你可以从中了解到更多的信息。

在图1—16的地图中,画出了2001年—2010年间全美国发生的每一起致命的交通事故,每一个点都代表一起事故。不出所料,事故多集中发生在大城市和高速公路主干道上,而人烟稀少的地方和道路几乎没有事故发生过。此外,这幅图除了告诉我们对交通事故不能掉以轻心之外,还告诉了我们关于美国公路网络的情况。

观察这些年里发生的交通事故会把关注焦点切换到这些具体的事故上。图1—17显示了每年的交通事故数,所表达的内容与单告诉你一个总数完全不同。虽然每年仍会发生成千上万起交通事故,但2006年到2010年间呈显著的下降趋势,而每一亿千米行驶里程的死亡率也有所下降(图1—17中并未显示)。图1—14 克里斯蒂安·克维塞克的“萤火虫之路”

资料来源:http://quit007.deviantart.com/图1—15 2001年—2010年全美交通事故总数

资料来自:美国国家公路交通安全管理局图1—16 同时映射所有的数据

从图1—18中可以看出,逐月来看,交通事故发生的季节性周期很明显。夏季是事故多发期,因为此时外出旅游的人较多。而在冬季,开车出门旅行的人相对较少,事故也就会少很多。每年都是如此。同时,还可以看到2006年到2010年呈下降趋势。

如果比较那些年的具体月份的话,还是有一些变化的。例如,在2001年,8月份的事故最多,9月份相对回落。从2002年到2004年每年都是这样。然而,从2005年到2007年,每年7月份的事故最多。从2008年到2010年又变成了8月份。另一方面,因为每年2月份的天数最少,事故数也就最少,只有2008年例外。因此,这里存在着不同季节的变化和季节内的变化。图1—17 每年的致命交通事故数图1—18 月度致命交通事故数

接下来,让我们更加详细地观察每日的交通事故数,如图1—19所示,从中我们可以看到更大的变化,但并非都是干扰信息。我们仍然可以看出高峰和低谷的模式。虽然很难发现季节规律,但是可以看出周循环周期,就是周末比周中事故多。每周的高峰日在周五、周六和周日间波动。图1—19 每日致命交通事故数

我们可以继续增加数据的粒度,即观察每小时的数据。图1—20中的每一行即代表一年,因此横坐标中的每个单元格就显示了那个月份中的小时时间序列。图1—20 每小时致命交通事故数

除了新年午夜时分的异常高峰,很难在这个级别找出变化的模式。实际上,如果你不知道自己在寻找什么,那么月度图表也会难以理解。当然,如果你聚合数据,就能看到清晰的模式,如图1—21所示。聚合数据只显示特定时间段的情况,而不是完整显示每个小时、每一天或每个月的情况,你就可以很好地研究数据的分布。图1—21 2001—2010年不同时间段事故的分布

之前难以分辨的,或看上去像干扰信息的,现在就很容易看清楚了。早上上班高峰期事故数有一个很小的上扬,但大多数致命的交通事故都发生在晚上。就像你在图1—19中看到的,周末的事故更多,但这个图看上去更清楚。最后,你可以更清楚地看到季节模式,夏天的事故数远多于冬天。

重要的是,查看这些数据比查看平均数、中位数和总数更有价值,那些测量值只是告诉了你一小部分信息。大多数时候,总数或数值只是告诉了你分布的中间在哪里,而未能显示出你做决定或讲述时应该关注的细节。

一个独立的离群值可能是需要修正或特别注意的。也许在你的体系中随着时间推移发生的变化预示有好事(或坏事)将要发生。周期性或规律性的事件可以帮助你为将来做好准备,但面对那么多的变化,它往往就失效了,这时应该退回到整体和分布的粒度来进行观察。

如果盲目走得离数据太远,你就会失去这些信息以及其中有趣的地方。不妨这样想,当你回顾自己的一生,你是更希望想起平常日子里通常每一天都是怎么过的,还是想起让你最兴奋的或最沮丧的一天?我敢说一定是两者的结合。数据的不确定性

大部分数据是估算的,并不精确。分析师会研究一个样本,并据此猜测整体的情况。然而,这样的猜测具有不确定性。每天你都在做这样的事情。你会基于自己的知识和见闻来猜测,而且大多数时候你确定猜测是正确的。你真的全都正确吗?还是几乎一无所知?数据也是这样的。

工科兼统计学辅修毕业后,在读研究生之前,我有9个月的空闲时间。我找了几份兼职工作,赚取的是最低工资,而且工作非常单调乏味,因此我的思绪自然就常常飞到那些有趣的事情上。

有一天,我在想:“嘿,我有统计学和概率的知识,还有一副扑克牌,我要成为一名21点高手,像那些麻省理工学院的孩子们一样。忘掉这些愚蠢的工作吧,我要发财了!”之后整整一个月里,我完全沉迷于21点的游戏中。(毫无疑问,我没有发财,而这个游戏也不像在电影里看上去那样有趣。)如果你不熟悉这个游戏,那就让我来快速简单介绍一下。小贴士:把数据当作绝对真理来看是诱人的,因为我们把数值和事实联系在了一起。但数据往往只是有根据的推测。你的目标就是使用没有太多不确定性的数据。

在21点游戏中,有一名庄家和一名玩家,庄家给每个人发两张牌(其中一张面向下盖住),目标是让牌面总和尽可能接近21点,而不能超出。你可以选择继续要牌,或者停牌。有时候,你可以把两张牌分成两副单独的牌(分牌),好像两只手单独在玩,也可以双倍下注。下注越多,赢得越多。如果点数超出21点,你就输了。如果没超出,轮到庄家要牌或停牌时,接近21点的赢。

根据游戏的设计,庄家有优势,但当你要牌或停牌的时候,你可以削弱庄家的优势。规则的设计是基于平均情况,但每一个玩过21点的人都会对你说,每手牌都存在着不确定性。即便你做了正确的选择,你还是有可能输。例如,假设你拿到了一张5和一张6,总和是11点。庄家的明牌是6。正确的选择是双倍下注,因为再要一张牌不会爆掉,而且很可能得到21点。而庄家很有可能在有一张明牌是6的情况下爆掉。

于是你双倍下注,然后拿到一张3,总点数是14。哎哟,情况不太妙。你唯一的希望就是庄家爆掉。接下来庄家翻开他的暗牌,是10,总点数是16。按照规则,他必须要牌,是一张5。庄家总点数:21点。你输了。小贴士:如果你能记牌,发挥你的优势调整赌注,那么概率就会改变,但是不确定性依然存在。

如果你没有双倍下注,相比正确的选择,就只会输一半的钱。如果真的这么容易就能赢,赌场也就不会费尽心机把这个游戏放在显眼的位置了。小贴士:数字看上去是具体的和绝对的,但是估算却带来了不确定性。数据是对其表达内容的抽象,精确程度是变化的。

每手牌都是不确定的,因为你这是在和统计分布比赛。更确切地说,你只知道发牌的近似概率。你可能知道那副牌里还有些什么牌,但是你只能猜测下一张会是什么牌。

当然,除扑克牌外,其他事情也有不确定性,且表现形式各异。就拿天气来说,不知有多少次当你为第二天或下一周旅行查询天气情况后,到头来却发现预报完全不准。

汽车仪表在告诉你油箱里剩下的油还能开多远方面表现又如何呢?有一次我和妻子出去办事,回程时仪表显示我大概能开26千米,但此时离家还有29千米。真是进退两难。我没有去最近的加油站,而是向离家最近的加油站开去,最后3千米仪表一直显示剩余0千米。但我们顺利开到了家。

多次称体重,可能会读到不同的数,尽管通常来说几秒钟的呼吸不会导致体重增加或减少;虽然只过去了几分钟,但你的笔记本电脑上的电池寿命估计会按小时增量跳动;地铁预告说下一班车将会在10分钟内到达,但实际上是11分钟,预计在周一送达的一份快件往往周三才到。

如果你的数据是一系列平均数和中位数,或者是基于一个样本群体的一些估算,你就应该时时考虑其存在的不确定性。当人们基于类似全国人口或世界人口的预测数做影响广泛的重大决定时,这一点尤为重要。程序的建立和基金的设立通常都会基于这些估计值,因此一个很小的误差也将会导致巨大的差异。

美国人口统计局会就不同主题发布全国性数据,例如迁移、贫困和住房等,这些数据都是基于总体样本估算的。(这和十年人口普查不一样,十年人口普查旨在统计全国人口数量。)每一个估算都有误差,这意味着实际的计数或百分比可能在一个给定的范围内。例如,图1—22显示了对住房情况的估算,总户数的误差将近25万。

换个角度,想象一下你有一罐口香糖,没法看清罐子里的情况,你想猜猜每种颜色的口香糖各有多少颗。(我不清楚为什么你会关注口香糖的分布?但不妨发挥一下想象力,也许你是一个口香糖鉴赏家,受雇于一家口香糖厂商。你和一个自大的统计学家朋友打赌,说在你眼皮底下每一罐口香糖的颜色都是均匀分布的,所以这一切事关荣誉和钞票。)图1—22 2010年的住房估算

如果你把一罐口香糖统统倒在桌子上,一颗颗数过去,就不用估算了,你已经得到了总数。但是你只能抓一把,然后基于手里的口香糖推测整罐的情况。这一把越大估计值就越接近整罐的情况,也就越容易猜测。相反,如果只能拿出一颗口香糖,那你几乎就无法推测罐子里的情况。

只拿一颗口香糖,误差会很大。而拿一大把口香糖,误差会小很多。如果把整罐都数一遍,误差就是零。当有数百万个口香糖装在上千个大小不同的罐子里时,分布各不相同,每一把的大小也不一样,估算就会变得更复杂了。把口香糖换成人,把罐子换成城、镇和县,把那一把口香糖换成随机分布的调查,误差的含义就有分量多了(见图1—23)。图1—23 口香糖和误差

根据盖洛普的调查显示,2012年6月11日到6月13日,48%的美国人反对奥巴马。然而这里有3%的误差,这意味着全国反对人数是超过半数和不到半数的差别。同样,在选举季,民意调查会估计哪一位候选人领先,但如果误差很大,就会把不止一个人推到公众面前,从而使得民意调查失去意义。

当你排列人、地方和事物时,估算会变得更为棘手,尤其是和测量结合在一起时(产生了多变量统计模型)。小贴士:我的家乡被某家刊物评为全国“最愚蠢”的城市,排名的估算是不可靠的。

我们可以拿始终处于监督下的教育评估来举例说明。我们经常对城市、学校和教师进行比较,但到底是什么决定了良好的教育或让整个城市更聪明?是高中毕业生的百分比吗?是大学录取率吗?还是人均拥有大学、图书馆和博物馆的数量?如果这些都是,有没有哪一个因素比其他更重要?还是它们的权重相等?答案因人而异,和评分一样。

2011年,纽约市教育局发布了教师数据报告,试图以此衡量教学质量。该报告最初只发到学校和老师,但在2012年初就被公之于众了。报告中考虑了几个因素,但最主要的因素之一是七年级和八年级考试成绩百分位数的变化。

七年级和八年级的数学教师卡洛琳·阿尔伯特(Carolyn Abbott)由此被称为全市最差的数学教师。她排在0百分位,而她的七年级学生则排在第98百分位。为什么会这样呢?(见图1—24)图1—24 卡洛琳·阿尔伯特和她学生的排名对比

预测显示,那些学生在八年级能排在第97百分位,但实际上他们排在第89百分位,根据该统计模型,他们没有什么进步。大多数人都认为,学生不可能在一位很差的教师指导下取得这个成绩,但教师排名有着很大的变化和不确定性。排名显示出了教师的分布,不过排名是基于不确定性因素估算的,但却被当作是绝对的。一般人们都不了解这个概念,因此你必须确保描述清楚。

如果不考虑数据的真实含义,很容易产生误解。要始终考虑到不确定性和可变性。这也就到了背景信息发挥作用的时候了。数据所依存的背景信息

仰望夜空,满天繁星看上去就像平面上的一个个点。你感觉不到视觉深度,很容易就能把星空直接搬到纸面上,于是星座也就不难想象了,把一个个点连接起来即可。然而,你觉得星星都离你一样远,可实际上不同的星星与你的距离可能相差许多光年。

假如你能飞得比星星还远,星座看起来又会是什么样子呢?这正是圣地亚哥·奥尔蒂斯(Santiago Ortiz)从不同角度观察星空的视觉效果时考虑的问题,如图1—25所示。图1—25 圣地亚哥·奥尔蒂斯的“星空视图”

资料来源:https://bit.ly/1akjr8D

一开始你会把星星放在球面上,来观察它们。你在地球上观看星星,就当它们离地球都一样远。拉近一点,可以看到星座,这是你在地面上观察它们的方式。把自己包裹在山间的睡袋里,仰望晴朗的夜空,看到的星星就是这个样子。

我们感知的视图看上去只是好玩,如果切换到显示实际距离的模式,就更有趣了。星星的位置转移了,原先容易辨别的星座几乎认不出了。从新的视角出发,数据看起来就不同了。

这就是背景信息的作用。背景信息可以完全改变你对某一个数据集的看法,它能帮助你确定数据代表着什么以及如何解释。在确切了解了数据的含义之后,你的理解会帮你找出有趣的信息,从而带来有价值的可视化效果。

离开背景信息,数据就毫无用处了,而基于它们创建的任何可视化内容也会变得没什么价值了。使用数据而不了解除数值本身之外的任何信息,就好比拿断章取义的片段作为文章的主要论点引用一样。这样做或许没有问题,但却可能完全误解说话人的意思。

你必须首先了解何人、如何、何事、何时、何地以及何因,即元数据,或者说关于数据的数据,然后才能了解数据的本质是什么。

何人(who):相对于曾经歪曲事实坏人名声的名人八卦网站,大报的引述会更有分量。类似地,相对于随机的在线调查,声誉好的信息源通常意味着更高的准确性。

例如,相较于某个人(譬如我)短期内每天半夜从Twitter上找几个一次性样本做做实验得出的数据,从1930年开始评估公众观点的盖洛普调查结果显然更可靠。后者努力创建有区域代表性的样本,而前者却充满了不确定性。

说到这个,除了“谁收集了数据”外,“数据是关于谁的”同样重要。再回到口香糖的例子,收集特定人群中每个人、每件事的数据,从经济上来说常常做不到。多数人都没有时间统计1000颗口香糖并将其归类,统计100万颗口香糖就几乎不可能了,于是他们就开始采样。关键在于样本要在人群中平均分布,这样才可以代表整体。数据的采集者做到这一点了吗?

如何(how):人们常常会忽略方法论的内容,因为方法多数是复杂的且面向技术受众的,然而,大致了解怎样获取你感兴趣的数据还是值得的。

如果数据是你收集的,那一切都好,但如果数据由一个素昧平生的人提供,而你只是从网上获取到的,那如何知道它有多好呢?无条件相信,还是调查一下?你不需要知道每种数据集背后精确的统计模型,但要小心小样本,样本小,误差率就高;你也要小心不合适的假设,比如包含不一致或不相关信息的指数或排名。

有时候,人们创建指数来评估各国的生活质量,常把文化水平这样的指标作为一项因素。然而有的国家不一定有最新的信息,于是数据收集者干脆就使用十几年前的评估。于是问题就来了,因为只有当十年前的识字率跟今天相当,这样的指数才有意义,但事实却未必如此(很可能不是)。

何事(what):最终,你要知道自己的数据是关于什么的,你应该知道围绕在数字周围的信息是什么。你可以跟学科专家交流,阅读论文及相关文件。

在统计学导论课程中,你通常会学习到一些分析方法,例如假设检验、回归分析和建模,因为此时的目标是学习数学和概念。这是脱离现实的,当你接触到现实世界的数据,目标便转移到信息收集上来了。你从关注“这些数字包含了什么”转到了“这些数据代表现实中的什么事情?数据合理吗?它又是如何与其他数据关联的”等上面。

用相同的方法对待所有的数据集,用千篇一律的方法和工具处理所有数据集,这是一种严重的错误。不要这样做。

何时(when):数据大都以某种方式与时间关联。数据可能是一个时间序列,或者是特定时期的一组快照。不论是哪一种,你都必须清楚知道数据是什么时候采集的。几十年前的评估跟现在的不能等同。这看似显而易见,但由于只能得到旧数据,于是很多人便把旧数据当成现在的对付一下,这是一种常见的错误。事在变,人在变,地点也在变,数据自然也会变。

何地(where):正如事情会随着时间变化,它们也会随着城市、州和国家的不同而变化。例如,不要将来自少数几个国家的数据推及整个世界。同样的道理也适用于数字定位。来自Twitter或Facebook之类网站的数据能够概括网站用户的行为,但未必适用于物理世界。

尽管数字世界和物理世界的间隔一直在缩小,但间隙仍然显而易见。例如,有人基于带有地理标签的维基百科,做了一段代表“世界历史”的地图动画,在一个地理空间中,针对每个条目显示出一个鼓起的点。视频的结尾如图1—26所示。

毫无疑问,效果令人赞叹,也与现实世界的时间线相关联。由于维基百科的内容在英语国家的受关注度更高,因此这张地图上显示的这些国家的内容也明显多于其他地方。图1—26 盖瑞斯·劳伊德(Gareth Lloyd)制作的100秒世界历史

资料来源:http://datafl.ws/24a

为何(why):最后,你必须了解收集数据的原因,通常这是为了检查一下数据是否存在偏颇。有时人们收集甚至捏造数据只是为了应付某项议程,应当警惕这种情况。我们先想到的也许是政府和竞选,但遍布互联网、一心只想着如何被谷歌检索到的网站发布的那些充斥着各种关键字的所谓信息图形,也逐渐成为罪魁祸首。(早期在FlowingData上写博客时,我也多次深陷其中,但我从中吸取了教训。)

你的首要任务就是竭尽所能地了解自己的数据,你的数据分析和可视化会因此而增色。这样,你才能把自己知道的内容传达给读者。然而,拥有数据并不意味着应当做成图形并与他人分享。背景信息能帮助你为数据图形增添一个维度——一层信息,但有时背景信息意味着你需要对信息有所保留,因为那样做是正确的。

2010年,运营Lifehacker和Gizmodo等大型博客的高客传媒(Gawker Media)遭到了黑客攻击,130万个用户名和密码被泄露。这些用户名和密码可通过BitTorrent下载。密码是加密过的,但黑客破解了约188000个,除去重复的共暴露了91000多个密码。这样的数据你会如何处理?

相对龌龊一点的做法就是高亮显示一下使用常见密码的用户名,你甚至可以开发一款针对给定用户名猜测密码的应用程序。另一种做法可以只把常见的密码高亮显示,如图1—27所示。这个图给出了数据的一些内在信息,同时又不致于很容易就能登录他人的账号。它还是一种警告,提醒人们改用更为完全的密码。

对高客黑客事件中这样的数据做深入分析或许很有趣,但弊大于利。在这个例子中,数据隐私更加重要,因此最好限制一下你所展示和观察到的信息。然而,我们总是不能清楚地判断是否应当使用数据。有时,对错并非那么分明,你得自己决定。例如,2010年10月22日,维基解密——一个发布匿名来源的私有文档和媒体的在线组织,公布了391832份美国军方的战地报道,如今被称为“伊拉克战争日志”。报道中2004年到2009年的109000次死亡记录中,平民死亡人数为66081人。

泄露的数据暴露了虐囚事件以及不实报道,例如,有的平民死亡被归为“行动中的歼敌数目”。另一方面,这些结论与通过不正当途径获取的机密数据有关,把它们公布出来似乎也不正当。或许应该有一条针对数据的黄金准则:你希望别人怎样对待自己的数据,你就要怎样对待别人的数据。

最后再回到“数据到底代表什么”上来。数据是对现实生活的抽象表达,而现实生活是复杂的。但是,如果能收集到足够多的背景信息,你至少能知道该怎样努力去理解它。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载