鲜活的数据:数据可视化指南(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-11 16:07:06

点击下载

作者:(美)邱(Nathan Yau)

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

鲜活的数据:数据可视化指南

鲜活的数据:数据可视化指南试读:

引言

数据不是什么新鲜玩意。早在几个世纪之前,人们就开始对数据进行量化分析并为之绘制表格了。然而在为FlowingData(我创建的一个有关设计、

可视化

和统计的网站)写作时,我发觉这一领域在过去数年间出现了爆炸式的发展,而且未来还会更加蓬勃。科技的进步使得收集和存储数据变得轻而易举,而互联网则让我们摆脱了时间和空间的束缚。如果运用得当,这种数据的“财富”能够提供丰富的信息,帮助人们更明智地制定决策、更清楚地传达理念,而且能让我们以更为客观的角度去审视自己对世界和自身的看法。

随着2009年年中Data.gov网站的上线,美国政府数据公开化进程发生了一次重大转变。这是一套综合的数据目录系统,由各级联邦政府机构提供,表现出各组织及官方的透明度和责任感。比如说,国民有权利了解政府把税收收入都花在了哪里,而在此之前美国政府给人的感觉就像一个黑箱。Data.gov上的很多数据其实在许多网站中都能找到,但现在它们都被会聚在一起,而且有着统一的格式,更加便于人们进行分析和可视化。除了Data.gov之外,联合国也有类似的网站UNdata,英国很快也发布了Data.gov.uk,而像纽约、旧金山和伦敦等全球许多城市也都参与到了数据公开这一潮流中来。

如今的网站也变得越来越开放,有数千个API(应用编程接口)在鼓励和“怂恿”着开发人员去调用网站已有的数据做各种事情。比如Twitter和Flickr就提供了覆盖面极广的API,开发人员可以自由定制与网站本身完全不同、五花八门的用户界面。API编目网站1ProgrammableWeb目前已收录超过2000个API。诸如Infochimps和Factual这样的应用最近也大量涌现出来,它们存在的目的就是向人们提供结构化的数据。1

截至2012年5月底,该网站已收录6100多个API。——译者注(如无特殊说明,下文中所有脚注均为译者注)

在个人层面,我们可以在Facebook上结交朋友,在Foursquare上分享所在的位置,或者在Twitter上发布自己的最新动态,这所有的一切都只需要点击几次鼠标或者敲击几下键盘就能实现。一些针对性更强的应用则方便我们记录品尝过什么美食、体重几何、情绪高低等林林总总的事情。几乎可以这样说,只要你想对自己的某个方面进行追踪,就会有这样一款应用来帮助你实现愿望。

数据就静静地待在我们生活的每一个角落。园子里已经果实累累,正等待着我们去采摘。对大多数人来说,真正有意思的并不是数据本身,而是数据背后蕴涵的信息。人们都希望知道他们的数据有何意义,而如果你能帮助他们,那么你就会大受欢迎。难怪Google首席经济学家Hal Varian会说统计学家将是未来十年内最迷人的职业,而这绝不仅仅是因为统计学家长得好看(尽管以极客们的别样眼光来看,我们确实长得让人赏心悦目)。可视化

要想探索和理解那些大型的数据集,可视化是最有效的途径之一。把数字置于视觉空间中,我们的大脑或者读者的大脑就会更容易发现其中潜藏的模式。人类对图形的理解能力确实很强,往往能够从中发现一些通过常规统计方法很难挖掘到的信息。

John Tukey是我最喜爱的统计学家,也是探索性数据分析理论(Exploratory Data Analysis)的缔造者。他精通各种统计方法和工具,而且深信图形技术在其中亦占有一席之地。他坚信,图形的呈现方式会让人们得到许多出乎意料的结果。只需对数据进行可视化,我们就能从中发现大量信息,而且很多情况下这也是我们制定明智决策或描述复杂事件所需要的唯一手段。

比如说,在2009年美国的失业率遭遇了一次大幅增长。2007年的全美平均失业率是4.6%,2008年上涨到了5.8%。而到了2009年9月,突然就攀升至9.8%。但是这些全国平均数字只揭示了事件的一部分,它们只是概括了整个国家的总体状况。有哪些地区的失业率高于其他地区?又有哪些地区并未受到很大波及?我们无法从中获得答案。

图0-1用一系列美国地图更为完整地说明了情况,而且我们只需略扫一眼就能回答上面的问题。颜色较深的县失业率相对较高,而颜色较浅的县失业率较低。在2009年的地图上(图0-2),我们可以看到美国西部和东部大多数地区的失业率都超过了10%,而中西部地区则未受到太大影响。图0-1 2004—2009年美国失业率分布图

如果手上只有单纯的电子表格,要想找到其中蕴涵的地区性或周期性的模式就会很花时间,而只靠前面那些全国平均数字则完全不可能。而用地图呈现之后,虽然增加了许多县的数据,但读者的理解程度反而提高了。这些地图有可能帮助当局决定往哪些地区划拨救济金或提供其他形式的援助。

图0-2 2009年失业率分布图

这个例子的绝妙之处在于,用于产生地图的数据都是免费的,由美国劳工统计局直接面向公众开放。尽管找到这些数据并不是那么轻而易举,但它们确实就在某个地方听候我们的差遣,而且还有更多格式化的数据正等待着我们作更好的视觉处理。

比如说,《美国统计摘要》(The Statistical Abstract of the United 2States)就含有数百个数据表格(见图0-3),但没有任何图表。这简直是天赐的良机,我们可以在此基础上进行加工,展现整个国家的概貌。这个过程将会非常有趣。不久前我用图形描绘了其中的部分表格(见图0-4),很快就得到了美国近年来结婚率及离婚率、邮政资费、用电量等信息的直观变化情况。单纯的表格形式很难阅读,读者只能得到一些零散的数值,而在图表化视图中,人们能够轻易地发现变化的趋势和模式,而且一眼就能作出比较。2

《美国统计摘要》由美国商务部人口普查局整理发布,是美国社会、政治和经济机构的标准统计摘要。每一篇都提供文字说明并在表格下方注明出处。自1878年首次出版以来,每年出版一次。因经费问题,在2012年出版最后一期(第131期)后该刊即停刊。——编者注图0-3 美国统计摘要网站中的表格

图0-4 美国统计摘要网站数据的图表化视图

类似《纽约时报》、《华盛顿邮报》这样的新闻机构很擅长让数据变得栩栩如生、易于理解。它们对已有数据的利用也许是最充分的,因为经常会有相关主题的新闻故事见诸报端。有时故事中还会插入数据图表以强调不同的观点,而有时只需要图表就能讲述整个故事。

在传统媒体向网络媒体转型的过程中,图形的应用变得更加普及。如今的新闻机构中都已设立了专门处理交互、图表或地图数据的各种部门,比如《纽约时报》就专门为“计算机辅助报道”成立了一个新闻编辑部,旗下的记者都专注于用数据来报道新闻。而《纽约时报》的图形编辑部处理起大量数据来也同样得心应手。

即使是在流行文化领域,可视化也占据了自己的一席之地。Stamen Design是一家以在线交互闻名的可视化公司,他们在过去数年中一直都在对每年的MTV音乐录影带大奖颁奖时期的Twitter状态进行追踪。Stamen Design每一次的设计都与之前有所不同,但其核心一直保持不变:实时展现人们在Twitter上的热门话题。2009年Kanye 3West在Taylor Swift发表获奖感言时突然暴走,我们通过Stamen Design的追踪可以很容易地了解人们对他这种行径的看法。3

Kanye West是美国黑人说唱歌手,他在2009年的MTV音乐录像带颁奖典礼上冲上台打断了当届最佳录影带大奖得主Taylor的获奖感言,并声称该奖项应属于Beyonce。

现在看来,我们发现这个领域中也有偏重情绪而非分析的一面,对可视化的定义开始变得模糊起来。在很长一段时间内人们都认为,可视化就是关于量化后的事实:我们把它们作为工具来识别事物发展的模式,转而为分析研究提供帮助。但可视化并不仅仅与冰冷的事实有关。就如同Stamen Design的追踪设计一样,它有着很强的娱乐因素,为观众提供了另一种方式去关注颁奖典礼,并在过程中与其他粉丝进行互动。Jonathan Harris的设计也是一个很好的例子。在他的45We Feel Fine(我们感觉良好)和Whale Hunt(捕鲸)等作品中,Harris并不是出于分析角度,而是围绕着故事本身来进行设计,而且这些故事以人类情感为中心,超越了单纯的数字和分析行为。4

作品见http://www.wefeelfine.org/。本书第1章有详细介绍。5

作品见http://thewhalehunt.org/。设计师将在一次为期7天的捕鲸行动中所拍摄的大量照片用可视化方式进行排列。读者可以选择马赛克、时间线或轮辐等浏览模式。

图表和图形逐渐也超出了工具的范畴,发展为传达理念的载体。67GraphJam和Indexed之类的网站就喜欢运用文氏图、饼图等形式来戏谑流行歌曲及文化,用红白黑等颜色组合来讥讽政客,或者谴责虐待动物的行为。我自己也在这个方向上作了一些尝试,在FlowingData上发表了系列漫画Data Underload(数据低负荷)。在图0-5中,我用图形表现了美国电影协会评选出的一些经典电影台词8——非常无厘头,但很有趣(至少对我来说如此)。6

这两个网站可以被归类于“每日一漫画”类型的网站,只不过通常以简单的图表形式来展现笑料。7

文氏图(Venn diagram)是一种常见的用于表示集合或类的粗略草图。例如用圆圈A和圆圈B分别代表两个集合,那么两个圆圈交叠的区域就是集合A与集合B的交集。8

原图内并未给出相关台词的原文,考虑到国内读者可能不太熟悉出处,特在图中添加。

访问http://datafl.ws/underload,欣赏FlowingData网站上的更多Data Underload漫画。

图0-5 图表形式的电影台词

那么,到底什么是可视化呢?每个人都有自己的答案。有些人认为只有严格意义上的传统图形图表才是可视化。而另一些人的观点则更加开放,他们认为只要是在表现数据,不管是数据艺术品还是微软Excel表格,都可以算是可视化。我个人较为倾向于后者,但有时也发现自己站在前一阵营。毕竟,这一问题上孰是孰非并不是那么重要,只要能达成我们的目的就行了。

不管可视化是什么,我们绘制演示用的图例也好、进行数据分析也好、用数据来报道新闻也罢,最终其实都是在寻求真相。在某些时候,统计也会产生错误的假象,但造成错觉的并不是数字本身,而是运用数字的人。有时候这是有意为之,但更多情况下是疏忽大意所致。如果我们不知道如何创建合适的图形,或者不知道如何客观地看待数据,那么就会产生谬误。但只要我们掌握了适当的可视化技巧和处理方式,就能更加自信地陈述观点,并且对自己的发现感觉良好。

学习数据

我在大学一年级时开始接触统计学,当时它是一门必修的基础课,但与我的专业电气工程并没有太大关系。讲课的教授热情极高,而且对这一领域乐此不疲。他上课时喜欢在教室的台阶上来回走动,身体语言极为丰富,而且不时鼓励身边的学生参与讨论。我从未遇到过如此兴奋的老师,而且毫无疑问,正是这种精神吸引我进入了数据领域,最终在四年后考上了统计学的研究生。

在本科四年中,统计学就是数据分析、频率分布和假设检验,而我一直乐在其中。我觉得观察数据集,探索其中的趋势、模式和关联性很有意思。但开始研究生学业之后,我的观点发生了改变,事情变得更加有趣了。

统计学不再是假设检验(结果表明,在许多情况下它并无太大作用)以及寻找模式了。哦,不,我收回这句话。统计学仍然与这些有关,但我对它产生了不一样的感受。统计学其实是在用数据讲故事。我们手头的大堆数据反映了真实的世界,然后我们对它们进行分析,得到的不只是数据的关联性,我们还能了解到身边正在发生什么。这些故事反过来可以帮助我们解决真实世界中存在的问题,例如降低犯罪率、提高卫生意识、改善高速上的交通状况,或者只是增长我们的见识。

很多人都未能找到数据与真实生活之间的联系。我想这也是为什么当我告诉人们我读研是为了学统计学时,大多数人都说那是他们“上学时最痛恨的一门课”。我相信读者们不会犯同样的错误,否则你就不会选择读这本书了,不是吗?

运用数据需要一些技能,如何才能掌握呢?你可以像我一样去学校选择正规的课程训练,但你也可以通过大量的实践经验,自学成才。其实大多数研究生课程和自学也没有多大区别。

在可视化和信息图(infographics)方面也是如此。并不是只有专业图形设计师才能创建优秀的图表,同样,你也不需要拿到统计学的博士学位。你所需要的只是保持对学习的渴望,而且和生活中的所有事情一样,你需要不断练习才能变得更在行。

我制作的第一张数据图大概是在小学四年级,那是为了应付一次课外科学研究。我和搭档一直很想知道蜗牛在什么样的平面上会爬得更快,于是把它们放在各种粗糙或光滑的物体表面上,并计时观察它们爬过一段特定距离各需要多久。最后我拿到了蜗牛在不同表面上爬行的时间数据,并据此制作了一张柱形图。至于当时是否知道应该将它们按长短进行排序,我已经记不太清了,但是和Excel软件的辛苦9纠缠倒是一直刻骨铭心。不过第二年当我们研究赤拟谷盗最喜欢吃哪种谷制品时,作图就是小菜一碟了。当你理顺某款软件的基本功能和操作方式之后,剩下的几乎都轻而易举。这个例子完美地说明了什么叫做从经验中学习。噢,顺便提一句,如果你还在琢磨前面的问题,答案是蜗牛在玻璃上爬得最快,而赤拟谷盗最喜欢吃葡萄果仁麦片(Grape Nut)。9

赤拟谷盗(red flour beetle)是一种鞘翅目昆虫,对农作物危害极大。

从本质上来说,学习任何软件或编程语言的过程几乎都是一样的。如果你一行代码都没写过,那么R(许多统计学家都采用的一种计算环境)必然会让你望而生畏,而一旦你跟着完成了几个范例之后,就会很快找到窍门。这本书能够帮助你做到这些。

之所以这样说,是因为我本人就是这样学习的。我还记得自己第一次深入接触可视化的设计层面时的情形。那还是我读研究生的第二年,好消息从天而降,我得知自己获得了《纽约时报》图形编辑的实习机会。在那一刻之前,图表对我而言只是一种分析工具而已(比如小学课外活动时作的柱形图),就算其中含有一些美学和设计因素,比重也少得可怜。而将数据用于新闻报道,这对我来说更是无从入手。

所以为了作准备,我阅读了手边能找到的所有设计书籍,以及一本Adobe Illustrator的使用指南,因为我知道《纽约时报》图形编辑部用的就是这款软件。不过还没等我真正上手就已经开始绘制工作了。当你被迫边学边干的时候,就不得不尽快掌握那些必需的知识,而当你开始处理更多数据、设计更多图表时,你的技能也会随之突飞猛进。

如何阅读本书

本书以实例讲解为主,目的是让大家熟悉制图所需的每一个步骤,掌握每一项技能。你可以从头开始完整地读一遍,不过如果你已经有想法在酝酿了,也可以只挑选最感兴趣的几章来读。所有的章节都经过了精心的组织,案例是相互独立的。如果读者对数据领域还比较陌生,那么阅读最开始的几章应该会很有帮助。它们介绍了处理数据的方法、需要关注的重点以及各种可用的工具,便于读者了解如何获得数据,如何规范格式并为可视化作准备。之后的几章会根据不同的数据类型和侧重面分别介绍各种可视化技巧。请记住,永远都要让数据说话。

不管你选择何种阅读方式,我都强烈建议你在阅读时打开电脑,和我一起逐步完成每一个范例,并且浏览在注释和参考中提到的各种资源。你也可以在www.wiley.com/visualizethis或http://10book.flowingdata.com上下载到所有的代码、数据文件和可交互演示。10 亦可从图灵社区(www.ituring.com.cn)本书相关页面下载。——编者注

为了表述得更清楚一些,图0-6给出了一张流程图,便于读者找到需要的章节。祝大家阅读开心!图0-6 从何处开始阅读第1章用数据讲故事

让我们先回想一下过去曾看到过的那些数据可视化作品——听演讲时看到的幻灯片、博客文章的配图以及此刻在你脑海中浮现的经典案例。它们的共同点是什么?它们都在讲故事,有趣的故事。这些故事也许是为了让你相信某件事情,或者呼吁你做出某种举动,也可能是通过新的信息激发新思路,或者是打破早已形成的先入之见。不管它们的意图是什么,各种尺寸和形式的优秀数据可视化作品都在帮助我们理解数据背后的意义。1.1 不只是数字

让我们面对现实——如果在一开始我们不知道自己想了解什么,或者不知道有什么可以去了解,那么数据就是枯燥的。它不过是数字和文字的堆砌,除了冰冷的数值之外没有任何意义。而统计与可视化的好处就在于能帮助我们观察到更深层次的东西。请记住,数据是现实生活的一种映射,其中隐藏着许多故事,在那一堆堆的数字之间存在着实际的意义、真相和美学。而且和现实生活一样,有些故事非常简单直接,有些则颇为迂回费解。有些故事只会出现在教科书里,而其他一些则体裁新奇。讲故事的方式完全取决于你自己,不管你的身份是统计学家、程序员、设计师还是数据研究者。

以上就是我作为一名统计学研究生所学到的第一课。我必须承认在接触这门课之前,我一直认为统计学就是一门单纯的分析学科,而数据也只不过是一种机械式作业的产物而已。的确,在很长一段时间内我都这么想——毕竟,作为一名电气工程专业的大学毕业生,用这种眼光来看待数据是情有可原的。

不要误解我的意思,有这种看法未必是一件坏事。但我在数年后认识到,数据虽然有很强的客观性,但其中往往也存在着人的因素。

比如说,让我们再来看看失业率问题。说出一个全国平均数字很容易,但正如我们所见,不同地区对每个人的意义是不一样的,甚至连街区的远近都会造成差异。如果你认识的某个人这两年一直没有工作,其实是很难把他视为一个冷冰冰的统计数字的,不是吗?这些数字代表的是活生生的人,所以我们处理数据时必然会带有感情因素。当然,我们也不可能讲述每一个人的故事,但在“失业率攀升5个百分点”和“数十万人失业下岗”之间还是有着微妙但重要的区别。前者读起来只是一个没有多少上下文背景的数字,而后者却更能让人产生共鸣。1.1.1 新闻报道

在《纽约时报》的图形设计实习机会让我感触颇深。虽然那只是我研二暑假期间的短短三个月而已,但它影响了我此后处理数据的方式。我学会的不仅是为新闻绘制图表,我还学会了如何像报道新闻那样报道数据,而这需要更多的精力去设计、组织、核查、追踪和研究。

有一次我的任务是核实某个数据集中的三个数字,因为《纽约时报》的图形编辑部在绘制图表时,必须确保报道的所有数据都是准确无误的。我们只有在确信所有数据都可靠之后,才会去考虑表现层面的问题。正是这种对细节的关注让该报的图表如此优秀。《纽约时报》的任何一个图表都是如此。它将数据表现得非常清晰、简洁,甚至可以说是优美。这代表着什么呢?只有在阅读这样的图表时,你才能理解数据的意义。重要的点或区域都带有注释,使用的符号和颜色都进行了详细的说明,而且它能让读者轻松地了解数据中的信息。这已经不仅是图形了,这简直是图形的艺术。

图1-1就类似于你在《纽约时报》中所看到的那些图表。它显示了各年龄段的人在未来一年内死亡的概率。图1-1 不同年龄段的死亡概率

访问http://datafl.ws/nytimes,欣赏《纽约时报》的一些优秀图表。

这张图表从根本上来说只是一个折线图(line chart)而已,但是其中的设计元素让它显得生动:指针和标记提供了上下文环境,便于读者理解这些数据的有趣之处,而曲线的颜色和宽度则将他们的视线引导到重要的地方。

图表和图形并不只是将统计结果可视化,它们还对可视化展现的内容进行解释。

说明 观赏Geoff McGhee的纪录片Journalism in the Age of Data(数据时代的新闻业),了解新闻记者是如何运用数据来报道当今事件的。片中采访了许多业界高人。1.1.2 艺术《纽约时报》是客观的。它为人们呈现数据、展现事实,而且干得很棒。但可视化的另一面则不太注重分析,而更多偏重于挖掘人类的情感,比如Jonathan Harris和Sep Kamvar的作品We Feel Fine(见图1-2)。图1-2 Jonathan Harris和Sep Kamvar的作品We Feel Fine

这件交互作品可以从各个公开的个人博客中抓取词句,然后将它们以悬浮气泡的形式展现出来。每一个气泡都代表着某种情绪,而且有相应的颜色标记。从整体来看,气泡就像无数个体在空间中无止境地漂浮,但观察一段时间之后你就会发现它们开始聚集。如果在顶部菜单中选择各种分类,还能看到这些貌似随机的片断之间的联系。点击单独的气泡可以看到它自身的来龙去脉。整个作品既富有诗意又能给人以启迪。

访问http://wefeelfine.org,欣赏Jonathan Harris和Sep Kamvar的在线作品,并探索人们此刻的情绪。

还有很多类似的例子,比如Golan Levin的The Dumpster(垃圾桶),它同样也是抓取博客,但只涉及与他人断绝关系的内容。还有Kim Asendorf的Sumedicina,讲述了一个人脱离腐败组织的虚构故事,里面没有只言片语,只有图形图表。这样的例子还包括Andreas Nicolas Fischer展现美国经济滑坡的实体雕塑。

访问http://datafl.ws/art,观看FlowingData上更多有关数据和艺术跨界的例子。

重点是,数据和可视化并不一定只能和冰冷的、不争的事实相关。有时我们寻求的并不是分析和洞察,而是从富有情感的观点来讲述故事,鼓励读者对数据作出回应。并不是所有的电影都必须是纪录片,同样,也并不是所有的可视化都必须是传统的图形或图表。1.1.3 娱乐

在新闻报道和艺术创作之间,可视化在娱乐领域也找到了一席之地。如果我们以更为抽象的角度来看待数据,在电子表格和带分隔符的文本之外,将照片和状态更新也包括在内,那么就不难发现这一点。

Facebook利用人们的状态更新来判定一年中最快乐的日子是哪一天,而在线约会网站OkCupid则根据用户的在线信息来估算人们会怎样夸大自己在数字世界中的形象,如图1-3所示。这些分析并不会为网站带来业绩的提升、收入的增加,也不可能帮助排除系统故障,但它们却因为娱乐方面的价值而像野火一样迅速在互联网上四处传播。数据能在一定程度上折射出我们自身和社会的投影。

Facebook发现一年中最快乐的日子是感恩节,而OkCupid发现人们一般都会将自己的身高夸大2英寸(约5厘米)左右。

访问OkCupid的博客OkTrends(http://blog.okcupid.com)以查看有关网上约会的更多发现,例如白色人种最喜欢的是什么,以及如何在细节处保持形象。图1-3 OkCupid上的男性身高分布1.1.4 引人注目

当然,并不是所有的故事都以增长见闻或者娱乐大众为目的。有时候它们是为了提出倡议或者呼吁人们作出行动。在纪录片《难以忽视的真相》中就有令人难忘的一幕:主讲人Al Gore要依靠剪叉式升降机的帮助才能靠近二氧化碳的上升曲线。

不过在我看来,卡罗琳学院的国际卫生学教授、Gapminder基金会理事Hans Rosling在这方面才是真正的无人能及。Rosling曾经运用一款叫做Trendalyzer的工具(见图1-4),以动画的方式来展现世界各国摆脱贫困的历程。在他的那次演讲中,所有观众从一开始就被深深吸引到数据的世界里,而在结束时都情不自禁地起立鼓掌喝彩。真的非常精彩,强烈建议不要错过。

欲知Hans Rosling如何用数据和精彩的演示赢得现场观众的喝1彩,访问http://datafl.ws/hans。1

可选择中文演讲稿。图1-4 Gapminder基金会开发的Trendalyzer软件

他运用的可视化技巧非常简单,不过是一种可运动的图表而已。其中的气泡代表各个国家,根据该国的贫富程度在时间轴上移动。那他的演讲为何会如此大受欢迎呢?因为Rosling在演讲时充满着信念和激情。他是在给大家讲故事。我们都遇到过配有图形图表演示的演讲者,但其中绝大多数都让观众昏昏欲睡。而Rosling却把握住了数据背后的意义,并将其作为自己的优势,最后的吞剑表演则更是水到渠成的一笔。在看了Rosling的演讲之后,我忍不住想亲手把玩那些数据,重温一遍他所讲的故事。

之后我又看过Gapminder基金会的另一次演讲,相同的主题、相同的可视化方式,但却是另一位演讲人。这次就不那么令人兴奋了——说老实话,称其为催眠曲也不为过。在数据中观众感觉不到任何情绪,也不能让人从中感到任何信念或激情。由此可见,数据本身或许并不一定趣味盎然,令人产生深刻印象的是你设计数据和演示数据的方法。

综上所述,我们应当以讲故事的角度来思考如何可视化。你打算讲一个什么样的故事呢?它的体裁类似于报告还是小说?你是否想说服人们应当采取某种行动?

和小说中的人物成长一样,每一个数据背后都有它自己的故事,如同书中的每一个角色都有着各自的过去、现在和未来。那些数据彼此之间充满着互动和联系,如何表现出这些关系则取决于你自己。这就像在动笔写小说之前,我们必须先学会遣词造句一样。1.2 我们要寻求什么

要讲故事,没问题。那么,到底应该怎样用数据来讲故事呢?自然,具体细节会因为数据的不同而有所差别,不过总体来说,不管图形表现的是什么,我们都需要留心观察以下两件事情:模式和相互关系。1.2.1 模式

事物会随着时间的流逝而变化。我们都会老去,青丝变白发,视力不复从前(见图1-5)。产品的价格会上下浮动,品牌的商标逐年更换,各种行业新老交替。变化有时突如其来、毫无征兆;有时则十分缓慢、难以察觉。

无论观察的对象是什么,变化本身可以和变化的过程一样妙趣横生。这里探究的正是随时间推移而变化的各种模式。比如在观察股票价格时,它们自然会有增有减。但每天的变化量是多少?每周或每个月的变化量又是多少?是否在某个时期内股票的波动会异于往常?如果是,其原因何在?是否有某些特殊的事件引发了这些变化?

如你所见,由某一个问题出发会带来更多的问题。并不是只有时间序列数据会这样,所有类型的数据都是如此。努力探索数据背后的含义,你就会发现更多有趣的答案。

我们也可以用不同的方式来拆分时间序列数据。有时需要按天或小时来显示数值,有时则更适合以年或月为单位。前者的时序图会显示出更多杂点,而后者则偏向于呈现总量。

使用过网站分析工具的人可能会比较认同这一点。以日为单位来监测网站流量时,图表就会起伏不平,存在很多波动,如图1-6所示。图1-5 喜剧化地看待衰老图1-6 FlowingData网站的每日独立访客量

而当我们以月为单位来观测时,图表上涵盖同样时间跨度的数据节点就会减少,显得更加平滑,如图1-7所示。

我并不是说某个图表比另一个要好。事实上它们是相互补充的。如何拆分数据则取决于你需要(或不需要)多少细节。

当然,我们寻求的不仅是随时间而变化的模式。还有很多有关总量的模式能帮助我们对团体、人或事进行比较。你每周会吃什么食物、喝什么饮料?美国总统在每年发表国情咨文时通常都会谈论哪些内容?有哪些州倾向于投共和党的票?对于后面这个问题,按地区性来寻找模式显然会更有帮助。尽管问题和数据类型各有不同,但我们的处理方式是相似的,这在后面几章中就会看到。图1-7 FlowingData网站的每月独立访客量1.2.2 相互关系

你是否见过那种包含了一大堆图表、看上去像是随意堆砌的数据图?这种图表似乎丢失了某种特别的东西,就好像是设计师敷衍了事、赶在最后期限到来之前匆匆完成的作品。一般来说,这种特别的东西就是图表相互之间的关系。

在统计学中,它通常代表的是关联性和因果关系。多个变量之间应该存在着某种联系。第6章将详述这些概念以及可视化的方法。

不过在更为抽象的层面,抛开各种等式或假设检验不谈,我们完全可以在视觉上对数据图进行设计,用于比较和对照各种数值和分布。这里有一个简单的例子,摘自我的作品World Progress Report(世界发展报告)中有关科技的部分,如图1-8所示。

World Progress Report是一份有关全球发展对比的图形化报告,数据来源于UNdata。请访问http://datafl.ws/12i浏览完整版本。

我使用了直方图来表现每100个居民中互联网用户、互联网订购者和宽带用户的数量。请注意互联网用户的跨越幅度(从没有用户到每100居民中有95位用户)比其他两个数据集要宽得多。图1-8 全球范围的科技采用

最方便的办法自然是让软件根据数据的多少来自动设定每一个直方图的幅度。但是,尽管没有任何国家的互联网订购者或宽带用户达到95%,我仍然赋予每一个直方图以相同的幅度。这能让读者一目了然地比较各群体间的分布情况。

当你需要处理很多不同的数据集时,请尝试将它们进行分组,而不是当做互不干涉的单独元素来看待。这样能够产生更加有趣的结果。1.2.3 有问题的数据

在数据中寻找故事时,我们应该对自己所看到的保持质疑态度。记住,决不能只因为它是数字就相信它就是正确的。

我必须承认,数据检验无疑是我在数据图制作过程中最不喜欢的一步。我的意思是说,当某个人、组织或服务机构为你提供一大堆数据时,本应该由他们来确保所有数据都是真实可信的。但这同样也是一位优秀数据图形设计师的分内之事。毕竟,可靠的建筑师不会用劣质水泥来为房屋奠基,所以我们也不要用劣质的数据来构建自己的数据图。

也许数据检验与核实不是数据图设计中最重要的部分,但它绝对是其中不可或缺的部分之一。

基本上,我们要注意的是那些不太对头的东西。也许是因为在数据输入时出现了失误,某人多添或者遗漏了一个零;也许是在数据收集时网络出现了问题,有些字节被随机移动到了其他地方。无论原因是什么,如果任何东西看上去有些异常,我们就需要到源头去进行验证。

提供数据的人通常都会对数据所表现的普遍状况有所认识。如果你自己就是收集数据的人,自问一下这是否说得过去:所有地区在某方面的指标都只有10%~20%,而某个地区却达到了90%。那里是不是出了什么问题?

大部分异常都只是笔误而已,但有些异常却真的存在,而它们就是有意思的地方,可以作为故事的重点。如果你遇到了异常,一定要确定它到底属于前者还是后者。1.3 设计

当所有的数据都安排妥当,就可以着手进行可视化了。无论你做的是什么,报告、网上的信息图抑或是数据艺术品,都应当遵循一些基本的规则。所有这些规则都是弹性的,更像是一个框架而不是生搬硬套的教条,但如果你刚刚接触数据图形,从这些开始应该不会错。1.3.1 解释编码

数据图形的设计流程都是相似的。你先拿到数据,然后以圆形、柱形和颜色等形式对数据进行“编码”,最后呈现给读者。因此读者必须先对你的编码进行“解码”:这些圆形、柱形和颜色分别代表什么?

William Cleveland和Robert McGill曾撰文对编码进行过详细的探讨。某些编码方式要比其他编码方式更行之有效。但如果一开始读者不清楚你的编码所代表的对象,那么选择任何编码方式都没有效果。如果他们不能解码,那么你对数据图的辛苦设计就是无用功。

说明 阅读Cleveland和McGill所著论文“Graphical Perception and Graphical Methods for Analyzing Data”(数据分析的图形化感知和图形化方法),以深入了解人们如何编码形状及色彩。

有时候我们会在数据艺术品或信息图中看到这种图形缺失上下文的情况。可能在数据艺术品中更为常见。过多的标记或说明文字确实可能会破坏作品的气氛,但至少可以在旁边给出一小段描述性的文字,提供必要的信息。这能帮助其他人理解并欣赏你的设计成果。

如果在真正的数据图中出现这种情况,读者就会感到沮丧失望,而这是我们最不愿意看到的。有时候这是因为设计师一直与数据打交道,他们知道每一样东西都代表什么意思,所以在设计时忘了面面俱到。但是读者在看到图表之前对它是一无所知的,他们并不熟悉设计师在分析过程中所了解到的上下文。

那么如何确保读者能够解码我们的编码呢?可以通过标签、图例和关键词来解释各个图表所代表的内容。选择何种解释方式取决于具体情况。比如说,让我们看看图1-9中的世界地图,它显示了Firefox浏览器在各个国家的使用情况。图1-9 世界各国Firefox的使用情况

我们可以看到不同国家蓝色有深浅之别,但这代表什么意思呢?深蓝色是代表使用量大还是小?如果深蓝色代表使用量大,那么大的衡量标准又是多少?如果只有这些元素,这张地图对我们来说几乎没有多少作用。但如果设计师提供了图1-10中的说明,事情就会清楚很多。除了对色彩进行了说明外,它还是一个直方图,根据用户数量的多少表现了使用情况的分布。图1-10 Firefox使用区域数据图的说明

如果有足够的空间,而且分类不多的话,我们也可以直接在形状或对象旁边添加标记,如图1-11所示。这个图表显示了明星们在最终捧得奥斯卡最佳男主角奖之前在往届曾获得的提名次数。

网上流传有一种理论,在所有入围者中,往年获得提名次数最多的人通常就会赢得当年的金像奖。如图中所标注的,暗橙色(图中为深色)表示该获奖者确实是往届提名最多的人,而亮橙色(图中为浅色)则表示这位大奖得主曾获得的提名次数并不是所有入围者中最多

1的。1

出于印刷成本的考虑,在不影响读者理解的前提下,本书中一些色彩简单的图未给出彩插,而通过灰度的深浅来区分。——编者注

如你所见,要想对图表进行解释,我们可以有很多选择。运用它们的方法都很容易,但正是这些细节之处造就了数据图的不同阅读方式。图1-11 直接对对象进行标注1.3.2 标注坐标轴

对编码需要进行解释,对坐标轴也应当进行标注。没有标注或解释的坐标轴就只是个摆设而已。标注坐标轴可以让读者知道它所描绘的尺度和内容,否则就会猜测它代表的到底是增量、对数、指数,还是每100个抽水马桶如何如何。就我个人来说,每当不清楚坐标轴的标记是什么时我就会假设它代表的是最后一种意思。

数年前我曾在FlowingData上举办过一次竞赛。我发表了如图1-12所示的一张图片,然后邀请网友来标注坐标轴,看谁标注的结果最有乐趣。

针对同一幅图形我收到了大约60份不同的标注。图1-13中显示了其中的一部分。图1-12 在这里添加你的标注图1-13 FlowingData标注竞赛的部分投稿作品

如你所见,尽管每个人看到的都是同一幅图表,但只要改动坐标轴的标记就会得到一个完全不同的故事。当然,这只是为了好玩,但试想如果你想让别人认真对待你的图表,情况又会怎样?没有了标记,你的图表就毫无意义。1.3.3 确保几何上的正确性

在设计数据图时必定会用到几何形状。柱形图中有矩形,它们的长度代表了数值的多少。在点状图中表现数值的则是位置,这和标准的时序图类似。饼图通过角度来表现数值,其总和通常都等于100%(参见图1-14)。这些都很简单,但是也很容易出错,所以要多加小心。如果我们不加注意就有可能弄糟,而读者尤其是网友们对此是不会留情面的。图1-14 绘制饼图的正确及错误方法

另一个常见的错误是,设计师运用二维的形状来表现数值,但却把它们当做是一维来比较。柱形图中的矩形虽然是二维的,但我们只会用到它的长度,宽度其实并无实际意义。但如果是气泡图,就会用面积来表现数值,而新手往往只会考虑半径或直径,导致比例完全错误。

图1-15中的一对圆形根据面积大小来计算对比关系。这是正确的方法。图1-15 比较气泡的正确方法

图1-16中的一对圆形则是根据直径来计算的。第二个圆的直径是第一个的两倍,但面积却是它的4倍。图1-16 比较气泡的错误方法

在处理矩形时也是一样,例如板块层级图(treemap)。我们用矩形的面积来代表数值,而非仅取用它的长或宽。1.3.4 提供数据来源

本来这一点毋庸赘言,但就是有很多人都漏了它。你的数据是从哪儿来的?我们在报刊杂志上看到的数据图都附有数据来源,通常都以小字体印在图表的底部。你也应该如此做,否则读者就没办法知道你的图表有多准确。

没有数据来源,读者也可能会怀疑图中的数据是不是胡编乱造的。当然我们不会这么做,但并不是所有人都会相信这一点。除了为图表带来信誉之外,数据来源还能便于读者进行核验或者分析。

提供数据来源还能为数据带来更多的上下文背景。在某个小镇上搞的民意测验与全美人口普查相比,得到的诠释自然会有天壤之别。1.3.5 考虑你的受众

最后,多考虑数据图本身的设计意图和受众群体。比如说,演讲幻灯片中的饼图就应该设计得尽量简单明了。如果在其中加入大量细节,恐怕就只有坐在前排的听众才能够看清。但如果是供人学习研究用的印刷品,添加细节就没太大问题。

如果数据图是放在商业报告里,那么就不要把它设计成惊世骇俗的艺术作品。简单、直达主题才是你追求的目标。如果只是用于分析,那么数据图本身就够了,无需在美感和注释上花费大量时间。如果你的图形是为了发布给大众,那么设计就不要过于复杂,同时为任何可能产生疑义的概念提供解释。1.4 小结

简而言之,以某个问题作为出发点,以批判的眼光检查你的数据,并且把握图形的设计意图以及受众群体。这有助于你设计出清楚的数据图,不会让读者失望——不管是哪方面的图形都是如此。

在后续几章中我们会谈到具体的做法。你将学会如何处理数据并且进行可视化,如何从头到尾设计出完整的数据图。之后你就能学以致用——找出你自己要讲的故事,然后进行相应的设计。

 第2章处理数据

在我们开始视觉化之前,首先需要有数据。正是数据让可视化有趣起来。如果数据本身没有意思,就只能是一张好看但无用的图片而已,很快就会被人丢在脑后。那么在哪里才能找到好的数据?又怎样去获得它呢?

在拿到了数据之后,我们还需要对它们进行格式化,以便输入到软件中去。你得到的可能是以逗号分隔的文本文件,或者Excel电子表格,而你需要将它们转换成像XML这样的语言。或者反之亦然:也许原始的零散数据来自于某个网页应用,但你需要的是一份完整的电子表格。

首先学会如何获得数据和处理数据,然后再提高我们的可视化技能。2.1 收集数据

数据是任何可视化的精髓与核心。幸运的是,有很多途径可以找到它们,例如求助于领域内的专家,使用各种在线应用,或者靠自己的力量来收集。2.1.1 由他人提供

这种途径非常普遍。如果你是自由设计师,或者是在大公司图形部门工作的设计师,那么就更是如此。这通常是一件好事,因为有人为你分担了数据收集这部分工作,但仍旧不能大意。数据在变成格式优美的电子表格呈现给我们之前,途中可能会出现很多错误。

在我们用电子表格来分享数据时,最常见的错误就是笔误。有没有漏掉零?这里是否应该是6而不是5?一般来说,除了带分隔符的文本文件之外,数据都是直接从来源读取,然后导入到Excel或其他电子表格程序里面,因此一些小的笔误很容易就会蒙混过关,来到我们 手中。

上下文环境也需要检查。我们不必成为研究数据主题的专家,但至少应该知道数据的原始出处、收集的过程以及背后的主旨。这能帮助我们创建出更加优秀的数据图,让故事更加完整。假如你关心的是问卷调查,那么调查是何时举办的?是谁发起的?有哪些人参与?很明显,20世纪70年代的问卷调查结果和今天的必将截然不同。2.1.2 寻找数据源

如果没有人提供数据,我们只能自己花力气寻找。从坏的一面来看,肩上的担子更重了,但从好的一面来看,找到相关度高的数据会越来越容易,而且机器可读性也会更高(也就是说,更方便输入到软件中去)。我们可以从以下方面着手。

搜索引擎

今天我们怎样在网上找东西?我们用Google。这几乎是顺理成章的事情,但仍然有很多人发邮件问我应该怎样才能得到某某数据、是否有什么便捷方法。我个人一般去的就是Google,偶尔也会去Wolfram|Alpha(这是一款带有计算能力的搜索引擎)。

访问http://wolframalpha.com试用Wolfram|Alpha。如果你需要某方面的基础统计结果,这款搜索引擎会非常有帮助。

直接数据源

如果直接查询“数据”不能得到任何有用的结果,可以尝试求助于该领域的学者。有时候他们会在其个人网站上发布数据。如果没有,也可以翻阅他们的论文或学术报告寻求线索。你甚至还可以直接给他们发邮件,但要先确定他们确实作过相关的研究,否则只会是浪费大家的时间。

你也可以在《纽约时报》等新闻机构发布的图表中寻找数据源。这些来源通常都会以小字体附在图表的某处。如果这些地方没有,相关文章中也应该会提到。如果你在报纸或网上看到某个图表正好使用了你感兴趣的数据,这一招会很有用。搜索这个来源所属的网站,也许就能得到完整的数据。

自称是某某报纸的记者,直接向文章作者发邮件也是一条路。不过还是先试试能不能找到来源网站吧。

大学资源

作为一名研究生,我常常会利用学术资源,也就是大学图书馆。许多图书馆都扩充了它们的科研资源,拥有丰富的数据存档。一些统计学院系还登记了数据文件清单,其中有很多都对公众开放,虽然许多院系的数据库是为课程实验室和在籍学生的练习作业准备的。我建议访问以下资源。● 数据及故事图书馆(Data and Story Library,DASL,http://

lib.stat.cmu.edu/DASL/)——有关数据文件以及讲述基础统计方

法用法的在线图书馆,来自卡内基梅隆大学。● 伯克利数据实验室(Berkeley Data Lab,http://

sunsite3.berkeley.edu/wikis/datalab/)——加州大学伯克利分校

图书馆系统的一部分。● 加州大学洛杉矶分校统计数据库(UCLA Statistics Data

Sets,www.stat.ucla.edu/data/)——加州大学洛杉矶分校统计

学院的数据库,主要用于实验室和课程练习。

综合数据类应用

有关数据提供的综合性网络服务日益增多。有些网络应用提供了大型的数据文件,供人有偿或无偿下载。还有一些应用则由广大开发人员创建,通过应用编程接口(Application Programming Interface,API)获得数据。这能让我们运用某些服务应用(例如Twitter)的数据,并整合进自己的程序中去。以下是其中一些资源。● Freebase(www.freebase.com)——一个主要致力于提供

关于人物、地点和事件的数据的社区。它在数据方面有点类似维

基百科,但网站的结构更清晰。可以下载网友上传的数据文件,

或者将你自己的数据进行备份。● Infochimps(http://infochimps.org)——数据市场,提供免

费和收费的数据下载。你也可以通过他们的API来获得数据。● Numbrary(http://numbrary.com)——为网上的数据进行编

目,主要为政府数据。● AggData(http://aggdata.com)——提供付费的数据集,多

关注于各种零售业的地区性数据。● 亚马逊公用数据库(Amazon Public Data Sets,http://

aws.amazon.com/publicdatasets)——更新不多,但确实有一些

科研方面的大型数据集。● 维基百科(http://wikipedia.org)——在这个靠社区运转的百

科全书中有大量HTML表格格式的小型数据集。

专题性数据

除了综合性的数据提供商之外,还有很多主题较单一的网站,它们提供了大量免费的数据。

以下是按部分主题进行的分类。● 地理只有绘制地图的软件,但却没有地理方面的数据?你走运

了。有大量的形状特征文件和地区性数据资料任你调用。● TIGER(www.census.gov/geo/www/tiger/)——来自美国人口统计局,可能是目前最全、最详细的有关道路、铁路、河流及邮政区域等方面的数据。● OpenStreetMap(www.openstreetmap.org/)——最好的数据社区之一。● Geocommons(www.geocommons.com/)——既有数据,又有地图绘制软件。● Flickr Shapefiles(www.flickr.com/services/api/)——根据Flickr用户上传照片获得的地理数据。● 体育人们热爱体育竞技方面的统计,近几十年来的竞技数据都不

难找到。你可以在《体育画报》等杂志或者各球队官方网站上找

到它们,也可以去专门的数据型网站。● Basketball Reference(www.basketball-reference.com/)——提供每一场NBA赛事的详细数据。● Baseball DataBank(http://baseball-databank.org/)——可以下载到美职棒联赛完整数据的入门级网站。● databaseFootball(www.databasefootball.com/)——可浏览全美橄榄球联盟(NFL)所有球队、球员和赛季的数据。● 全球一些大的国际性组织都有关于全球性的数据,主要集中在卫

生保健和发展指标等方面。不过需要筛选一下,因为大部分数据

都相对稀疏。在各个国家的数据间建立统一的衡量标准也不太容

易。● 全球卫生事实数据库(Global Health Facts,www.globalhealthfacts.org/)——世界各国医疗卫生方面的数据。● UNdata(http://data.un.org/)——来源众多的全球数据聚合。● 世界卫生组织(World Health Organization,www.who.int/research/en/)——同样是医疗卫生方面的数据,例如死亡率及平均寿命。● 经合组织统计(OECD Statistics,http://stats.oecd.org/)——各国经济指标数据的主要来源。● 世界银行(World Bank,http://data.worldbank.org/)——数百种指标数据,而且便于调用。● 政府与政治近年来开始强调数据的透明公开,因此许多政府机构都公布

了数据,而类似阳光基金会(Sunlight Foundation)这样的组织

也鼓励开发和设计人员对其加以利用。自从data.gov网站启动后,

很多政府数据被集中到了一处。我们还能找到许多对政治家起到

舆论监督作用的非官方机构网站。● 美国人口统计局(www.census.gov/)——大量的人口统计资料。● Data.gov(http://data.gov/)——为政府机构提供的数据进行编目。相对还比较新,但拥有很多资料来源。● Data.gov.uk(http://data.gov.uk/)——英国的Data.gov。● DataSF(http://datasf.org/)——专门提供旧金山市的相关数据。● NYC DataMine(http://nyc.gov/data/)——和DataSF相似,不过对应的是纽约市。● Follow the Money(www.followthemoney.org/)——大量工具和数据集,主要用于监督、调查美国政府的开支。● OpenSecrets(www.opensecrets.org/)——同样提供政府在竞选等方面花销的详细数据。2.1.3 自动搜集数据

通常我们都能找到需要的数据,但有一个问题会很麻烦,那就是它们都不在同一个地方、同一个文件里,而是散落在多个网站、多个HTML页面中。这时候应该怎么办呢?

最简单直接、但也最耗时的方法就是访问每一个网页,把感兴趣的数据手工输入到电子表格中。如果你需要的只是几个页面,这当然没什么大不了的。

但如果有几千个页面呢?这种情况要花的时间可就长了,就算只有一百个页面也会让人难以忍受。如果这个过程能自动完成,事情就会轻松得多,而这正是“自动搜集”的含义所在。通过一点代码,程序就能自己访问大堆页面,从中抓取需要的内容并存储到我们的数据库或文本文件中。

说明 在搜集数据时,使用代码自然是最灵活的方式,但也不妨使用类似Needlebase或者Able2Extract PDF 转换器这样的工具。它们的用法都非常简单,而且能为你节省时间。

1. 实例:自动搜集一个网站

要想了解如何自动搜集数据,最好的方法就是用实例来说明。假设你打算下载某个地区去年一整年的温度数据,但你找不到合适的数据来源:要么时间范围不对,要么不是你想要的地区。访问天气网站,一般都只能看到未来10天内的温度预报,而这和你想要的有很大距离。你需要的是以往的实际温度,而不是有关未来的预测。

幸运的是,Weather Underground网站提供了以往的温度。不过你每次只能看到单日的 记录。

Weather Underground的网址是http://wunderground.com。

让我们更具体一些,假设你需要查阅的是纽约州西部港市布法罗。在Weather Underground网站的搜索框里查询“BUF”,会进入布法罗市内尼亚加拉国际机场的天气页面(参见图2-1)。图2-1 布法罗市的气温,来自Weather Underground网站

页面的顶部提供了该地区当前的温度和其他细节,以及未来5天的天气预报。往下拉到页面的中间会看到History & Almanac (历史年鉴)面板,如图2-2所示。我们可以在下拉菜单中选择某个特定的日期。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载