乐见数据——商业数据可视化思维(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-28 10:14:45

点击下载

作者:马世权

出版社:人民邮电出版社有限公司

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

乐见数据——商业数据可视化思维

乐见数据——商业数据可视化思维试读:

前言

有一条著名的达克效应曲线,核心要义是如果想在某个领域成为专家,一般需要经历愚昧之山、绝望之谷和开悟之坡的过程,如图1所示。图1

笔者与图表打交道很多年,曾达到“愚昧之山”,为能使用软件工具绘制出一张“惊艳”的作品而沾沾自喜,却不知道完全是自娱自乐;也曾跌落于“绝望之谷”,看到那些顶级商业数据分析师们的杰作后发现了惊人的差距,于是开始纠结学习哪款软件工具,选择什么类型的图表,采用哪种配色、哪种字体。这些问题让笔者如坐针毡,当笔者逐渐以读者的视角来阅读大量的图表,拜读国际可视化大师的作品,挖掘那些好图表的共性,在徘徊很久之后,终于走向了“开悟之坡”。

后来,身边的同事开始问我:在数据可视化方面有什么秘籍可以分享出来,可以立刻提升大家的商业图表呈现能力?一开始我被这个简单的问题难住了,利用数据可视化来讲故事不是一个新话题,我们可以在网上找到海量的文章和指南,但是因为知识点零散、图表类型繁多,实际工作应用中往往凭借个人经验积累,让我来做一次立竿见影、药到病除式的分享,还真不知道从何说起。

于是,我开始思考一些关键问题:大家做数据可视化的痛点在哪里?为什么很多人精通各种工具技术却没有做出让老板满意的图表?有什么方法可以带领和我曾经一样徘徊在“愚昧之山”的人,走出来,穿越“绝望之谷”,走向“开悟之坡”?

满怀着回答这些问题的热情,我开始动工了,有趣的是灵感也不断地迸发出来,让我最终找到了乐见数据原则(GLAD),一个把我所学知识的精华串联起来的工具。这次我有了十足的底气来分享数据可视化方面的心得,这底气来自于顶层设计(基于原则的方法论),也来自于本书连贯的内容安排,本书每一章都先讲认知偏差,纠正那些人们通常认为正确实际却是狭隘的认知,从而推出基于乐见数据原则(GLAD)的解决方案,加以大量的案例配合,在验证理论的同时不断提高对商业数据可视化的认知。

此书核心目录框架采用了极简的设计,但这并不意味着缺少内涵。事实上,简单是复杂的优化,是我极力推崇的理念,也是数据可视化工作中难能可贵的意识。交稿之际,我把主要的内容做汇总统计,四大核心章节中,设置的案例评析图表193个。每张图表均是基于真实场景的案例模拟转化而来。

为打开读者的视界,本书还将赠送62个世界级作品案例作为“外援”,精心挑选自国际顶级商业杂志、新闻报道及可视化获奖作品等资料,并做了翻译甚至重新绘制呈现。如果说“一图胜千言”,那么写作过程的艰辛都汇聚在图2中。图2

这不是一本工具书,而是一本强调设计思维的书。即使只掌握最简单的工具,强大的思维依然可以促成顶级的作品。为了证明这件事,本书中的模拟案例全部采用常用的办公软件(Excel和PPT)中的基本功能来完成,未使用到其他任何软件工具。

虽然过程辛苦,但很激动能够完成本书的创作,衷心希望广大读者将乐见数据原则(GLAD)运用到实际工作中,把它发挥得淋漓尽致。当然每一种理念都需要不断地迭代和优化,也希望借助创作的机会结识更多的同人,让本书成为商业数据可视化领域的抛砖引玉之作!马世权2019年9月第1章 商业数据可视化原则

成功者的一个共同点是能够对关键问题提问为什么。为了更好地探索一门新兴数据技术,本书将在正式讲解之前,优先回答一个问题:为什么要学习商业数据可视化?1.1 温故而知新:重新认识商业数据可视化

假如一张桌子上凌乱地摆放了20张顾客信息卡片(见图1-1),其中包含年龄数据。要想知道有几位顾客在50岁以上,我们可能要花上几秒钟的时间翻看这些卡片。图1-1

如果把年龄超过50岁的顾客卡片背景色做区别显示(见图1-2),显而易见,当我们看到这些卡片的瞬间,就会发现50岁以上的顾客有4人。图1-2

图1-2所示的案例就是所谓的可视化(Visualization),即运用视觉化的手段来传递信息。商业数据可视化(Business Data Visualization),顾名思义,是针对商业数据的可视化。以更简单、接地气的方式去理解,就是把公司的业务数据以图表的形式呈现出来。这听起来是个技术活,但这绝不是一门复杂的技术,而是一门能够把复杂化变简单化的艺术。

Numbers have an important story to tell. They rely on you to give them a clear and convincing voice.

只要你为数字提供清晰、服众的展现方式,数字可以告诉我们很重要的故事。——Stephen Few(数据可视化专家 史蒂芬·菲尤)

让我们接着图1-2所示的顾客信息卡片的案例,“稍微”放大数据样本的体量。假如现在经营的是一家大型连锁企业,顾客数据卡片不是20张,而是20万张。除了年龄以外,我们还可以获取每位顾客的注册日期和他们在2018年产生的消费金额,如图1-3所示。图1-3

面对20万条数据,我们显然无法靠肉眼来数卡片,如果懂一些统计学的基础知识,可能首先会想到一些常用的统计指标,如平均值、最小值、最大值、中位数等,对数据做一些汇总分析,如图1-4所示。图1-4

还可以做分组归类的分析,如对年龄段进行划分,如图1-5所示。图1-5

毋庸置疑,这些统计方法可以帮助我们对顾客信息有基本的掌握,但我们单纯地阅读这些密密麻麻的数字,可能需要花上一段时间才能够提炼出有价值的信息。如果换成几个常用的可视化图表,如条形图、折线图和散点图来呈现这些数据,可以得到什么样的结果呢?(1)垂直条形图

如图1-6所示,垂直的条形图就好像平地而起的高楼一样,放眼望去,那些最集中的、“高耸入云”的条形往往最吸引人的眼球。当我们从未掌握过该顾客的画像信息时,看到年龄的集中分布后,可能会引发一系列思考——为什么34岁的顾客数量“一枝独秀”、为什么我们的产品可以吸引到29~34岁年龄段的人群、他们有什么样的特征、产品的客户定位是什么,等等。图1-6(2)折线图

如图1-7所示,一条充满魔力的折线,可以呈现公司的发展故事,那历史长河中的繁荣与衰落。顺着折线上升的路径,我们自然会产生关于预测的思考——怎样评价过去的发展、未来的市场环境如何、我们的目标位置在哪里、有哪些利好的政策、可能会有哪些风险,这些有价值的议题都将被这一条折线循序渐进地引出。图1-7(3)散点图

图1-8所示的散点图中,每个点可以代表一组人群,用年龄与人均消费金额两个指标精准定位,异常点和符合数学逻辑的规律,便呼之欲出。当商业行为遇上数学规律,那些有价值的公式可以帮助我们更精准地理解业务现状,甚至预测未来。

同样的源数据采用了不同的呈现方式,图1-6、图1-7和图1-8三张常用类型的图表很好地说明了商业数据可视化的优势。总的来说,无论是在演讲还是书面报告中,我们通过图表的形式来传达信息,可以直接刺激人的视觉神经,强迫读者看到一些未曾期待的信息,快速刷新认知,激发出一连串的思考。图1-8

The greatest value of a picture is when it forces us to notice what we never expected to see.

一张图片最大的价值在于它让我们注意到了我们从来不奢望看到的景象。——John Tukey(统计学家 约翰·图克)

相比单纯的数字,图表可以让人更容易洞察到数据的分布、趋势、关系以及异常点,而这一切的最终目的,都可以归结为四个字——快速决策。数据分析的目的是帮助决策者做出具有商业价值的决策,商业数据可视化就像神奇的催化剂,如图1-9所示,它加快了从数据到决策的过程,让决策者快速地掌握有助于做出决策的信息。图1-91.2 认知重塑:何为好的可视化图表

在大数据时代,每天数以亿计的图表在生产,新闻资讯、公司会议、政府报告、科学实验、商业分析各个角落里的图表随处可见,然而这其中只有极少数能转化为可落地的信息,震撼读者的心灵、影响公司的决策、发现科学真理,其余的大多数都会成为过眼烟云。

做出一张好图表是大数据时代的稀缺技能,当我们开始搜索一些良方并希望找到通往成功可视化的捷径时,很可能看过图1-10所示的建议。这张思维指南图源自美国市场学教授阿贝拉其脉络清晰并设计简洁,被很多可视化学习者追随,也被很多讲师、工具厂商推广应用,目前流传的很多增色版本被拿来做教学典范。

这里要给这张指南图的崇拜者们泼一碗冷水了,因为当我们真正去应用它的时候,会发现很多场景不是简单地按照图中的思维线就可以找到适合的图表,甚至事实与指导方向大相径庭,仍然需要很多客观的思考与辨证的判断。笔者也曾按图索骥,但发现其中很多逻辑概念,以专业的数据分析视角来评价是存在纰漏的。

数据可视化专家史蒂芬·菲尤也曾被很多人问到关于这张指南的看法,他特别写了一篇博客对这张指南几乎每一部分做了剖析和评价,并且表达了无情的批判。笔者整理了一小部分意见标注,如图1-10所示。

除了标注中的细节问题,笔者认为该思维指南图的核心问题是以“你想展示什么”为起点,这是个极其庞大、复杂的话题,很难实现面面俱到,这导致“比较、构成、联系、分布”这四个大类不能构成一个完整体,必定有遗漏。例如想要展示异常点、趋势、聚类、排名,这些是不是也应该与四大类并列加入到展示的信息中呢(见图1-11)?而且,“比较”这个词属于综合性概念,所有的图表都可以称为数据的“比较”,该词注定与其他类别有重叠的部分。这样简单地划分四个大类显然违背了数据分析领域的基本常识——MECE原则(Mutually Exclusive Collectively Exhaustive):不重叠、不遗漏。图1-10图1-11

不过也不能完全否定它的价值,虽然逻辑上有问题,但该思维指南图本身是具有设计性和启发性的,我们从中也可以受到一些启发,像构成、联系、分布等很多图表都有其流行的应用场景,如静态时间的构成常用饼图,动态时间的构成可以用堆积百分比条形图,这就好像在咖啡厅、酒吧、婚礼、健身房、办公室等场景播放音乐,需要先领会不同音乐风格——蓝调、爵士、古典、摇滚等,再去配合各种场景灵活使用。

数据可视化是一个技术与艺术共存的领域,除了图表基本的设计理念,我们还需要对商业行为和数据有透彻的理解。笔者见过太多的数据报告,有些报告只是罗列了很多华丽的图表,但没有说明任何商业问题和解决方案;有些报告拥有高价值的数据信息,但因为没有使用合适的呈现形式,导致表达得不清楚,输在了“临门一脚”。然而这些问题绝不是一张思维指南图可以轻松解决的。

更遗憾的是,大多数失败报告的执笔者只收到了关于报告整体分析价值的评价,很少有针对可视化的部分获得成体系的指导性意见,除非有资深的师父带徒弟一起剖析案例,亲授经验。对于自学上进的同学来说,虽然市面上也有很多可视化学习资料,但多是以软件工具实现各类功能性图表为主或大量经验技巧的罗列。由于不同行业的业务场景十分灵活,分散积累的知识点很难与实际工作全方位匹配,因而很多人仍然在漫长的学习过程中重蹈覆辙。

为了找到这些案例的根源问题,笔者向一些数据可视化的工作者发起了一次调查问卷,这些是换位思考的测试题,假如你的身份切换成可视化图表的读者,当一次评委,图1-12、图1-13、图1-14和图1-15 是一些工作者在日常工作中完成的图表,请阅读后,回答以下几个问题。(1)以每张图10分为满分,请为这四张图分别评分。(2)你的评分标准是什么?(3)请为每张图写个简短的改善建议。(4)如果提供源数据,你是否可以绘制出一样的图表?你会选择使用什么软件工具?图1-12图1-13图1-14图1-15

这是一个体验型测试。很多时候图表制作者恰恰是因为缺少换位思考,导致图表没有切中读者的需求。现在当你站在读者的角度来看待这几张图表时,是否看到了自己的影子?

因为上述是开放性的问题,收到参与者的回答也是五花八门。整体测试的结果是,参与者们的回答基本是依靠第一主观感觉或结合自己积累的某些经验点去挑错,缺少客观完整的标准体系。而且通过这个测试,我确定了一个很重要的问题:大多数人,不是不知道怎样去做可视化图表,而是不知道什么是好的可视化图表。

换个角度来讲,如果明确什么是“好”的可视化图表,做“不好”图表的概率就会被大大降低。如果有把可衡量“好”图表的标尺,甚至做一张评分卡为图表打分,如图1-16所示,那么我们就可以像测试题的评委角色一样时刻做换位思考,掌握现状与目标的差距在哪里,对症下药。图1-16

在极其复杂的商业战略分析领域中有很多耳熟能详的理论:SWOT分析模型、AARRR增长模型、波士顿BCG矩阵、SMART目标管理原则、MECE分析原则等,它们足够简单,且能够在混沌的信息中帮助我们找到明确的方向。

商业数据可视化领域急需一个像战略分析领域中使用的指导性原则,统一定义什么是“好”的可视化图表,工作者在实践中反复按照这个原则执行和训练,从而不断提升可视化技能。这也是为什么本书提出GLAD原则,并且以GLAD原则作为叙述主线。当我们学习完本书,掌握了GLAD原则后,再来做这道测试题,将站在一个全新的高度,一切都会豁然开朗。1.3 成功的“秘密配方”:GLAD原则

虽然商业数据可视化是技术与艺术结合的复杂知识领域,但这并不意味着没有捷径。一个成功的商业数据可视化都要满足两要素——提供足够的商业价值和帮助读者快速理解信息,评价体系如图1-17所示。常见的可视化失败案例都是未满足这两点或者缺少其中一点。图1-17

进一步把提供的商业价值和读者理解信息的速度拆解成可落地的资源,提供的商业价值是指从好的数据中洞察出有价值的信息以指导商业决策,这是可视化的内核,再华丽的图表如果没有好的数据和可洞察的信息,也是一张没有“灵魂”的图表。

The purpose of visualization is insight,not pictures.

可视化的目的是洞察,而不是图片绘制。——Ben Shneiderman(计算机科学教授 本·施奈德曼)

读者理解信息的速度需要靠图表设计来提升。图表类型、配色方式、线条粗细、字体大小、坐标轴高度、标题位置、刻度线疏密、图例的摆放等细节都会影响到读者理解信息的速度,也都有讲究的规定;商业数据可视化是让信息的传递变得更快捷、更廉价。

也许我们欣赏过很多来自可视化大赛或各种软件工具商的宣传资料中惊艳的图表,如图1-18所示,被那些艺术品震撼,然而数据界最大的谎言正是来自这里。

事实上商业数据分析更倡导实用主义,大多数华丽的高级图表对读者理解信息的速度没有任何辅助作用;相比之下,常见的条形图、折线图、散点图比任何酷炫的图表都更好用。图1-18

因为在商业领域,时间就是金钱,商业需求场景不允许我们花大把的时间去雕刻一张图表,而是要在速度和艺术之间找到一种平衡。这个平衡点要剔除冗余的信息,精准命中读者的需求,而且要有爆发力,用三个词来概括,就是简洁、准确、突出洞察,如图1-19所示。

所以,通往成功的商业数据可视化“秘密配方”是一条黄金公式,如图1-19所示。掌握了这条公式的精髓,很多疑难杂症都将迎刃而解。图1-19

这条黄金公式即GLAD原则。GLAD是由四个短语的开头首字母构成:Good Data and Insight,Less Noise,Accurate Expression,Distinct Mark。它们是黄金公式中四项重要组成部分,如图1-20所示。图1-20

笔者给GLAD原则起了一个优雅的名字:乐见数据原则。

现在我们来揭晓这个铺垫已久的问题:什么是“好”的商业数据可视化图表?答案:符合GLAD原则的图表。

虽然GLAD原则看起来是一条极其简单的公式,但其背后蕴含着深厚的逻辑和大量的实践技巧,需要深入理解后才能灵活应用。在正式地对每一个模块进行深入学习前,我们先来用一个实际案例做一次GLAD原则初体验。1.4 GLAD原则初体验:北京的空气质量改善报告

2019年年初,相关部门发布了北京市年度空气质量数据,截取官方信息如图1-21所示。图1-21

这又是一道评委测试题。作为读者,当看到这段数据报告,如果再给你一次机会,从专业数据可视化的角度为这份报告做点评,会怎样做出评价呢?

现在,我们可以试着用GLAD原则来思考。(1)信息洞察解决了哪个层次的问题?数据使用是否恰当?

报告的核心洞察点是表达北京市的污染情况在逐年改善,该观点在文字内容中体现得非常明确。

不过洞察仅限于描述型分析层次,如果能够加入我们做了什么事情使污染情况得到改善和对未来的预期的信息(诊断型/预测型分析),将把该图表的价值再上升一个层次。

而且,文字信息的表述部分多是复述图表中的数字,这也是很多可视化工作者的“坏习惯”。试想一下,如果文字部分的意义是描述图表中呈现的信息,要可视化图表又有何用呢?我们应该充分发挥文字的力量去表达数字背后的信息。

数据的类别是时间(2017年和2018年)和污染级别(从优到严重污染),数据的度量指标是天数和占比。通过天数和占比的比较,该报告基本能够回答北京市的污染情况是否在改善的问题,在数据使用上没有问题。(2)是否有明显的“降噪”空间?

该数据报告存在明显的冗余信息,例如第一段阐述重污染日“比2017年减少9天”,第二段再次提到“同比减少9天”,这样多余的信息其实是在浪费读者的时间。

另外,一致性方面的问题很容易让读者困惑。如饼图的图例使用了“优”“良”,而文字表述上有“一级”“二级”“重污染”级别的划分,读者会猜测,优良级是否按一二三级来排序,“重污染”是否包括严重污染和重度污染这两个等级?这给读者增加了不必要的负担。(3)数据信息表达是否准确?

在图形元素的精确度上,饼图属于中等水平,但可以清楚地比较出各污染级别的比例大小。在数据密度上,饼图只能够静态地呈现2018年污染程度的分布情况,密度较小。其实读者最关心的是污染变化趋势,而我们从文字信息中才得知与去年相比的变化情况,所以该图表的选用不够准确,使用堆积百分比条形图表达2017年和2018年的变化更合适。

在数字的标注上,饼图中的数字仅对优、良两个等级的天数进行呈现,对于其他几个等级,希望得到天数的读者很可能要自己去计算数字,这也是一个有关准确度的细节问题。(4)是否有突出洞察的标识,让读者一眼就能观察到重点?

关于这份报告,读者感知最强烈、最关注的当属重污染。反映在数据上有两个指标:天数和占比。但相比每年重污染天数占比多少,人们更容易记住重污染的天数。图中的数字多为比例,而且颜色多,很容易分散读者的视线。

如果突出重污染部分的颜色,凸显天数会更好地切入读者最关注的点,而且也会突出报告中北京污染情况逐年改善这个核心信息。

笔者在2017年的官方报告中找到了一个使用突出洞察的案例,如图1-22所示。这是一张热力图,颜色由浅至深代表污染级别的提升,呈现的信息不仅有重污染天数在降低,而且还有各月的污染天分布情况。最值得学习的是,该图不是止步于图表本身的呈现,而是加入两条虚线,引导读者领会洞察,即优良天气的月份分布范围从7~9月扩大到了4~10月,2017年有近半年是低污染的天气。图1-22

有了上述思考与分析,我们可以用GLAD评分卡对该段报告做个总结,如图1-23所示。图1-23

我们现在可以利用GLAD原则把这段报告做一次改造,如图1-24所示。

现在,可以尝试以GLAD原则再次审视修改后的报告,是否可以提升到8分以上的水平呢?关于这个体验需要说明的是,可视化领域是“萝卜青菜,各有所爱”,所以没有绝对的标准答案,也没有绝对客观的评分。我们需要在接下来的章节中通过大量的案例领会GLAD原则的精髓,这样才能够在实际工作场景中分配各模块的比重,灵活运用。让我们以“GLAD”(愉快)的姿态开启正式的学习之旅吧!图1-24第2章 G原则:塑造图表的灵魂

我有一条好消息和一条坏消息。好消息是我们将打造看起来很轻松的图表,坏消息是我们必须付出很大的努力,所以这是一个无法跳跃的章节——你只有很努力才能看起来很轻松。2.1 认知重塑:探索性数据分析还是解释性数据分析

商业数据可视化的目标是帮助决策者“快速决策”。在快速决策的过程中,可视化扮演了两个重要的角色——探索性数据分析(Exploratory Analysis)和解释性数据分析(Explanatory Analysis),在开始可视化工作前,我们有必要先搞清楚这两个概念。

如图2-1所示,数据可以度量商业行为,充分的数据埋点为探索性数据分析打下基础。探索性数据分析即通常所说的从数据和商业行为中发现价值信息的过程,这其中一般会涉及数据分析的三个常见步骤:数据清洗、数据建模、数据可视化,这就像烹饪的过程:洗菜切菜、炒菜、上菜摆盘,如图2-2所示。图2-1图2-2

探索性数据分析中的可视化是以发现洞察为目的,它是数据分析师个人的探索过程或团队内部的工作流程,在这一步的工作重点是对数据的探索而不是对图表的修饰,所以一般不需要精细的图表设计工作,只要能清楚地看出数据的含义有助于继续探索洞察即可,甚至不必在意它们的粗糙、丑陋。

当通过探索性数据分析获得了洞察,便推进到了解释性数据分析的环节,即如何把洞察和数据向决策者解释,构思数据报告的逻辑,设计美观的图表并加以修饰,这才是制造完成品的环节。

探索性数据分析的过程往往花费更多的时间,甚至这些时间精力不被人所知,但这些工作是制作好图表的前提;而解释性数据分析可

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载