数据化运营速成手册(txt+pdf+epub+mobi电子书下载)


发布时间:2020-07-02 02:52:51

点击下载

作者:胡晨川

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

数据化运营速成手册

数据化运营速成手册试读:

前言

尊敬的读者,您能翻开本书,是我的荣幸。虽然书名中含有“速成”两字,但我相信理性的读者都不会期待真的有学习捷径。我发现,数据分析的入门者往往不能快速形成合适的知识框架,导致其走了许多弯路。因此,本书不遵从教科书逻辑,而从实际应用出发,相信能够提高读者的学习效率。总的来说,这是一本关于商业数据应用的书。希望本书的内容能给读者的工作和生活带来实质性的帮助。为什么写本书

长久以来,我都有成为数据科学家的梦想。虽然朝着这个目标奋斗了几年,但是若问我数据科学家到底是什么,我依然没有明确的答案。两件事儿,是数据科学家必须做到的:一是运用合理的数据分析方法,从数据中形成商业决策;二是能让越来越多的人正确地理解并应用数据分析方法。这两件事儿,也就成为我的奋斗目标。所以,当电子工业出版社的编辑联系我写作本书时,我欣然应允了。谁适合阅读本书“让读者正确地理解并应用数据分析”是本书的主要目的。广义地说,本书的内容浅显,适合所有对数据分析感兴趣的人。但依我的初衷,本书是写给互联网公司的运营、产品和管理者的。毕竟,我的工作经验均来自互联网背景,因此认知会有一定的局限性,故而这些内容不一定适用于所有行业。如何阅读本书

首先,建议读者在阅读本书的同时上手操练。本书内容所涉及的实践操作,全部基于Excel 2016. Excel上手简单、功能全面且运行稳定,它的实用性无须多言。

本书的内容结构比较“怪异”。先通过前三章解决“如何正确地作图”这个问题。为什么要将作图放在最前面呢?因为,运营和产品人员要在工作中制作大量图表,管理者要阅读大量图表;若图表做得不正确,难免出现信息扭曲,导致管理者决策失误。所以,作图者应该正确地作图,管理者应该正确地看图。因此,作者从作图切入,进而展开本书的内容,比较符合实际。

接着,在第4章介绍了运营中最基本的数据应用知识。本章涵盖的内容较多。作者的写作逻辑是“缺什么补什么”,即以作者的认知为基础,填补作者认为本书目标读者所欠缺的数据知识(涉及数据库基本结构、数据获取、数据清洗、数据认知、建立分析框架、构建指标体系、运营活动量化等)。

第5章介绍一些简单实用且必不可少的统计学知识。通过这些知识,读者能够培养自己的量化分析思维,并能体会到统计学的强大。第6章篇幅不长,但希望能为读者打开“管理科学”这扇大门,即应用运筹学中的规划求解方法。让读者体会到:做决策绝不仅是定性分析,它可以一步步量化获得最优解。

第7章简单介绍了数据分析的工具和运营工具。里面的部分内容由GrowingIO创始人张溪梦先生和神策数据创始人桑文锋先生执笔。第8章写了一些作者近年的心得体会,希望这些经验能帮助读者少走弯路。

作者建议初次阅读本书的读者先按章节顺序快速通读。在通读之后,若在工作中遇到了某些难处,可以有针对性地精读某一部分。另外,本书中所提及的参考书目,希望读者重视,这些书都是很好的学习资源。

建议读者关注作者的微信公众号“川术”。作者会不定期地分享自己的感悟。本书中的数据都是“模拟的”,建议读者将本书所提的方法应用在自己的数据中。若有强烈的需要,读者可以在作者的微信公众号留言或者发邮件至huchenchuan@hotmail.com。感谢

首先,感谢出版方电子工业出版社,给予我机会将自己的经验分享给大家。接着,感谢本书的编辑郑柳洁及其他工作人员,在本书的撰写和出版过程中给予的极大帮助。然后,要感谢我的老师、朋友和同事们,没有他们,就没有我经验的积累和认知的提高。还要感谢本书的推荐人和其他专家,是他们的指导和关怀,让我能高效地前进。最后,感谢我的家人,尤其是我有孕在身的妻子,在每一个伏案写作的夜晚,给予我莫大的理解和无微不至的照顾。作者第1章全面认识数据图表

不管你在公司中是何角色,数据图表也许都是你与数据分析的最大交集。翻开前两章,你会觉得这是一本数据图表的应用书;再往下翻,你又会觉得它是一本数据分析的入门书;看完整本书,作者希望你能认为它是一本学习数据化运营的好书。本书从直观的数据图表切入,告诉大家怎么理解数据、应用数据,让数据真正帮助到运营。1.1 详解数据图表的基本构成“由浅入深、循序渐进”是学习的固有规律。作者不是一个特立独行的人,因此,本书从最基础的内容开始讲起。别担心,本书不会网罗一批历史故事、名人警句,作者从自己用得最多的一张图开始,解构图表,看看一张统计图表需要具备哪些元素。

若你已经是一名数据分析师,并对用Excel作图有相当的了解,那作者建议你跳过本章的内容。若你是一个管理者,只需要解读图表中的信息,不需要亲手制作数据图表,那么作者也建议你跳过本章。

图1-1所示为作者平时用得最多的一种图表形式,有哪些元素构成了这张数据图表呢?我们来一一分解。图1-1 制作你的第一个数据图表1.定义数据中的维度和指标

你的注意力可能会最先集中在标题上,但它并不是最基础的元素。所有数据图表元素都依托于数据,而数据并不单单是数字,我们所指的数据是量化数据。这个“数据”是统计学范畴的概念,需要区别于计算机范畴所指的“数据”。在计算机范畴中,数据不仅仅是数字和维度,还涵盖了文本、图片、视频等能被存储介质记录的信息。

数据图表的基础数据分为两个部分:指标(Measure)和维度(Dimension)。举个例子,体重、年龄是数字,就是指标;性别、肤色是类别,就是维度。若只告诉你“平均体重75kg”,你一定会感到困惑,而说“白人男性的平均体重是75kg”时,你便明白了描述的内容。说明维度和指标相互组合,才会形成有意义的数据。

年龄不仅是数字,有时会变成年龄段(幼年、青年、老年),即变成了类别,也就成了维度。所以,维度和指标是可以相互转化的。换个角度讲,指标是可以加减乘除做四则运算的,而维度则不行,维度只能做排序、包含、与、或、非等集合运算(时间维度是个特例)。

在图1-1中你会发现,“segment”、“日期”等筛选项对应着维度,而柱形、折线等图形表示的是指标。不要小瞧维度和指标的区分,能区分清楚且灵活运用它们的人,往往能通过交叉分析快速定位问题并挖掘出数据中的价值。补充知识

在统计学中,我们将变量大致分为分类变量、有序变量、数值变量和逻辑变量4种类型,如表1-1所示。表1-1 变量类型的说明变量概念解释举例说明类型分类能按某种特性将观察对象分群地区、人种、材质变量的字符集有序有大小关系,但不能进行四则年龄段、收入水平、年级变量运算的分类变量数值数字型变量体重、分数、注册转化率变量逻辑性别、及格与否、是否确诊二元分类变量(0或1)(阳性或阴性)变量

大家细想一下,这4种变量其实在一定条件下能相互转化,转化的触发取决于你对维度及指标的选择。例如,你要研究不同体重水平下,学生的家庭收入水平和成绩的关系,就需要将体重转化为分类变量。2.用合适的套路写标题

为什么要做数据图表?有很多正确答案,作者先说一点:用图表直观地反映信息,代替大段的文字和复杂的逻辑陈述,提高信息传达的效率。图表,实际上是在讲故事,而且是一个比较长且复杂的故事。而标题,就是这个故事最精简的归纳。

在作者看来,图表标题可以从三种角度写:第一种是标示性标题,如“公司上个月每天的用户日活情况”,这种标题方式是大部分人采用的,即告诉读者“这是什么”。第二种是描述性标题,如“上月日活波动平稳,日均值30万”,这种命名告诉读者“发生了什么”,个人认为比第一种好,因为简单描述后,信息传达更高效,节约读者时间,但对分析师要求就高了一层。第三种是指导性标题,如“上月日活依旧平稳,现有激活策略无效,建议停止,以节约成本”,告诉读者“怎么做”,个人觉得这是最佳的命名方式。分析师不仅掌控数据且熟悉业务,还能洞察运营策略,提出指导意见。如果图表的空间允许,建议读者用指标性的主标题加上描述性的副标题的形式。主标题在图表上方用较大的字体,副标题用较小的字体另起一行在主标题下面。

你可以先尝试从第一种命名方式向第二种过渡,有灵感的时候使用第三种。经验积累丰富后你会发现,命名方式和作图有时是相辅相成的关系。当你做了一个图,发现不能抽象成第三种命名,即不能形成决策建议时,这个图的价值就不高,也许就能舍去。

有读者会问:“采用第二种或第三种方式,那还有必要写报告中的文字陈述部分吗?”根据我的经验,报告中的文字确实是越少越好。很多人为了逻辑严密,往往把分析报告写得很长,论证得很具体,其实没有必要这样做。

个人认为,优秀的管理者在阅读报告时都会有预先的思想准备:第一,“我最近做过的重要决策大致会反映在哪几个指标上?它们的相互关系是怎么样的?”;第二,“最近我的第一关键指标是什么?与它最相关的指标是哪几个?”;第三,“业务的全局变化如何?与过去比我们有哪些方面的改进或者退步?”;第四,“目前的哪些执行动作需要调整?对应的指标是什么?”。

一份好的分析报告,其首要任务就是解决管理者头脑中的疑问,图表加上高质量的标题,其实就能很好地完成任务。文字描述只是辅助,能5分钟做完的事情,就没有必要花15分钟。3.了解图形元素的本质

在一个数据图表中,最吸引眼球的东西就是图形元素,如条形、柱形、线型、点、颜色块、数字等。

Wilkinson创建了一套用来描述所有统计图形深层特性的语法规则,简单归纳为由数据、几何对象(geometric object,缩写为geom,包括点、线、条形等)、图形属性(aesthetic attributes,缩写为aes,包括颜色、形状、大小)、统计变换(statistical transformation,缩写为stats)、坐标系(coordinate system,缩写为coord)5个部分组成一个统计图形,也就是我们所理解的数据图表。

在以上引用的这段概念中,作者将“几何对象”和“图形属性”合称为图形元素,放在一起讨论。图1-1中有柱形、折线、虚线、趋势线等元素,我们不仅要注意到有它们(即几何对象),还要注意它们的颜色、大小、高低等(即图形属性)。

用什么样的图形元素表达数据呢?这会是本书的一大块内容。为了解决这个问题,我们会对柱形图、条形图、折线图、散点图等图形做介绍,告诉你它们的适用场景、制作方式、如何组合、变化技巧等。4.坐标轴是传达信息的关键

有了数据和图形元素,你的图表依然不能传达出信息,因为缺了“标尺”。只有有了坐标轴,数据图表才算基本完整,才能告诉你数量是多少,变化怎么样。由于在一般的作图工具中坐标轴都会自动生成,因此许多人忽略了它的重要性。坐标轴上的变化,能让数据“撒谎”。

坐标轴分为横坐标轴和纵坐标轴。如图1-1所示,时间放在横坐标轴上;var1、var2等变量用纵坐标轴来衡量。有个规律读者可以先记住:在大部分图表中,横坐标轴用来表示维度,如时间、地区、渠道等;纵坐标轴用来表示指标,而且一般是连续型的数值变量。

如图1-2所示,用鼠标右键单击横纵任意一个坐标轴,再单击“设置坐标轴格式”选项,便能看到坐标轴各种参数的设置区域,如图1-3所示。图1-2 设置坐标轴格式图1-3 设置坐标轴格式的参数面板

在“设置坐标轴格式”面板中,有各种各样关于坐标轴的参数可以设置,本节暂时不一一细说。用得最多的几个参数大致是:坐标轴边界和单位、坐标轴的线条格式、标签位置、数字格式。

需要补充说明的是:在柱形图和折线图的组合图表中,柱形图一般对应左侧的纵坐标轴,而折线图对应右侧的纵坐标轴,这是一个合理的习惯,希望大家记住且依此执行。在本书中,所有图表都会遵循这个规则制作,因此读者在遇到柱形图和折线图的组合时,柱形图高度请对应往左看,而折线图高度对应往右看。5.图例的位置有讲究

图例即图1-1中,图形元素下方的说明部分。它的作用是告诉读者各个图形元素分别代表什么指标。当图表中的图形元素有多个时,图例是必须加上的。

图例的显示格式比较固定,但位置非常灵活。可以选择图例在上方、下方、左侧或者右侧,也可以由鼠标拖曳到图表中的任何位置,这取决于美观程度。我的习惯是,当横坐标所表达的项目比较少(<20)时,将图例放在右侧;其他情况下将图例放在图表下方。设置图例的方式如图1-4所示。图1-4 图例的设置6.辅助线能够突出某些信息

作者给辅助线下的定义是:出现在数据图表中,本身不表达任何既有数据,但能帮助数据观察者形成认知和推断的图形元素。

作者将辅助线分为数据标注辅助线和数据推断辅助线两类。先来看看数据标注辅助线,图1-1中的横向虚线即Excel中的网格线,就是很典型的数据标注辅助线。有了它,读者更容易判断某个指标对应的图形所表示的数值大致是多少。例如,5月11日的var1的值就在31000左右,5月7日的var3指标刚刚超过15。有人会说,为什么不加上数据标签呢?不就知道图形对应的数值是多少了吗?当观察的项数比较多时,不建议采用数据标签,那样会使图形非常杂乱,难以提取信息。除了网格线,我们还可以自助添加许多标注辅助线,如箭头,指示出具体某一个值;我们也可以用直线标注出一个序列的平均值。这些元素都可以通过Excel中“插入”选项卡下的“形状”获得,如图1-5所示。图1-5 插入形状

推断辅助线,其实就是Excel中的趋势线。趋势线有很多种,每种的应用方式都不同,本书会进行详细讲解。如图1-6所示,向上倾斜的一条虚线就是线性辅助线。它告诉我们,var1变量虽然有高低起伏,但它的整体走势正在上升,这能帮助我们推断未来该指标的数值。图1-6 添加趋势线7.数据标签的使用条件

上文中提到过的数据标签,即在图形元素中加上它所代表的变量值。这个功能在图形对应的项目数少时比较有用,比如只有10天以内的数据,或者是项目较少的维度。此功能在“添加图表元素”选项卡下能找到,但这个功能很容易影响到图表的直观性,因此我建议谨慎使用。1.2 控制数据图表中的信息量

讲完了图表中的元素构成,相信大家都能做出自己的数据图。这里提醒各位读者:数据图中的指标数量一定要控制,不是越多越好。

简单来说,一个系统中的信息来源越多,其混乱程度或者说混乱的概率就越大。引申到数据图表中,可以理解为一个数据图表中所承载的指标越多、图形元素越多、维度项越多,产生错误和混乱的概率就越大,也就意味着得出有价值信息的概率越小,图1-7直观地表达了这种关系。图1-7 数据来源数与出错概率和混淆概率的关系

随着图表中指标的增多(数据来源变多),出错的概率和混淆的概率都呈指数型增长,而且混淆概率的增长更陡峭。所以读者要非常警惕,不要想着既然数据图表是用来直观地反映信息、减少文字描述的,那就是指标越多越好。

很多时候,可怕的不是出错,而是产生混淆。错误的判断,往往在决策后短期内就会出现征兆,容易及时改正。混淆带来的往往是看似正确,实则有偏的决策。在政策执行的长时间内都不出现问题,而一旦量变到质变的问题出现,就很难挽回。

举个例子,作者曾经把注册转化率、活跃用户数、活跃付费用户数、付费转化率等几个指标做在一张图中,决策层把付费转化率、激活率和注册转化率相互混淆,一直觉得三者波动都差不多没什么问题,直到发现注册转化率虽然只下降了2%,但却导致了大量的线索流失,损失远远超过激活率和付费转化率(沉默的用户可以再激活;没付费的用户可以慢慢转化;但没注册成功的用户,就没有客户联系方式,后面的动作无从谈起)才恍然醒悟这样作图伤害。

那么,图表中的元素控制在几个比较合适呢?作者的经验是,图形元素数、辅助线数、辅助坐标轴数一共不超过5。如图1-1所示,图形元素数量3(柱形+两条折线),辅助线1(一条线性趋势线),次纵坐标轴1,已经满载了。其实,除了绘图者,其他业务方看图1-1时是很容易混淆的。若需要多图形元素组合,那么每种图形元素最好是唯一的。1.3 真的需要作图吗

拿到任务后,建议读者对着收集好的数据好好思考一个问题:真的需要数据图表吗?

其实,作者并不觉得堆着许多花花绿绿的图表的报告比一份纯文字的报告好,关键还得看有没有准确地传达信息,或者说有没有解决业务方头脑中的疑问。目前,作者也没有很好的答案,但作者一般会从业务方的需求入手,看看什么样的表达方式能最高效地解决问题。一些典型场景如下。1.短期内的了解型需求

我们的日活有多少?我们上个月支出多少?预算超了没有?类似这样的了解某个指标数值型的需求,只要快速反馈一个数值就能解决问题,最好再给业务方一个对比值,比如相比上月变化了百分之多少,不需要制作图表。2.多维度相互组合的需求

这个标题可能不好理解,举个例子:老板说,我想看上个月各个城市中VIP客户和非VIP客户数量的对比和同比上上月的变动情况。在这个需求中,地区维度和客户等级(是否为VIP)维度进行了组合,而且指标并不是单一的数量,还有一个月度同比。作图能够解决,如图1-8所示。图1-8 真的需要作图吗(1)

图表勉强反映出了老板的需求,但折线图应用在这里并不合适。折线图一般用在反映时间序列变化上,或者说折线图的点之间是有“演进关系”的,而地区间并没有演进关系。有人会说,把折线图中的线条去掉,剩下数据标记,并将数据标记做大一些,如图1-9所示。图1-9 真的需要作图吗(2)

确实可以这样做,但仅用数据标记,直观感会差很多。若老板再补充一个需求点,例如还想看看VIP用户数的占比情况,那么一张Excel图表就真的不够用了。

所以,我们不如简单直接地做一个表格,如表1-2所示。表1-2 某公司各城市VIP用户数对比VIP占城 市6月份VIP数量6月份非VIP数量VIP上月环比比北京151912930−8%12%广州358818700−3%19%杭州8766351425%25%上海11135667896%17%深圳207315668−2%13%

如果觉得表格不够直观,想添加一点显得自己比较专业的元素,那么推荐大家使用“条件格式”功能中的“数据条”功能,效果如表1-3所示。表1-3 使用“条件格式”功能

关于“条件格式”的应用,我们会在后面章节讨论。3.作图传达的信息非常有限

通常,我们花不少精力作出了数据图,却发现图中表达的信息非常少。产生这种情况的原因有二:一是数据的组合或呈现方式不对,导致信息被埋没;二是数据集不反映要研究的信息。第一种情况,我们可以调整横纵坐标轴对应的指标,或调整图表类型,或调整坐标轴的颗粒度(放大或缩小坐标轴)。遇到第二种情况,我们就需要考虑放弃制作图表。

在做报告时,图表的呈现是有筛选的,并不是作出了多少张就放多少张,我们只挑出能正确反映信息的图表。经验丰富后,面对一个数据集就能大致知道哪几个需求需要作图,哪几个需求不需要作图。4.图表内的数据存在复杂的逻辑关系

有时,我们会拿到这样的数据集:指标间互相影响、互为因果。以用户在页面上的行为流数据为例,如果我们以每个页面的角度去观察各页面的流量结构,会发现流量是在页面之间相互跳转的,要在数据图表中呈现这种关系就不容易了,所以遇上这种需求不如不做图表,改为用矩阵化的表格呈现。表1-4所示为某网站一次用户交互后的流量流转结构表,该表需要横向从左往右看,表示了从起始页面开始的流量到其他各页面的分配情况。第二行的含义就是:页面1到页面2的30%流量中,有25%回到页面1,有35%回到页面3,有10%回到页面4,有30%流失。表1-4 某网站一次用户交互下的流量流转结构表

要表达出这样的逻辑关系,Excel的作图功能就不够用了。第2章建立数据图表的认知

在本章开始前,我们先做这样一个游戏:请不假思索地说出你所知道的数据图表。作者的答案是:散点图、气泡图、柱状图、条形图、折线图、箱线图、雷达图、瀑布图、树状图、韦恩图、饼图。本章就介绍这些图表的用法。

做了多年的数据图表后,作者有一个深刻的体会,就是“没有正确的图表,只有更合适的图表。”图表的终极意义是将数据中的信息直观地反映出来。说白了,它就是一种表达方式。表达方式就像说话一样,要把一件事情说清楚,一万个人有一万种说法,只要你理解了,就没有对错。一个数据图,做得再震撼,再漂亮,品位再高,若读者理解信息很费劲,就不是一个好图表。2.1 利用散点图探究数据间的关系

我们平时见得最多的也许是柱形图,但作者最喜欢的是散点图。在讲散点图之前,作者先阐述一个不太严谨的个人观点。作者认为,所有的数据图表都可以分为两类,一类偏重展示,一类偏重研究。

偏重于展示的图表,往往是将某个指标蕴含的信息更直观地表达,即该类图表中获取的信息是可以直接应用于业务决策的。例如,某公司全国各省的销售员人均销售业绩的柱形图,孰高孰低被展现得很明显,那么哪些地区需要努力,或者哪些地区需要裁员,可以依据图表进行决策。

偏重于研究的图表,往往是显现出指标间的某些隐藏的关系,从图中得到的信息往往需要进一步研究,才能落地为具体的业务判断或执行策略。例如,某公司人均销售业绩与员工离职率的散点图,你或许能看到两者存在某种数学关系,但你并不能获得显性的结论,而是需要进一步研究。例如,通过回归建模,才能提取出这种关系。研究型的图表就像一扇门,能帮助我们打开另一番天地,获得的信息价值也更高,但也有更高的风险。有时,你投入很多时间,获得的结论却没有价值。

上面说了这么多,其实是在为散点图做铺垫。在研究问题上,作者是一个风险偏好型的人,所以,研究型属性的散点图就是作者非常钟爱的一种图表形式。

散点图最核心的价值在于发现变量之间的关系。2.1.1 最基本的散点图样例

我们来看一个典型的散点图,图2-1所示为一家配送公司配送员配送负载(一天需送的订单量)与订单的准时送达率(数据经过脱敏处理)。图2-1 散点图样例

散点图的基本元素就是点,即通过两个变量(纵坐标轴和横坐标轴)的数值,将点打在图表对应的位置上,通过散点的分布观察两个变量之间的相互关系。我们能直观地看到,人均配送负载和订单的准时送达率是负相关的关系,即人均配送负载越高,准时送达率越低。我们通过添加一条趋势线,来使得这个关系更明显。

这个结论似乎是一个常识。一个人一天要配送的订单越多,则他就越难准时将所有订单送到。其实,这个逻辑未必成立,我们这样思考:如果订单是循序渐进的,在时间分布上平缓地递交给配送员,那么订单再多,配送员也能一单单送完,超时率依旧平稳;但实际情况并非如此,外卖配送需求都是在高峰时间段呈脉冲式增长,这就导致配送压力大时,配送员同时承接了多个订单,手头总有一部分订单会因为绕路配送而超时,这才导致了散点图上的反映。

在日常工作中,作者建议大家多做指标之间的散点图,这样往往能发现许多不一样的信息。那么,在Excel中散点图如何制作呢?下面作者就来详细地讲解。2.1.2 散点图的制作

其实散点图的制作只需要如下三步操作。(1)打开散点图制作控件。(2)选择数据。(3)调整图表参数。

首先,单击“插入”选项卡下的“图表”模块,在左边的图表选择项中,选择“XY(散点图)”,暂时先选择第一种类型,后面的几种类型会慢慢介绍。如图2-2所示,单击“确定”按钮后,会生成一个空的散点图。图2-2 散点图制作1

如图2-3所示,用鼠标右键单击图形,选择“选择数据”选项,就会出现如图2-4所示的数据源选择框,单击“编辑”按钮,进入如图2-5所示的“编辑数据系列”界面。在“编辑数据序列”界面中,我们需要设置三个数据:第一个数据是图标标题,可以选择某个单元格,这时会出现对选中单元格的绝对引用参数;第二个数据是X轴上要显示的指标,可以操作鼠标在Excel表中圈选,也可以自己输入绝对引用语句;第三个数据是Y轴上要显示的指标,操作方式与第二个相同。图2-3 散点图制作2图2-4 散点图制作3图2-5 散点图制作4

最初生成的图往往没有我们想象的那般漂亮,你会发现散点集中在某几个较小的区域。如图2-6所示,不要惊慌,这往往是因为没有调整好横纵坐标轴的“坐标轴选项”。图2-6 散点图制作5

双击坐标轴,将数据展现区间调整在合适的范围。原来的横坐标轴区间是0.0~0.95,但是我们大部分的点集中在0.75~0.95,因此将横坐标轴区间调整到0.75~0.95,这样图表看上去就美观多了,更重要的是数据间的关系也被清晰地呈现出来。

除了对坐标轴缩放的操作,我们还经常用到“坐标轴选项”里的“单位”和网格线的格式,因为有时我们需要调整坐标轴的颗粒度,使散点的位置展示得更精确。当散点较多且较细密时,我们需要将网格线调整为虚线并弱化颜色,使得散点间的关系更突出。2.1.3 散点图的变种1:添加平滑线

在Excel中,提供了带直线和平滑线的散点图。以作者的理解,散点图带上线后,实质上是增加了“路径”的概念,即我们不仅看到了指标间的关系,还能看到点出现的先后顺序。图2-7所示为带路径的散点图。图2-7 带路径的散点图

有了路径,我们就能观察两个指标波动的方向。看上去分布大致相同的两个散点图,其中一个散点图的路径是顺序的,即在某个指标上有顺序的分布;另一个则是无序的、经常出现“回头”的路径,那么这两张图所反映的指标关系应该是不同的。

但说实话,作者并没有发现带“路径”的散点图真正的价值,平时用得也非常少。所以,在本书中就不再过多论述了,希望读者能够挖掘出这类散点图的价值。2.1.4 散点图的变种2:利用气泡图观察更多指标间的关系

散点图只表达了两个变量的关系?不是的,我们还可以在点上做文章。可以用点的大小来衡量另一个变量。这样,散点图就变成了气泡图。为什么叫气泡图?因为答案非常直观,有大有小的圈圈,最像的就是气泡了。我们在制作气泡图时,往往会设置颜色的透明度,以展示气泡的密集程度。这么一来,气泡图就更直观了。

如图2-8所示,我们用气泡的大小表示配送费收入,这样我们就可以观察三个变量之间(人均配送负载、准时送达率、配送费)的关系。我们看到,无论从人均负载的角度还是准时送达率的角度,配送费都没有呈现出与其他两个指标的相关关系。图2-8 气泡图1

我们能够获得的认知有如下几条。(1)人均配送负载与准时送达率有明显的负相关关系,即一个指标随着另一个指标的增长而减少。(2)每单的配送费与人均配送负载和准时送达率都没有呈现出明显的相关关系。(3)样本点大部分集中在准时送达率87%~93%,同时人均负载在11~15的范围内。

通过以上几点,相信大家能领会到散点图的强大了。我们更近一步,给散点图增加一个变量,即用气泡的颜色(也可以是纹理、形状)代表另一个变量(由于印刷的限制,我们采用纹理来表达新增的变量)。需要注意的是,用纹理代表的变量,不适合再用连续型变量了,最好用类型变量或有序变量。

在Excel中,我们不能直接通过导入数据来用纹理代表某个变量。这是一点小小的遗憾,但我们依然可以手动将效果做出来。这里考验读者的耐心和操作鼠标的精准度。如果气泡过多,不建议读者将纹理作为一个变量,因为那样做的时间成本非常高。

如图2-9所示,4种气泡的纹理代表了4个配送团队。很明显,斜线纹理对应的配送团队的准时率显著领先于其他团队,但在人均配送负载上则比较低,说明斜线团队的工作量不是很大,因此配送准时度较高。虚线空心圆对应团队的人均配送负荷较高,准时送达率较低,与团队的状况正好相反。灰色填充的气泡对应的团队的分布非常分散,有的人负载高准时率低,有的人负载低准时率高,可见灰色团队的管理方式和其他三个团队或许非常不同,值得进一步调查分析。图2-9 气泡图2

若想更近一步,再往气泡图中增加一个变量。可以利用点的形状,将某个类型变量映射为图中点的形状,比如三角形、正方形、圆形分别代表某种类别。5个变量是二维散点图的极限,再增加就只能扩展到三维散点图。作者不推荐做三维图,因为除了有视觉冲击,三维图表真的用处不大。

通过从散点图到气泡图的应用,我们不断地窥探出数据指标间的关系,并且挖掘出了许多新的信息,这真的是一个欣喜的发现过程。2.1.5 散点图的变种3:用分类矩阵形成决策

从点到气泡再到有纹理区分的气泡,散点图还能有其他变化吗?其实根据不同的业务场景,散点图的变种有很多,但这样的变化不是图形上的变化,而是根据思考方式,向散点图中添加辅助元素所达到的变化。例如,图2-10中要讲的分类矩阵。图2-10 波士顿矩阵来源:https://zh.wikipedia.org/wiki/BCG%E7%9F%A9%E9%99%A3

首先推荐大家了解一个概念——波士顿矩阵。波士顿矩阵根据“相对市场占有率”和“销售增长率”两个维度衡量企业的各种产品。将产品分为明星产品(相对市场占有率高的同时销售增长率高)、金牛产品(相对市场占有率高但销售增长率低)、幼童产品(销售增长率高但市场占有率低)和瘦狗产品(相对市场占有率和销售增长率都低)。通过对现有产品的分类,可以有较为清晰的产品结构改进策略。

受波士顿矩阵的启发,我们经常采用分类的思维,将某些决策问题抽象为决策方案在两个维度上的对比。

举个例子,假设你是一家连锁餐饮公司的CEO,目前你需要收缩线下的实体店。首先你挑选出了客户数量和好评率都比较低的30家店铺,但你希望采用渐进式的收缩策略,而不是一刀切地将这批店铺统一关闭。那么,你首先需要关闭这批店铺中的哪些呢?

我们计算了一段时间内,这批店铺的客户数量和好评率的波动情况。我们假设有这样一个前提:客户数量和好评率的波动越大,这家店的管理成本越高,因此越有必要先关闭。基于这个假设,我们制作了图2-11所示的分类矩阵散点图。每家店铺即对应于图中的散点,纵坐标代表好评率的波动幅度(我们用标准差占均值比来衡量波动),横坐标代表客户数量的波动幅度。然后我们要划出分类矩阵,即我们认为好评率波动幅度在15%以上,客户数量波动在10%以上,是我们所不能接受的。有了这两个标准,我们就能将散点图划分为四个象限(A、B、C、D)。显然,落在象限A内的店铺,我们需要优先关闭。图2-11 基于散点图做分类矩阵

基于散点图做出的分类矩阵往往能解决“筛选”问题。其使用有两个难点:第一个难点是如何构建分类指标,即散点图上的横坐标轴和纵坐标轴分别代表什么,且两个指标需要相互独立(即一个指标不会影响另一个指标)。这一点需要比较强的业务抽象的能力。值得注意的是,构建分类指标时,不要将思维局限于两个指标,许多时候可以构建两个相互独立的综合指标。如上面的例子,好评率波动可以扩展为由好评率、差评率、投诉率、推荐率等多个指标综合而成的服务质量指标的波动。第二个难点是确定分类指标的阈值,即两个分类指标好坏的分界线在哪里。确定这个阈值免不了有主观因素在,若想尽量客观,建议采用“专家打分法”,即有多个资深的业务人员,根据决策的实际需求,确定阈值。2.1.6 散点图的局限性

虽然作者喜欢使用散点图,但它也有许多局限性,也正是这些局限性导致了它在实际工作中不太被人所用。1.散点图所能表示的数据指标有限吗

根据上文所述,从散点图到气泡图,所能表示的指标到4个已经是极限了,或许还能扩展到5个,即用点的形状表示一个类别变量,但这真的是局限吗?根据我们在第1章中的讨论,事实上,为了图表能正确反映信息,需要控制图表中变量的数量,一个图表中有4个变量,一般人已经很难进行分析了。2.散点图有时不够直观,不能直接表达结论吗

一般观察数据图的目的是快速得到结论,作为管理者尤其如此。但散点图与该目的并不十分契合。为了能让散点图更直接,我们往往需要在图中增加一些辅助元素。最常见的是标注,即突出显示出某些点并添加文字或者符号。添加辅助线也是一种惯用技巧。另外,如上文中提到的分类矩阵,也是一种辅助元素。3.散点图对业务敏感度和数据意识要求较高

应用散点图时,挑选哪两个指标建图,这真的是个很考验作图者道行的事情。首先,你得对分析需求有比较深刻的了解;其次,要将分析需求联系到最重要的若干指标上(在挑选指标的过程中,指标少时没问题,指标多时有时得凭直觉),然后去观察这些指标间的相互关系,通过这种相互关系的提取,打开更深入分析的大门。虽然使用有难度,但对一名分析师来说,仅仅使用柱形图、饼图等“小白”图形,实在难堪大用。4.散点图只是入门的钥匙

散点图确实是进入更深一层的分析前需要做的事情。通过观察变量间的相互关系,才能找到深入分析的切口,即所谓的开门钥匙。直接从散点图形成结论,这样的做法要警惕。你可以记住这样一个简单的流程:描述统计→散点图(观察变量间的关系)→分析建模获得结论→由其他简单图形表达结论。

散点图的内容先介绍到这里,在本书后续的内容中还会时不时地出现散点图的讨论。2.2 利用柱形图将“对比”做到极致

竖起来放的图叫柱形图,横着摆的图就是条形图,把柱子切割成几块就成了累加柱形图,切割出来的几块柱子用来表示各部分的百分比,就成了累加百分比柱形图。

既然柱形图已经简单到妇孺皆知、百姓可用的地步,那为什么还要专门用一节来讲呢?难道它还有一些一般人不知道的特性或者用法吗?答案是肯定的。下面我们就来了解一些柱形图的用法,或者说是作者认为的真正用法。

柱形图的核心思想就是“对比”。

接下来,我们就用详细的案例介绍柱形图的“对比”到底是怎么应用的。2.2.1 利用累加柱形图对比数据结构的变化

其实,许多人在建立柱形图时,都没有把柱形图真正的潜力发挥出来。仅仅用几条高高低低的柱子代表一个变量的变化吗?如果是这样,那柱形图和折线图又有什么区别?所以,柱形图一定有它的差别优势。

其差别优势就在于,柱形图是最容易做出对比效果的图形。别小看对比这两个字,这是数据分析的精髓所在。“有对比才有信息!”请把这句话记在脑海中。首先,我们介绍如何用柱形图简单清晰地反映出结构变化的前后对比。

图2-12所示为一家互联网公司运营策略变化前后,运营成本构成的对比图。通过累加柱形图的应用,我们很直观地看到了运营成本中各部分的变化和总量的变化。还有哪种图能比累加柱形图更有效地反映这种信息呢?基于本例,我们可以分析出如下有价值的信息。图2-12 某互联网公司运营策略变化前后的月运营成本构成的对比(单位:万)(1)该公司的运营总成本有显著下降,由旧策略下的900万元/月降至新策略下的770万元/月。(2)该公司大幅缩减用户挽回成本,转而增加了用户获取成本和促活成本。这是整个运营思路的大转变,由原先的强调挽回用户,转变为整体用户换血(重视拉新和拉新后的激活)。这种转变背后的原因,极有可能是产品有重大转型,老用户已经不再是新版产品的目标用户。当然,也有可能是产品有大幅改进,同时管理层评估后,觉得老用户已经被之前的产品折磨得伤心欲绝,挽回成本过高,因此把资源挪向拉新。图中的“旧策略”一般出现在红海市场,而“新策略”一般出现在蓝海市场。我们暂且不去评判哪种方式更科学,就本例来说,至少总的运营成本在下降,应该符合目前的市场环境。(3)基础成本也有不小的下降。这家公司极有可能缩编了运营部门,并同时增加了自动化运营工具的采购(拉新成本和促活成本增加)。作者个人非常欣赏这样的运营方式,减少人,多采用工具,这才是真正提效的方式。

那么,图2-12是怎么做出来的呢?其实非常简单,读者看了图2-13就明白了。图2-13 对比累加柱形图的制作

如图2-13所示,不止可以作两个累加柱形,但作者不推荐作多个累加柱形的对比图,至多一个图中放4个柱子,不然信息很容易混乱。或者把握这样一个原则:柱子放得越多,每个柱子分割的部分应该越少。当然,最好的场景还是两个样本做对比。2.2.2 多指标组合对比

通常,我们需要对多个衡量主体在多个指标上同时进行对比。为了方便后续例子的阐述,我们建立一个虚拟场景:假设,你目前是一家软件公司的销售总监,这家公司为“川术”公司。在本书的后续内容中,我们经常会在现实和虚拟两个时空间切换。你需要观察上个月你手下的4个销售团队在签约数、续约数、客户推荐数三个指标上的对比情况,如图2-14所示。我们将销售团队A~D当成一个组合,而新签约数、续约数和客户推荐数就是三个指标。柱形图确实将“对比”的信息突显了出来。图2-14 多指标组合对比1(1)团队C在三个指标上都领先于其他团队,它的优秀毋庸置疑。(2)团队A新签约数较多,客户推荐数较多,但续约数较少。这反映了该团队是一支较新的团队,且工作相当努力,由此博得了客户的口碑,但毕竟累计的客户量不多,因此续约的单子不多。(3)团队B是一只明显的“老鸟”,客户关系维护得不错,因此续约和客户推荐数都较高;但少了一些拼劲,因此新签约客户数不足。(4)团队D存在明显的问题,新客户签约不力,老客户维护得也有些问题。

当然,为了达到多指标的组合对比,图形的展现方式还有许多,例如,可以作累加柱形图,也可以将图2-14所示的指标和团队的逻辑关系换一下,变成横坐标为团队,每个团队内有三条柱形表现指标。作者喜欢这样的呈现方式,团队是对比的主体,因此将团队用不同颜色清晰地表示出来,而三个指标是三把尺子,用来衡量每个团队,因此把每把尺子衡量的结果放在一起,在横坐标上呈现。

做多指标组合对比图时,需要注意所挑指标的单位。单位尽量统一且数值差距不能过大。若单位的数值差距过大,放在一张图中是很难观察的。如图2-15所示,除了看到团队C的柱形外,其他柱形的数量对比关系就不能显现了。图2-15 多指标组合对比2

当挑选作为对比依据的指标时,若单位确实不能统一,就需要将指标进行标准化。最简单且最广泛使用的标准化方式是“最大最小标准化”,即每个值减去序列中的最小值,除以序列中的最大值减去最小值。如图2-16所示,指标中有线索转化率和好评率,显然它们与新签约数不是统一单位,那就必须将数值做标准化。这里将标准化后的数值加了0.1,目的是使每个柱形都可见;不然,数值最小的团队标准化后的数值为0,在图中将看不到柱形,图的直观性将受到影响。图2-16 多指标组合对比32.2.3 用平均值优化单指标的对比

沿用2.2.2节中销售分析的例子,因公司发展快速,你手下的团队已经不再是4个,而是10个,你依然需要对比各团队的销售表现,你该怎么办呢?还是做10个团队在三个指标上的组合柱形图吗?

如果你的BI人员给了你一张类似图2-17所示的多指标组合对比图,你肯定会抓狂!10个团队10种配色,高高低低的三组图形,你将难以获得有用的信息。正确的做法是,团队多了,就该减少图中的指标。你应该做一个指标在10个团队上的对比。这时就需要条形图。制作条形图时需要注意,数据需经过排序,且最好是降序排列,这样符合人的观察逻辑。如图2-18所示,设置排序时,需要单击“开始”选项卡,然后选择“排序与筛选”中的“自定义排序”选项,选择排序所依据的列,选择“升序”选项,条形图就会将数值大的放在上面,数值小的放在下面。图2-17 多指标组合对比4

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载