数据的真相:如何在数字时代做出明智决策(txt+pdf+epub+mobi电子书下载)


发布时间:2021-08-02 00:50:58

点击下载

作者:(美)约翰·H.约翰逊,(美)迈克·格鲁克

出版社:中信出版集团

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

数据的真相:如何在数字时代做出明智决策

数据的真相:如何在数字时代做出明智决策试读:

前言

2010年春,美国国家橄榄球联盟(NFL)的老板们在提出诸多要求之外,还想将常规赛季的比赛场数额外增加两场。作为国家橄榄球球员协会的执行主任,我觉得这并不是一件好事。橄榄球赛的受伤率已经高达100%,因此多打比赛意味着更多伤病。而伤病率的上升会导致运动员职业生涯进一步缩短,现在运动员的运动生涯本就只有三年多一点。橄榄球运动员在赛季期间每周都会冒着很大风险投身于这项美国人民最为喜爱的运动中,我们协会对他们的安全、报酬以及保护措施极为关注。

职业橄榄球产业创造的价值高达数十亿美元,而且依然在不断发展壮大之中。但在2010—2011年间,该行业经历了数十年不遇的停摆,因此我需要以一个具有说服力的方式来证明赛季的长度必须维持在十六场比赛不变。

于是我拨通了约翰·约翰逊的电话。

约翰是经济学、统计学、数据学领域的专家,他能够把极为复杂的数据理论变得简单易懂,让人一目了然。简而言之,他应该能够算得上是我认识的人中最为聪明的一个。他能够仔细、全面地解释问题,不论你受教育水平如何,都能够听得懂。而且最重要一点,他这人还很风趣。

怀着和美国所有橄榄球迷一样的心愿,国家橄榄球球员协会想拯救即将到来的全国橄榄球联赛,因此我们把相关数据交给了约翰。约翰及其同事开发出一个模型,展示球员受伤的时间和频率。他们指出导致最严重伤害的动作(从而引出对球员安全造成巨大影响的“开球规则”)。他们通过数据预测出平均每个球员职业生涯缩短的程度,估计出将全国橄榄球联赛赛季延长至十八场比赛可能导致的经济损失。他们同我们合作,将每场全国橄榄球联赛对周边社区产生的实际价值进行量化,帮助我们对可能发生的结束赛季停摆所产生的经济影响有一个更好的理解。

最终,约翰以其出色的口才向球员、媒体,尤其是美国国家橄榄球联盟的老板们(他们对“损失”这类词特别关心)解释了这些数据,我们得以做出既符合我们初衷,又能保障球员的健康和安全的决定,最终促成了后续的谈判,签订了一项历史性的协议,该协议为期十年,很好地保障了美国国家橄榄球联盟球员的权益。

本书很好地反映了约翰的思想。我对该书能够帮助你在日常生活中做出更好的决定十分有信心。通过阅读本书,你可以学到如何对每天接收到的数据进行理解、解读、思考。约翰和本书的合著者迈克·格鲁克通过列举数百个例子,直指问题本质,举重若轻地将复杂问题化繁为简(有时候甚至能让你忍俊不禁)。因此在阅读本书过程中,要是发现自己因为恍然大悟而频频点头,并开始质疑家里和单位中看到的每一项“事实”,请不要感到惊讶。

有一个不可否认的事实,即你每天生活中的数据正在迅速增加,并从四面八方向你涌来。因此了解如何利用数据,以及在什么情况下数据会被滥用十分重要。我亲身体验了数据的力量,但你不需要和一群世界上最富有的人一起死命加班,体会理解数据、管理数据的重要性。在你看电视、购物、工作、在餐厅吃饭的时候,这本书是你的不二之选。《数据的真相》见解深刻、文字富有魅力、内容引人入胜,在关键时刻填补了一项关键空白。

本书相当于橄榄球队主教练编写的比赛战略手册,能够助你在运用数据的赛场上变得更强大、更聪明、更有信心。

祝阅读愉快。莫里斯·F.史密斯美国国家橄榄球球员协会执行主任第一章无处不在的数据:从大数据到小数据

从早晨睁开眼睛开始,你便被数据包围。根据“全球信息工业中心”(隶属于加州大学圣迭戈分校)“多少信息”项目的研究结果,其实美国人平均每天接收约34千兆的数据。

34千兆可不是个小数目。1千兆——或平常会缩写成GB,相当于超过10亿字节(一个字节等同于一个字母或一个数字)。据BBC(英国广播公司)引用的说法,如果把34GB的数据打印出来,能够装满几十辆卡车。这还仅仅只涵盖了你家中活动的数据源,如电视、收音机、电脑、电话等——这34GB的数据似乎并不包括我们周围存在的数据,也不包括我们工作中接收到的信息,如果把这些都算进去,那这个数据总量会是34GB的两三倍。

我们来花上一分钟,想一想你在一天刚开始的一两个小时内可能碰到的“小数据”,并对其加以解读:

你睁开眼睛,看到了一天中的第一个数据——闹钟上幽幽亮着的数字。

接收数据:约9字节。

你拿起手机。哪怕在起床前,浏览十几封电子邮件,看几条信息,看一下交通情况,读几条重大新闻也并非难事。

接收数据:约2.1M(1M=约100万字节)。

你走进浴室,站上体重秤,秤上的读数表明你昨晚不该吃比萨。

接收数据:约3字节。

你可以从牙刷上接收到数据吗?当然可以,只要是那种每30秒震动一次提醒你换个刷牙位置的电动牙刷就行。震动是数据的另一种表现形式。

接收数据:约60字节。

叮!你手机上的日历铃声提醒你要开一次客户会议。

接收数据:约43字节。

你服用多元维生素吗?吃不吃鱼油?你得仔细阅读标签内容,从而理解上面的所有数据。药品标签上的数据都非常重要。

接收数据:2M。

女儿要你在她的数学试卷上签字。你如何知道自己是否看到了所有数据?你女儿有没有把其他试卷藏起来?试卷上的分数又代表了什么?——代表了她的能力,或者仅仅与她平时上课出勤有关,还是有其他的打分标准?

接收数据:约46KB(1KB=约1000个字节)。

你早晨是通过什么方式看新闻的?俄勒冈大学的研究表明,同阅读网络新闻相比,人们在阅读报纸时,能记得更多信息。浏览新闻标题的时候,你看到以下信息:

最近投票显示有76%的美国人对国会工作不满。

波士顿棒球队红袜队排名第一——15场连胜,比第二名整整多出7场。

天气预报显示最高气温为70华氏度(21℃),最低气温为58华氏度(14℃)。

研究表明每天喝一杯红酒能降低心脏疾病的发病率。

从政府预算可以看出美联储将再次下调利率。

接收数据:约3.1M。

你想知道一旦利率下调,重做购房贷款需要花费多少金钱与时间吗?你在智能手机的一个App(应用程序)中加上一条记录(该记录自动与计算机同步),并以电子邮件的形式发送给你的配偶。

接收数据:约2.2M。

该上班了。你一坐上车,马上就面对一个满是数据的仪表盘。机油灯是否亮着?发动机温度如何?胎压如何?有些数据会通过警示灯是否亮起显示,有些会通过刻度盘显示,有些则显示在电子屏上。

接收数据:约63字节。

你车子的油箱里还剩1/4箱燃油。这究竟说明了什么?为什么哪怕仪表盘上显示油箱已空,车子依然能够继续行驶?(答案见第六章)

接收数据:约26字节。

你到了加油站,公告牌上标示的汽油价格比路对面加油站每加仑便宜4美分,但油价便宜的加油站只收现金。每加仑4美分的差价是否足以影响你的加油选择?

接收数据:约2.0M。

你上班是坐公共交通工具还是自驾?如果你在华盛顿的话,可能会走495号州际公路,并且缴纳一笔根据行驶距离收取的“动态”通行费。(换句话说,行驶过程中数据被收集,接着定价。)但是过路费的定价是否严格按照供需关系?或只是利用隐藏数据收取高额费用?

接收数据:约44.0M。

你到星巴克买咖啡。买16盎司的大杯还是20盎司的超大杯呢?你想了下价格差(还有卡路里)。点完咖啡,你看了一下善品糖、Sweet’N Low(一个甜品品牌)、怡口糖的包装,标签上都标明了营养和成分。(真的糖和蜂蜜没有营养成分表,因此比较难和这些竞争产品做比较。)

接收数据:约10.1KB。

你最终到了办公室,该工作了。看新闻、查电子邮件、审阅表格、协商合同、看销售预测、打电话、开会……所有的这一切都是数据,整天不断。

但就算是以上这些例子都没能真正解释数据是如何影响到我们生活的。因为上面的这些例子夹杂着去哪里加油、影响你孩子数学成绩有哪些因素之类的事,小数据能够影响到你的心情,影响到你能赚多少钱,甚至能影响到你的寿命。比如:

你应该在哪里买房或租房?你应该把更多注意力放在学校排名、上下班所花的时间、犯罪数据、房屋转手价值还是其他数据上?

如果你桌上有一份非常好的工作邀请函,你正犹豫着要不要接受。你应该运用什么数据来证明自己应得的薪资待遇水平?你把这些数据递交给那个可能成为你新老板的人,她会如何看待这些数据?

你该如何判断应该找什么样的人谈恋爱,或者有可能的话同其步入婚姻殿堂?你会使用婚恋网站吗?在那些网站上,你的数据将经过过滤、解读,从而定位出一个与你相匹配的对象。什么数据对你来说最为重要?你父母的身高?对方毕业于哪所大学?还是对方能赚多少钱?

如果医生告诉你,你的血糖值或胆固醇水平超标,你会怎样?你体检得出的数值,有没有一个特定的临界值,超过以后就证明是危险的?上升的指数是源于基因、饮食,还是其他综合因素?医生可能会让你每天验血,并且记录饮食(从而为你和医生收集更多数据来做分析)。

以上这些情况你会如何处理?“我们拥有的数据量很丰富,”《时代》杂志指出,“但数据给我们带来的回报正在迅速减少,因为一旦过了某个点,你掌握的信息越多,就越难理解其所包含的意义。”

听起来是不是很耳熟?你并不是唯一这么想的。“小数据”

你也许听说过大数据。所谓大数据,指的是那种量特别大,如果没有专业的软件和足够的计算机容量基本无法处理的数据。比如联合包裹运输服务公司(UPS)每辆车收集200个数据点(该公司有大约10万辆车),利用这些数据节省空闲时间和燃料。彭博社有一篇文章写道:“每个司机每天少开1英里路程能够为公司节省折合高达50万美元的燃料费、车辆维护费以及时间。”

世界各国利用大数据解决大问题。荷兰利用大数据管理水源。食物运输公司利用大数据满足客户深夜进餐的需求。IBM(国际机器公司)利用以PB计的数据确定可能发生的食品污染情况。(1PB=1000000GB)

大数据就像“性感美女”,能上头条。根据《福布斯》杂志一篇文章的说法,与大数据相关的工作需求每年以80%的速度增长。《华尔街日报》引用与数据相关的项目的不断增长也说明了,商学院的学生“对大数据求知若渴”。

但如你所见,正是那些小数据——那每天环绕你周围的以字节记的数据——对你每天的健康、开销、工作、人际关系等诸多方面产生了巨大影响。从食品标签到天气预报,从银行账户到医疗卫生,小数据无所不在。

不幸的是哪怕这些数据就摆在面前,人们依然对其心存疑窦。《波士顿环球报》上的一篇文章指出:“事实并不总能改变我们的想法,能改变我们想法的反而并非事实。”该文章引用密歇根大学的一项研究,指出那些受误导的人们会坚信自己的看法,其中有些人甚至在面对事实的时候反而更坚定了自己错误的想法。(很明显,很多人只是不愿承认自己错了而已。)

但是,有句话说得好,传言再多也不能成为数据。比如你所有邻居都说今年夏天是有史以来最热的,并不能说明这就是真的。

艾米丽·奥斯塔尔是布朗大学经济学副教授,著有《你理应得到更好的:为什么传统妊娠智慧是错的以及什么才是你应该知晓的》一书,当我们问她人们如何在每天的生活中解读数据时,她说:“我认为我们所有人面对的最大问题是过分解读传闻。”“人们十分乐于从个人故事或经历中学东西,”她继续说道,“你很难强迫自己无视身边的传言——或最低限度将其当作一个数据点来看——继而从其他数据总结出结论。”

传言可能让人印象深刻,可能听起来十分可信,但面对事实才是关键。小情境

这里还有一件你必须留心的事——在日常生活中,你也许会根据情境看数据,或将数据和你身边的其他数据做比较。有时候情境和其他数据是有用的,但有时候却会误导人。

试想:

在加利福尼亚州赫莫萨比奇市,消防队的平均反应时间约为5分钟多一点。这个反应时间算不算快呢?为了解读这个数据,你可能要将其同这个城市过去的消防队反应时间做比较,或者在类似的城市间做比较,或者和其他数据做比较。

位于休斯敦的乔治·布什国际机场领导层接到了有关乘客行李到达时间过长的投诉。因此他们把取行李处转移到了离出站口很远的地方。旅客于是把时间都花在了走路上——而不是等行李上,投诉量减少了,因为人们觉得拿行李的时间缩短了。

媒介不同,我们接收、解读数据的方式也不同。比如你是否觉得《华盛顿邮报》网络版因为可以随时更新,所以比印刷版更为准确?你是否喜欢读纸质杂志,因为可以把有趣的文章裁剪下来?精装版的书是否比平装版的书看起来更为权威,尽管它们都是印刷品?

赛斯·戈登在一篇博文中问道:“在一家餐厅,最便宜的红酒价格为30美元……而同样这款30美元的红酒是隔壁一家餐厅里最贵的酒……这款酒在哪个餐厅里喝起来味道更好?”情境至关重要。

当然,还有一些你甚至可能不知其存在的隐藏数据。例如,根据《华尔街日报》报道,如果你几年前在一个潮湿的天气查看一个名为“天气频道”的应用,你也许会发现一个潘婷Pro–V洗发水的广告(专门修护发丝分叉)。可能这个广告只是个巧合,但事实上这个广告是根据不同邮编,专门以女性为目标投放的。如果湿度较高(会引起头发分叉),这则广告就会出现;如果湿度较低,则会出现其他头发护理产品的广告。你能看到天气预报,你也能看到广告,不过除非你在“天气频道”工作,否则你也许无法看出这两者之间的联系。在这个由数据驱动的世界,你并不总能了解到底是什么在驱动数据。成熟的数据接收者

如果你从纽约来到新泽西,你可能记得赛姆斯服装店的电视广告,在广告里,赛·赛姆斯对观众说:“成熟的客户是我们最好的客户。”(有趣之事:赛把他的姓按照店名改成了“赛姆斯”。

赛说得没错。成熟的数据接收者远胜众人。

作为一个见多识广的数据接收者,你的任务便是不断问问题,从而理解自己所得到的数据是如何影响自己生活的。你需要问自己:

政党候选人在其电视广告中,有哪些东西没有说出来?

记者是否使用了精确的数据样本——抑或她只分享了能够支持自己文章的数据?

销售预测是基于哪些数据得出的?

你的医生说你的病是由某些行为引起的——还是这些行为只是和你的疾病相关?

市场推广人员在产品包装上重点突出了什么,为什么突出这些数据?

为什么年度报告上,有些数据以饼状图的形式出现,而其他数据以柱状图出现?

有些时候,数据会向你兜售东西——究竟兜售的是产品,是服务,还是观点?在这些情况下,只需知道新闻播报员想要得到你的关注,广告商想要得到你的钱,政客想要得到你的选票就能帮助你成为一个更好的数据接收者。但有时候并没有这一整套流程——有的仅仅只是数据,你需要了解这些数据以理解周围的世界。

总而言之,这便是本书的主要内容:帮助你发现生活中的所有“小数据”,告诉你如何解读这些小数据,并为你提供切实有效的技巧来避免常见的数据陷阱,使你能够成为一个成熟的数据接收者,并且在日常生活中做出更好的决策。

我们这就开始吧。第二章对“挑战者号”评估结果的异议:抽样如何影响结果“就在那残酷的瞬间,我们雀跃的心情一下子变成了恐惧;我们呆在原地看着眼前的一切,试着弄清楚到底发生了什么事。”

1986年1月31日,罗纳德·里根总统站在约翰逊航天中心外,对几天前因“挑战者号”航天飞机在半空中解体而丧生的7名宇航员的家人、朋友、同事发表讲话。

之后数月,专家们花了数不清的时间采访主要目击者,审核相关证据,记录调查结果。

最终,问题的焦点落在了数据上。

负责航天飞机发射的人员犯了一个典型的错误,他们把注意力放在了错误的数据上。于是7个国家英雄“挣脱了大地粗暴的束缚”。1986年1月28日

有一本记录此次事件的书是这么描写当时情况的:“1986年1月28日上午,‘挑战者号’航天飞机驶向卡纳维拉尔角空军站上方冰冷的蓝天,执行代号为51–L的任务。在兴高采烈的观众和屏息凝神的飞行控制员看来,这次发射一切正常。但是,升空后不到73秒,飞机的外挂燃料箱破裂,里面的液体燃料随之爆炸,‘挑战者号’在空中解体。”《总统委员会关于“挑战者号”航天飞机事故的报告》指出:“具体来说,问题出在防止热燃料泄漏的密封装置破损上……”调查人员很快将注意力集中到了密封装置的关键部分——固态火箭发动机两个部件(U型接头和柄脚)之间的O型橡胶环上。“挑战者号”上的O型环富有弹性,具备在几毫秒内收缩、膨胀的能力。但O型环的弹性“和温度直接相关……O型环在暖和的环境下会膨胀,填满U型接头和柄脚之间的空隙,但在冰冷的环境下可能就无法做到这一点”。事实上,调查人员发现,处于压缩状态下的O型环在75华氏度(24℃)环境中的反应能力是在30华氏度(–1℃)环境中的5倍。“挑战者号”发射时的气温为36华氏度(2℃)。《委员会报告》指出O型环“有可能”并没有像所需要的那样收缩、膨胀,从而出现了让燃料泄漏的空隙,摧毁了“挑战者号”,这一点表明“哪怕美国最伟大的成就也可能因为一个像O型环那样平凡无奇的小物件而最终功亏一篑……”

既然气温那么低,工程师们为何没有中止发射呢?

他们尝试过中止发射。鲍勃·隆德是莫顿聚硫橡胶公司工程部副总,该公司是固态火箭发动机的承包供应商。在那次灾难性发射的前夜,鲍勃·隆德和其他几个人提出建议,反对在寒冷的气候条件下发射“挑战者号”(该建议随后被撤销)。“我们担心气温会比去年一月份还要低,去年一月份的温度是50华氏度(10℃)还是53华氏度(12℃),我们发现……O型环有一定程度的磨损……而这并不是我们最担心的事,就像我们之前说过的,如果气温低于当时的51华氏度(11℃)或者53华氏度,不管具体几度,我们不知道事情能顺利开展到哪一步。我们担心的就是这种未知状态。”

换句话说——他们手头的数据不够。没人知道在比之前任何一次发射气温低上15华氏度的环境中,O型环会出现什么问题。

然而,缺少低于53华氏度的数据只是问题之一。理解样本选择

你在给手头的数据样本做统计分析的时候,会引出一个在统计学中称为“样本选择”的问题。分析的数据数量比数据总量少并不一定会产生问题,但可能导致得出错误的结论,这一切取决于你要回答的问题是什么。在“挑战者号”这个例子中,数据被局限于失败这一块,但是失败的可能性恰恰正是人们所关心的问题,他们并没有对没有出现问题的样本进行研究。

负责该项目的团队清楚他们没有53华氏度以下的数据,于是决定在不考虑气温的前提下对O型环失灵的每一次情况展开研究。科学家和工程学家们根据数据得出的结论并没有错。但是,正如你所看到的,问题出在他们并没有根据自己想要回答的问题选择正确的数据进行研究。在当时情况下,他们应当对有关O型环运作状态的所有数据进行观察,而不应把研究对象局限于O型环产生失灵迹象的数据。

空难发生的前夜——工程师们试图说服莫顿聚硫橡胶公司和美国国家航空航天局(NASA)的管理人员取消发射——有人指出航天飞机在75华氏度环境下发射时O型环有失灵的迹象。

确实——75华氏度环境下出现了问题。70华氏度环境下也出现了问题。63华氏度环境下也同样出现了问题。事实上,有证据表明O型环在7次互不相关的发射任务中发生了热损坏。如果观察一下这几次发射时的气温,你会发现很难找出一个规律。通过观察这些数据,你会轻易地相信温度并不影响O型环的运作状态。《委员会报告》指出:“通过比较,O型环‘失灵’这一情况在连接处温度处于53华氏度到75华氏度区间内并没有呈不规则分布。”

问题在于这种比较方法仅研究了24次航天飞机发射任务中7次的数据。人们通过仅关注O型环出现问题的发射任务截短了数据组——这么说听起来很委婉,但言下之意就是他们并没有对所有数据展开研究。这个数据分析错误将导致严重的后果。

因为工程师们仅仅研究“发射失败的情况——如果你看一下先前7次存在问题的发射任务和17次没有问题的发射任务,研究一下当时的气温,你就会发现其中存在明显的关联,这一关联十分重要,但他们却忽略了这一情况”。安·E.滕布伦塞尔和马克斯·H.贝泽曼在给《魔鬼经济学》写的一篇博客文章中提出了上述观点。

你一旦看了所有的数据——把没有发生事故的发射任务也包含在内——你自己就能看出区别。

气温在65华氏度(18℃)以上,20次发射任务中只有3次出了事故。

气温在65华氏度以下,4次发射任务均出了事故。

这是一个依赖数据——虽然出发点极好——导致灾难性后果的典型例子。表2–1 O型环发生热损坏的发射任务

表2–1标出了O型环发生热损坏(即O型环出现腐蚀、漏气、过热等状况)的发射任务。注意该表仅标出了O型环失灵的发射任务,并且以温度记录其分布情况。表2–2 所有发射任务

表2–2标出了所有发射任务——O型环失灵和没有失灵都包含在内。同样,以温度记录其分布情况。

所幸你自己所选择的数据样本可能永远不会陷入最终导致7人殒命、重建费高达17亿美元的航天飞机毁于一旦这样的处境。但不论你在家读报纸还是在公司写报告,每天也都会碰到与之类似的数据问题。我们会在接下来的几页中解释样本是什么,并向你展示如何避免得出错误的结论。我们为何需要抽样?

假设你有一盒蜡笔,共100支。你想要知道其中有几支是蓝色的。在这种情况下,你需要做100次观察以收集所有数据。观察即一个简单地看一眼一个单位的动作。

针对一盒100支蜡笔,对每一支蜡笔进行观测以研究这一数据总体是行得通的。对数据总体进行观察是有好处的,因为你无须对余下的数据做假设。

但如果你一年来人际关系处得出奇地好,在生日的时候收到了一个盒子,里面装了100万支蜡笔,这意味着什么?意味着现在你的数据总体为100万。

谁又有时间去观察100万支蜡笔呢?

所幸,还有另一个方案可供选择:使用一点数据分析手段,你依然可以估算出其中有多少支蓝色蜡笔。怎么估算?你可以从数据总体中抽出一个样本。样本即总体中的一部分(并非全部)。一旦你得到了样本,你就可以对总体做推断。(但就如你先前所见,在“挑战者号”航天飞机的例子中,如何选择样本会对数据分析产生巨大的影响。)

在数据分析中,使用样本对总体进行估算是一个常用手段。但你必须非常小心,因为哪怕很小的错误都会迅速放大,因为对数据样本进行观测就相当于对许多其他数据进行了观测。如果你想保证自己的推断正确无误,就还需考虑其他许多因素。最终你还要知道自己所选择的样本对数据总体来说有没有统计学上的意义,这一点我们会在本书第五章中讨论。如果是这样,结果会如何?

研究数据,得出统计结论的过程称为推断。在所有的统计分析中,如果你想要推断出结果,就必须保证自己拥有针对所要解决问题的正确数据。在本章中,我们会探究两类比较重要的抽样问题,鉴于大家对接收数据已有所了解,我们认为这两类问题应当引起重视。

第一,你需思考自己所研究或收集的数据是否能够代表基础数据总体。这一问题与数据收集方式和收集什么样的数据有关。回到我们讨论过的蜡笔的例子:如果给蜡笔装盒的人在盒子一侧放了较多的蓝色蜡笔——而那一侧正是你抽样的地方,结果会如何?在这种情况下,如果你想要估算盒子里有多少支蓝色蜡笔,你心中所想的数字会比实际上多出许多,因为基础数据并不能代表整盒蜡笔。你所研究的样本向蓝色蜡笔偏倚。

第二,你需考虑针对所收集的数据,分析的对象是什么——你是在分析所有数据,还是分析一部分数据?例如,假设你拥有盒中所有蜡笔的数据,你想要知道多少蜡笔是蓝色的。但在分析过程中,你仅将标签上写着“蓝色”的蜡笔确定为蓝色的。在这种情况下,你只研究了数据中的一部分(蜡笔标签名),这可能会导致你对蓝色蜡笔数据总体的估计和一个观察过每一支蜡笔的颜色,并把水绿色、青绿色、丹宁色蜡笔也观察了一遍的人所得出的结论大不相同。

你必须时常问自己,是否能够准确地将研究发现从样本推广到数据总体?这种推广的可能性称作外延有效性,即把从样品中得出的结论加以推广,从而得出对整个数据总体有意义的结论。

本章的例子着重指出了数据抽样的多种方式——这些方式中,有些正确,有些错误。为了符合这一章节的主旨,我们在此假定所有和数据抽样相关的错误,都是不经意、都不是故意产生的。这样的分类十分重要,因为有时候人们会出于特定的目的对数据进行抽样,以得出他们想要的结果,即有选择性地对数据进行抽样——我们会在第七章详细讨论这个概念。

正如你所看到的,在分析小数据的时候,抽样是基础。如果抽样出了问题,在解读数据的时候不可避免地会出错。有的数据专家穷尽整个职业生涯,就为了让抽样能够准确并具有代表性,从而为后续的数据分析奠定坚实的基础。这些数据专家身价十分高,因为离开了他们,一切都将崩塌瓦解。“怪诞”的科学

如果你研究人类行为,那就必须抽样。因为我们的星球上有70亿人,绝无可能将其全部作为样本来进行观察。

所以,如何来选择样本呢?

最为理想化的情况是你有一个足够庞大而且多样化的人群,这些人能够非常准确地代表整个数据总体。不幸的是,从心理学角度讲,这种状态是达不到的,甚至连接近这种状态都难。

某期刊上有文章指出:“人类行为学家总是循环往复地在世界顶级期刊上发表有关人类心理、行为的概括性论断,而这些论断全都是从西方的、教育程度高的、工业化的、富有的、民主的(前五个词英文首字母缩写为WEIRD,意为怪诞)社会中抽样。”

但是,等等,事情貌似更糟了。因为很多研究不仅仅是从那些“怪诞”的社会中抽样得出的,其中有些研究是从最“怪诞”的社会——美国抽样得出的。

有研究人员指出:“美国心理学研究有一个惊人的特点,即研究结论并非基于涵盖面广、差别性大的人群,而是仅仅基于人类总体的一小部分——这一小部分人大多生活在美国。”

美国人口占世界人口不到5%,但在某些研究中却占了样本的68%。“世界上其余的95%人口都被忽略了。”

尽管美国人习惯站在聚光灯下,但你肯定能够明白为何在研究人类的时候把其中大部分忽视掉是很有问题的。尤其因为美国人很难代表世界其他地区的人群,至少在很多方面无法代表。生活在美国(以及其他WEIRD国度)可能会影响我们感受形象以及处理和金钱的关系等方方面面。事实上,有一名研究者指出,WEIRD国家的人民可能是“在研究智人领域,最不能用来普遍化的子人群”。

稍等,问题还不止这些。

在美国,一项研究表明绝大多数心理学研究“在很长时间以来一直以大学生为研究对象——尤其是以上心理学课程的本科生为研究对象。这样的情况已经持续了近50年”。

在某期刊中,有2/3的美国研究样本为心理学本科学生。

在某种程度上,使用这样的样本是有道理的。心理学本科生在每所大学中都无所事事,他们都愿意挣些零花钱。因此在很多情况下,这样的学生是研究人员的“上佳之选”。

除了上述特点之外,心理学本科生根本不适合作为研究样本。因为他们的平均年龄低于美国国民的平均年龄。下面举一个例子说明这会带来什么不同。随机抽取一个美国本科生,“他们同西方国家以外的人相比,做研究样本的概率高出4000倍”,这可不仅仅可以用“怪诞”来形容了。这会导致你研究的很多心理学现象得出错误结论。抽样不一定越大就越好

如果抽样数目很大但不正确,这样的抽样不一定就能保证得出较好的结果。你可以研究世界上任何一个心理学本科生的行为,但这并不能表示你就能够以此推而广之得出全人类的行为模式。

拿美国国家体重控制注册中心(NWCR)做例子,该中心在宣传单上自称在美国境内开展了一项针对长期成功瘦身并维持的调查,对超过1万人的瘦身数据展开追踪。但样本数最“大”并不表示该样本就是好的,就好像去拉斯韦加斯最大的自助餐厅用餐并不一定让你吃得健康一样。的确,你餐盘多放点不同的食物的确能让你吃到健康食品的概率上升,但你必须继续把数据挖得更深一点。如果你挖掘一下美国国家体重控制注册中心发表的有关减肥的研究,你会发现其中很多报告的数据中,女性比男性人数多很多。这并不值得惊讶,因为在那个中心注册的人员中,80%为女性,只有20%为男性。

是否这个情况就能让他们的研究无效?并非如此。

是否这就表明他们的抽样无效?并非如此。

但这的确能够限制将其所得出结论推广至更大范围人群的减肥效果上。尽管人数很多,但这些个体依然属于特定的群体——参与了减肥,收到了减肥效果,并且自愿参与这项研究,而且比较个性化。这仅仅是一个例子,说明为什么你不能根据数据想当然地做出结论,无论抽样数目有多大都是一样。系上安全带《洛杉矶时报》的一则头条新闻可能会让所有子女尚幼的家长停下手边的事,再多看一眼。“儿童高脚凳致伤率在7年内上升了22%;如何才能保证自家孩子的安全。”

乍看之下这个数据十分可信,毕竟《洛杉矶时报》是全国最大、声誉最好的报纸之一。这篇文章是基于一篇发表在经过同行评议的期刊《临床儿科》的研究之上。文章的第一作者是国家儿童医院研究学院伤害研究政策中心主任。该医院在美国国立卫生研究院资助的医院中排名前十。

此项研究的数据来源于美国“全国电子伤害监督系统”(NEISS),该系统从医院收集病人数据。上面的样本集没有从儿科医生那里收集数据,没有从家长那里收集数据,而是仅仅从医院收集数据——而且是从一部分医院收集数据。换句话说,得出的结论仅仅反映了一部分和儿童高脚凳有关联的伤害情况。

在这章的前半段,也就是“挑战者号”航天飞机的部分,我们看到了专家们是如何仅仅研究所掌握的一部分数据的情况的。在这个案例中,专家似乎研究了NEISS数据库中的所有数据。但问题在于尽管研究了所掌握的所有数据(去医院就诊的受伤情况),他们依然没有掌握所有数据(所有的受伤情况)。在这种情况下,研究人员没有掌握所有的数据,很难回答人们关心的核心问题。

公正地讲,如果你研究儿童高脚凳致伤率,NEISS的数据似乎是一个合理来源,而且不论是文章的作者还是《洛杉矶时报》的记者,都很清楚数据的来源。但这并不能改变我们作为成熟的数据接收者取得信息的方式。

例如,假设在研究过程中,因为高脚凳致伤的儿童数量总体在减少,但受伤后去医院就医的儿童人数在上升,结果会怎么样?在这种情况下,受伤儿童的总数在减少,但家长决定带儿童去医院的比例在增加。为什么呢?也许由于出现了一则广为流传的新闻,越来越多家长担心孩子脑震荡。也许出现了一项新的研究,越来越多儿童医生建议家长带孩子去医院。也许的确受伤人数在下降,但受伤程度比以前更为严重。如果你不提出这些问题,你将永远不知道上面新闻的说法有多少可信度,也不会知道如何正确地解读它。

再说得清楚一点,我们不是说不想让孩子更安全。我们都会保护孩子(甚至过分保护)——我们会在买厢式旅行车的时候事先研究各类汽车的碰撞试验排名。我们在这里只是说你应该知道数据的来源。

如果你对孩子负责的话,记得在孩子坐高脚凳的时候为他们系上安全带。因为绝大多数受伤事件是在孩子试图站立或从高脚凳上爬下来的时候发生的。我们是第1名,也是第58名!

根据《普林斯顿评论》上派对学校(Party School)排名,雪城大学位列第1名。

根据《美国新闻与世界报道》上国立大学排名,雪城大学位列第58名。

尽管两个排名都针对同一所学校,但是从完全不同的数据中抽样,提出不同的问题。这完全是个仁者见仁、智者见智的问题。《美国新闻与世界报道》看的是毕业率、院系实力以及其他的标准;派对大学排名是基于有关饮酒、毒品、大学生联谊会/女学生联谊会生活以及与此类似因素的学生调查问卷结果得出的。

当然,我们能够在这一章节中不厌其烦地讲为什么我们不能比较这些排名(方法不同等等)。你肯定会问不同的排名方法是如何得出结论的。

其实很简单:你可以基于抽样的数据和提出的问题,对同一个人、同一个地点、同一个事物做完全不同的研究。不接受自拍

上周你吃了多少次垃圾食品?

上个月你看了多久电视?

你开车时到底开多快?

当你询问人们有关他们自身的问题时,会面对得到错误信息的风险。人们不总是诚实的。我们有各种偏见。我们的记忆也远称不上完美。凭借着自陈式数据,你会假定十之八九的事适用于所有人(事实上不是)。你会觉得人们能够客观理解自己的行为(事实并非如此)。(想要对自陈式数据的风险有一个更为深入的了解,请在英国科学基金会Brainwaves的博客上阅读《自陈的危险》一文。)

潜在的不确定性所导致的结果便是自陈式数据可能并不可靠。《安全研究杂志》上的一项研究显示,大多数人认为自己开车水平比普通人高。另一项研究报告显示,人们会把自己的身高报得偏高,把自己的体重报得偏低。当你让人们观察自己的时候,这些情况都可能发生。

有时候,自陈式数据是唯一可以获得的数据。有时候,自陈式数据仅仅是更加容易获得。并不能说自陈式数据就是不好的,因为这部分取决于数据的背景,部分取决于数据的收集方式,部分取决于问题的询问方式。如果你想做一个成熟的数据接收者,自陈式数据只是你需要留心的一个方面而已。选举总统与人口普查

美国的下一任总统可能会把胜利归功于抽样。

你知道,总统必须获得选举团的大多数选票才能获胜。这些选票一部分基于美国人口普查,而美国人口普查依赖抽样来获得准确的数字。

因为根据美国宪法,每10年要对美国境内所有人口做一次普查。

观察从美国东海岸到西海岸的全部人口几乎是不可能的。人口普查局在官网上写道:“人口普查过程中,有一些人口没有被计算进去。”《时代》杂志报道:“1990年人口普查遗漏了大约800万人——其中大多数为移民和城市少数族群,最终人口普查局重复统计了400万美国白人。”

为什么这很重要?除选举外,联邦政府按照人口普查数据分配资金、支持社区。一个地区人越多,得到的支持就越多。

根据女参议员洛蕾塔·桑切斯的说法,阿纳海姆市在1990年人口普查的时候,少计算了7000多人,损失了150万美元联邦资金。这笔钱能够让阿纳海姆面貌大变——或者说能够让任何城市面貌大变。“这笔钱能够让我们的街道更安全,我们能够为无家可归人员建造房屋,我们能够给失业者做培训。”

跟这一章节其他例子不同,这里讲的不是错误抽样,不是错误解读数据,而是说明抽样的影响(这影响常常为人所忽略)。有人能够因为数据抽样坐上总统的宝座——街道会由于抽样而导致巡逻警察数量减少,我们认为这是你必须知道的事。取其精华,去其糟粕

想一下最近全美掀起的去麸质狂潮。新闻头条都在讲最近不吃含麸质的食品的饮食狂潮。麸质是一种给予面团韧劲的蛋白质。但在美国,到底有多少人真的不吃含麸质食品?

根据调研公司NPD团队的一次市场调研结果,有超过29%的美国人尝试不吃含麸质食品。加上最近热火朝天的去麸质运动影响,去麸质食品的潜在市场估计会超过4400万人。(聪明的读者可能发现全美29%的人口要远远大于4400万,这种不同很可能是由于不同的收集数据方法导致的——还不算那些试着不吃含麸质食品和真的去买不含麸质食品人群的不同。)

现在我们来把上面的数据和患有乳糜泻的人数做比较。所谓乳糜泻是一种和小肠无法吸收麦麸相关的潜在疾病。根据美国国家乳糜泻防治基金会的数据,每133个人中有1人患有此疾病——全美的人数大约为2400万,不到总人口的1%。

这个例子中,对全国人口展开研究和对人口中与此事相关的子集(患有乳糜泻或对麦麸过敏的人群)所受的潜在影响展开研究,其结果大不相同。《赫芬顿邮报》的戴维·卡兹博士解释道,有些人不吃含麸质食品会感觉舒服一点,还有一小部分人吃不吃含麸质食品“可能是生死攸关的大事”。“对于除这些人之外的人来说,不吃含麸质食品充其量只是跟风而已。”

许多人罹患乳糜泻这一事实是一个严重的问题。但我们的观点是基于抽样的人数以及提问的标准,你可以对同一问题(“多少人不吃含麸质食品?”)得到两个截然不同的答案。如果你问全国所有人中有多少人试着不吃含麸质食品,答案是29%。如果你咨询乳糜泻防治团体全国多少病人需要吃不含麸质的食品,你得到的答案是不足1%。与此类似,通过研究全国人口得出的不含麸质食品对健康影响不大这一结果如果应用到全国不足1%会因食用含麸质食物而丧命的人身上,将会是十分危险的。

结果真是天壤之别。填空

有时候,该有数据的地方没有数据。

我们来看一下全美第三大学区芝加哥公立学校的例子。这个学区发布了大量关于其学生优异表现的数据,也用数据测定学生的成长情况,作为教师、校长考评的一部分,也作为学校可靠性的一个因素。

但如果你研究一下2014年美国西北测评协会(NWEA)学业进展测评(MAP)的数据,你没准会发现有一些政府特许学校并没有提供信息。事实上,如果你往下拉看完8322行Excel表格文件的话,你会发现有不少没有提供信息的例子——单元格是空白的。

为什么?有一些情况下,政府特许学校要么成立时间较短,要么班级规模非常小(有些学校符合这两个因素),因此它们没有提供数据便讲得通了。

但也有其他情况,就是有些政府特许学校已经开了5年甚至10年之久,可以推测数据肯定是有的,所以应该只是这些学校没有上报而已。芝加哥一所学校的校长在《芝加哥太阳时报》的一篇短文中提到:“有人跟我说那些政府特许学校并非一定要‘参与’MAP评估……(芝加哥公立学校)允许一些政府特许学校不参与这项评估,以此维持普通公立学校的可信度。”(公立学校似乎没有不参与这项评估的特权。)

很有可能缺失的数据并没有对总体比较结果产生巨大的影响。但当你读到“芝加哥公立学校比政府特许学校进步更快,在阅读教学方面尤其如此”这样的头条新闻时,你便能够看到基于数据编造的故事是怎么改变我们的观念、影响我们的行为的。

如果潜在数据没有经过准确的抽样,那就仿佛建一座房子,却少了几块混凝土地基。可能这并不要紧。但如果缺失的地基位于错误的位置——或缺失太多地基,那整座房子将会倒塌。缺了什么?

有时候,你无法保证数据抽样绝对正确,因为这样的数据根本不存在。

奥巴马总统在决定发起突袭抓捕奥萨马·本·拉登的时候说:“下这个决断非常困难,部分原因是我们并没有掌握确凿证据。我们只有间接证据证明他会到那里去。”

换句话说,他没有掌握全部数据。

这种事在政治、商业、学校、家里都常常发生。你拥有一个数据组,但你知道这个数据组并不完整。(这样常常依然比你自己认为完整的数据组更好,虽然它并不完整。)

因此,下一次你想要做决定的时候,问一下你自己:你希望拥有什么数据?什么样的数据可以让你改变主意?我们并不是说你要在下结论之前拥有所有数据,因为这样的话你就永远不会去赴初次约会或者尝试吃寿司。但你对先前未知的东西知道得越多,你就能过得越好。做一个成熟的数据抽样接收者

1.明白基于错误样本得出结论将会导致的后果。样本是否能够代表总体?例如,那些接受问卷调查的人是谁?所选的数据是否基于你想要研究的关键结果,研究这个“样本”是如何影响分析结果的?

2.问自己:哪些数据能够最为恰当地回答所提出的问题?比如,“挑战者号”调查小组一度只研究O型环出问题的发射任务,因为研究结果显示这些事故在一定气温范围内时有发生,所以也许这个数据并不是能够解决问题的上佳之选。如果调查组把注意力集中在所有发射任务上,他们可能会发现O型环问题在温度较低的情况下更为频发。如果要回答一个有关人类行为的问题,你想了解哪些类型的人?或者,换个说法,受访者的答案是如何影响特定分析结果的?

3.在报纸上读到一则新发现或新研究报道时,问你自己:这个结论是研究了哪些数据得出的?受访者是谁,或者这项研究是基于何人开展的?当你看到“在一个非科学的调查中……”或“领先的”_________,等诸如此类的话,你可以将其视为危险信号。你可以问自己5岁的孩子下一任总统是谁,然后将这个“非科学的调查”结果发表。“领先的”这类词听起来不错,但很难量化(你可能会问“领先于什么?”)。

4.留心自陈式数据——问人们有关他们自己的职业,看什么电视节目,或行为如何等问题与观察并记录人们行为相比会简单很多,但自陈式数据并非总是最准确的。当你看到那些由研究对象提供的数据时,记住上面的话。

5.最后要记住,在很多统计工作中,对数据的一部分抽样或对数据的总体抽样并无好坏之分。抽样是一个强有力的工具,能让我们在研究总体不可行(或并不推荐这么去做)的时候了解到情况。你不要被误导,认为一定要研究所有数据才行。事实上,给数据抽取一个样本会非常有用。在有些情况下,研究数据的子集所得出结论的确会非常有意义而且非常合适。(AC尼尔森公司创立者阿瑟·查尔斯·尼尔森说过:“如果你不相信抽样,那下次抽血的时候,让护士把你全身的血全抽光算了。”)在其他的一些情况下,我们所研究的结论是由我们分析特定数据组所得出的。所以研究数据的一部分还是全部并不重要,解读结果的方式以及结果的意义才是关键所在。第三章红色州为什么变蓝了:平均数及总数——近观概括性统计

你应该知道得克萨斯州的埃尔帕索吧,在那里会举行得克萨斯西部最大的文身、音乐节“得克萨斯对决节”。也许你之所以知道这个地方,是因为史蒂夫·米勒乐队在那里惹上了大麻烦。

不过,如果你从政,你可能会知道埃尔帕索虽然是计选票的地区之一,但那个地方的选票并不总能统计出来。

嗯?

我们来回忆一下2012年总统选举,巴拉克·奥巴马在埃尔帕索县(埃尔帕索的所在地)获得了70%的选票。他的主要对手米特·罗姆尼获得了28%的选票。事实上,奥巴马在得克萨斯州获得了超过300万张选票。

但由于数据的计算方式,导致这些选票并没有给选举结果带来任何不同。

我们都知道没事别惹得克萨斯州的人。所以,到底发生了什么?

答案就是统计。

我们在本书前面章节提到过,美国使用选举团这种选举方式进行选举,而这种选举方式在大多数州施行的是获胜者获得全部选票的方式。在多数情况下,总统候选人只要在某一州获得多数大众选票,就能够获得该州所有选举团的选票。最终,便出现了“红色州”——在那里共和党候选人获得选举团选票,和“蓝色州”——在那里民主党候选人获得选举团选票。

的确,2012年奥巴马在得克萨斯州获得了超过300万张选票,但罗姆尼获得了超过400万张选票。因此罗姆尼获得了得克萨斯州选举团的全部选票。

选举团是数据合计的一个例子——数据合计是概括性统计的一种,这种统计方法会抹杀数据的多样性,因而常常具有误导性。你也许见到过媒体报道分析红色州和蓝色州可能存在的所有不同点,着重指出了从创造工作岗位到环境保护法到奥巴马医保方案等一系列不同。但我们思考、行动、投票的时候,真的有那么多不同点吗?或者如果我们更深入地研究一下数据,是否会得出不一样的结论?

我们来近距离看一下投票数据,就从密歇根大学的马克·纽曼所总结的2012年投票结果地图(图3–1)来看一下吧。

你把红色州和蓝色州对比着看,会发现有很多不同。例如佛罗里达州是美国东南部唯一一个蓝色的州。但之所以会这样,是因为你看到的只是州一级的合计数据。换句话说,你看到的是选举团竞选方式所得出的获胜即取得全部选票的结果。

尽管地图上的州红蓝分明,但其中依然可能会有很多人投了相反的选票。图3–1 州一级的合计数据(浅灰色的是红色州;深灰色的是蓝色州)图3–2 县一级的合计数据(浅灰色的是红色州;深灰色的是蓝色州)

纽曼绘制了一系列有关2012年选举各州结果的地图,非常好地体现了这一点。在这张图上(图3–2),纽曼以县为单位描绘了选举结果。靠近一点,你就能看到埃尔帕索县是得克萨斯州西北角上的一个蓝点(深灰色)。

现在,我们看到了以较小单位(县)而非较大单位(州)统计的投票结果地图,该地图看起来就没那么泾渭分明了。除了一些特例(佛蒙特州),大多数州是红蓝相间的。(我们必须注意,并非所有人都投了民主党或共和党。比如在2012年,有67326名美国人——大约相当于加利福尼亚州雷东多比奇的人口,投了罗斯安尼·巴尔的票。你没听错,就是那个罗斯安尼·巴尔。)

当然,尽管这些以县为单位的投票结果依然只显示了每个县的投票总数(要么民主党,要么共和党)。因此纽曼更进一步,基于投票率,用粉色阴影(我们在该书的地图中将其转换成了灰色)表明每个县为候选人投票的意愿是否强烈。这依然是县一级的数据总计,但我们加上了另一个分解层面——即每个县为候选人投票的意愿是否强烈。在图3–3,纽曼进一步将红蓝界限模糊化,展现了一个更为微妙的政治分布图。埃尔帕索县为深灰色(深蓝)笼罩,反映出奥巴马获得了70%的投票(事实上为69.84%)。

本章节中,三张地图都用了相同的选举结果数据。都总结了投票数,但使用了不同层次的总和。结果,根据数据合计的方法和数量,三张地图显示了投票者的偏好,这样的偏好或多或少有点微妙。图3–3 加上为候选人投票意愿是否强烈后的县一级总计

数据合计的方式会掩饰重要的不同点。以州为单位的合计数据使得得克萨斯州成为一个红色州,而以县为单位的合计数据使得得克萨斯州的一些县呈蓝色。在本章中,我们将探索人们总结数据常用的一些统计方法,并展示不同的数据合计方法是如何掩饰基本数据潜在的重要的不同点的。当心数据缝隙《全球幸福指数报告》自诩为“全球幸福里程碑式的调查”。该报告为联合国分支机构所发布,每年会有超过百万人次的阅读量,全球主要媒体都会对其进行报道。

报告上,排名第一的是瑞士,再往下看,就好像冬季奥运会颁奖典礼一样列出各个国家的名次:挪威、加拿大、瑞典等国都名列前茅。

把报告文件下拉,你会看到英国位列全世界最幸福国家第21位。这个排名对英国来说还算体面,因为其排在了德国、法国、西班牙前面,但仍然落后于之前曾是其殖民地的新西兰和澳大利亚。

如果你把这份172页的报告翻一遍,就能看出这份报告的研究手段及结果。你能够(也必须)提出一个问题,即研究人员是如何对人口进行抽样并对结果进行解读的。

但吸引我们注意力的是拿国与国进行比较这一概念。一旦将国家看作一个整体,《全球幸福指数报告》中的国家排名取的就是平均值。

记者、研究人员,以及其他人员使用取平均值的方法掌握数据的某些方面,就好像用照相机拍照,能够拍出多个视角,但每张照片只能从一个角度进行拍摄。就好像对数据取总数一样,取平均值是概括性统计中的一种,能够告诉你数据的一些内容,但毕竟只是一种衡量方式,而且这种衡量方式常常带有欺骗性。把所有数据收集起来,接着将其整合为一个值,取平均值(或其他概括性统计方法)暗示了所有基本数据都是相同的,哪怕事实上这些数据并不相同。

英国的“国家统计办公室”(ONS)也收集幸福数据,因此我们可以对数据进行更为细化的研究,而不是仅仅从《全球幸福指数报告》上看国家的平均值。就像你预期的那样,当你更近距离观察了幸福指数,你会发现英国不同地区的幸福指数不尽相同。拿1到10来打分,不同地区有着不同的分数,如:

北拉纳克郡——7.0分;

英格兰东北部地区——7.2分;

圭内斯郡(威尔士)、东柴郡(英格兰)——7.6分;

埃利安锡尔、奥克尼郡、设得兰群岛(苏格兰)——7.9分。(当然,就算是上面的分数也只是当地人口的平均分。很可能这些分数会根据特定的周围环境或基于不同性别、收入、年龄而不同。如果你们中有人感兴趣的话,根据ONS的数据,英国的幸福指数平均分为7.3分。)

我们并没有想要将ONS的数据和《全球幸福指数报告》的数据进行比较——我们也不能这么做,因为这两个报告使用的是不同的研究方法,研究覆盖不同的时间段,除此之外还有其他的差异。我们列出这两组数据,只是想要揭示平均值是如何掩盖数据差异的。

英国的每个国民都是不同的。甲壳虫乐队不是滚石乐队。但取一个国家的平均值会无视这些差异,仅从地理角度把所有人都划到一起。平均数、中位数和众数哪个更可信?

从统计学角度讲,谈到平均值,你必须了解三个概念:平均数、中位数、众数。

所谓“平均数”,即大多数人所谓的“平均值”。想要取平均数,就把所有的数值相加,再除以数据个数即可。

所谓“中位数”,即中间值。如果你将数据以从小到大的顺序排列,中间那个数据就是中位数。(如果数据总数为偶数,那中位数就是最中间两个数据的平均数。)

所谓“众数”,即数据中出现次数最多的那个数。如果没有数据出现次数大于一次,那就没有众数。在另一方面,如果有两个(或两个以上)数据出现次数相同,那将会有多个众数。

我们来看一些数据样本,更直观地了解一下上面的概念。

想象一下,2013年你住在西雅图的切尔西公寓。这座为西雅图世界博览会而造的公寓楼有10个公寓单元。

现在,我们假定其中9个公寓单元为你和你的伙伴所居住(一人一个),而且巧合的是你们的年收入完全相同——5万美元。

一天,比尔·盖茨决定大量裁员,并搬进了第10套公寓居住。他那年的收入为115亿美元。要计算公寓楼中住户年收入的平均数,你先要把每个人的年收入相加:50000+50000+…+50000+…+11500000000=11500450000(美元)。接着除以人数(10),得出平均年收入1150045000(美元)。

要取10个人年收入的中位数,你要把数据从小到大排列,并挑出中间那个数值。

1.50000

2.50000

3.50000

4.50000

5.50000

6.50000

7.50000

8.50000

9.50000

10.11500000000

中位数为50000。(因为我们数据的总数为偶数,所以我们取中间两个数值的平均数。)

现在,我们来计算10个人年收入的众数,你只要计算一下哪个数值出现次数最多即可。

年收入出现次数

50000     9

11500000000  1

这就很简单了,年收入的众数为50000,因为这个数值在10次中出现了9次。

因此,年收入的平均数超过10亿美元,但中位数和众数都是5万美元。如果你想要计算这座楼住户的年收入,哪个值最为准确?(提示:可以取上面三种方法得出来的数值的平均数!)在这种情况下,取中位数和众数会比较好。(不过,如果你想要估算所得税所产生的影响,那平均数可能更为准确。)

当你观察数据的时候,如何才能知道人们所说的“平均值”是什么?如果你假定“平均值”即平均数,很有可能你是对的,但如果想得到确定的答案,唯一的办法就是询问。迈阿密人出生时平均是西班牙裔,死时是犹太人?

按照平均值来看,迈阿密人生下来是西班牙裔,死的时候是犹太人。

这是个玩笑话,但能看出依赖平均值的危险之处。(迈阿密戴德县总出生人口中,60%为西班牙裔,而该县的犹太人只占5%。)

平均值的优点在于将数据中的所有数值都计算进去,并将其简化为一个数值。然而,这个优点也暗含着巨大的危险。如果数据中每个值都完全相同(可以将其想象成一排一模一样的砖块)那平均值可能的确能够准确反映出每一个数值的一些特性。但如果数值在很多关键方面并不相同——很多数据组都不相同——那平均值很可能让高于或低于平均值的数值或同平均值不同的数据组变得含糊不清,还会使一些数据显得与众不同。

试想有两个男人,一个体重150磅(68千克),另一个体重250磅

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载