统计数据会说谎(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-30 20:44:20

点击下载

作者:(美)达莱尔·哈夫

出版社:中信出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

统计数据会说谎

统计数据会说谎试读:

引言

我的岳父从艾奥瓦州搬到加利福尼亚州没几天,就对我说:“这个地方的犯罪事件太多了!”他所读的报纸的确报道了许多犯罪事件。这份报纸从不放过报道当地的任何一起犯罪事件,而且以注重报道谋杀案闻名,其详尽程度超过了艾奥瓦州的任何一家大型报社。

我岳父的这一结论属于非正式统计。这个统计基于一个明显带有偏差的样本。与其他许多较为规范的统计一样,这个统计也存在虚假的成分。因为这个统计认为报纸上报道犯罪事件版面的大小是衡量犯罪率高低的标准。

几年前,十几位调查人员分别发表了一份关于抗组胺剂药物的报告。每份报告都表明,服用该药物后感冒会明显好转。紧接着就是各种各样的渲染,至少广告商是这么干的,于是这种药物被大量生产。造成这一结果的原因是人们一直对药物有着大量需求,也从未越过统计学去了解自己早已知道的事实。正如亨利·G·费尔森(Henry G. Felsen,他是一位幽默作家,但绝不是医学专家)很久以前所说的,适当的治疗可使感冒在七天之内痊愈,但如果任其自然发展,感冒则会持续一个星期。

那么,你读到和听到的事情大多也是如此。那些平均数、各种关系、趋势图以及图表并不总是一致。你所看见的未必是真实情况,事实上这些数据要么被过于夸大,要么被隐瞒。

在如今用事实说话的社会中,统计这种神秘的语言是如此诱人,但它却被人弄成了耸人听闻、华而不实、迷惑不清且过分简单的东西。在报道社会和经济趋势、商业状况、民意调查、普查时要用到大量数据,此时统计方法和术语就不可或缺。但是,如果作者们不能诚实报道甚至根本没有理解这些统计词汇,读者也就无法明白作者所说的内容,那么这些统计结果就只能是无稽之谈。

如今科普读物很受欢迎,但这些书籍往往滥用统计数据,这让人联想到这样一幅场景:灯光昏暗的实验室里,一个穿着白大褂的人忙得天昏地暗,还没有加班费,正如“加一点粉末,再加一点颜料”,这样的统计数据把许多重要的事实搞得面目全非。一个精心包装过的统计结果比希特勒的弥天大谎还要厉害,因为它虽然误导了你,但你还没法去指责它。

在教人如何用统计“行骗”的同类书籍中,这本书只能算是初级读本。它看起来像是一本“骗子指南”。也许我可以为这本书稍做辩解:这就好比一个洗手不干的窃贼出了一本回忆录,书中描述了如何能不出声地撬开门锁,其水平之高让研究生都佩服。既然“骗子”都已经熟练掌握了这些诡计,老实人又怎能不学来用于自卫呢?

在评论《纽约太阳报》(Sun)有关报道时,《时代》(Time)杂志曾特别指出:“耶鲁大学1924届毕业生平均年收入高达25 111美元。”

哇哦,他们实在太厉害了!

但稍等一下。这一令人惊叹的数据究竟意味着什么?它是否像表面看起来的那样,足以证明如果你将自己的孩子送进耶鲁大学,你就可以安享晚年,你的孩子也可衣食无忧了?

在充满怀疑地乍一看之后,我们发现这个数据有两个可疑之处:首先,它精确得让人吃惊;其次,它给人带来难以置信的好处。

把那些四处分散的人的平均年薪搞清楚并精确到个位数,这个可能性实在很小。就算你对自己去年的收入要做到一清二楚都不太可能,除非这些收入全部源自薪水。而25 111美元的年收入通常并非全部来自薪水,这部分耶鲁毕业生很可能还有零零散散的各种投资。

毫无疑问,这一令人羡慕的平均数是根据耶鲁毕业生自己报出的数据计算而来的。即便1924届毕业生在位于纽黑文市的耶鲁大学念书时谨遵其信用制度,我们也不能因此肯定多年之后,他们依然恪守该信用制度,他们口中的这些数据依然真实可靠。当被问及收入时,他们中的有些人难免会因虚荣或自负而有所虚报;有些人恐怕会尽量瞒报收入,特别在涉及所得税的问题上,他们也许会因担心与其他表单上的数据互相矛盾而犹豫不决,那些税务官们会不会看出什么端倪来呢?这两种倾向——虚报和瞒报——也许会互相抵消,但事实上这不可能。其中一种倾向也许会占上风,但究竟哪种占上风我们不得而知。

根据常识,这一数据绝对不真实,那么就让我们来分析一下。我们先来看看导致最大误差的原因,就是这个原因炮制出了某些人“平均年收入高达25 111美元”的神话,然而事实上,他们的真正年收入也许仅仅接近这个数字的一半而已。

这就是抽样过程。在处理各类问题时,抽样过程是你所接触到的统计学主要内容的核心。其基础原理非常简单,尽管在实践中其精细到已衍生出了各种分支原理,而其中一些并不可信。如果你有一桶豆子,有些是红色,有些是白色,现在只有一个办法能让你准确得知每种颜色的豆子各有多少:一颗一颗地数。不过,还有个方法更加简便可行:随便抓一把豆子,然后数出红色豆子有多少颗,设想红色豆子在这一把豆子中所占的比例和桶里红色豆子在所有豆子中所占比例相同,由此便可大致知道桶里红色豆子究竟有多少颗。如果样本规模够大,且选择得当,那么它在大多数情况下完全可以代表整体。否则,这种方法还不如高明的猜测来得精确,除了营造出一种所谓的科学精确性的虚假氛围,这种方法毫无可取之处。可悲的是,各种各样的结论就是从这些要么带有偏差,要么过于微小或二者兼而有之的样本中获得的,而我们却并不知道自己所读到的这些结论或自以为清楚的这些结论来自这样的样本。

有关耶鲁毕业生的收入报告就来自这样一个样本。我们之所以如此肯定是因为理智告诉我们,要联络到所有尚在人世的1924届毕业生根本不可能。多年之后,许多人的地址已经无从得知。

而且,就算知道了这些人的详细地址,他们也未必会答复调查问卷,尤其是这种关系到个人隐私的问题。就一些邮寄问卷而言,有5%或10%的回复率就已然很高了。耶鲁大学毕业生的收入调查问卷的回复率也许更高一些,但绝不可能高到百分之百。

因此,我们得出结论——该收入数据来自这样一个样本,即样本对象由既有明确地址又回复了问卷的毕业生成员组成。该样本具有代表性吗?也就是说,我们能否假定该样本群体成员的收入与那些联系不到或没有回复问卷的成员的收入处于相同水平?

在耶鲁毕业生名单中,谁是那些“地址不详”的迷途羔羊呢?是华尔街富商、公司董事、制造公司和公共事业部门的高管等这些高收入者吗?不,要想获知这些富人的地址并不难。即使有些巨商富贾早已忘了和校友办公室保持联系,我们仍可以在《美国名人录》(Who’s Who in America)以及其他通信录中找到他们的地址。不妨这样猜测一下,那些失去联系的人在获得耶鲁大学学士学位之后的多年间,没有实现当初的抱负、功成名就。他们沦落成了普通的小职员、机械工、流浪汉、失业的酒鬼、勉强糊口的落魄作家和艺术家……在25 111美元的收入单上,这些人占据了一半甚至更多。他们不常参加同学聚会,因为他们连路费都没有。

哪些人将问卷丢进了废纸篓?我们对此不能确定,但至少能猜到这些人的工资还没有高到能拿出来炫耀的份儿上。他们有点像这样的人:第一次领薪水时,发现工资单上附了张小纸条,要求对自己的薪水保密,不要打探同事之间的薪水。“放心好了,”他们会对老板说,“我和您一样对这点儿薪水感到丢人。”

显然,这样的样本遗漏了最有可能拉低年收入平均值的两类群体。25 111美元这一数据本身就能说明问题。即使这是一个真实的数据,它也只代表1924届毕业生中有明确地址并愿意站出来公开自己收入的人的情况。即便如此,前提还得假设这些绅士们说的都是实话。

不要轻率地做出这样的假设。一类被叫作市场调查的抽样研究表明,我们几乎不能做这样的假设。以前有人曾做过一个旨在研究杂志读者群的挨家挨户的调查,其中有这样一个关键问题:你们家一般都看什么杂志?调查人员将调查结果制成表格并加以分析后发现:大多数人喜爱《哈珀斯》(Harper’s)杂志,喜欢《真人真事》(True Story)杂志的人却不多。但当时出版商的数据却清楚地表明:《真人真事》的发行量高达数百万份之多,而《哈珀斯》的发行量只有几十万份。本次调查的设计者们自嘲道:“也许是我们问错了人?”可事实并非如此,这些问卷覆盖了全美国范围内的各类社区。因此,唯一合理的解释就是许多调查对象在回答问题时并未说实话,这导致该调查所发布的数据有偏差。

最后,人们发现,如果想知道某些人喜欢看哪种杂志,直接问他们是没有用的。登门佯装收购废旧杂志反而会让你收获很多。接下来你要做的无非就是数清楚分别有多少本《耶鲁评论》(Yale Reviews)和《爱情故事》(Love Romances)。就算是这种颇令人感到怀疑的方法也无法令你得知人们究竟在读什么杂志,而只能告诉你他们曾经有什么杂志。

同样道理,下次若是你读到美国人(最近大家总是听到美国人怎么了,不过大部分内容并不可信)平均每天刷牙1.02次时(该数据是我刚编出来的,不过也许编得和其他数据一样逼真)问自己一个问题:人们怎么可能算得这么精确?如果某位女士通过无数广告宣传得知不刷牙有违社交礼仪,那她还会向陌生人坦陈自己有时并不按时刷牙吗?对那些只想知道人们对刷牙有何看法的人而言,这个统计数据也许才有意义,但在反映人们刷牙的频率问题上,该数据并没多大作用。

我们知道,一条河流永远不会高过其源头。但如果在某个地方藏有一个水电站,这似乎可以做到。同理,抽样调查的结果不会比它所基于的样本本身更好。当经过层层统计操作,数据被过滤成一个小数点后几位的平均数时,该结果就会令人们坚信。但是,如果对其抽样过程做进一步分析,也许会打破常理。

在早期,癌症能否被治愈?也许可以。但通常使用的据说最能证明这一点的数据其实并不能证明这一点。康涅狄格州肿瘤研究所挂号处那些数据记录可一直追溯到1935年,这些数据似乎显示,从1935年到1941年间,癌症术后5年的存活率大幅提高。其实,这些数据记录从1941年才开始采集,在此之前的所有数据都是追查所得。许多病人早已离开了康涅狄格州,他们是否尚在人世不得而知。按照医学记者莱昂纳德·恩格尔(Leonard Engel)的说法,由此而导致的偏差足以解释术后存活率为何会出现大幅提高的背后原因。

为了更具价值,一份基于样本的报告必须使用一个具备代表性的样本,该样本必须排除产生偏差的任何可能性。这正是耶鲁大学毕业生调查数据不具价值的原因,也是许多报纸和杂志内容缺乏实质意义的原因。

一位心理医生曾写报告说,其实每个人都是神经质的。抛开使用“神经质”一词会破坏该词所具有的意义不谈,先看看这位医生的样本吧。也就是说,这位心理医生的观察对象都是哪些人?原来,这一富有“启发性”的结论是他观察自己的病人得来,这些病人与普通人样本有着天壤之别。如果一个人精神正常,我们的这位医生根本就见不到他。

以这种方式再仔细看看你所读到的东西,你就可以避免相信许多似是而非的东西。

还要记住:导致偏差的显性原因和隐性原因都有可能轻易摧毁一个样本的可靠性。也就是说,即使找不到明显的偏差来源,但只要在某处可能存在偏差,你就要对结果保持一定的怀疑。事实上偏差总会有原因。如果你对此还心存疑虑,那么1948年和1952年的总统大选便足以证明这一点。

证据可追溯至1936年《文学摘要》(Literary Digest)对当年总统大选预测失败的事例。曾经精确预测出1932年大选结果的一千万电话用户和《文学摘要》的订阅者们令倒霉的杂志编辑相信兰登(Landon)将获得370票,罗斯福(Roosevelt)只有161票。经过了如此检验的调查群体怎么会有偏差呢?然而偏差确实存在。一些大学论文和其他事后调查发现:在1936年有钱用电话和订杂志的人并不具有代表性。从经济角度来看,他们是一类特殊人群。该样本之所以带有偏差是因为事实最后证明,该样本对象都是共和党选民。样本显示兰登会胜出,但其他选民却选择了罗斯福。

基本样本就是所谓的“随机”样本,是从“整体”中随机抽取出来的,统计学家们所说的“整体”是指以样本作为其组成部分的整体:从一沓索引卡中抽取每张卡上的第10项;从一堆纸中随意抽取50张;对市场上碰见的第20个人进行采访调查。(但要记住,最后一例并非一个世界人口样本,也不是美国或者旧金山地区的人口样本,只是当时市场上的一个人口样本。一位民意调查员说她是在火车站获取调查对象的,因为“火车站什么人都有”。这里需要向她指出的是,带有小孩的母亲,也许并不具有充分代表性。)

检验随机样本的方式是:在一个总体中,每个人或每件事被抽样的概率是相等的。

纯随机抽样是唯一可以充分自信地用统计学理论进行检验的方法,但这里也有一个问题:该方法获取样本的难度大、费用高、使用范围小,仅成本一项都难以负担。一个更为经济划算的替代方法是分层随机抽样法,该方法在民意测验和市场调研等领域被普遍采用。

要获取这种分层样本,需要将总体分为若干部分,每一部分与其普遍性程度要成比例。这时麻烦就出现了:你得到的分组比例信息未必正确。你会指示调查员们务必要调查采访足够多的黑人,在多个收入选项中,要保证接受每一项调查的人员的比例符合要求,还要采访调查一定数量的农民等。同时,还要确保每一组中40岁以上和40岁以下的人数相等。

这听起来不错,但结果如何?在黑人或白人的问题上,调查员倒通常不会轻易出错。但在按收入分组时,可能问题较多。就拿农民来说,对于一个平时在城里上班,闲暇时去农场干活的人,他算不算农民?即使在年龄问题上也有一大堆麻烦——简单的做法是选择明显小于40岁或大于40岁的人作为调查对象。但这种样本也有偏差,因为其中缺少将满40岁和刚过40岁的群体。这样一来,你就很难达到既定目标。

最重要的是,你如何在分层内部获取随机样本呢?最简单的做法是列出所有人的姓名,然后从中随机抽取若干,但这样做成本太大。如果你改为上街做随机调查,就会因遗漏了宅男宅女而产生偏差;如果你挨家挨户做上门调查,就会遗漏大多数白天上班的人;如果你转而改为晚上做调查,还是会遗漏晚上在电影院和夜总会的人。

民意调查最终都会演变成一场反对偏差来源的持久战。所有信誉良好的民意测验机构都在进行着这场战争。但阅读调查报告的读者应谨记:这种战争没有绝对的赢家。如果你看到类似于“67%的美国人都反对……”的报道时,不要急着下结论,而是应当仔细想想,哪些美国人中的67%?

艾尔弗雷德·查尔斯·金西(Alfred C. Kinsey)博士的《女性卷》(Female Volume)也是如此,与其他基于抽样调查而得出的结论一样,其问题在于怎样去读它(或是它的通俗版本)才能避免了解到过多不必要的东西。这本书至少涉及了三个层次的抽样。金西博士从全部女性中抽出的样本(第一层次的抽样)远非随机样本,因此并不具备很好的代表性;但是与该领域之前的研究相比,这个样本数目庞大,其程度刚好足以揭示一些问题。更重要的是,任何一个调查问卷都只是各种可能问题的一个样本(第二层次的抽样),而女士给出的答案仅仅是她们对每一个问题的态度和经验的样本(第三层次的抽样)。

调查人员的构成往往会以一种微妙的方式影响到调查结果。第二次世界大战期间,美国国家民意研究中心(The National Opinion Research Center)派出了两组调查员,一组由白人构成,另一组由黑人构成,对南方一个城市中的500个黑人进行三个问题的调查。

第一个问题是:“如果日本战胜美国,黑人在美国的待遇会得到改善还是会变得更糟?”黑人调查组的结果显示他们的调查对象中9%的人认为是“得到改善”,而白人调查组的调查结果显示只有2%的人这样认为。黑人调查组的结果中有25%的人认为黑人的待遇会更加糟糕,而白人调查组的结果则是45%。

第二个问题是将第一个问题中的“日本”替换成“纳粹”,对这一问题调查所得结果和第一个问题的调查结果相近。

第三个问题旨在探求被调查者对前两个问题的真实态度。“打败轴心国与改进国内的民主制度二者相比,您认为哪个更重要?”黑人调查组得出的结果是39%的人支持“打败轴心国”,而白人调查组的结果则是62%。

这就是受未知因素影响而导致的偏差。可能最有影响力的因素是在民意调查时,人们普遍都有一种说好话的倾向,这种倾向在阅读民意调查时往往应该被考虑进来。在战时回答一个暗含对国家是否忠诚的问题时,南方黑人对白人的回答都是一些冠冕堂皇的话,而不是他们内心的真实想法,这不是很正常吗?此外,不同的调查员可能会选择不同的群体进行调查,也可能是造成偏差的原因。

在任何情况下,调查结果都明显带有一定的偏差,因此这些调查毫无价值。你自己可以判断一下有多少民意调查的结论是带有偏差且毫无价值的,但是却没有什么有效的办法能避免。

一般而言,民意调查都会带有特定方向的偏差。如果你对这些民意调查的结果有所质疑,你可以收集有力证据来证明,比如《文学摘要》的方向错误。《文学摘要》的错误在于它选择了与普通人相比生活更为宽裕、受过良好教育、消息灵通、警惕性高、着装雅致、行为保守且爱好较为固定的群体作为调查对象。

我不妨举个例子,这样你就能看出这样的偏差会产生怎样的结果。假设你是一位被分派到街道某个角落的调查员,你发现了两个符合调查对象条件的人:年逾40岁且居于城市,其中一人衣着整洁、文质彬彬,另一位却邋遢粗暴。为了完成你的任务,你自然而然会走向那个外表博人好感的家伙,而你遍布全美国的同事也会做出同样的选择。

在自由人士和左翼团体中有不少人强烈反对民意调查,他们普遍认为这种调查都是人为操纵的。之所以会产生这种看法,是因为民意调查的结果往往不符合保守之人的观点和意愿。以1936年总统选举的民意调查为例,他们指出调查结果显示的是共和党人会当选,然而不久之后选民们却做出了完全相反的选择。

事实正如我们所见,完全没有必要操纵一场民意调查,也不用为了制造一种假象而刻意扭曲调查结果。如果样本的偏差与期望的结果一致,就能达到自动操纵的效果。

我相信你并非势利小人,当然我也不靠房地产来赚钱。但现在假设你是个势利的人,我是个卖房的。我住在离加利福尼亚山谷不远的一条路上,而此时你正在这条路上想买房子。

为了促成这笔生意,我煞费苦心地告诉你这片街区里住户的平均收入为每年15 000美元,也许就是因为这个原因让你想要住到这里。无论如何,你最终买下了一套房子,而且你对这个漂亮的数字记忆深刻。既然我们刚才假设你是个势利的人,那么当你把新地址告诉你的朋友们时,你多半会顺便对此大加吹嘘。

过了一年左右,我们再次遇见。我是某个纳税人委员会的成员,正在向政府请求降低税率,或是降低财产估值,或是降低公交车费。我的理由是这些费用的上涨让百姓承受不起,毕竟这一带住户的平均收入仅为每年3 500美元。也许你会支持我和我的委员会——再假设你不但是个势利的人,而且还是个铁公鸡——但是,当你听到这个微不足道的3 500美元时,你不禁大吃一惊。到底是我此刻在说谎,还是去年就已经说了谎?

无论什么时候你都不能怪我不说实话。这就是利用统计学撒谎的奥妙所在。这两个数据都是合情合理的平均数。它们都代表了相同的数据、相同的群体以及相同的收入。虽然其中至少有一个明显是在误导人,甚至就是一个不折不扣的弥天大谎!

我的诀窍在于每次使用了不同种类的平均数。“平均数”一词的定义其实非常广泛。对于那些想要影响公众意见或是推销广告版面的人来说,这是他们经常使用的伎俩。有时这种手段是无心的,但更多的时候是明知故犯。当有人告诉你一个平均数时,你对此还知之甚少,除非你能发现他所说的到底是哪一种平均数——均值、中位数还是众数?

当我需要较大数据时我就使用15 000美元,这是该街区所有家庭年收入的算术平均数,将所有家庭年收入相加并除以家庭个数就会得到这个均值。而3 500美元这个较小的数据则是一个中位数,它表示这些家庭中有一半的年收入超过3 500美元,另一半则低于3 500美元。或者我会使用众数,这是一组数据中出现次数最多的数值。如果这一街区年收入为5 000美元的家庭数量多于其他收入的家庭数量,那么5 000美元就是这个街区年收入的众数。

因此在这个案例中,未加限定的平均数其实是毫无意义的,然而一般与收入挂钩的数据多半如此。此外,还有一个原因致使情况更为复杂,就是所有平均数含有的信息非常接近,如果只是随便用用而已,区分它们倒是不太重要。

如果你读到某地某个群体中男性平均身高仅为5英尺(约1.52米),你就会对这个地方的人的身高有一个大致印象。你不用问这个平均数是均值、中位数还是众数,事实证明它们都差不多。(当然如果你从事与这些人相关的制造业,你就需要更多详细信息,而不是这些随处可见的平均数。这与范围和偏差有关,我们将在下一章详细探讨。)

在处理数据时,例如研究与人体特点相关的数据,不同平均数的取值会非常接近,具备“正态分布”的特点。如果画一张曲线图来代表正态分布,那么画出的图形就像一口大钟,图中均值、中位数、众数都落在同一点上。

因此,要描述男性平均身高,用这三个平均数中的任何一个都可以。但你要描述这些男性的经济状况,情况可就大不相同了。如果要你列出某个城市中所有家庭的平均年收入,你也许会发现他们的年收入从几百、几千到50 000美元不等。极少数的家庭年收入很高,而95%的家庭年收入则低于10 000美元。将10 000美元这个数据放在曲线图的左侧,这时曲线图的形状并不是像一口大钟那样对称,而是有点倾斜,看起来有点像儿童用的滑梯。梯子陡直地突起到一个顶点,滑道则缓缓接近地面。这时均值和中位数相差甚远。在这种对比下,你就会明白为何一年的平均数(均值)和另外一年的平均数(中位数)的差别竟会如此之大。

在我卖给你房子的街区,这两个平均数的差别就非常大,因为曲线图上分布明显倾斜。假设你的邻居都是小农场主、在附近村庄干活拿工资的人,还有依靠养老金生活的退休老人,但是有三户邻居是在这里度周末的百万富翁,他们一下就能拉高这个街区的总年收入,因此平均年收入的算术平均数就变得很大,形成了一个年收入很高的“假数据”。但事实上,这个街区每家每户的年收入都远远低于这个数据。所以,这种假数据只是个玩笑或是一种修辞而已:几乎所有住户的年收入都低于这个平均数。

如果你看到某位公司经理或者老板宣称公司员工的平均收入很高时,你就知道这个数据也许能说明一些问题,也许不能,这就是原因所在。如果这个平均数是中位数,你就能从中得知一些重要信息:一半的员工收入比这高;另一半的员工收入比这低。但如果这个平均数是均值的话(请相信我,如果没有特别限定平均数的性质,一般指的就是均值),你就会再清楚不过:说是45 000美元的平均年收入,其实主要都是老板的,员工们的工资非常低。“5 700美元的平均年收入”隐含了两条信息:每年仅为2 000美元的员工低收入,还有老板以巨额薪水的形式抽走的利润。

让我们再仔细研究一下这个数据。第28页的图表示各个阶层的收入情况。老板可能会通过使用那个欺骗性的均值,把情况描述成“平均年收入为5 700美元”。但是,众数却更能说明问题:这家公司大多数人的年收入为2 000美元。当然,中位数比其他任何一个数据都能揭示更多:一半的人年收入高于3 000美元,另一半则低于3 000美元。

许多公司的公告中都藏有一个高明的骗局,所以往往是表面情况越好,事实真相越糟。我们不妨用个简单的方法来证明。

假设你与另外两个合伙人经营一家小型制造业工厂,年底算来收入颇丰。你支出了198 000美元用于90位员工的工资。他们制造并装运椅子,或任何你公司生产的产品。你们三位老板的年薪为每人11 000美元。这时你们发现今年还有45 000美元的利润可以平分。那么,对此你会怎样描述?为了表达得清楚明白,你采用了平均数的办法。由于所有的员工都做的是相同的工作,拿的工资也差不多,所以你是用均值还是中位数并无多大差别。下面是你计算得出的结果:

员工的年平均工资:2 200美元

老板的年平均薪水和利润:26 000美元

这真是天壤之别,对不对?那就换个说法。

从利润中抽出30 000美元,把它当作奖金分给三位老板。这次计算的是工资的平均水平,其中包括你和你的合伙人。注意,这次一定要使用均值。

所有人的年平均工资(或薪水):2 806.45美元

老板的年平均利润:5 000美元

哈!这看起来好多了。虽然还能弄得更好看,但这也很不错了。工资和利润的总和中,利润所占的比例不到6%,如果愿意的话,你还可以继续做这种数字游戏,看看你会不会更喜欢。总之,现在你得到了可以公开的数据,把它贴在公告栏上吧,或者在和工人交涉的时候用它。

因为经过简化,这个例子非常粗糙,但是与打着会计名义所做的那些事相比,这根本算不了什么。如果放在一个大型公司里,雇员包括从打字员到年终奖几十万美元的董事,所有的事实都可以以这种方式被掩盖起来。

所以当你看见平均工资时,首先要问问:是什么样的平均工资,包括哪些?美国钢铁公司(The United States Steel Corporation)曾披露,从1940年到1948年间,其雇员的周工资增长了107%。的确如此,但当你注意到1940年该公司的雇员包括了一大批兼职员工时,你就能发现这个奇妙的增长没那么吸引人了。如果你第一年只做兼职,第二年却做全职,你的收入将会翻一番。但这并不能表明你的工资率增长了。

也许你曾在报纸上读到,1949年美国家庭的平均年收入为3 100美元。除非你知道这个所谓的“家庭”指的是什么,而且你也知道用的是哪一种平均数(包括谁说的?他是怎样得知的?这个数据有多精确?),否则,这个数据就根本说明不了什么问题。

3 100美元这个数据恰好来自美国人口普查局(The Bureau of the Census)。如果你有这份报告,你就不难找到所需要的其他信息:这个数据是一个中位数;“家庭”指的是两个或两个以上具有亲属关系的人居住在一起。(如果独居的人也算是家庭,那么中位数就会降至2 700美元,这可大不相同。)如果你回过头再看看报告中的图表,你会发现这个数据是基于抽样调查得出,该抽样调查以19/20的概率保证真实数据落在3 107±59美元的范围内。再对3 107美元取整数后得到3 100美元。

这个概率和偏差一同构成了一个非常漂亮的估计值。普查局的人有足够的技术和资金来进行抽样调查,从而得出如此精确的结果。他们也许没有什么私心。但并不是你看见的所有数据都出自如此良好的环境,也不是所有的数据都附有能证明它们精确与否的详细信息。关于这一点我们将在下一章详细探讨。

同时,你也许会对《时代》杂志上“编者的话”中的一些项目有所质疑。他们这样描述新的订阅者:“平均年龄(中位数)为34岁,家庭平均年收入为7 270美元……”更早时候,《时代》杂志的调查发现“平均年龄(中位数)为41岁,家庭平均年收入为9 535美元……”问题自然而然就来了:为什么两次说年龄都是中位数,却没有限定平均年收入是哪一种平均数呢?也许这里使用的是均值,这样就可以通过更高收入的读者群来吸引广告商。

你也可以对第一章开头提到的所谓“1924届耶鲁毕业生的高收入”考究一番,他们究竟用的是哪一种平均数?

报纸上大字标题历历在目:用户反映,使用多克斯牙膏后蛀牙减少了23%!你也不想遭受这23%的痛苦,所以你继续往下读。接着你发现,这个结论来自某个“独立”实验室,并且还附有注册会计师的证明。你还有什么不放心的吗?

但显而易见,你不是一个容易上当受骗的人,也并非过于乐观,你的经验告诉你——某种牙膏不会比其他牙膏好很多。那么,多克斯公司的人是怎么得出这个结论的?他们明目张胆地说谎并且还能得逞吗?不,他们不必说谎,还有更简单、更有效的方法。

这个例子中主要的技巧在于使用了有限的样本——也就是说数据不够充分,但对多克斯公司的人来说却是恰到好处。如果你看见小字印刷的部分,你会发现参加测试的用户仅有12人。(你还得感谢多克斯公司给了你这个冒险的机会。有些广告商会直接略去这些信息,就连最资深的统计学家也猜不透他们到底使用的是哪种诡计。多克斯公司使用的12人样本还不算太糟。几年前,市场上出现过一种“科尼斯博士”牌的牙粉,该产品声称“在治疗龋齿方面效果显著”。该产品中含有尿素,实验证明尿素对治疗龋齿的确有效。但是,这个实验的结果先入为主,而且只做了6个个案测试,这使得整个实验成了一个无稽之谈。)

但是让我们回过头看看,多克斯公司如何轻而易举地就做出了一个毫无破绽的大字标题,还附有权威证明。让一个小组的人数清自己的蛀牙数量,然后坚持在6个月内使用多克斯牙膏,这必然会出现下列三种情况的其中之一:蛀牙明显增多、明显减少和没有变化。如果得出第一种或第三种结果,多克斯公司就要把这个数据归档(放到看不见的某个地方),然后接着实验。在机缘巧合之下,他们迟早都会得出一个重大成果,这个成果值得登报,甚至用整版广告刊出。无论测试者使用的是多克斯牙膏或是小苏打,哪怕用的还是他们以前的洁牙剂,都会出现这个结果。

使用规模较小的实验小组的关键意义在于:如果实验组的规模过大,那么碰巧之下产生的结果会是微不足道的,甚至不值得用大字标题刊出。试想一个只减少了2%蛀牙的牙膏销量能有多好?

在样本规模很小的情况下,怎样才能在巧合之下得出一个说明不了任何问题的结果?你可以亲自动手做一个花费无几的小实验来验证一下。抛出一个硬币,有几次它落地时会头像朝上?大家都知道,这个概率当然是50%。

那么,让我们来检验一下。刚才我抛了10次硬币,其中有8次头像朝上,这证明了抛硬币时头像朝上的可能性会有80%。好吧,牙膏的统计数据也是如此。现在,你自己试试。你也许会得到一个一半对一半的结果,也许你不会;你的结果很可能像我的一样,远非一半对一半这么简单。但如果你有足够耐心能抛上1 000次硬币,你多半(尽管不一定)就能得出一个非常接近50%的结果——这个结果才是最真实的概率。只有试验的样本数目足够庞大时,平均数定律才会是一个有用的描述或猜测。

那么,多少样本就够了呢?这个问题很微妙。这取决于你抽样研究的样本人数和种类。而且有时,样本中单位的数量看上去已经很多,但实际却不足。

这有一个很好的例子来证明这个结论,这个例子与几年前的小儿麻痹疫苗试验有关。这个试验的规模非常大,几乎与医学实验的规模相当:一个地区的450名儿童注射了小儿麻痹疫苗,另有680名儿童作为对照没有接受注射。不久之后,该地区出现了传染病。注射过疫苗的儿童中没有一个患上小儿麻痹症。

但是,对照组中也没有儿童患病。在设立这个实验项目时,实验者忽视或者假装不知道一个事实——小儿麻痹症的发病率很低。在一般情况下,这么大规模的群体中只可能出现两例患病者。因此,从一开始这个实验就注定毫无意义。如果想获得任何有意义的结论,实验组需要用比这个群体多15~20倍的儿童做样本。

许许多多转瞬即逝的医学发现都是这样产生的。正如一位医师所说:“赶紧使用新的方法,要不就迟了。”

这种情况并非医学界独有。由于受到的公众压力过大且新闻报道过于草率,医学治疗经常未经证实就被报道,尤其是在公众需求很大而且数据背景模糊不清时。曾一度非常流行的流感疫苗和最近的抗组胺剂便是如此。许多无法治本的“治疗措施”很快就被广泛使用,但事实上,他们连疾病的原理都还没弄清楚,也缺乏一定的逻辑。其实,如果时间足够,一场感冒自己就会痊愈。

你要怎样做才能不被毫无意义的结论愚弄?难道每个人都必须成为统计学家,亲自分析数据吗?没那么糟糕,这有一种简单易懂的显著性检验方法。这种方法能够证明一个实验数据在很大程度上代表的是真实的结果,而非机缘巧合之下得出的。这就是要看看没有被透露的小小数据——假设你是个外行,不懂其中的奥秘,但如果你对这一数据能有所留意,你就能看穿这种别有用心的手段。

如果你的信息来源能将显著性水平告知与你,你就会更清楚自己的立场。这个显著性水平就是我们最常说的“概率”。好比人口普查局会告诉你,他们以19/20的概率保证数据是非常准确的。对于大多数用途而言,5%的显著性水平已经足够。而对于某些用途而言则需要1%的显著性水平,因为这意味着99%的概率证明了一个显著的差异或诸如此类的东西是真实的。有时,我们将类似这样的东西描述为“十拿九稳”。

此外,还有一种没有被透露的数据,缺了它也会影响数据的准确性。这个数据能根据已给出的平均数告知我们误差的范围。一般情况下,不管是均值还是中位数,明确限定还是未限定的平均数都会过分简化事实,这比毫无意义还要糟糕。对某事一无所知往往要好过知道错误信息,只知道个皮毛也许会十分危险。

比如在美国,有太多住房被规划为“适宜平均人口为3.6人的一般家庭居住”。事实上,这就意味着有3人或4人的家庭需要两间卧室。尽管声称是“一般家庭”,但实际上这种规模的家庭只占少数。“我们按照一般情况建造住房。”建筑商们这样说。其实,他们忽视了比这规模更大或更小的多数情况。结果在有些地区,带有两间卧室的房屋建造过多,而更大或更小的房子却建造太少。因此,这种误导人的不完整数据会导致严重的后果。对此,美国公共卫生协会(The American Public Health Association)表示:“如果透过算数平均数来看实情,我们就会发现3人家庭或4人家庭总共占全美国家庭的45%,而1人家庭和2人家庭占35%,4人以上家庭则占20%。”

在精确到令人信服的权威数据3.6面前,常识在某种程度上却缺失了。这个3.6竟然战胜了人们从观察中都能得出的事实(许多家庭规模很小,还有一部分家庭规模很大)。

在所谓的“格塞尔标准”(Gesell’s Norms)中,也有这种被遗漏的小小数据,它以相同的方式给父母们造成了痛苦。如果让父母在某份报纸的某部分看到“小孩在几个月时应当学会坐直”,他们马上就会对比自己的孩子。假如孩子没有在特定年龄坐起来,父母就会认为自己的孩子“智力迟钝”“低智能”,或是产生类似的令人烦恼的想法。因为一半的孩子注定在这个年龄坐不直,这一半孩子的父母就很不高兴。当然,从数学的角度来看,另外一半孩子的父母会欣喜地发现他们的孩子“比较聪明”,这样高兴与不高兴的人数就扯平了。但是,假如不高兴的父母们以此来强迫自己的孩子遵从这个“标准”,这就会产生极其不良的影响。

阿诺德·格塞尔(Arnold Gesell)博士以及他的方法并没有反映出所有情况。问题就出在信息过滤的过程中,从研究者开始,再由作者进行各种耸人听闻或消息不完全的描述,最后读者就很难发现这个过程中遗失的数据。如果“正常”和平均数都能标注上一个范围,那么就能避免许多不必要的误会。例如,父母们看到孩子达到了正常范围,他们就不会再为细微且没有意义的差异而烦恼。其实,几乎没有任何人能在任何方面达到绝对标准,就好比抛100次硬币,要得出50次正面和50次反面的结果几乎是不可能的。

搞不清“正常的”和“理想的”会让事情变得更糟。格塞尔博士只是陈述了一些观察所得的事实,而有些父母在读过书籍和文章后,就武断地认为如果孩子迟一天或一个月学会走路,那就一定是发育迟缓。

艾尔弗雷德·金西博士的知名报告(也许没多少人读过)遭到很多人愚蠢的批判,因为人们普遍认为正常就等同于良好、正确以及令人满意。金西博士被指责腐化青年,因为他给他们灌输的“发生性行为是正常”的观念,这些观念虽然普遍存在但却不为世俗所容。但金西博士说他只是发现这些行为普遍存在,也就是“正常”的,他并没有盖上任何表示“赞成”的印章。而这些观念是否下流猥琐,金西博士认为这并不在他的研究范畴之内。因此,只能说他碰上了一个令许多观察家苦恼的问题:如果在谈论某个饱含情绪信息的问题时,不尽快表明自己的立场是非常危险的。

没被透露的小小数据之所以带有欺骗性,是因为人们经常意识不到它的缺失,当然这也是成功的秘诀所在。正如当时的新闻批评家们所哀叹的那样,以前那种旧式的跑新闻精神已不复存在,他们严厉指责当时的新闻工作者为“窝在椅子里的华盛顿记者”。这些记者就靠着抄写没有任何批判精神的政府材料混日子。《双周》(Fortnight)杂志上的“工业新发展”专栏就是一个毫无进取心的典型例子,专栏曾报道“美国西屋公司研制出一种能使钢材的硬度增加两倍的全新钢材冷却法”。

这听起来倒像是“新发展”,除非你能明白这到底是什么,因为这就像个水银球一样难以捉摸。这种全新的冷却方法能使任何一种钢材的硬度都增加两倍吗?还是它生产出的钢材硬度是以前的三倍?或者它生产了什么?似乎报道的人只是传达了一些信息,他们也没有弄明白这到底是什么意思。记者也希望读者们只是不假思索地阅读,以此制造一种读者了解了某些东西的愉快幻觉。这就像是很久前教室里授课的老式做法:老师把课本上的内容转移到学生的笔记本上,而全程学生却不曾思考。

刚才在查找《时代》杂志上有关金西博士的有关报道时,我偶然发现了一些多看几眼就会露馅儿的东西。这是一家电力公司在1948年打出的广告:“现在,美国四分之三以上的农场都通了电……”这听起来真是棒极了!这些电力公司真是尽职尽责。当然,如果你是个挑剔的家伙,你也可以将其理解为“现在,美国还有将近四分之一的农场没有通电”。但是,这句话里真正耍的花招是在“通了”这个词上,这样电力公司就可以怎么好听怎么说。显然,这并不代表所有的

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载