统计会犯错 如何避免数据分析中的统计陷阱(txt+pdf+epub+mobi电子书下载)


发布时间:2021-08-05 07:22:53

点击下载

作者:[美]Alex Reinhart(亚历克斯·莱因哈特)

出版社:人民邮电出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

统计会犯错 如何避免数据分析中的统计陷阱

统计会犯错 如何避免数据分析中的统计陷阱试读:

前言

在那本非常著名的统计读物《统计数字会撒谎》(How to lie with statistics)的最后一章中,作者哈弗(Darrell Huff)告诉我们“任何带有医学味道的言论”或者“由科学实验室和大学发布的信息”都是值得我们相信的,虽然不是毫无条件地相信,但是肯定比“媒体”或者“政府”公布的事实可靠的多。哈弗的整本书中充满了媒体和政府利用误导性的统计信息弄虚作假的例子,但很少涉及经过专业学习的科学家所做的统计分析也可能产生误导。科学家应该追求的是对事物本质的理解,而非对付政治对手的子弹。

统计数据分析是科学的基础。随便翻开一本你喜欢的医学杂志,你就会被统计术语淹没:t检验、p值、比例风险模型、风险比率、逻辑回归、最小二乘拟合以及置信区间。统计学家为科学家们在复杂的数据集中发现知识和规律提供了强有力的工具,科学家们毫不怀疑欣然地接受了这些工具。

但是,不少科学家并没有接受过统计教育,在科学领域中许多本科课程中也不涉及任何统计训练。

自20世纪80年代以来,学者已经揭示了无数的统计谬论,以及出现在经过同行评议的科学文献中的错误,他们发现许多科学论文,大概有一半以上,都犯过这些错误。由于统计能力不足,使得许多研究无法找到他们想要找的东西;多重比较和对 p 值误读导致了许多错误的“正确结论”;灵活的数据分析使得我们很容易找到原本不存在的相关性;不恰当的模型选择可能会使结论产生偏倚。这些错误都被同行评议人员和期刊编辑们忽视了,造成这一结果是由于他们通常并没有经过专业的统计训练,而且很少有杂志会聘请统计人员来审核投送的文章,另外,大部分文章也没有给出充足的、能够被精确评估的统计细节。

这些问题并不涉及恶意欺骗,而是由统计教育不足而造成的1,—— 一些科学家甚至指出大多数发表的研究成果可能是错误的[1]。在顶级期刊中经常会出现一些要求对将要发表文章采用更高统计标准、更严格审查标准的评论文章和社论,但是只有很少的科学家们响应这一呼吁,而且杂志授权标准往往被忽视。由于这些建议通常散落在一些误导性的教科书和杂志的综述中,而且对于应用型科学家们来说统计研究文章很难理解,所以大多数科学家想要提高他们的统计知识并不是那么容易的。

现代研究中复杂的方法论意味着没有经过广泛统计训练的科学家也许不能完全领会他们研究领域内发表的一些文章。例如,在医学领域中接受过标准统计入门课的医生,其所具备的统计知识只能充分理2解在《新英格兰医学杂志》上刊登的20%的学术论文。大多数的医生甚至都不具备这些知识,很多医学人员并不是通过统计的必修课而3是利用杂志社或者短期课程等方法非正式地学习统计 。我们对这些医学人员进行“医疗中常用的统计方法”测验,结果仅有不足50%的4人能够答对 ,这证明这些非正式的方法所包含的内容并不足以让医学人员真正学会统计知识。即使是经过研究训练的医学院的教员其得分也小于75%的正确率。

情况如此糟糕,即使是从事上述统计知识调查的作者也缺乏构建调查问券所需的统计知识——我刚才引述的数字是有误导性的,因为在上述对医疗人员进行的调查中包括一道定义 p 值的选择题,但5是在这道题中却给出 4 个不正确的定义作为选项。我们可以为这个作者找些借口,因为即使很多统计入门的课本中也没能正确地定义p值这一基本的统计概念。

当科学研究的设计者不注重对统计人员的雇佣时,他们可能会迷失在工作中,在不会得到答案的研究上花费数千美元。正如心理学家Paul Meehl所抱怨的那样。我们野心勃勃的研究员——在逻辑科学的知识体系下

的毫无畏惧并且满心喜悦的依赖于“精确”的现代统计假设

检验,已经著作等身或被提升为教授。就他对心理学整体来

说,他几乎什么贡献也没做——更直白地说,他是一个对

多个领域均有所涉猎,却没有得出什么真正科学成果的多产6

科学家。

对大多数的科学家来说,由于很多科学领域对p值的误解而指控他们不能孕育知识也许是不公平的。但是这些错误确实对现实世界有很大影响。医学临床试验指导我们的卫生保健方向,并且决定某些新强力处方药的安全性;犯罪学家评估不同的策略来减少犯罪和骚乱;流行病学家试图延缓新疾病的蔓延;营销人员和业务经理们试图找到销售产品的最好方式。这一切都归结到统计,但是统计知识却不能被正确使用。

任何人都曾抱怨过医生没有在你能够理解的范围内告诉你什么是好的或者什么是不好的。现在,我们对一些声称某些食物、饮食或运动可能会损害我们健康的新闻不屑一顾,因为几个月后的另一项研究可能会得到完全相反的结果。正如一位杰出的流行病学专家所说的那样:“我们正在变成社会所讨厌的那类人,人们不再重视我们,而一7旦人们把我们当回事,我们可能会无意中做出弊大于利的事。”我们的直觉是正确的:在一些科学领域,最初的结论可能与之后的相悖。过早发布令人兴奋的结论,往往比发布有充分证据支持且仔细核对过的结论有更大的压力。

尽管如此,我们不要过早地下结论。一些统计误差可能只是由于资金不足造成的。让我们看看20世纪70年代中期在美国发起的为了节省燃气和时间而允许司机在红灯时右转这一规则,证明这一规则不会造成更多交通事故的证据源于统计的错误。正如我们已经看到的那样,这一规则造成了很多的伤亡。影响交通安全研究人员得到正确结论的唯一因素是缺乏数据。如果他们有钱去收集更多的数据、进行更多的研究,有时间整理来自许多不同国家独立的研究结果,真相就会很明显。

正如Hanlon’s razor告诉我们的那样:“把一切归咎于恶意,是对无能的充分解释”,有些出版物是在“谎言,该死的谎言和统计”这一条目下的。制药行业似乎尤其偏爱那些忽视了不利因素(例如那[2]些指责他们产品没有疗效的出版物)的证据;在随后的评论中,制药商们可能会很高兴地发现有12项研究表明他们的药物有效,而不去注意其他8个未发表的认为他们产品无效的研究。当然,这些持反对意见的结论即使被呈送,由同行评审的期刊可能也不会发表它们,杂志社对无趣结论的强烈偏见使得“它是无效”的这一类研究结果永远也不会被发表,其他研究者也永远不会看见它们。数据缺失以及出版偏见正在侵蚀着科学并且歪曲我们对重要问题的看法。

即使是正确处理的统计资料也可能是不可信的。统计技术和分析方法的过剩使得研究人员在分析数据时有很大的自由发挥空间,而且很容易“不断拷问数据直到它承认存在某些关系”。不断尝试你的统计软件中提供的几种不同的方法,直到其中某个可以产生有趣的结论,然后假装这就是你想要做的所有分析。当一篇文章发表的时候,如果没有超自然的力量我们不可能知道数据是经过怎样的“折磨”才得到这一结论的。

在研究中的“软”领域是指那些理论不定量、实验难以设计、方8法不规范的领域,而额外的自由导致了明显的偏见。美国的研究人员必须得到和发布有趣的结论,以推进他们的职业生涯;面对数量不多的学术职位的激烈竞争,科学家不允许花费数月或数年的时间来收集和分析数据却只得到一个统计学上不显著的结果。这一做法无关恶意,科学家们只是想得到相对于数据本身其他的更能够支持他们假设的、夸大其辞的结论。

在本书中我会介绍一些常见的或其他的错误。许多错误存在于公开发表的文献中,这也使我们对很多论文的结论产生怀疑。

近年来,很多人提倡统计改革,在解决这一问题的最好方法上自然也存在分歧。有些人坚持p值应该完全摒弃,我将会在下文中说明其经常造成的误解和混淆;有些人提倡基于置信区间的“新统计”;有些人建议我们应该把重点转向能够得到更多可解释结论的贝叶斯方法;还有些人认为现在所教授的统计学知识华而不实。虽然所有的观点都有其可取之处,但是我不打算在此书中讨论其中的任何一个。我所关注的重点在于目前实践科学中存在统计应用的问题。这些方法能够完美地回答他们设计的问题,但是这些问题并不是我们想要他们回答的,我们越早意识到这一点,就能越早知道如何去弥补它。

[1] 本书正文中加注的数字上标1、2……表示参考文献的编号,具体文献信息请查阅书末的参考文献。

[2] 对制药行业中的统计滥用感兴趣的读者可以参看本·戈德契(Ben Goldacre)的《制药劣迹》一书(Bad Pharma,Faber&Faber,2012)。当我阅读此书时,我的血压呈现出具有统计显著性的直线上升趋势(译者注:此书将全球制药业巨头置于显微镜下,呈现出一片骇人听闻、惊心动魄的混乱场景)。第1章统计显著性简介

许多实验科学都会涉及测量差异。一种药物是不是比另一种药物效果更好?具备某一基因的细胞是不是能比其他细胞合成更多的酶?一种信号处理算法是不是比另一种算法能更好地检测脉冲星?一种催化剂是不是比另一种催化剂更能有效地加快化学反应?

我们可以用统计学来判别这些不同类型的差异。通常来说,我们观测的是由于巧合或随机变化导致的差异,所以当观测差异大于随机产生的差异时,统计学家称之为“统计意义上的显著区别”。首先,我们来看如何判别。p值的力量

假设你在测试一种新的感冒药,其中新药可以确保一天之内消除所有感冒症状。为此,你找到20位感冒患者,给一半患者服用新药,其他人服用安慰剂。然后记录他们的感冒时长,找到服药与未服药患者的平均感冒时长。

这种测试有问题吗?进一步分析,不是所有的感冒都是同一种类型。平均来说,感冒时间通常要持续一周。但有一些感冒会持续两周甚至更久时间,也有一些持续几天就好了。可能服用新药的这一组患者都是较短时长的感冒,很快就好了。那么,又如何证明是药物起作用了,而不是这些患者运气好呢?

统计假设检验给出了解决办法。如果你知道典型的感冒时间 的分布,也就是说有多少患者得短期、长期和平均时长的感冒,据此可以给出一组随机样本的患者的感冒时长比平均时长更长或更短的概率。那么假设检验(或显著性检验)就可以回答这个问题:即使药物完全无效,那么试验产生以上观测结果的可能性有多大?

如果只对一个人进行药物测试,那么他的感冒时长比平均时长更长或者更短,都是不足为奇的。大部分感冒并不是非常理想的平均水平。但是如果对1000万个患者进行测试,而所有患者都是短期感冒,这种情况就不太可能是巧合了,更有可能是药物的效果。

科学家对这种直觉进行量化,给出了一个概念—— p值。

p值是在假设药物效果没有真实差异的情况下,差异等于甚至大[1]于实际观测差异的概率。

例如,你给100个患者服药,发现他们的平均感冒时长比对照组少一天,这时p值就是在药物无效的假设下,“他们的感冒时间比对照组少一天”这种情况完全是出于巧合的概率。你可能会说,p值依赖于效果大小,试验组感冒时间比对照组少一天的情况会比少四天的情况更为常见,也与试验组的患者数目有关。

记住,p值不是用来测度你多么正确,或者这个差异有多重要。反之,它是对“意外”的测度。如果假设药物无效,那么也只能用运气来解释两组的区别。然后p值越小,试验结果是意外或因为运气的可能性越大——或者说你的假设就是错误的,新药的确有效。

如何运用p值来解释“这些组之间是否有差异”?通常的经验法则是:当p<0.05时,区别是“统计显著”的。选择0.05不是出于特别的逻辑或统计的原因,而是在多年的使用过程中形成的科学惯例。

注意到应用p值时,假设试验各组没有区别。这是显著性检验的一个反直觉的特征:如果想要证明药物有效,就去证明数据不支持药物无效。因此,p值可以扩展到任何一种用数学表示某个要推翻的假设的情形。

但是p值也有它自身的局限。记住,p值是指对意外的测度,一个较小的p值意味着更加意外。它不是影响大小的测度。可以通过测量大的影响获得一个小的p值(这种药物可以使人的寿命延长4倍),或者用较大的确定性测量一个较小的影响。因为一种药物或干预通常是有一些效果的,所以可以收集足够的数据,检测极其微小但相对不太重要的差异,然后得出统计显著性的结果。Bruce Thompson写道:统计显著性检验可能包含一个套套逻辑(tautology)

[2],研究人员已经收集了数百个产品“失效”的测试数据,

然后通过一个统计检验来评价产品是否真的“失效”。而事

实上,研究人员早已知道结果,因为他们收集数据时就知道

数据都是已经“失效”的。考虑到知识的累积,这一套套逻1

辑已经造成了相当严重的后果。

简而言之,统计显著性不意味着任何实际意义的显著性。统计显著性并不会给出太多信息。一个统计显著的区别可能只是噪声,或者体现了真实的影响,但是这一影响需要更多的数据才能确定。

没有数学工具可以判断出假设是真是假;也可以考虑假设与数据是否一致。如果数据太少或者不清楚,那么结论也就不确定了。统计的心理暗示

p值局限性的背后还有一些关键核心的问题。假设运气(而不是药物或者干预)是实验中唯一因素,p值是获得结果等于或大 于观测值的概率。这就意味着p值迫使你去质疑从未发生过的结果——也就是比你的结果更极端的结果。获得这样的结果的概率有赖于实验设计,这使p值具有“心理暗示特征”:两种不同的实验设计可以产生相同的观测数据,但会得到不同的p值,因为未观测的数据是不同的。

假如我连续问你12个关于统计推断真假的问题,你正确回答了9个。我要检验假设:你是否是依靠随机猜想答对了这些问题?为此,我要计算你依靠随机猜想答对至少9个问题的概率。假设你等概率地[3]选取“正确”和“错误”,计算得p=0.073。因为p>0.05,很有可能你就是随机猜的答案。若确实如此,你将会在规定时间内以7.3%的2概率答对9个甚至更多的问题。

但也可能我并不是只打算问你12个问题。如果我有一台电脑可以无限地产生问题,直到你答错3个。现在我要计算在15、20、47个问题之后你答错3个问题的概率,甚至是在175、231个问题之后你仍旧没有答错3个的概率。计算可得p=0.033。因为p<0.05,我的结论就是:你依靠随机猜想不太可能得到这样的结果。

这是非常麻烦的:两个试验收集到相同的数据,但是却有不一样的结论。莫名其妙,p值竟然能懂你的意图!奈曼-皮尔逊检验

为了更好地理解p值,我们要了解一些统计学的历史。统计显著性检验有两个主要分支。关于统计重要性检验的思想主要有两个流派。第一个分支是费希尔(R.A.Fisher)于1920年提出。费希尔将p值看作理解一个数据集是如何令人意想不到的一种简便、非正式的方法,而不是假设检验的严格正式流程中的一个环节。只有当p值与试验者的先验经验以及专业知识结合时,它才能更好地解释新观测的数据。

在费希尔的著作问世以后,奈曼和皮尔逊(Jerzy Neyman 和Egon Pearson)尝试解决了一些无法解决的问题。例如,在感冒药物有效性检验中,只要你能从比较中得到 p 值,你就可以尝试通过均值、中位数或者其他任何统计量,来比较两个对照组的水平。但是你如何知道哪种选择是最好的?这个最好的选择对假设检验又意味着什么?

在科学研究中,控制假设检验的两类错误是至关重要的:第一类错误(false positives),就是将无效说成有效(取伪);第二类错误(false negatives),则是将有效判断成无效(弃真)。在一定程度上,第一类错误和第二类错误是一枚硬币的两面。如果我们比较激进,则容易犯第一类错误;如果我们过于保守,第二类错误会主动找上门来。

奈曼和皮尔逊发现虽然不能同时完全消除两类错误,但是可以给出一种规范的决策过程来确保犯第一类错误的可能性只在预先确定的比率下发生。他们将这个比率称为显著性水平 α(false positives rate),试验者可以依据他们的经验和期望基础上设置合适的α。举例来说,如果我们先要设立10%的第一类错误率,就令α等于0.1。但是如果我们希望决策更加保守,那么就可以将α设置为0.01或者更小。为了比较哪种检验过程是最好的,我们可以考察在给定α的条件下,哪一种检验过程犯第二类错误的比率是最低的。

实践中应该怎么做呢?在奈曼-皮尔逊体系下,我们定义一个原假设,即一个“无效”(效应为零)的假设,同时定义一个备择假设,如“效应大于零”。然后构建一个检验去比较这两个假设,并且决定在原假设正确时我们期望得到怎样的结果。我们利用 p值来实施奈曼-皮尔逊检验程序,即如果p<α,则拒绝原假设。不像费希尔的检验过程,此方法没有将注意力放在揭示任何一个特定的试验证据的强度,而只关心决定原假设是否被拒绝。p值的大小,除了“拒绝原假设”,无法用来比较试验或得出其他任何结论。正如奈曼-皮尔逊所言。我们倾向于认为只要涉及一个特殊的假设,不存在建立

在概率理论基础上的检验能够单独提供关于这个假设正确或

者错误的有价值的证据。但是,我们可以从另一个角度审视检验的目的。我们不

希望知道每个独立假设的真假,但是可以探索引导我们关于

他们行为的规则,接下来就要保证在长期的经历中我们不会3

常常犯错。

虽然奈曼和皮尔逊的方法在概念上与费希尔的方法不同,但是实4,5,6践科学家常常将两者合并。奈曼和皮尔逊的方法就是用一个预先选定的p值门槛确保长期的第一类错误率获得“统计显著”。但是假定你进行一次试验得到p值为0.032,若门槛为p<0.05,这个时候便是统计上显著的。但是若门槛缩小成p<0.033,你的结果还是统计显著的。因此说我的第一类错误率为3.2%是十分诱人的,实际上这是常见的一种误解。

这种解释存在问题。仅仅通过一次试验不能得到第一类错误率。它是由检验过程决定的,而不是由一次试验的结果得出的。所以当你用一个检验过程来获得一个长期的第一类错误率α,不管结果是怎么样的,你都不能说每一次试验都会有一个真实的 p 值和对应的第一类错误率。构建置信区间

显著性检验会得到广泛关注,“统计显著”这一词语也成为流行词典的一部分。尤其在生物与社会科学中,研究结果常常用 p值展现出来。但是 p 值不是评价证据权重的唯一方法。置信区间可以回答和 p 值相同的问题,并且它的优势是提供了更多的信息而且可以直接阐明。

一个置信区间包含一个点估计以及这个估计的不确定性。例如,一种新实验药物可以将感冒平均时间缩短为36h,并且对应的95%的置信区间为24~48h(置信区间是平均时间,每个患者感冒的时间有很大的区别)。如果我进行100次相同的药品实验,那么将有95个置信区间包含我们感兴趣的真实值。

置信区间可以将结论中的不确定性定量,而且比不能说明任何效应量的 p 值提供更多的信息。如果想检验这个效应量是否显著区别于零,可以构建一个 95%的置信区间来检验这个区间是否包含零。在这个过程中,我可以额外地知道我的估计有多么精确。如果置信区间太宽,那么我需要收集更多的数据。

例如,如果进行一项临床试验,我可以构建一个预示我的用药量减少15%~25%的置信区间。这个效应是显著的,因为这个区间不包含零,并且可以用我了解的疾病临床知识来评价差别的重要性。当我们使用 p 值时,这一步是非常重要的——当还没有在上下文进行评价时,就不要将统计结果吹嘘为一项重大发现。若这一用量是无害的,则15%~25%的改进是不重要的。不过话说回来,对于像能够引起人体自燃这样的征兆,做出任何改进我可能都会激动。

如果你能以置信区间而不是p值表达你的研究结果,那么你应该7这样做。置信区间回避了大多数与p值有关的细微解释,这使得结果更加清晰。那么为什么置信区间却不是很流行呢?在试验性的心理研究杂志中,97%的研究报告包含显著性检验,但是只有10%曾经报告置信区间,并且其中大多数没有利用置信区间作为他们研究结果的支8持证据,而是依赖显著性检验。甚至久负盛名的《自然》杂志不例外:89%的文章没有任何置信区间和效应量来报告p值,这使得他们9的研究结果不能在上下文中得到解释。一个杂志社的主编说道“p值就像蚊子”,它们无处不在,而且不管我们怎么打,用什么药喷都无10法驱逐它们。

关于置信区间报告很少的原因可能是因为他们区间宽的令人尴尬11。另一个原因是论文同行评审的压力太大,最好像其他学科那样做统计,否则评审者会拒绝你的论文。或者可能是关于 p值的困惑掩盖了置信区间的好处。或者是在统计课程中过度强调假设检验意味着大多数科学家不知道怎么样计算和使用置信区间。

有一段时间杂志主编试图强制报告置信区间。Kenneth Rothman是20世纪80年代中期美国公共健康杂志的副主编,以强硬措辞的信件进行意见回复。所有关于统计检验以及统计显著性的推断都应该从论文

中删除。我要求在删除p值的同时也要删除关于统计显著性

的评论。如果你不赞成这一标准,你认为应该自由地进行辩

论,或者你根本不理会这些而认为这是我的错误观点,那么12

请你在别处发表。

在Rothman作为副主编的3年任期内,那些仅仅报告p值的论文数量急剧下降。在他离职以后,显著性检验复苏,虽然下一任主编也鼓励研究者要报告置信区间。但是尽管报告了置信区间,很少有研究者在论文中讨论它们或者运用它们得出结论,反而仅仅将它们作为显著12性检验。

Rothman还创办了《流行病学》杂志,非常支持统计报告。早期,对显著性检验熟悉的作者会在报告置信区间的同时报告p值,但是10年以后,这些作者的态度就发生了很大的变化,仅仅报告置信区间成12为一种常见的实践。

也许那些有勇气的杂志编辑可以以 Rothman 为榜样,并且在他们的领域中改变统计实践。

[1] 是当原假设为真时,比所得到的样本观察结果更极端的结果出现的概率(wiki)。更多讨论参见“统计之都”中相关内容(http://cos.name/2008/12/ p-value-notes/)。

[2] 辑(tautology):是指一些言论,在任何情况下都不可能是错的。说得更严谨一点,套套逻辑不可能被想象为错!举一个例子,假若我说:“四足动物有四只脚。”这怎可能会错呢?句子内的后半部重述了前半部的意思,即使我们花很大工夫也不可能想象到它在怎样的情况下会是错的。在地球上、火星上它不会错,在宇宙任何地方它也不会错。这句话的一般性确实厉害,但内容究竟说了些什么?其实什么也没有说!我们想破脑袋也知道是对的,但不知其内容(转自百度百科,引自张五常《经济解释》神州版卷一第一章第三节《特殊理论与套套逻辑》)。

[3] 我使用二项分布计算出这个结果,在下节中,我还会使用不同的分布,如负二项分布。具体概率分布和计算细节不是本书关注的重点,我们更感兴趣的是如何解释_p_值,而不是如何计算_p_值。第2章统计功效与低功效统计

在第1章中,你已经注意到由于没有收集足够的数据,可能会忽略那些真实的效应。例如,你拒绝了具有疗效的新药,或者忽视了重要的副作用。因此,应该收集多少数据才比较合适呢?

统计功效可以回答以上问题。一项研究的功效指的是,它能将某种强度的效应从纯粹的运气因素里区分并识别出来的概率。如果一种药物治疗作用特别明显,那么它的识别就比较容易,而如果疗效轻微,其识别往往比较困难。功效曲线

设想我的对手有一枚不均匀的硬币。掷出这枚硬币,正面向上或反面向上的概率并不是1/2,相反,其中有一面向上的概率为60%。我和我的对手用这枚硬币赌博,他宣称这枚硬币是公平的,但是我对此强烈怀疑,我应该用什么方法来证明他在欺骗我呢?

我不能简单地连续投掷这枚硬币100次,然后以正面向上次数是否为50次来判断硬币是不是均匀的。事实上,即使是一枚均匀的硬币,也不可能恰恰是50次正面向上。正面向上次数的概率分布如图2-1所示。图2-1 硬币正面向上次数的概率曲线(掷一枚均匀硬币(实线)或者不均匀硬币(虚线)100次,正面向上次数的概率曲线,其中不均匀硬币正面向上概率为60%。)

对于一枚均匀硬币,正面向上50次是最可能的结果,但其发生的概率也小于10%,另外有略小的概率得到51次或52次正面向上的结果。事实上,当连续掷一枚硬币100次,正面向上次数落在[40,60]区间内的概率为95%。换句话说,在这个区间之外的可能性较低:只有1%的概率得到正面向上多于63次或少于37次的结果。正面向上90次或100次几乎是不可能的。

一枚不均匀的硬币,其正面向上的概率为60%。连续掷这枚硬币100次,所得正面向上次数的概率分布如图2-1中的虚线所示。均匀硬币的概率分布曲线和不均匀硬币的概率分布的曲线有重合的部分,但是不均匀硬币与均匀硬币相比,更有可能得到正面向上70次的结果。

我们做一点数学计算。连续投掷一枚硬币100次,然后数出正面向上的次数。如果这个次数不是50次,那么在这枚硬币是均匀硬币的假设下,计算产生该结果或者更为极端结果的概率,这个概率就是p值。如果这个p值等于或小于0.05,我们就在统计上显著地认为这枚硬币是不均匀的。

利用p值的方法,我们有多大的可能性发现一枚硬币是不均匀的?图2-2所示的功效曲线回答了这个问题。在图2-2中,横轴表示硬币正面向上的概率,表示硬币不均匀的程度,而纵轴是利用计算p值的方法,得到这枚硬币不均匀结论的概率。图2-2 功效曲线(连续投掷硬币100次或1000次两种情况下,假设检验的功效。垂直的线表示一枚正面向上真实概率为60%的非均匀硬币在这两种情形下的检验功效。)

假设检验的功效是指产生统计显著性结果(p <0.05)的概率。对于一枚均匀的硬币,40~60次正面向上的概率为95%,因此对一枚不均匀的硬币而言,检验功效就是指这枚硬币正面向上的次数落在区间(40,60)以外的概率。有3种因素可以影响检验的功效。● 偏差大小。一枚硬币越不均匀,越容易被检测出来。● 样本容量。如果收集足够多的样本,那么即使是细微的偏差也可

以检测出来。● 测量误差。在上面的例子中,你能非常容易地数出正面向上的次

数,但有一些试验的指标测量非常困难,如医学研究中的疲劳感

和沮丧感。

我们首先讨论偏差大小对检验功效的影响。如图2-2所示,如果一枚硬币轻微有偏,其正面向上的概率不是1/2而是60%,那么在连续投掷100次后,通过假设检验的方法得到这枚硬币是非均匀硬币结论的概率为50%,也即是说,检验功效为50%。我们有一半的机会,得到正面向上次数少于60次的结果,从而不能判断这枚硬币是非均匀硬币。这表明,仅仅依靠100次投掷数据,并不能把硬币的轻微偏倚与随机误差分割开来。只有当这枚硬币严重有偏,比如正面向上的概率为80%时,我们才能得到其为非均匀硬币的结论,此时检验功效为100%。

这里就有一个问题,即使一枚硬币是均匀的,我们仍有5%的概率得到该枚硬币不均匀的结论。我们的检验把p <0.05作为硬币不均匀的证据,但一枚均匀的硬币也可能得到p <0.05的结果。

幸运的是,增加样本容量可以提高检验功效。图2-2中的虚线说明,如果连续投掷硬币1000次,那么利用假设检验方法很容易识别出硬币是否均匀,此时检验功效明显高于投掷硬币100次时的情形。这是因为,如果连续投掷一枚均匀硬币1000次,正面向上次数位于(469,531)区间内的概率为95%,而正面向上超过600次可能性很低,一旦出现该结果就认为这枚硬币是非均匀的,一枚正面向上概率为60%的非均匀硬币却很可能得到超过600次的结果,所以也就比较容易检测出来。但不幸的是,我们没有时间连续投掷一枚硬币1000次。因此,出于实际考虑,单纯靠增加样本容量来提高检验功效是不现实的。

数出正面向上或者反面向上的次数比较容易,但对其他指标测量就没那么简单了,比如智商。由于问题不同或被测人的心情波动,每次测试的分数会发生变化,从而为智商测量添加了随机噪声因素,使测试分数不能真实反映真正的智商。如果你比较两组受试人员的智商分数,你会发现不仅不同受试者的分数具有正态变异,即使对同一名测试者,测试分数也会随机波动。如果一个测试带有较大的误差,那么统计检验的功效也会降低。

数据越多,我们越容易从噪声中区分出信号。但说起来容易做起来难,科学家没有足够的资源开展具有高功效的科学研究,来检测他们要找的信号,因此在开展研究之前他们就注定会失败。低功效困境

考虑下面一个试验:在相同条件下,比较Fixitol和Solvix这两种不同的药物,以确定哪种药物更加安全。由于药物的副作用比较罕见,所以即使分别在100名患者身上测试这两种药物,在每一群体里,也只要在少数患者身上产生严重的副作用。正如同我们难以区分两枚正面向上概率分别为 50%和 51%的硬币,如果两种药物的副作用发生率分别为 3%和 4%,那么也难以把它们区别开来。如果有 4 名服用Fixitol的患者产生了严重的副作用,而只有 3 名服用Solvix的患者产生了副作用,此时你并不能得到Fixitol更有可能产生副作用的结论,这是因为此时检验的功效较低。

如果一个试验不能有效地识别出某种效应,那么我们就说这个试验低功效。

你也许认为,对于医学试验而言,计算功效是必需的一个步骤;新药开发人员为了检验一种药物的效果,应确定召集多少名患者来参与这个试验,而通过计算一下功效就可以得到答案。令科学家感到满意的试验的功效是80%或者比这更高,这也就意味着能够有80%或更高的概率检测到一种特定大小的真实效应。

然而,鲜有科学家计算统计功效,也很少有期刊论文提及统计功效。在最权威的期刊《科学》和《自然》上,在开展研究之前计算统1计功效的文章少于3%。实际上,许多试验的结论是:“虽然两组效果具有大的差异,但是在统计上并没有显著性”。这些试验丝毫不提及,可能是因为没有收集到足够的数据,所以它们的功效较低,发现2差异却没能得到显著性的结论。如果有些试验是在比较两种药物的副作用,那么以上错误结论就意味着,两种药物都是同样安全的,而事实上,其中某种药物可能比另一种更加危险。

你也许认为上述问题只在副作用发生概率很低或者副作用影响不大时才会产生。事实上绝非如此。我们收集了1975~1990年在权威医学期刊上发表的一些试验,发现在那些报告没有显著性差异的试验中,约有4/5的试验没有收集足够的数据,来检测治疗组与对照组之间25%的效果差异。也就是说,即使一种药物比另一种药物能将病状降低25%,却由于没有足够的数据,仍然不能作出上述结论。另外,3约有2/3的试验的功效较低, 未能检测出50%的效果差异。

在最近关于癌症试验的一项研究中,有类似的结论:在那些得到阴性结论的研究中,仅有一半有足够的功效能识别出主要结果的差4异,其他研究均因功效过低没有得到有用发现。在这些低功效的研究中,只有不到10%解释了为什么选取的样本容量如此之少。类似的5,6低功效问题在医药研究的其他领域也时常发生。

以上问题在神经科学的研究中尤为突出。每项神经科学研究收集了过少的数据,以至于平均每项研究只有20%的功效。为了弥补低功效的不足,你可以将研究同一效应的所有论文数据整理在一起进行分析。既然神经科学研究都以动物作为研究对象,因此就产生了伦理问题。如果一项研究功效较低,那么只有完成更多的研究,使用更多的7动物作为研究对象,才能发现真正的效应。伦理道德委员会不应支持开展那些功效较低、不能发现目标效应的研究。低功效的原因

奇怪的是,低功效问题由来已久,但现在仍然非常普遍。1960年,Jacob Cohen分析了发表在《Journal of Abnormal and Social 8Psychology》上试验的功效,他发现平均而言,这些试验能够检测[1]出中等效应的功效只有48%。Jacob Cohen的研究被引用上百次,而且类似的评论也接踵而至,一致要求进行试验时需计算功效并扩大样本容量。1989年,一篇评论指出,在Cohen得到以上分析结论后的910年里,平均的研究功效实际上又下降了!这是因为,研究人员开始意识到多重假设检验问题,而在解决多重假设检验问题的过程中,研究的功效进一步降低了(我们将在第4章讨论多重假设检验问题,那时你将会看到我们必须在研究功效和多重假设检验修正之间做出取舍)。

为什么我们经常忽视功效计算?原因之一是样本大小和功效结果给我们的直观感受不一样。即使在功效极低的情况下,我们经常认为试验对象已经足够多了。举个例子,假如你在测试一项新的心脏病治疗方案,希望将死亡风险从20%降低至10%。你可能会这样想:如果对50名患者采用这项新的方案,没有发现明显差别,那么新治疗方案就没带来多少好处。但是为了使功效达到80%,你实际上需要多达10400名患者,每个治疗组里有200名患者而不是50名患者。临床医生往往未意识到他们的样本容量太小。

在数学上准确计算功效难度较大,甚至有时无法计算,这是忽视功效计算的另外一个原因。在统计课堂上,一般不会讲授计算功效的方法,并且一些商用软件中也没有计算功效的函数。当然,你也可以不用数学而是利用随机模拟的方法计算功效。首先模拟具有你所期待效应的成千上万个数据集,然后在每一个数据集上进行统计检验,得到显著性检验结果的比例就是功效。但是这种方法需要编程经验,而且模拟现实数据也充满技巧。

尽管计算困难,但你可能认为科学家应该注意到了功效问题并试图进行改进:连续5次或6次试验都显示不显著的结果,科学家就应怀疑在某些地方出了问题。然而,一般的研究并不只做单个假设检验11而是很多、很有可能得到显著性的结果 。只要该显著性的结果非常有趣,就可以看成是论文的亮点,这名科学家此时早已忘记研究功效较低的问题。

低功效并非意味着,当科学家们声称两组之间没有显著性差异时,他们在说谎。但是如果认为这些结果表明确实不存在差异,那这就是误导了。差异甚至一个非常重要的差异可能是存在的,只是由于研究的规模太小没能发现这种差异。下面,我们考虑生活中的一个例子。遇红灯时错误转弯

20世纪70年代,美国许多地方开始允许司机遇到红灯时右转。而在很多年以前,城市道路规划人员认为,允许红灯右转会带来安全隐患,引起更多的交通事故和行人死亡。但是1973年的石油危机促使交通管理部门考虑实施这项政策,因为这样就能减少等待红灯时的汽油浪费。最终,国会要求各州实施该政策,并把它作为一项能源节约措施,就像建筑物隔热有效采光措施一样。

一些研究考察了该政策带来的安全影响。其中,弗吉尼亚公路与运输局的咨询部门对比了政策变化前后,州内 20 个交叉路口的交通事故发生情况。他们发现,在允许红灯右转之前,这些交叉路口发生了 308 次事故,而在允许红灯右转之后,相同时间内发生了 337 次事故。他们的报告指出,虽然事故发生率增加了,但这种差异在统计上是不显著的。在看到这份报告后,公路与运输局的官员写道:“我们可以相信,红灯右转政策并未给汽车驾驶员或行人带来显著的危险12隐患”。显然,官员们把统计上的不显著直接当作现实中的不显著。

后续研究有类似的发现:相撞事故次数略有增加,但并没有足够的数据表明这种增加是显著的。正如一份报告所指出的:没有理由怀疑在实施“红灯右转”后,行人被撞事件的次数增加了。

显然,以上研究均是低功效的。但是越来越多的州和城市开始允许红灯右转,在整个美国这种做法也变得非常普遍。没有人尝试将各项研究的数据整理在一起,形成一个更有用的数据集。与此同时,越来越多的行人被撞伤,越来越多的汽车被撞毁。没有人收集足够的数据来说明这种情况,直至若干年后,一些研究才发现,由于右转,汽车撞毁频率比以前提高 20%,行人被撞的频率比以前高 60%,几乎13,14,[2]是骑自行车的人被撞频率的 2倍。

然而,交通安全部门并没有吸取教训。例如, 2002 年的一项研究考察铺砌的路牙对乡村公路交通事故发生率的影响。不出意外,路牙降低了事故风险,但没有足够的数据说明这种下降在统计上是显著的,因此研究人员的结论是,铺砌路牙子的花费是不值得的。他们混淆了不显著的差异和完全没有差异,尽管数据已经表明铺砌的路牙可12以改善交通安全。一个更好的分析的结论似乎应该是这样的,铺砌路牙的好处在统计上是“不显著”的,但是数据表明铺砌路牙确实带来了巨大好处。这就是置信区间的分析方法。置信区间的优势

与考虑试验结果的显著性相比,置信区间是一种更合理的结论表述,它可以给出效应的大小。即使置信区间包含0,它的宽度也会告诉你很多信息:一个狭窄的包含 0 的置信区间表明效应可能比较小,而一个较宽的包含 0 的置信区间则表明测量值并不十分精确,因而不足以作出结论。

对于那些与0没有显著差异的测量,物理学家常常使用置信区间给出它们的界值。例如,在搜索基础粒子时,“该信号在统计上是不显著的”这种说法没有意义。相反,对于粒子撞击时的速率,物理学家一般利用置信区间赋给它们一个上界,然后将这个结果与预测粒子行为的已有理论进行比较(促进未来的试验人员建造更大的试验设备来发现它)。

利用置信区间来解释结果为试验设计提供了一种新思路。不再关注显著性假设检验的功效,转而问这样的问题:“我应该搜集多少数据来度量理想精度的效应?”尽管高功效的试验可以产生显著性的结果,但如果其置信区间很宽的话,结论同样难以解释。

每次试验的数据会不一样,所以每次试验得到的置信区间大小也会发生变化。以前是选择一个样本大小以达到某种程度的功效水平,现在我们选择一个样本容量大小,只要使得到的置信区间的宽度小于目标宽度的概率达到99% 即可(这个数字被称为其并没有固定的标16准,或者是95%)。

在常见的假设检验里,已经发展出很多依赖于置信度的样本量选择方法;不过这仍然是一个新的领域,统计学家还没有研究透彻17(这些方法的名字是样本估计的精度,英文缩写为AIPE)。统计功效比置信度使用更多,在各领域里统计学家还没有采用置信度。尽管如此,这些方法非常有用。统计显著性经常是拐杖,名字虽然中听,但并不能像一个好的置信区间那样提供多少有用的信息。膨胀的真理

假设相对于安慰剂,Fixitol能将症状减少20%。但你的试验样本可能太小,没有足够的统计功效可靠地检测到这种差异。我们知道,小试验常常产生更具有变异性的结果;你很可能恰恰找到10个幸运的患者,他们的感冒时间都较短,但找到10000个感冒时间都较短的患者的可能性基本上为0。

设想不停地重复以上试验。有时你的患者并不是那样幸运,因此你没有注意到你的药物具有明显的改善作用;有时你的患者恰好具有代表性,他们的症状减少了20%,但你没有足够的数据证明这种减少在统计上是显著的,因此你将其忽略;还有一些时候,你的患者非常幸运,他们的症状减少远超过20%,这时你停下试验说:“看,它是有效的!”你把所有的结果画在了图2-3中,显示了试验结果产生的概率。图2-3 试验结果产生的概率(如果你重复进行试验,你将会看到试验结果的一个分布。垂直虚线是在统计上具有显著性的效应值。真正的效应值是20%,但你可以发现观测效应值分布在-10%~50%这样一个较宽区间里。只有少数幸运的试验结果是显著的,但是它们都夸大了效应的大小。)

你得到了正确的结论,即Fixitol是有效的。但因为试验是低功效的,所以你夸大了效果的大小。

以上现象被称为真理膨胀,或者M型错误、赢者灾难。这种现象经常发生,尤其在那些进行类似试验争相发表最激动人心结果的领域经常见到,例如药理学试验、流行病学研究、基因关联研究、心理学18,19研究等。在那些引用最多的医学文献里以上现象也比较常见。在快速发展的领域,比如基因研究,早期论文的结果常常比较极端,这是因为期刊很愿意发表这样新的、令人振奋的结果。相比较而言,后20续研究的结果就不那么夸张了。

就连《自然》和《科学》这样的顶级期刊,也喜欢发表具有开创性理论成果的研究论文。这些开创性成果一般意味着大的效应,往往是在鲜有人研究的、比较新奇的领域里产生的。这是慢性真理膨胀与顶级期刊的完美组合。已有证据表明,期刊影响因子和其发表的“激进”研究具有相关性。那些结论不怎么令人振奋的研究更接近于真理,21,22但是大多数的期刊编辑却对其不感兴趣。

当一项研究声称在小样本下,发现了一个大效应时,你的第一反应不应是:哇哦,他们发现了这么有趣的现象!而应是:他们的研究23可能是低功效的!来看一个例子。从2005年起,Satoshi Kanazawa发表了一系列关于性别比例的论文,最后一篇论文的题目是“漂亮父母会生更多的女儿”。他出版了一本书专门对此进行讨论,书中涉及其他一些他发现的“政治上不正确的真相”。这些研究在当时非常流行,尤其是因为Satoshi Kanazawa所得到的惊人结论:最漂亮父母生女儿的概率是52%,最不漂亮的父母生女儿的概率是44%。

对生物统计学家而言,一个微弱的效应——如一个或两个百分点,具有重要的含义。Trivers–Willard假设认为:如果父母有某些特点,更容易生出女孩,那么他们就会有更多的女孩,反之亦然。如果你认为漂亮的父母更容易生出女孩的话,那么平均而言,这些漂亮父母就会拥有更多的女儿。

但是Kanazawa得到的结论比较特殊,后来他也承认在分析中有些错误。基于他所收集的数据,修正之后的回归分析表明,漂亮父母

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载