社会科学因果推断的理论基础(txt+pdf+epub+mobi电子书下载)


发布时间:2020-05-21 15:48:47

点击下载

作者:胡安宁

出版社:社会科学文献出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

社会科学因果推断的理论基础

社会科学因果推断的理论基础试读:

前言

记得刚刚进入复旦大学学习社会学的时候,读到的第一本学术著作便是英克尔斯的《社会学是什么?》。总结这本书的主要思想,社会学是一门采用科学的方法研究社会结构与社会发展规律的学科。虽然当时对什么是科学的方法还不甚了解,但我从这本书中学习到一种受益终生的观念:社会学的学术研究离不开科学的方法。正所谓“工欲善其事,必先利其器”,社会学研究者只有掌握了一套研究社会的科学手段和工具,才能够从纷繁复杂的社会现象中抽离出具有规律性的模式。正因为如此,我后来在研究生阶段的学术训练很大一部分内容都是围绕研究方法展开的。这种对于科学方法的重视也促使我在学习社会学之外专门修读了统计学硕士学位。

那么,什么是科学的方法呢?对于这个问题,相信不同的学者会有不同的答案。但是,社会学研究者们能够基本上达成共识的是:一套科学的社会学研究方法应当具有以下两个特点。其一,这套方法可以用于经验事实的研究;其二,这套方法可以帮助研究者确立某种因果关系。第一点毋庸置疑,既然社会学探索的是社会的基本模式,那么社会学家们所采用的研究手段也必然是经验取向的。正因为如此,超验的思辨并不是一种研究社会的手段,尽管它或可成为一种理论建构的路径。第二点在某种程度上也是毋庸置疑的。这是因为社会学的很多理论恰恰是用来“解释”社会现象的。说到“解释”,自然涉及因果了。

但是,通过社会学的经验方法去建构因果关系是非常困难的。究其原因,在于社会学所关注的议题往往非常复杂,且其背后的形成机制太多。例如,社会学中一个很重要的研究主题是经济地位的不平等,造成这种不平等的原因有很多,其中可能涉及地区差异、行业区别、教育成就、家庭背景、个人能力等诸多因素,不一而足。面对这种情况,如果研究者想确立教育成就与收入不平等之间的“净”关系,就需要对其他形塑经济地位不平等的因素进行控制。但正因为需要控制的因素太多,以至于几乎没有社会学研究者能够非常自信地宣称自己已经控制了所有需要控制的因素。此时,收入不平等的成因有可能是教育成就的差异,但也有可能是一些没有考虑到的混淆因素。在这种情况下,经验研究的结论便很容易受到质疑了。

实际上,上面谈到的这个问题不仅仅在社会科学研究中经常出现,它也是其他学科进行科学研究中经常遇到的“拦路虎”。比如,在生物学中,研究者为了确定特定基因对于某种植物抗倒伏性的影响,需要充分考虑到实验中这一植物所处的自然环境并将其控制。对于自然科学家而言,控制潜在的混淆因素可以通过随机实验完成。统计学理论告诉我们,在一个随机实验中,因变量Y的变化只可能归因于两个因素,一个是我们关心的自变量X的取值变化,一个是随机误差。当我们的研究对象足够多且能够保证较高统计检定力的时候,Y的变化只有很小的概率是由于随机性造成的(通常设定在5%)。此时,研究者就有很高的自信(95%)来确立从X到Y的因果关系。正因为如此,随机实验方法通常被看作科学研究的“黄金方法”。

那么,社会学研究中能不能进行随机实验呢?这个问题的答案在很大程度上取决于具体的研究主题。很遗憾的是,对于社会学家们关心的很多主题而言,随机实验方法是不现实或者不恰当的。我们不可能随机地安排一些人去经历战争,以考察战争的社会创伤效果。我们也不可能随机地安排一些被研究者有意酗酒,以考察酒精上瘾对于生活状态的影响。此时,摆在社会学研究者面前的往往是另外一种研究途径,即:收集一些经历了战争的个体的信息,并将其与没有经受战争的人进行比较。同理,找到一些现实生活中的酗酒者,观察其生活状态,并将之与非酗酒者的生活状态进行对比。这类研究虽然可以实施,但是上面谈到的各种混淆因素也随之进入研究者的分析框架中。也就是说,基于观测性数据进行研究的社会学学者不能很有自信地说自己的结论反映了某种因果关系。此时,社会学的研究者为了进行因果推论,不得不采用更为复杂的分析策略。对于这些策略的理论基础进行系统的介绍便是本书的任务。

摆在读者面前的这本书共有7章。第1章介绍了随机实验的基本原理,以及如何在反事实的统计理论框架下进行因果推论。第2章着重讨论了倾向值匹配的基本过程,以及为什么我们能够利用倾向值匹配的方法进行因果推论。第3章通过一个具体的实例展示了倾向值匹配的过程。第4章讨论了如何从传统的倾向值方法出发,将因果推论分析扩展到多类别变量、因果中介分析和因果异质性分析。第5章关注了因果分析过程中非常重要却往往被学者们忽视的统计检定力和样本量问题。第6章将因果推论分析推广到个案研究中,系统介绍了综合控制个案方法。第7章总结全书,并对倾向值技术进行了反思。

通过上述各章的基本信息介绍,读者们不难发现,本书并不是一本常规意义上的统计学教科书。在本书中,我并没有具体告诉读者如何利用流行的统计软件(如R或者Stata)来进行具体的经验分析。相反,作为一本严肃的学术著作,本书的重点在于系统介绍基本的因果推论原理和背后的统计理论。之所以这样安排,是出于以下原因。其一,好的统计学教材有很多,其中不乏一些讨论因果关系的经典教材。因此,感兴趣的读者可以参考这些教材自学,本书没有必要做简单重复劳动。其二,统计软件毕竟是我们研究的工具,只有在了解了各种统计模型背后的基本原理之后,研究者才能够准确和高效地使用这些工具。否则,社会学的量化研究有可能沦为一种简单的数据加工,相关的研究结论可能由于缺乏坚实的方法论基础而变得不准确。因此,我在自己教授的统计课上,一直希望引导学生将学习的重心放在原理上,而不是简单地学会某种方法的操作。本书也体现了我的这一一贯主张。

最后,希望读者能够从本书中获益,我也衷心希望本书的出版能够为国内的量化社会科学研究做出微薄的贡献,让更多对社会生活因果关系感兴趣的人愿意加入社会科学研究的行列中。胡安宁2015年6月第1章社会科学中的因果推论:反事实框架与随机实验

我们在阅读国内外社会学领域的各种学术期刊[例如《美国社会学评论》(American Sociological Review)、《美国社会学杂志》(American Journal of Sociology)、《社会学研究》]时,会时不时地遇到诸如“因此”、“所以”、“其原因在于”这样的词语。这样的表述实际上隐含了一种“因果关系”(causal relationship)或者“因果性”(causality)。在今天的社会科学研究中,因果关系已经成为社会科学家们对某种社会现象进行“科学”解释的同义词。学者们希望通过各种途径来确定两个或者多个变量之间的关系(例如自变量对因变量的影响),并且他们并不满足于确认“这个变量和那个变量之间有关系”,而是希望能够回答“变量A对变量B的因果关系是什么”这样的问题。正因为如此,我们在阅读那些经过同行审查(peer-reviewed)的论文时,已经很难找到这样一篇论文,其中作者的最后结论仅仅是“通过研究,我们发现某两个变量是在95%的置信区间水平上显著相关”。相反,现代社会学的研究者希望能够回答的问题是:变量A和变量B之间究竟是谁在影响谁?进一步讲,这种因果关系的形成机制(mechanism)是怎样的?

那么,社会科学研究一般是通过何种方式进行因果关系探索的呢?如果说早期的社会科学理论家们是通过逻辑论证或者总结个体化[1]的有限经验来进行因果分析,那么现代社会学的因果关系则更多的是和统计模型联系在一起。这种基于统计模型的因果关系推断在20世纪60年代随着路径模型分析(path mode analysis)的兴起而被引入社会学研究中,并随之得到很多学者的重视(Duncan 1966)。路径模型分析后来逐渐发展成了一系列的结构方程模型(structural equation modeling)。直至今日,很多学者依然在结构方程模型的范式体系下通过构建不同变量之间[观测变量(observed variables)或者潜变量(latent variables)]的结构关系来验证其对于因果关系的判断(例如Pearl 2009)。虽然基于路径分析模型的因果推论方法从严格的统计学意义上讲还存在诸多限制(这在第4章中会有专门论述),但是它却在社会学经验研究和规范的统计模型之间搭建起了一座桥梁。可以说,在现代社会学研究中,对于因果关系的考查绝大多数是在某种特定的统计模型中展开的。

然而,我们却不能简单地将统计模型的应用和因果关系的确立等同起来。例如,一个经验社会学研究者常常会遇到的问题是,常规意义上的统计分析(例如基于最小二乘法的多元回归)能否帮助我们建立严格意义上的因果关系。换句话说,当我们用诸如一般多元线性回归这样的“常规”方法进行数据分析并得到相关变量之间的关系时(例如估计出的回归系数),这种关系是否就代表了一种因果关系呢?对于这个问题,很多学者的答案是肯定的。我们发现,在很多社会科学研究中,大量学者将方差分析、线性回归或者广义线性回归模型下得到的系数进行某种因果性的解读。一个很经典的例子便是教育水平和收入的关系。无论是教育社会学研究还是经济学研究都倾向于认为“教育为因,收入为果”,并由此阐发相关理论(例如著名的人力资本理论和经济学中的收入决定模型)。然而,本书下面几章的讨论将会告诉我们,这些基于传统回归模型的分析依旧没有脱离对相关关系(correlation)的依赖,从而并不能够称得上是严格意义上的因果关系。回到上面的例子,当我们用个人特征(例如年龄、性别、户口以及教育水平)去预测个人收入水平,我们一般会发现教育和收入之间的系数是正的,而且这种相关系数往往在统计推断的意义上是显著的。但是,这里我们得到的系数实际上是一种条件概率(conditional probability),即在控制了年龄、性别与户口这些所谓的“控制变量”之后特定教育水平下收入的均值情况(Tu,Gunnell,& Gilthorpe 2008)。这种条件概率依旧是在分析教育和收入的“相关性”而非“因果性”。那么,是不是这就意味着传统的统计模型(线性回归以及方差分析等)就无法用来探索因果关系了呢?答案是否定的。一般而言,在两种情况下,我们认为经过常规统计模型得出的结论能够代表某种因果关系。其一是在研究设计的时候采取严格的随机实验控制,[2]以保证被研究的个体随机分布于某种处理变量(treatment variable)的不同水平上。这种方法在生物医药领域内经常用于测试新药效果[例如将病人随机分配到实验组和控制组中。随后,实验组中的个体服用新药,而控制组中的个体则服用没有药效的安慰剂(placebo)]。其二是在传统的统计模型上添加更多的分析以求控制潜在的因果推论误差。无论是采取哪一种方法,我们实际上是在希望[3]通过某种人为安排与设置(manipulation)争取让我们的研究满足一定的因果推论条件。那么,这种因果推论的条件究竟是什么呢?1.1因果关系的反事实分析框架

在过去的十几年中,在社会科学领域内被反复使用的一个因果推论框架是反事实(countefactual)理论(Morgan & Winship 2007;Rosenbaum & Rubin 1983;Rubin 1997)。反事实,顾名思义,是和我们能够观测到的现实情况相反的一种状态。一般而言,我们区分事实和反事实的依据在于其是否能够为我们直接观测。因此,事实可以被称为某个特定变量可观测到的某种状态,而反事实则是同一变量不能够被直接观测到的另外一种状态。按照反事实理论,一个变量A对于另外一个变量B的因果性效果就是A成立时B的事实状态与A不成立时B的反事实状态之间的差异。如果这种差异存在且在统计上十分显著,则证明变量A对变量B是有因果效果的,否则二者之间就不存在因果关系。

实际上,鲁宾(Rubin)等人提出的这种反事实框架和我们日常生活中判断因果关系的标准非常一致。我们之所以没有感觉到,只是由于我们平时对这种反事实因果推论的逻辑“日用而不知”,或者说,我们没有十分“严格”、“准确”地使用这一套分析框架。这里,我们用一个具体的例子来展示反事实框架的基本逻辑。假设一个人得了感冒,而服用感冒药以后症状得到了缓解。在这个十分简单的例子中,大多数人脑海中会建立这样一种因果关系,即:原因是“吃药”,而结果是“感冒症状得到缓解”。也就像很多人所说的那样,“多亏及时吃药,不然感冒可好不了”。此时我们恰恰采用了一种反事实的理论框架来判断是否吃药这个自变量对于感冒症状是否缓解这个因变量的因果效果。采用反事实理论的术语,我们能够看到的“事实”是一个人在吃过感冒药以后感冒症状得到了缓解。人们在将感冒症状的缓解归因于吃药的时候实际上是在假定一种反事实的状态,即:如果不吃药的话,“感冒可好不了”。这两种状态的差异(一个是感冒症状缓解,而另一个是感冒症状依旧存在甚至加重)实际上就自然归因于我们关心的处理变量的不同水平(即是否服用感冒药)。通过这种方式,我们得以确定是否吃药和感冒症状是否缓解之间的因果关系。另外一个例子,我们日常生活中会经常听到人们说,有一个大学文凭对于找到一个好工作是非常有帮助的。如果用工资水平来衡量工作的好与坏(当然,这并不是工作优劣判断的唯一标准),我们实际上是在不经意间对比那些上了大学的人的工资水平与没有上大学的人的工资水平,如果前者明显高于后者(通常情况下是这样),我们就会说“上大学是有用的”,否则就会说“读书无用”。在这个推论过程中,大学毕业生的收入水平是我们能够观测到的事实状态,而没上大学的人的收入水平可以看作反事实状态,这和“吃药—感冒治愈”这个例子有着同样的因果推论逻辑。当然,那些没有上大学的高中毕业生的收入水平能不能够作为大学毕业生收入水平的反事实状态还是需要具体讨论的。本书下面会有一个独立的章节来分析这个问题。

需要指出的是,虽然人们日常生活中总是在有意无意间使用反事实的因果推论的理论框架,这些使用却是非常随意、不规范的。之所以说不规范,一个重要的原因在于反事实和事实的区分需要针对特定的个体,而具体到某个人,我们是不可能知道反事实状态究竟是什么样子的。回到上面感冒吃药的例子,我们看到的事实是个体甲吃了感冒药以后感冒症状得到了缓解。严格意义上的反事实状态便应当是个体甲这同一个个人在没有吃感冒药的情况下会是什么样的状态。同理,在大学教育的经济回报一例中,我们观测到的事实是一批高中毕业生上了大学后收入的平均水平,但此时的反事实应当是“同样”这批高中毕业生“如果”在当时没有上大学的情况下他们的收入水平是怎么样的。因此,按照严格的反事实因果推论逻辑,无论是事实还是反事实,都需要发生在同样的研究对象身上。从这个角度来看,我们便面临一个非常严重的问题,即没有办法观测反事实的状态。在现实生活中,个体甲的确是吃了感冒药,我们怎么可能让时光倒流,让他不吃感冒药,然后观测一下他的感冒症状呢?同样,当我们得到一批大学毕业生的收入水平后,我们也不能够去“假设历史”,来看如果这同一批人当年没上大学而是高中毕业以后直接去工作,其收入会是什么水平。这种反事实的“不可观测性”也被称为“因果推论中的基本问题”(Holland 1986)。

既然“历史不可以假设”,我们能够做的只能是找到和我们关心的个体特征“基本一致”的人,看他或者她在与我们关心的个体所经历的事件的不同状态下在因变量上的取值是什么样的。例如,为了知道感冒药是不是真的有效,我们找到了和个体甲相比各种情况都十分相近的个体乙,假设个体乙感冒,但他或者她没有像个体甲那样服用感冒药。此时,我们近似地将个体乙没有吃感冒药时的感冒症状作为个体甲吃过感冒药后的感冒症状的“反事实”,由此推论吃感冒药是不是真的有用。这个思路在社会科学领域内非常普遍,例如,大量研究使用兄弟姐妹数据来进行因果分析,其基本的假设就是孪生兄弟或者孪生姐妹之间存在极强的相似性,从而能够控制大量的混淆因素(甚至基因因素)(例如Aaronson 1998)。同样,在分析大学教育经济回报的时候,我们也可以找到一批和上了大学的那批高中毕业生十分类似的另外一群高中毕业生(例如高中成绩和上大学的同学近似),这些人没有继续到大学读书,而是直接进入劳动力市场工作。通过对比他们的收入水平与那些上了大学的同学的收入水平,我们便可以近似判断大学教育的经济回报。综上,为了能够在反事实框架下进行因果关系的研究,我们需要做的是找到一些和我们研究的个体特征十分类似的人在因变量上的取值作为我们关心的个体在因变量上的取值的反事实,然后对比二者之间的差异。因此,重要的是我们要找[4]到那些和我们关心的个案“十分类似”的“反事实个案”(counterfactual case)。

在进一步的讨论之前,我们需要回答另外一个基本问题,即我们为什么需要在反事实的理论框架下进行因果推断。换句话说,对于社会学经验研究而言,反事实的因果推论框架的优势体现在哪里呢?正如上面反事实理论所指出的,所谓的反事实从理论上来讲是同样的个体在接受与不接受某种处理变量影响(例如是否吃药)之间所体现出来的因变量取值差异(症状是否缓解)。既然我们所关心的是同样的个体,我们实际上就屏蔽掉了很多外来的混淆因素。例如,在上面的“吃药—感冒治愈”例子中,如果时间可以倒退,让个体甲“当时”没有吃药,结果发现他的症状一点都没有缓解,则此时“吃药时的症状缓解”与“不吃药时的症状不缓解”之间的差异“只能”归因于是否吃药,而不是其他的外在因素。同理,如果在假设的不吃药的情境下个体甲的感冒症状也得到了缓解,此时我们就会得出结论:就个体甲而言,吃不吃药对于感冒症状的缓解是没有因果效果的。因为无论是否吃药,个体甲的感冒症状都会缓解的。所以,反事实理论的优势在于,如果我们能够找到“回溯并假定历史”的状态下的反事实(当然这是不可能的),我们就能够将某种事件的发生“完全归于”某种处理变量,而非其他混淆因素,因为除了处理变量的取值不同(是否吃感冒药)之外,就某个个体(例如个体甲)而言,他或者她与其反个案之间是完全一样的(因为是同一个人)。

当然,历史的回溯是不可能的。即使有可能,我们也往往在研究中由于伦理的要求不允许这样做(研究者不能强迫某个感冒的被研究对象一直不吃药以建构反事实状态)。因此,我们所能够做的只能是找到和我们关心的个体极为类似的其他个体作为“反事实个案”。此时,一个问题是,我们找到的这些“反事实个案”和我们关心的个体有可能不是那么相似。那么,我们所观测到的某种效果就不能够完全归因于我们所关心的处理变量,而有可能归因于其他的“混淆变量”(confounding variables)。还是以上面的例子来说明这一问题。假设我们找到的个体乙的免疫力要高于个体甲,结果个体乙在感冒以后没有吃药但是由于自身身体素质的原因很快就痊愈了。此时,我们如果还是以个体乙作为个体甲的反事实个案的话,我们就会得出结论:感冒药对于感冒症状是没有用的。因为无论吃不吃感冒药,感冒的症状都会痊愈(因为乙痊愈了)。自然,这个结论是不准确的。因为感冒痊愈这个事件的原因既可能归于感冒药的药效,也可能归于个体身体素质差异。遗憾的是,在这个例子中,这两个潜在的原因是无法彼此分离开的。正因为如此,社会科学研究需要尽可能地保证我们找到的反事实个案和我们关心的个案之间呈现极强的相似度,其目的就是为[5]了控制这些混淆变量对因变量的潜在效果。换句话说,在各种潜在的混淆变量的取值上(如上述的身体素质这一变量),我们希望能够保证个案与反事实个案是近似的。那么接下来的问题便是:我们如何保证做到这一点呢?在社会科学的研究中,具体的方法还是上文提到的两个:一个是随机实验,另一个是在传统的统计模型上面增加附加分析。

随机实验之所以可以帮助社会科学研究者建构反事实框架下的因果关系,是因为随机化的过程保证了我们关心的个案和那些与之对应的反事实个案之间在处理变量之外的混淆变量上的取值是近似的。例如,一个比较常见的简单随机实验是将一批病人随机分配到实验组(接受某种新药的治疗)和控制组(不接受任何药物治疗或者仅仅是服用一种和新药在外观上一模一样的安慰剂)。此时,实验组中的个体对于控制组中的个体而言是反事实个案,而控制组中的个体对于实[6]验组中的个体而言也是反事实个案。个案与反事实个案在实验处理变量(是否服用新药物)之外的其他特征(例如性别、年龄、以往病史等)上的差异都因为随机化的过程被“平均”了。此时,如果实验组和控制组中的个体在某种疾病的表现(例如癌症相关症状)上有所不同,这种不同也就只能归因于两个原因,一个是新药物的效果,另一个是随机误差。当然,在样本大到可以保证统计检定力的时候(关于样本量和统计检定力的问题,在本书后面的章节中会有专门论述),随机误差的可能性被大大地降低了。我们便能够在处理变量和结果变量之间建立某种因果性联系。在随机实验过程中,结果变量的变化不能够归因于可观测到的以及潜在的不可观测到的混淆变量。

与随机实验不同,在传统的统计模型上面增加附加分析的方法则是根据手头现有的数据将我们关心的个案与一些我们挑选出来的个案进行配对,使其在一些(我们数据中可观测到的)混淆变量上的取值[7]接近。例如,在分析高等教育经济回报的时候,我们的数据中通常既有大学毕业生,也有高中毕业生,二者在受教育水平上有所不同。此时我们一般认为潜在的混淆变量有可能包括性别、年龄、能力和户籍情况(现实情况中可能存在其他的混淆变量)等。那么我们就要找到那些在这些混淆变量上与大学生的取值近似的高中生,并将之与大学生群体进行匹配。此时,基于这个匹配样本的分析,收入的差异就能够基本上归因于是否上大学,而不是诸如性别、年龄、能力和户籍这样已经得到我们控制的混淆变量。和随机实验的方法相比,这种在传统的统计模型上面增加附加分析的方法是有其局限性的。最主要的局限在于,这种方法所能够考察和控制的混淆因素仅仅是数据中已有的可观测到的变量(即这里的性别、年龄、能力和户籍因素),而某些可能影响我们结论的其他混淆变量有可能在我们手头的数据中没有直接测量(问卷中没有问到)。对于这些没有直接观测到的潜在混淆变量,客观地讲我们是无能为力的。与之相比,随机实验法通过随机化的方式让我们在实验组和控制组之间达到混淆变量上的平衡,这种平衡所涉及的不仅仅是数据中已有的可观测到的混淆变量,还包括潜在的不可观测到的混淆变量。鉴于此,在进行社会科学研究设计的时候,如果研究者希望能够发掘出变量之间的因果关系的话,应当在保证足够外部效度的前提下尽可能地选择随机实验方法。

上面探讨的这两种操作反事实个案的方法实际上对应了两种不同的统计研究类型:实验性研究(experimental study)和观测性研究(observational study)(Rosenbaum 2002)。实验性研究指研究者对于被研究个案有着比较明确的控制力,且随机化过程是可以实施的。所谓随机化过程可以实施,是指研究者对于被研究对象进入实验组和控制组的过程是完全可以控制的。观测性研究与之相反,研究者往往不能够分配和控制被研究个案对于处理变量特定水平的接受或者拒绝(即无法控制被研究对象究竟是进入实验组还是控制组)。在这种情况下,随机化的过程自然是不可能实施的。在社会科学研究中,绝大多数基于调查数据(survey data)的研究属于观测性研究。在一般的调查中,研究者对于被访个体如何受到处理变量影响的过程是无法得知并加以控制的。研究者能够做的更多时候是对现有的情况进行数据收集和分析,通过附加某些统计分析或者假设来进行因果推论。正因为如此,在社会科学领域内,基于传统的统计模型并增加附加分析的方法虽然不是最理想的方法,但是却要比随机实验方法得到更为广泛的运用。鉴于此,本书的主要关注点将放在观测性研究下如何通过相关的附加统计操作来进行因果推断。不过在讨论具体的统计模型之前,有必要对随机实验下的因果推断过程有一个初步的了解。通过随机实验的例子,社会科学的研究者可以对因果推断的逻辑有一个基本的把握,从而能够更好地理解观测性研究下的因果推论模型。1.2随机实验与因果推论

如上文所述,随机实验方法通过随机化的方式保证我们关心的个案与其反事实个案之间无论是在观测到的混淆变量还是在没有观测到的混淆变量上面都可以保证一定的相似性,由此让我们能够将特定的因变量变化的效果归因于实验中的处理变量本身的变化而非其他混淆因素。换言之,随机化地分配被研究个案使我们所关心的因变量Y和我们关心的自变量X都不会受到混淆变量U的影响,因为U在随机化的过程中可以近似地看成一个随机变量,而一个随机变量U是不会和Y与X之间呈现某种统计关联的。

随机实验的另外一个优势在于,通过随机化的方式,我们能够知道因变量在面对不同处理变量的时候所可能呈现的统计分布(distribution)。这里所指的统计分布是非参数性(nonparametric)的,也就是说,我们能够在随机化的过程中得知我们的因变量可能的“经验分布”是什么,而不是像观测性研究中那样需要假定因变量的[8]分布。我们都知道,在一般线性回归中,如果我们没有对因变量的分布进行设定,我们是没有办法进行统计推论的。而在一个完全随机的实验设计中,我们并不需要预先指定因变量的分布一定是服从正态分布或者其他任何分布。相反,我们仅仅从随机化过程中就能够看出我们的研究结论是否站得住脚。那么,我们究竟如何在随机实验中建构因变量的经验分布呢?这里通过费舍尔(Fisher)的精确p值分析来展示这一点(Fisher 1953;Rosenbaum 2002;Salsburg 2002)。

在社会科学的统计分析中,一组最基本的概念是零假设(null hypothesis)与替代假设(alternative hypothesis)。所谓替代假设就是理论所指出的一个假设,而零假设则与之相反。举例而言,一个比较常见的替代假设是大学生的平均工资要高于高中生的平均工资。与之相对应的零假设就是大学生的平均工资和高中生的平均工资处于同一水平(当然,也可以假设相反,即高中生平均收入高于大学生平均收入,只是这个假设不太具有现实意义)。对于这样的零假设和替代假设,一般的社会学研究者并不陌生。然而,需要指出的是,这里的假设都是针对某一个特定的统计量(statistic)而言的。所谓统计量,是指能够反映某种数据特征的函数。在上面的例子中,我们所使用的统计量是均值(即平均收入)。当然,其他的统计量也是可以用来进行假设检验的。例如,我们可以假设大学生收入的变异程度要小于高中生收入的变异程度。那么零假设就变成了大学生和高中生的收入变异程度是在同一个水平上。如果这里用方差(variance)去衡量变异程度的话,那么我们的零假设就变成了不同教育水平下的个体收入在收入方差这个统计量上是相等的。无论采用何种统计量,我们可以发现,统计量总是一个“集合性”的概念,即某个统计量的取值是综合了某一组个体的特征计算出来的。均值和方差是指某个变量在一群人中间的取值上所体现出来的集中程度和变异程度,因此不存在针对一个人的均值或者方差。然而,和这种基于“集合性”统计量的假设检验不同,费舍尔的精确p值分析实际上是在每个个人层面上论述假设检验的问题。在这种情况下,我们又是如何通过随机实验进行因果分析的呢?

这里通过一个例子来进行说明。假设我们关心的是一所初中某个新的教学项目对提升学生学习成绩的效果。现在有6个候选个案(学校、班级或者学生等),按照随机化的方式,其中的3个个案被安排接受这个新的教学项目,而另外3个还是采取过去的旧的教学项目。在经过几个月以后,这6个个案参加了一个考试,考查学生对在过去的这几个月中学习到的知识的掌握程度。假设考试得分的区间是0到100分,那么我们最后的结果如表1-1所示。表1-1 实际观测到的处理效果

在上面的这个例子中,个案1、个案2和个案4被随机安排接受新的教学项目,而剩下的则接受旧的教学项目。为了判断这个教学项目是否对提升学生学习成绩有明显效果,常规的做法是将接受新项目的个案的考试成绩与接受旧项目的个案的考试成绩进行对比。比如,我们看一下这两组个案的考试成绩均值,便可以发现那些接受新教学项目的个案的平均成绩是(85+92+95)÷3=90.67分,而接受传统旧教学项目的个案的平均成绩则是(81+76+80)÷3=79分。很明显,90.67大于79,这似乎表示新的教学项目相比于旧的教学项目更能提升学生的学习成绩。

回到反事实因果分析框架下,我们就会有一个疑问。那些在旧的教学项目中学习的个人是否能够作为那些接受新的教学项目的个体的反事实个案呢?答案是肯定的。正如上文所述,由于我们的处理变量是教学项目,而这个变量又是随机分配的,因此这里可以认为11.67(90.67-79)分的考试成绩差异缘于新教学项目,因为这6个参加研究的个案在混淆变量(如理解力、学习积极性等)上的取值被随[9]机化的过程控制了。在解决了这个问题之后,我们还有另外一个问题:这个11.67分的考试成绩差异会不会是一个“偶然”的现象呢?正如上面谈到的,在随机实验条件下,因变量的取值变化既可以归因于自变量的取值变化,也可以归因于一个随机事件,或者说“碰巧而已”。换一种表述,由于个案们所接受的教学项目是被随机分配的,那么当我们的教学项目安排不是如表1-1中所展示的方式去分配,而是将这6个个案换一种安排(如接受新的教学项目的学生被安排接受旧的教学项目),会不会这种11.67的分值差异就会消失不见了呢?当我们的随机安排改变了以后,那些接受新的教学项目的学生的平均成绩会不会和接受旧的教学项目的学生一样甚至比他们更差了呢?对于这个问题的回答需要建立起关于因变量(考试成绩)的经验统计分布,而这则依赖于费舍尔的强零假设(strong null hypothesis)。

上文已经指出,费舍尔的精确p值分析是在个人层面上论述假设检验的问题。而所谓的强零假设是指我们在个人层面上建立零假设而不是针对某个集体层面的统计量来建立零假设。具体而言,在上面的例子中,我们的零假设是:新的教学项目是没有作用的。因此,强零假设认为“每一个人”无论是在新的教学项目组还是在旧的教学项目组,他们的成绩都是不变的。如果用T=1指代某个个体被分配在新的教学项目组,T=0指代被分配在旧的教学项目组,Y指代考试成绩的(T=1)(T=0)话,这里的强零假设就是:针对每一个人而言,Y=Y。不难发现,强零假设之所以被称为一种强假设,是因为它在个人的层面上而不是在均值或者方差这样的“集合性”统计量层面上来建立零假[10]设。从这种强零假设出发,我们可以认为新的教学项目是无效的,而且是对每个人都“完全”无效。

和我们常规的假设检验步骤一致,我们需要根据强零假设建立一个因变量的经验分布,然后观察我们的个案在因变量上的观测值在这个基于强零假设建立起来的分布上所处的位置。如果处在尾部,那么我们观测到的效果就不是一个随机事件,而是切实地反映出了某种因果性的处理效应。但是和常规的假设检验不同的是,我们这里不是基于零假设建立一个常规的正态分布、t分布等分布形态,而是基于强零假设建立一个非参数性的因变量分布形态。具体而言,我们会将在这6个个体中间所有可能的分配处理效应的方式都一一列举出来。比如说,我们接受新的教学项目的个体可以不再是1、2和4,而有可能是3、4和6。在这种情况下,我们就会有如表1-2所示的一种情况。表1-2 一种替代性安排处理变量方案下的处理效果

在表1-2中,我们看到教学项目安排有了新的排列,考试成绩却没有变。和表1-1相比,个案1、个案2、个案3和个案6的考试成绩用括号括了起来。这是因为这些数字是根据费舍尔的强零假设建构起来的。换句话说,我们真正观测到的数据是表1-1所示的数据,但是在强零假设下,每个人被假设在接受另外一个处理水平的时候(即那些本来接受了新的教学项目的学生“如果”接受的是旧的教学项目的话),他们的考试成绩(亦即反事实)是和观测到的考试成绩一样的。正是因为这样,我们才能够用观测值来填充括号。那么,在表1-2所示的这种排列处理变量水平的情况下,我们的处理效果又会是多大呢?和上面一样,我们比较一下两个项目中被研究个体的平均考试成绩之差,得到(81+95+80)÷3-(85+92+76)÷3=85.33-84.33=1分。

我们知道,在6个个体中间分配这两种处理变量水平(新的教学项目和旧的教学项目)一共有20种分配方法,因变量的分布就可以按照这20种分配方法建立起来。具体而言,这20种分配方法如表1-3所示。

基于这20种排列,我们分别可以得到因变量在新的教学项目和旧的教学项目中的分布情况以及均值的组间差异分布。其图形表示如图1-1所示。

图1-1(a)是依据随机化的标准,按照强零假设建立起来的分布。而(b)则是这种强零假设分布下的组间均值差异。和常规的假设检验一样,这里我们要看观测到的组间考试分数差异(11.67)是否处于这个经验分布的尾部位置。如果观测值是尾部取值,则意味着我们观测到的组间差异按照一个完全随机化的情况来看是极其罕见的,从而我们就拒绝了我们观测到的处理效果是一个随机现象这一结论。也就是说,我们所观测到的处理效果确实代表了某种真正意义上的实质处理效果。如图1-1(b)所示,11.67是观测到的组间差值,其的确是处在右边尾部。这样,我们就能够得出结论,按照一个完全随机化的方式建构起来的分布,我们观测到的11.67的组间差值实际上是十分罕见的。换句话说,我们也就有证据支持新的教学项目对提高学生的学习成绩的确是有显著效果的。表1-3 随机分配方案列举图1-1 处理变量不同安排方式下的因果效果

以上通过一个简单的例子展示了如何通过随机实验来进行因果推断。综合上面的讨论我们可以发现,在费舍尔的精确p值分析中,之所以随机实验能够帮助我们建构一种因果关系,其原因有二。其一,随机化的过程保证了各种可观测到的和不可观测到的潜在的混淆变量都成了一种随机现象,而随机现象本身既不和我们关心的处理变量X相关,也不和我们关心的因变量Y相关。其二,一个完全随机化的实验设计在费舍尔的精确p值分析中意味着我们不需要人为地给定因变量的统计分布(如正态分布、t分布等)。与之相反,我们的因变量分布完全是根据数据建立起来的一个经验分布。由此,我们就能够通过一种假设检验的逻辑来验证我们观测到的某种“效果”是否可以称得上是一种显著性的发现,而非一个随机发生的现象,从而进一步支撑我们给出的因果关系的结论。

正是因为随机实验有如此多的优势,笔者主张,对于社会科学家而言,虽然进行一个完全随机的实验设计是很困难的,但是一旦有机会,应当尽可能地采用随机实验的方式进行研究设计。实际上,很多社会科学家也提出了“自然实验”(natural experiment)概念。这个概念的启示在于,虽然很多时候社会科学研究者难以像医生进行药品研究那样从头至尾地控制和安排我们的研究个体,但是社会自然环境很多时候会为研究者提供一种“自然”的实验环境,研究者则需要尽可能去挖据这种自然状态下的实验环境以求达到一种因果性推论。例如,大学的课程设置变化有可能会影响到学生的学习成绩。假设课程设置的变化从时间t开始。此时,我们就近似地得到了一种自然实验的环境。因为t-1这一届没有经历课程设置变化的学生和t届经历了课程变化的学生是上下届关系,二者的入学条件基本类似(能够进入同一所大学的两届学生在性别比、家庭背景等方面不会有太大差异)。那么,当我们比较t-1届和t届的学生在学习成绩上的差异时,我们实际上无形中控制了诸如性别、家庭背景这样的混淆变量,这是因为这两届学生间隔时间很短,相应的背景性因素是十分近似的。那么,他们的平均学习成绩上的差异就可以归因于课程设置的变化。这样的设计可以说是一种类实验设计(quasi experimental design)或者自然实验设计(natural experimental design)。

需要说明的是,相比于观测性研究,实验设计的方法在社会学研究中不是很常见,因此本书的重点将放在讨论如何通过各种统计模型来利用调查数据建立因果性联系。在这方面,计量经济学中的工具变量(instrumental variable)方法早已经得到了广泛的使用。相关的介绍性文章或者教材可谓汗牛充栋。因此,在本书中,计量经济模型的工具变量方法及其相关的二阶段回归(two-stage regression)、方程组模型(simultaneous equation modeling)等统计技术不再赘述。感兴趣的读者可以参阅伍德里奇(Wooldridge)(2010)、格林(Greene)(2011)等人的经典著作。1.3附录:其他研究情境下因果推论模型举例

一种因果关系的建立需要代表原因的那个自变量或者处理变量发生在表示结果的因变量之前,因此对因果关系的讨论必然会涉及时间序列分析。在这方面的研究中,比较著名的一个模型是格兰杰因果模型(Granger causal model)。这个模型是计量经济学家格兰杰在20世纪60年代提出来的(Granger 1969)。具体而言,他认为在一个时tttt间序列中,如果考察X以后能够更好地预测Y,则X是引起Y的原tt因。这里X表示的是在时间t时的X取值,而Y则是我们关心的因变量在时间t时的取值。

格兰杰这里用U来指代一种一般意义上(universal)的解释Y取值的因素,其中U包括X以及其他所有没有观测到的可以解释Y的因素。那么,在常规的回归模型中,假设将X从U中去除,则U对于Y的解释力应当是变弱。这反映在因变量Y在用U进行预测以后其残差项的方差取值产生变化。如果用数学表达式来表示,则意味着:

在这个不等式中,Y表示时间t的取值。表示t之前(t-1,t-2,…,m)的能够解释Y的所有因素。从上面的表达式可以看出,2如果X能够解释Y,则从U中去除X后,σ(Y)会变大,即不能很好地解释Y。如果经验研究发现这个模式,则证明X对Y有某种因果性的效果。

基于这个基本的模型,格兰杰也列举了其他几种不同的因果关系模式。例如,互为因果则意味着X和Y之间互相影响。因此就可以表达成以下公式:

即时因果(instantaneous causality)则能够表述为:

其中,包括t时间及其之前的X取值。也就是说,我们把U和X都考虑进来要比单纯考虑U能够更好地解释Y。

从时间序列模型上讲,一个格兰杰因果关系意义上的分析则要求t在模型中,t之前的X的取值能够显著地预测Y,即在下面的公式中,jb不可以为0。

[1] 例如,涂尔干的宗教社会学思想依据的是澳大利亚的土著居民的生活经验(Durkheim[1912]1995),而韦伯的宗教社会学研究则是进行不同宗教传统之间的个案对比(Weber 1946,1963)。

[2] 这里的处理变量可以看作自变量,即我们希望了解其效果的那个变量。

[3] 这里所指的安排并不是研究者为了得到自己“所希望”的结论而干扰实验过程。相反,安排的含义是通过特定的实验设计来尽可能地避免潜在的因果推论误差。

[4] 反事实个案是和我们关心的个案相匹配的个案,其在某个因变量上的取值可以看作我们关心的个案在同样因变量上取值的反事实。

[5] 这也就是为什么我们希望就同样的个体(例如个体甲)来建构反个案,因为如果个案和反个案都是针对同样的个体的话,他们之间除了处理变量之外在所有的其他变量的取值上都是一样的。

[6] 这取决于我们研究的关注点是在实验组中的个体还是在控制组中的个体。

[7] 并非所有的混淆变量都能够被直接观测到,这就要求研究者进行敏感性分析。详细信息见本书后面章节。

[8] 在一般的线性回归中,我们会假设因变量Y是正态分布的。而在广义线性回归中,因变量的分布可以是逻辑分布,也可以是负二项分布,等等。但是这些分布状态都是研究者人为指定的,而不是从数据中直接得出的。

[9] 当然,6个个案的数量不足以提供较强的统计检定力。这里仅仅是一个简单的例子。

[10] 例如,一般的零假设会认为接受新教学项目和旧教学项目的学生在“均值”上相等,但是强零假设则强调对每个人而言,新旧教学项目的效果都是一样的。第2章[1]倾向值匹配与因果推论

如第1章所述,在过去的十几年中,社会科学研究越发关注如何通过严格的统计技术进行因果推论(Sobel 1995,1996,2000;Morgan & Winship 2007;Winship & Morgan 1999;Winship & Sobel 2004)。在各种统计学方法中,倾向值匹配(propensity score matching)受到越来越多的重视,并在教育学、传染病学以及社会学等领域得到了广泛的应用(Harding 2003;Morgan 2001;Morgan & Harding 2006;Normand et al. 2001;Smith 1997)。

然而到目前为止,很少有研究专门探讨倾向值匹配方法的历史、发展及其对调查研究的意义。此外,对于为什么倾向值匹配的统计结果能够代表因果关系而不仅仅是相关关系这一问题也缺少专门的论述。这些问题本身是实施倾向值匹配之前需要了解的“元方法论”(meta-methodology)问题。但是很可惜,很多已有的研究片面强调了技术上的可操作性而没有深究其背后的方法论意义。本章试图通过探讨这些问题来填补这一空白。

具体而言,本章主要分为四个部分。在第一部分,笔者将系统地梳理倾向值匹配方法的历史、发展以及它对社会学调查研究的意义。在第二部分,笔者主要从科技哲学和统计学两个研究传统出发讨论为什么对倾向值匹配的结果可以进行因果性解读。在第三部分,笔者将把倾向值匹配与海克曼的选择模型、回归中断设计和工具变量方法进行比较,以此凸现出倾向值匹配方法的独特性。最后,笔者简要讨论一下倾向值匹配方法的局限性,并总结本章内容。2.1倾向值匹配:历史、发展及其对调查研究的意义

倾向值(propensity score)作为分析因果关系的概念工具最早出现在1983年罗森鲍姆(Rosenbaum)和鲁宾(Rubin)合写的一篇名为《倾向值对于观测性研究中因果效果的中心作用》(The Central Role of Propensity Score in Observational Studies for Causal Effects)的论文中(Rosenbaum & Rubin 1983)。其中,倾向值是指被研究的个体在控制可观测到的混淆变量的情况下受到某种自变量影响的条件概率。在一般的实证研究中,由于存在很多其他潜在的混淆变量来干扰自变量和因变量之间的关系,研究者通常很难发现二者之间的“净效果”(net effects)。例如,大学教育的收入回报可能受到年龄、性别以及地区差异这些混淆变量的影响。这些混淆变量对因果效果的影响通常被称为选择性误差(selection bias),而通过倾向值匹配的方式来控制和消除选择性误差则是罗森鲍姆和鲁宾论文的题中之义。罗森鲍姆和鲁宾用数理方法证明:通过将这些混淆变量纳入逻辑斯蒂回归模型或者Probit模型来产生预测个体受到处理变量影响的概率(倾向值),研究者就可以通过控制倾向值来遏制选择性误差对于因果关系的影响从而保证了因果结论的可靠性。在各种控制倾向值的方法中,匹配(matching)是比较简便易行的。其基本逻辑是将受到自变量影响的个体与那些没有受到影响的个体按照倾向值得分进行配对,即保证匹配起来的个体的倾向值得分相等或者近似。再次回到大学教育的例子,倾向值匹配过程就是将没有受过大学教育的人和受过大学教育的人配对并保证他们的倾向值(即上大学的概率)相同或者近似。这样做可以保证上过大学和没上过大学的两组个体在接受某种处理变量(是否上大学)影响方面存在近似的概率,即倾向值得分。因为已有的可观测到的混淆变量已经被用于预测倾向值得分,因此这些混淆变量的影响在基于倾向值的配对过程中被间接控制起来。故而,上过大学的和没有上过大学的两组个体在收入水平上的差异就只能归因于大学教育的有无,而不是其他混淆变量。至此,研究者便在某种程度上遏制了选择性误差。

罗森鲍姆和鲁宾的思想和计量经济学家海克曼(James Heckman)的想法不谋而合。从样本选择(sample selection)的角度出发,海克曼认为社会科学家在研究某个处理变量的效果时会不自觉地选择一些样本而忽视另外一些样本。例如,针对某个特定的研究项目,不同的个体有不同的参与意愿(例如女性或者老年人更容易参加到某些项目中去),或者研究者对于参加研究项目的个体选择有特定的倾向(例如有的研究者比较偏好选择大城市的人口,有的研究者选取的个案男性居多,等等)。这些选择性效果(selection effect)使得研究者最后能够接触到的样本必然是有一定“偏向的”(biased),或者说是片面的。分析一个带有选择性的样本,我们得出的结论也会由于选择性效果的“污染”而出现偏差(Heckman 1979;Heckman & Smith 1995)。面对这种情况,海克曼认为在进行量化评估(evaluation)研究时需要做两步工作。第一步是建立模型来考察个体接受处理变量影响的可能性,第二步则是在控制这种参与可能性的前提下来考察我们所关心的处理变量对于因变量的效果。因此,海克曼的方法也被称为“两步估计法”(two-step estimator)(Heckman 1978,1979)。

我们今天所探讨的倾向值匹配可以说是罗森鲍姆和鲁宾的统计学传统与海克曼的计量经济学传统的结合。罗森鲍姆和鲁宾通过逻辑斯蒂回归方法将混淆变量回归成为一个倾向值,这恰恰是海克曼两步估计法中的第一步,即通过模型估算个体在某个研究中接受处理变量特定水平影响的概率,二者在这一步是殊途同归的。然而,二者的一个不同点在于他们对待第一步分析的结果(或曰倾向值)有一定差异。在得到具体的倾向值得分之后,罗森鲍姆和鲁宾提出了多种控制倾向值的方法:除了匹配之外,也可以将倾向值分层(stratification)或者细分(sub-classification),然后在每个层次或者类别内探索因果关系。在海克曼的计量经济学传统中,倾向值或者说第一步分析的结果主要是作为一个新的变量被纳入已有的计量经济模型中的(这一点在后面的讨论中会具体展开)。需要指出的是,二者只是在处理第一步模型结果(倾向值得分)的具体方式上不同,本质上这两个传统的基本逻辑和思路是一致的,即在考察自变量效果之前需要通过模型来估计并控制个体受到自变量影响的概率。在下面的讨论中,我们会具体比较海克曼的选择模型与倾向值匹配方法。

在社会学领域中,早在1997年,宾夕法尼亚大学社会学系的赫伯特·史密斯(Herbert Smith)就已经使用倾向值匹配的方法研究了医院改革对于患者死亡率的影响(Smith 1997)。然而,史密斯这篇文章的主要目的是展示倾向值匹配方法,因此是作为方法论的论文发表在《社会学方法论》(Sociological Methodology)期刊上的。两年以后,哈佛大学的克里斯托佛·温希普(Christopher Winship)和斯蒂芬·摩尔根(Stephen Morgan)在《美国社会学年鉴》(Annual Review of Sociology)上系统梳理了如何通过统计方法进行因果推论,其中也谈到了倾向值匹配(Winship & Morgan 1999)。总体上说,在20世纪末,社会学领域内对于倾向值匹配的主要关注点还是在于熟悉倾向值匹配的基本逻辑,将其作为一种普遍适用的统计方法去研究实质问题则到21世纪才渐渐兴起。2003年,当时还在哈佛大学读书的大卫·哈尔丁(David Harding)在《美国社会学杂志》上发表了一篇论文,研究了社区贫困程度对于社区少年辍学以及早孕事件的影响。其中,倾向值匹配开始像多元回归那样作为一种统计技术来验证和发展已有理论(Harding 2003)。也正是在这一阶段,倾向值匹配的软件模块开始被开发出来并嵌入一般的统计软件中。例如,萨斯喀·贝克尔(Sascha Becker)和安德里亚·伊齐诺(Andrea Ichino)在2002年发布了可以嵌入斯塔特(Stata)用于倾向值匹配的模块pscore (Becker & Ichino 2002)。埃德温·鲁汶(Edwin Leuven)以及芭芭拉·夏内西(Barbara Sianesi)也在一年以后发布了他们所编写的用于倾向值匹配的模块psmatch2(Leuven & Sianesi 2003)。这些统计模块的开发使得倾向值匹配开始在社会学领域内得到广泛的应用。根据哈佛大学社会学系安卫华的梳理,截至2009年,在《美国社会学评论》和《美国社会学杂志》上发表的论文中,利用倾向值匹配技术的超过了200篇,内容涉及教育社会学、互联网使用、失业问题、健康问题等多个主题(An 2010)。可以说,在当今的社会学研究中,倾向值匹配已经逐渐发展成为一个普适的统计研究方法,得到越来越多的重视。

倾向值匹配在社会学领域内的兴起并非偶然,这和社会学对于大规模调查资料的日渐依赖是分不开的。正如本书第1章所言,和随机实验设计不同,基于调查资料的研究被称为“观测性研究”(observational study)(Rosenbaum 2002)。在随机实验中,选择性误差可以通过随机化(randomization)的方法来克服,但是在观测性研究中,类似的随机化是不可能完成的。因此,社会学家们基于调查资料去探究任何两个变量关系的时候都不可避免地会遇到其他混淆变量的影响。例如,珍妮·布兰德(Jennie Brand)和谢宇在2010年《美国社会学评论》的一篇论文中列举了在研究大学教育和收入关系时所存在的选择性误差(Brand & Xie 2010)。一方面,很多人之所以能够上好大学是因为他们的个人能力较其他人高,而这些人在未来的工作中也很有可能表现得更好从而收入更高。如果我们的研究样本大部分都是高智商群体,那么就会“显得”大学教育带来高收入。但实际上,大学教育对收入的影响是被个人能力这个变量给“膨胀起来”(inflated)了。另一方面,很多人上大学概率低是由于他们家庭贫困,难以负担教育开销。对于这些人,只要他们完成了大学教育,即使毕业后的收入只是达到平均水平,也比之前有一个很大的飞跃。这时,如果我们的样本偏重于家境贫寒的人,我们就会发现大学教育再一次“显得”对收入提升有很大的促进作用,而此时的混淆变量就是家庭经济背景。对于这种选择性误差,我们当然也可以通过海克曼选择模

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载