回归分析(修订本)(txt+pdf+epub+mobi电子书下载)


发布时间:2020-08-18 10:04:40

点击下载

作者:谢宇

出版社:社会科学文献出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

回归分析(修订本)

回归分析(修订本)试读:

序言

“社会学不像物理学。唯独物理学才像物理学,因为一切近似于物理学家对世界的理解都将最终成为物理学的一部分。”——奥迪斯·邓肯

我一直认为,社会科学与物理学存在本质上的差别。社会科学的分析单位是异质性的或彼此区别的,而物理学的分析单位则被假定为同质性的或可相互替换的。我将社会科学这一重要而普遍的属性称作[1]“变异性原理”(Variability Principle)。

由于变异性原理的存在,社会科学要发掘出“放之四海而皆准”的规律注定是困难的,甚至是不可能的,尤其在个体层次上更是如此。正因为这个原因,社会科学似乎是一门软性的、不严谨的科学。这也是许多学者一直对社会科学中的定量方法提出质疑而偏好定性方法的主要原因。

然而,那些主张定性方法的学者并没有意识到,使定量方法遭到质疑的特性——变异性——也同样使定性研究遭到质疑,甚至问题更为严重。例如,因为每一个分析单位都不同于另一个分析单位,建立在单一个案基础上的定性研究得出的结论很可能会因案例的选择而发生根本性的改变。

我曾说过,“尽管带有自身的缺陷、局限和不完善,定量方法依然是理解社会及其变迁的最佳途径。在黑格尔哲学的意义上,那些使定量社会学不可靠、成问题的特征恰恰同时使它成为研究社会现象的不可缺少的工具,即……变异性原则。变异是人类社会的本质。没有一种定量的方法,我们就无法表述这种变异性。其他可供选择的方法,比如思辨、内省、个人体验、观察和直觉,确实也能增进我们的理解。不过,我大胆地提出,它们能够起到补充作用,但不应取代定量方法[2]成为当代社会学的核心”。

本书所介绍的统计方法常用于描述社会现象的属性、规律性以及变异性,这些方法可被纳入回归分析这一广义范畴中。毋庸讳言,这些方法都有缺陷,因为它们都难以精确地反映复杂的社会现实,但这并不妨碍它们成为社会科学研究的有用工具。有的学生或许会有这样的错觉,即社会科学研究中存在某种完美的方法,或者某些方法本质上优于另一些方法。事实并非如此。没有一种完美的方案可以解决社会科学中所有方法论上的难题,也没有哪种方法能在一切情境中都必然地优于另一些方法。最好的方法就是最适用于既定研究情境的方法。

所有社会科学中的统计方法都存在这样或那样的缺陷。因此,对我们而言,重要的是能够在将这些方法有效地运用到研究情境之前就知道它们的局限以及为什么会有这些局限。在本书中,我们特别关注了社会科学应用中各种统计方法的局限性以及在适用条件下改进这些方法的途径。权衡取舍在实践中普遍可见,因此,我希望学生们能够以灵活的思维来学习这些统计方法。通常,方法论上更大的解释力来自更多的信息——或是更丰富的数据,或是更强的理论基础。1996年,我在《美国社会学杂志》上评论Charles Manski 发表于1995年讨论社会科学中识别问题的著作时,曾指出,“当观测数据不足时,我们只有通过强假定来获得清晰的结果。统计学中没有免费的信息。要么你收集它,要么你假定它”。

本书是根据我于2007年夏季在北京大学—密歇根大学学院举办的“调查方法与定量分析实验室项目”中教授回归分析课程时的讲义编写而成。我知道,目前中国国内有关回归分析的教材、专著和译著不胜枚举,这些著作都为中国学生与研究者了解和学习回归方法提供了有益的帮助。我认为,在社会科学领域,一本好的定量研究教材,既要涵盖量化研究与统计方法的重要理论,又要将方法原理与示范案例紧密相联,与此同时,对中文教材而言,最好还能结合中国的实际调查数据,以帮助读者对这些方法有更全面、更深入的了解。这本书是以CHIP88数据作为主要的示例数据,之所以选用该数据,一方面是因为我在1996年与韩怡梅合作的文章中使用过这一数据,对其有较为详细的了解;另一方面是因为CHIP88数据也是许多其他学者做中国研究时常用的数据来源,因为该数据的全部原始个案和相关技术文档均可公开获得。我希望,借助对CHIP88原始数据所做的实例分析,读者既能将回归方法的基本原理和应用场合牢记于心,同时也能结合中国的实际研究数据来从事规范的社会科学定量研究。

这本书是许多人共同努力的成果。王广州教授在协调初稿写作阶段起了重要作用,我课堂上的六位学生——宋曦、刘慧国、王存同、李兰、傅强、巫锡炜,根据讲义编写了本书初稿中的部分章节。作为本身就有很强学术取向的学生和学者,这七人均是本书的合作者。我也从於嘉、赖庆、穆峥、周翔、黄国英、陶涛、任强、张春泥、程思薇在本书初稿读校的参与中获益良多。后记中细述了他们对本书所做的贡献。我对这些参与者的出色工作,还有历时三年的编写过程中他们同我的友谊以及对我的支持表示深深的感谢。对本书可能仍然存在的纰漏,我将独立承担责任。

本书的出版也得益于社会科学文献出版社的支持与鼓励。我在此感谢该社的谢寿光社长和杨桂凤编辑。正是他们致力于为中国社会科学界出版学术书籍的决心与付出鼓舞着我完成此书。

在此,还要感谢北京大学长江学者特聘讲座教授基金和密歇根大学Fogarty基金的资助。

最后,我还要感谢在我学术生涯中历经的无数老师与学生。他们让我知道,我对回归分析的理解仍旧有限。如果要论及此书的价值的话,它反映的是那些曾与我合作或共过事的人的集体智慧。我深知,与他们的合作和共事是我的幸运。谢宇于安娜堡,2010年5月20日

[1] 谢宇,2006,《社会学方法与定量研究》,北京:社会科学文献出版社,第15~16页。

[2] 谢宇,2006,《社会学方法与定量研究》,北京:社会科学文献出版社,第7~8页。

第1章基本统计概念

1.1 统计思想对于社会科学研究的重要性

社会科学和自然科学存在本质的区别:自然科学以“发现”永恒的、抽象的、普遍的真理为最终目的,这是其精华所在;而社会科学则以“理解”暂时的、具体的、特定的社会现实为最终目的。历史上很多人曾希望在社会科学领域找到一种能够适用于各个方面的真理,并且为之做过许多尝试,但都没有成功。其实,定量研究方法并不可能使我们找到像自然科学那样的普遍真理。在社会科学研究中,我们的目的是理解现实社会(谢宇,2006)。

自然科学中真理的存在实质上反映了自然界中不同个体之间的同质性,即具体个体之间没有本质的差异。这一信念使自然科学家们认为,具体的、个体间的、看得见的差异只不过是表面的、人为的和微不足道的。然而,经验常识和从古到今的尝试表明,对于社会现象而言,异质性才是其突出的特性。由于具体个体间存在本质的差异,从而导致人们在社会科学研究中不能将所有个体等同对待。因此,社会科学中并不存在普遍真理,只存在一些原则和规律。对这些原则和相关逻辑进行探讨就是社会科学理论的任务。同时,受制于道德伦理和实际可行性,社会科学研究者基本上无法像自然科学家那样通过对实验室中的各种相关变量进行控制,从而寻找到社会现象的规律。因此,社会科学往往要依靠社会调查,通过样本来推断总体中的规律。这时,借用统计方法来完成研究工作便成为一种必要的手段。

社会现象的异质性是研究者在社会科学研究中面临的最大难题,它使社会科学的任何研究方法都具有局限性,统计方法也不例外。正因为如此,社会科学的任何结论,凡是利用统计方法得到的,都必然[1]包含一定的假设条件。可以说,学习定量研究方法的一个关键就是了解定量研究方法本身的缺陷、局限和不完善。而这些都根源于社会现象的异质性。

尽管定量研究得到的结论都建立在一定的假设条件上,也不一定具有普遍意义,但定量研究方法却是研究社会现象不可缺少的工具。这是因为,如果没有这种方法,我们就无法很好地捕捉和表述研究对象的变异性。其他可供选择的方法(比如思辨、内省、个人体验、观察和直觉等)确实也能增进我们对社会现象的理解,但这些方法都不能很好地反映社会现象的异质性。当然,它们能够起到一定的补充作用,但不应取代定量研究方法成为当代社会科学的核心。换言之,定量研究方法依然是理解社会及其变迁的最佳途径,它可以使我们避免一些因意识形态或先入之见而导致的偏见,确保研究活动的“价值中立”,从而得到更为客观和全面的认识。比如,它可以让我们知道从某一研究得出的结论在总体层面上是否有偏差或在多大范围内是有效的;它也使我们可以通过统计方法发现组间差异和组内个体差异。而关于组间差异和组内差异的统计信息就是我们想得到的有关社会现象的规律。

定量研究方法已成为现代西方社会科学研究的主要手段,但其在中国的发展仍处于初期阶段,在各种研究中的应用还很少见,这导致中国社会科学与国外主流社会科学之间的脱节和交流的匮乏。当前,中国正处在一个迅速变化的社会背景下,各种社会问题和矛盾不断涌现,这为社会科学研究提供了极好的契机。对研究者而言,学习并使用定量研究方法来研究、解决问题将是非常有价值的。

定量研究方法的核心内容之一是统计学。而统计学本身就是一门专业学科,具有自己的学科体系、逻辑推理和符号语言。对从事社会科学研究的人来说,我们需要掌握这一学科体系、逻辑推理和符号语言。但我们同时也应该知道统计学的知识只是社会科学的工具,它本身并不能取代对所研究社会现象的了解和社会科学研究所必需的研究设计。本书仅讨论社会科学研究中常见的与回归分析有关的统计学问题,而不讨论社会科学理论和社会科学的研究设计方法。所以,本书所讨论的主要内容与具体研究问题和理论取向无关。我们希望那些对定量研究持负面态度和批评意见的学者也能学习统计知识,因为只有在真正理解了统计学思想之后,一个人才能对定量研究方法进行评价。

1.2 本书的特点

本书主要针对已经修读过基础社会统计学课程或者具有一定统计学基础知识的学生或研究者,希望读者通过学习本书能够对社会科学中回归模型的理论和实际操作有更全面、更深入的了解。除了讲解统计理论外,本书还将结合具体问题,利用统计软件,指导读者如何利用这些方法解决实际研究问题。本书具有两大特点:第一,除了对经典的多元回归模型进行比较深入的讲解外,对一些重要的、非经典的回归模型也进行了扩展和补充;第二,不是仅仅停留在理论层面,同时更强调实际操作的重要性。在大部分章节中我们都会使用实际研究数据,通过实例分析和相应的Stata程序来讲解统计知识在研究中的应用以及对数据研究结果给出阐释。在数据使用上,我们选用了1988年和1995年两次中国居民收入调查(CHIP)数据,1990年美国综合社会调查(GSS)数据,1998年、2000年、2002年和2005年“中国老年人健康长寿影响因素调查”(CLHLS)项目数据,以及1972年美国高中毕业生有关职业选择问题的调查数据。其中,使用最多的是1988年中国居民收入调查(以下简称CHIP88)数据中城市居民的部分。

CHIP88数据来自1988年由中国社会科学院经济研究所主持的“中国居民收入分配”调查。它是中国改革早期较具规范性的社会调查数据,因此在中、英文文献中被广泛采用。CHIP88包括两个部分:一个是针对城市居民的调查,另一个是针对农村居民的调查。此次调查采用分阶段抽样的方法:先从30个省级行政单位中抽选出10个省份,然后再从这10个省份的434个城市中抽选出55个城市作为代表。城市部分的调查在1988年3~4月进行,共调查9009户,调查问卷收集了每一户中所有家庭成员的资料,包括其基本情况、受教育情况和就业情况。在删除缺失数据和不完整观测个案之后,总共得到15862条居民个体的观测数据。

在本书中,我们统一使用Stata 9.0作为示例数据的统计分析软件。由于算法和默认设定上可能存在的差异,采用不同软件和同一软件的不同版本对复杂模型进行参数估计所得的结果可能会存在细微差异。

1.3 基本统计概念

本书假定读者已经对社会统计学有一定程度的了解,下面将简要回顾社会统计学中的一些基本概念以及它们的性质,对这些内容的理解将有助于我们更好地学习回归理论。1.3.1 总体与样本

在社会科学定量研究中,我们首先需要建立区分总体(population)和样本(sample)的敏锐意识。本章开篇提到,异质性问题是在个体间普遍存在的,但如果不同的个体在分类上确实满足某种定义,那么我们就将它们组成的总和称为总体。需要注意的是,总体是一个封闭的系统,它具有时间上和空间上的清晰界限。例如,2005年的所有中国人在定义上就是一个界定完好的总体。2005年所有年龄在20~35周岁拥有北京户口的已婚妇女也是一个界定完好的总体。后一个例子可以看作是前一个例子对应总体的子总体。

样本是总体的一个子集。比如,我们关心2005年中国居民的受教育程度和收入之间的关系,那么这项研究的总体就应该是2005年的所有中国居民。但在实际研究过程中,由于研究技术和经费的限制,我们不可能对所有中国居民进行分析,这时我们就需要从总体中按一定方式抽取一部分个体(比如一万人)进行调查,那么这一万人就构成了该总体的一个样本。当然,从理论上讲,我们从同一总体中可以抽取出若干个不同的样本。

由于个体异质性的存在,来自总体的某一个体并不能代表总体中的另一个体,而个体之间也是不能相互比较的。因此,我们不能利用样本对总体中的个体进行任何推断。但是,概括性的总体特征是相对稳定的。总体的这种特征就被称为参数(parameter)。总体参数可以通过总体中的一个样本来进行估计。通过样本计算得到的样本特征[2]叫做样本统计量(sample statistic)。当然,样本提供的信息是有限的。那么,接下来的问题就在于如何依据样本信息来认识所研究的总体。统计推断(statistical inference)在这里扮演着关键角色。所谓统计推断,就是通过样本统计量来推断未知的总体参数。统计学的主要任务就是关注这种被称作“统计推断”的工作。尽管可以通过不同的样本统计量对总体参数进行估计,但是为了方便起见,在本章中,我们主要讨论把原来适用于总体数据的计算式运用到样本数据,所得到的样本统计量被称为“样本模拟估计式”(sample analog estimator)。根据稍后将要讲到的大数定理,随着样本量的增加,样本逐渐趋于总体,而样本统计量(样本模拟估计式)和总体参数之间的差别也会逐渐消失。1.3.2 随机变量

随机变量(random variable)是指由随机实验结果来决定其取值的变量。它具有两个关键属性:随机性和变异性。随机性也就是“不确定性”。在社会科学研究中,这种“不确定性”主要来自两个方面:一方面是由受访者个体行为或态度本身的不确定性造成的;另一方面来自群体中个体间的异质性,因随机取样而产生。

在实际研究中,作为随机变量的因变量的测量类型决定了研究者[3]应该选择何种统计分析方法。丹尼尔·A.鲍威斯和谢宇(Powers & Xie,2008)在《分类数据分析的统计方法》一书中曾经根据三种标准将因变量划分为四种测量类型,如图1-1所示。图1-1 随机变量的测量类型

首先,就定量和定性这一划分而言,在定量变量(quantitative variable)中,变量的数字取值具有实质性的意义;然而在定性变量(qualitative variable)中,变量的数字取值本身并没有什么实质意义,只是为了表明类别间的互斥性。例如,在贫困问题研究中,将贫困状况编码为“1=贫困”和“0=非贫困”,这里的数值1和0仅仅是划分研究对象是否处于贫困状态的标识而已,并没有表达贫困程度的含义。换句话说,定性变量的数字取值只是不同类别的代号。因此,定性变量都属于分类变量(categorical variable)。

其次,对定量变量而言,可以进一步将其划分为连续变量(continuous variable)和离散变量(discrete variable)。连续变量也[4]称为定距变量(interval variable)。连续型随机变量的取值可以是某个区间中的任意一个数值。诸如收入和社会经济地位指数这种变量,在其可能的取值范围内,通常都可以将它们当作连续变量对待。一般情况下,离散变量的取值都为整数,并且代表事件发生的次数。比如家庭子女数、某地区在某一年中发生的犯罪案件数以及某中学在某一年份考上重点大学的人数等。定量变量中的离散变量也属于分类变量。

再次,对定性变量而言,可以进一步将其划分为定序变量(ordinal variable)和名义变量(nominal variable)。定序变量利用了变量取值次序先后的信息,但这些数值也仅仅反映着排列次序,对任意两个相邻取值之间的距离却没有过多的要求。举例来讲,我们将人们对于同性恋关系的态度按照以下规则进行编码:1=强烈赞成,2=赞成,3=中立,4=反对,5=强烈反对。这里,1~5的取值就是人们对于同性恋关系所持反对态度由弱到强的排序,但是相邻数值之间的距离并不是相应态度在真实程度上的差异的体现。对于名义变量而言,它的取值分类之间不涉及任何排序信息,取值之间的距离也没有任何实质意义。比如,婚姻状况(1=未婚,2=已婚,3=离婚,4=丧偶)或者性别(1=男性,2=女性)取值之间的差值并不具有任何意义。很多情况下,名义变量和定序变量之间的界限并不很清晰。出于不同的研究目的,同一个变量有时可以作为定序变量处理,有时也可以作为名义变量处理。在第12章当中,我们将进一步讨论该问题。1.3.3 概率分布

对于一个离散型随机变量X,由于总体异质性的存在,来自同一总体中的各个元素互不相同。令i(i=1,2,…,N,N表示总体的大小)表示任意一个(第i个)元素,那么随机变量X的概率分布(probability distribution)是指对应每一个元素的值x都存在一个概i率。也就是说,概率分布中对于变量X的每一个取值x,都有一个与之对应的概率P(X=x),且所有互斥事件的概率大于0,这些概率的合计为1。

比如,我们将个体的收入X划分成高(X=1)、中(X=2)、低(X=3)三个类别,各类别收入的概率如下表1-1所示。表1-1 收入的概率分布

则三者合起来就构成了收入变量X的一个概率分布。离散型随机变量的常见概率分布类型有二点分布、二项分布、超几何分布、泊松分布等。

由于连续型随机变量X的取值x是连续不间断的,因而,对于其i概率分布,我们无法像对离散型随机变量那样一一列出,此时,我们用概率密度函数f(x)(probability density function,简称pdf)来描述其概率分布。概率密度函数具有以下性质:(1)。这表明连续型随机变量在区间(-∞,∞)上的概率为1。(2)。这表明连续型随机变量在区间(a,b]上的概率值等于密度函数在区间(a,b]上的积分。我们将在下文中对F(·)函数进行解释。

常见的连续型随机变量的概率分布类型有均匀分布、指数分布、正态分布(高斯分布)等。比如,对于标准正态分布,其概率密度函数为:1.3.4 累积概率分布

一个离散型随机变量X的累积概率分布(cumulative probability distribution)是指对于所有小于等于某一取值x的累积概率P(X≤ix)。比如,对于上面提到的收入的例子,其累积概率分布如下表1-2i所示。表1-2 收入的累积概率分布

对于离散型随机变量,我们可以很清楚地对各个具体取值的概率进行描述,因此也可以很容易地根据其概率分布得到对应的累积概率分布。但是对于连续型随机变量,其取值是无穷无尽的,所以不可能将其一一列举出来,但我们可以通过对其概率密度函数求积分得到其累积概率分布,即:

图1-2和图1-3分别给出了随机变量X的概率密度函数与其累积概率分布的示意图。图1-2 概率密度函数图图1-3 累积概率分布图1.3.5 随机变量的期望

对于离散型随机变量X,其期望(expectation)[记作E(X)]的数学定义为:

其中:P(x)表示X=x的概率。符号E(·)(读作“……的期ii望”),被称为期望运算符。

期望其实与均值类似,是一个平均数,但两者之间的区别在于:均值是根据某一变量的一系列已知取值求得的,因此,均值往往被特定地用来指称样本的一个特征;而期望代表的是整个总体的平均数、一个未知的总体参数,因此,它只是一个理论值。比如,掷一个质地均匀的硬币,当试验次数无穷大时,正面出现的比例应该是0.5,或者说期望值为0.5。但即使我们试验掷硬币很多次(如10000次),得到正面的比例也不太可能正好是0.5。一般情况下,得到的会是一个接近0.5的值。但此时,期望值仍然是理论上的0.5,而不是实际得到的一个接近0.5的值。

计算连续型随机变量的期望需要用到概率密度函数。如果连续型随机变量X的数学期望存在,且其密度函数为f(x),那么其期望为:

但就社会科学研究而言,在现实生活中几乎没有绝对的连续型随机变量存在。比如收入这个变量,虽然我们把它看作是连续变量,但也不可能存在收入为无穷的情况。所以,在实际应用中,我们有时把它作为离散型随机变量来处理。[5]

比如,假设我们把CHIP88数据看作一个总体,而不是来自总体的一个样本,那么1988年中国城市居民年平均收入(earn)的期望为1871.346元。在这里,收入被视为一个连续型随机变量。

对于一个离散型变量,比如CHIP88数据中的性别这个二分变量[6](dichotomous variable),我们将其编码为一个虚拟变量(dummy [7]variable),其中,1=female,0=male,并计算该变量的期望:

计算出的性别的期望为0.4782。我们通过观察性别这一虚拟变量的分布可以发现,其期望实际上等于女性人数占总人数的比例。希望读者注意这一点,因为正是该特性使得虚拟变量在回归分析中具有特殊的意义。1.3.6 条件期望

随机变量的条件期望(conditional expectation)是指,当其他随机变量取特定值时某一随机变量的期望。设X、Y是两个离散型随机变量。当X=x时,Y的期望被称作Y的条件期望,记作:i

条件期望具有以下性质:(1)若C为常数,那么E(C|X)=C;(2)若k,k为常数,则E[(kY+kY)|X]=kE(Y|12112211X)+kE(Y|X);22(3)若X与Y相互独立,则E(Y|X)=E(Y);(4)E(Y)=E[E(Y|X)](即全期望公式,或迭代期望定律)。

我们仍将CHIP88数据看作一个总体,那么,我们可以计算得到女性年平均收入(earn)的条件期望为E(earn|sex=1)=1702.654元,即:1.3.7 迭代期望定律

迭代期望定律(law of iterated expectations,简称LIE)表达的是,条件期望的期望等于非条件期望,即:E(Y)=E[E(Y|X)]x

注意:符号E读作“对X求期望”,这个期望是基于X的边缘分布x下随机变量Y的期望。在不致引发混淆的情况下,下标可以省略。我们将在第5章的有关证明中用到这一定律。1.3.8 随机变量的方差

离散型随机变量X的方差(variance)被定义为:

其中,P(x)表示X=x的概率,即P(X=x)。符号Var(·)(读iii作“……的方差”)被称为方差运算符。

根据上述定义,我们可以看到随机变量X的方差其实就是其离差2平方[x-E(X)]的加权平均,所以也可以用期望的形式将其定义i为:2Var(X)=E{[X-E(X)]}

也可表示为:22Var(X)=E(X)-[E(X)]

后一表达式在实际计算过程中经常会用到。

期望是总体重要但未知的特征之一,我们往往根据样本均值对其加以估计。样本均值(记作)是反映样本数据集中趋势的统计量,其计算公式为:2

与此相同,总体方差(记作σ)作为总体的另一特征,也是未知的,也往往需要通过样本方差来估计得到。不过,计算样本方差时我22们必须使用修正自由度的样本方差(记作S)来作为总体方差σ的无偏估计。其计算公式为:

这里,分母使用n-1而不是n,这是因为计算样本方差需要先估计期望值,这样便损耗了一个自由度。因此,该样本方差也被称为样本的调整方差。

Stata的命令summarize能够直接得到变量的样本标准差(下面会马上对此进行解释),即上面公式中的S。将标准差平方后即可得到2样本的调整方差S。1.3.9 随机变量的标准差

随机变量X的方差的正平方根被称作X的标准差(standard deviation),记作σ(X)。其数学表达为:

符号σ(X)(读作“……的标准差”)被称为标准差运算符。在统计分析中,我们一般用σ(X)表示总体的标准差,用S.D.或S表示样本的标准差。从前面Stata给出的结果我们得知,根据1988年中国城市居民样本得到的年平均收入的样本标准差为1077.32元,我们可以将其视为总体标准差的估计值。

非常容易和标准差混淆的一个概念是标准误(standard error,简称S.E.)。标准差是总体中所有个体与期望之间离差平方的加权平均的正平方根。样本标准差是从总体抽取的某个样本的特征,而标准误则与抽样分布有关,它被用来测量使用统计量来估计参数时的抽样误差。前面已经提到,对于某一总体,我们可以得到若干个规模为n的随机样本,我们可以分别对这些样本用同样的计算得到不同的反映某同一特征(即参数)的统计量(比如期望或方差),这些不同的统计量本身就会构成一个分布。我们称该分布为“抽样分布”。实际上,所谓抽样分布也就是(想象中的)样本统计量的分布。作为一种特殊的分布,抽样分布也有标准差。为了与样本标准差相区别,我们将该标准差称作标准误,用S.E.表示。它表示的是样本统计量所构成的分[8]布的离散程度。根据中心极限定理(Central Limit Theorem),对于大样本,用样本均值来估计期望时,样本标准误和总体标准差之间的关系为:。在下面两个Stata命令中,我们分别计算得到了CHIP88数据中城市居民年平均收入的标准差和标准误。Std.Dev.一列表明,在CHIP88这个样本中,收入分布的标准差为1077.32元。Std.Err.一列给出了平均收入的标准误,它表示如果我们抽取样本量为n=15862的多个随机样本,每一个样本都能得到一个相应的收入均值,这些样本均值将构成一个新的分布,其标准差为8.5539。在统计分析上,标准误越小,测量的可靠性越大;反之,测量就不大可靠。因此,在统计分析中,一般都希望统计量的标准误越小越好。

由此我们看到,统计分析经常会涉及总体分布、样本分布和抽样分布的问题,我们在第2章中还会对这些内容进行详细介绍。在表1-3中,我们以均值和标准差为例,列出这三种分布的关系。表1-3 总体分布、样本分布和抽样分布之间的关系1.3.10 标准化随机变量(standardized random variable)

如果一个随机变量X具有期望E(X)和标准差σ(X),那么,新的变量:

被看作随机变量X的标准化形式。其含义在于,以标准差为单位来测量观测值距离平均值的距离。因此,标准分是一个无量纲的纯数。比如,对于CHIP88数据,我们想对年平均收入(earn)进行标准化。首先计算出收入的均值和标准差作为参数估计。

然后生成新的变量earn_st。. generate earn_st=(earn-1871.346)/1077.32

标准化以后的新变量变成了一个均值为0、方差为1的变量。在多元线性回归中,由于不同自变量的测量单位通常并不一致,因而得到的回归系数通常也不能直接进行相对大小的比较。但如果我们对随机变量进行标准化,消除了变量各自测量单位的影响,得到的标准化回归系数之间就能够进行比较了。标准化经常被用来解决由于变量测量单位不同而导致的结果不可比的问题。1.3.11 协方差

两个离散型随机变量X和Y的协方差(covariance)[记作Cov(X,Y)]被定义为:

其中:P(x,y)表示X=x且Y=y的概率,即P(X=x∩Y=y)。ijijij符号Cov(·)(读作“……的协方差”)被称为协方差运算符。

当X和Y彼此独立时,有Cov(X,Y)=0。协方差用于测量两个随机变量之间的线性关系。注意,这里强调了“线性”这个词。这意味着,如果两个变量的协方差等于0,它们之间不存在线性关系,但还可能存在其他形式的关系(比如曲线关系)。

与方差的定义类似,我们也可以利用期望的运算式来定义协方差,即:Cov(X,Y)=E{[X-E(X)][Y-E(Y)]}

或者表示为:Cov(X,Y)=E(XY)-E(X)E(Y)

其实,方差是协方差的一个特例,也就是说,X的方差就是X与其自身的协方差。

以变量年平均收入earn和变量受教育年限edu两者的协方差为例,可以利用Stata的如下命令计算协方差:

计算结果输出的是一个2×2的方差-协方差矩阵。其中,对角线元素为变量的方差,非对角线元素则是对应变量之间的协方差。由此,6我们看到,年平均收入与受教育年限的方差分别为1.2×10和9.7496,两者的协方差为271.465。1.3.12 相关系数

相关系数(correlation coefficient)是用来度量变量间相关关系的一类指标的统称。但就参数值而言,常用的是皮尔逊积矩相关系数(简称相关系数),它是对两个连续型随机变量之间线性关系的标准[9]化测量。将随机变量X和Y的相关系数记作ρ(X,Y),可根据下式计算得到:

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载