SPSS回归分析(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-01 16:37:41

点击下载

作者:(德)Christian FG Schendera

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

SPSS回归分析

SPSS回归分析试读:

前言

回归分析及其各种变型在科学和研究领域是最常用的统计方法(例如,参见著作 Hsu,2005、Pötschke&Simonson,2003、Elmore&Woehlke,1998,1996和Goodwin&Goodwin,1985)。各个学科领域、科研工作以及统计学的发展既对这些统计方法不断提出更高的要求,同时又起到巨大的推动作用(例如,参见Rigby 等人2004年的著作和Ripoll等人1996年的著作)。

某些作者也将回归分析称为最古老的统计方法之一。Stanton(2001)认为,线性回归基本统计方法的建立起源于 Karl Pearson(例如,1896 年发表的论文)的论文。Howarth(2001)则认为,线性分析基本理论及其使用方法甚至要追溯到Bond在1636年发表的一篇论文(例如,参见Finney,1996)。

回归分析发展史上的里程碑,是 18 世纪中叶人们创建了基本的计算方法后,从而与此相关地发明了“最小二乘”算法。直到 20 世纪中期发明了计算机之后,多元回归分析方法才被越来越多地应用于海量(并且容易出错)计算,从而加快了回归分析方法的应用、传播和发展。回归分析方法发展史上的其他(任意选出的)里程碑如有20世纪70年代出现的岭回归、80年代兴起的稳健回归以及 90 年代创建的新方法或对原有方法的混合使用。但是,作为一种表面上传统的方法,如今回归分析在用于数据挖掘时不仅仅是与其他新型方法(如神经网络)处于同一水平(例如,SPSS,2007b,第 10 章、Rud,2001、Berry&Linoff,2000 和 Graber,2000),而且比其他方法的使用要频繁得多(例如,Rexer 等人 2007 年的著作和 Ayres,2007)。但是,即使是应用数据挖掘的操作十分容易,数据挖掘也不能取代统计学或者计算机信息学知识,而是以这些知识为前提(Schendera,2007、Khabaza,2005、Chapman 等人,1999)。因此,本书针对如何应用 SPSS 回归分析方法而介绍的基础知识也可以使读者对数据挖掘领域初窥门径。

统计学的初学者可能对“回归”方法这个大家族的强大、多样化和灵活性感到十分吃惊。对于进阶学习者而言,他们可能始终感兴趣的是如何利用回归分析方法来处理大量的、参差不齐的问题。例如,简单和多重(非)线性回归分析、个体生长曲线、生存分析、时间序列分析等。从另一方面来看,如此广阔的应用范围就面临一个问题,即人们无法单纯依靠背诵就可以掌握:“对于带有一个定距因变量的线性因果模型,人们通常使用线性回归;对于带有一个二元因变量的因果模型,就使用逻辑回归等。”或者:“对于线性回归使用 SPSS 过程命令REGRESSION、对于逻辑回归使用 SPSS过程命令 LOGISTIC或 NOMREG、对于生存数据使用SURVIVAL、KM或COXREG等。”

与之相反,包括 SPSS 在内的统计学知识是十分复杂、灵活和多样化的。高级应用者主要将SPSS过程命令 REGRESSION用于线性、共线性数据或者时间序列数据。例如,SPSS过程命令 GLM既可以用于在一般线性模型(ALM)中对方差分析的计算,也可以利用多个因变量进行回归分析。例如,相对比较新的 SPSS过程命令 GENLIN(SPSS 15版之后才有),作为一般线性模型既可以对伽玛回归、采用重复测量设计的二元逻辑回归进行计算,也可以对区间截尾的生存数据的双对数回归进行计算。

此外,统计量的多样性比 SPSS 本身的功能范围要大得多。例如,生存数据可以分为一个预期的风险(常规的生存分析、生存分析)、多个预期的互斥风险生存分析(competing risk survival analysis)或者反复性风险(recurrent risk survival analysis)。

因此,选择适当的回归分析方法不仅取决于可用的 SPSS 菜单、SPSS 过程命令或者“菜谱”,还取决于具体的内容和方法逻辑。例如,需要调查的问题(假设有很多类型,如区别与关联相比照)。但是也取决于需要确定的定义,例如,数据的测量水平、分布、转换、数据关联性/无关联性、主效应和交互效应的建模及很多其他的定义。应与有经验的方法学专家或者统计学专家协商后,再对回归分析方法做出选择。对于特殊的问题,标准软件也有可能无法实现所需的统计方法。在这种情况下,也可以自己用SPSS或者Python编程设计出一种方法(参见宏“Ridge-Regression.sps”),或者使用专门的分析软件。进行模型设定和推断性统计假设检验的操作方法通常越来越复杂(参见Schendera著作,2007,401-403)。

本书介绍了一些基本的统计方法。例如,相关、回归(线性、多重、非线性)、逻辑(二项、多项)、有序回归和生存分析(寿命表法、Kaplan-Meier法以及Cox回归)。后面的章节介绍了另外一些回归分析方法和模型(例如,个体生长曲线的建模、PLS 部分最小平方回归、岭回归、巢式病例对照研究)。

在这里对 SPSS 进行回归分析的介绍,目的是让读者对于这方面的基础知识有一个初步了解和掌握,有经验的读者可在此基础上在数据挖掘(例如,利用 Clementine)领域独立地继续学习新知识。由于篇幅所限,本书没有介绍很多其他的回归形式和具体应用(例如,非参数回归、分类回归、Weibull回归、Hedonic回归等,对此请参见本书第6章)。

本书介绍了相关分析(第1章)、回归分析(线性、多重、非线性,第2章)、逻辑和有序回归分析(第 3章)以及生存分析(Survival analyse,第 4章)的基本方法。对于所有的方法,详细阐述了其前提条件和常犯的错误。第5章介绍了回归分析的特殊用途(偏回归、个体生长曲线的建模、岭回归)。第 6章介绍了 SPSS的其他用途(例如,对多个因变量的回归分析)。

书中的大量计算实例系统地演示了所提出的问题、各个统计量的调用方法(通过鼠标、语法)以及对 SPSS 输出结果的解释。也探讨了各种错误和难点。关于在实施统计分析之前对数据的检验,可参考《SPSS的数据质量》一书(Schendera,2007)。

书中用单独的段落归纳了实施各个分析的各种前提条件以及对其进行检验的方法。本书浅显易懂,既侧重具体应用,同时对各种方法的解释又没有忽略其复杂性和必要的深度。本书的读者既可以是回归分析的入门者,也可以是经济、生物和社会科学的学生或学者。

本书既采用了菜单导航,又罗列了大量 SPSS 语法。Windows SPSS 的初学者应从中了解到,单击鼠标就可以自动调用SPSS语法或者自己编程设计SPSS语法(参见Schendera,2007,2005)。针对 SPSS程序员(也包括普通用户),则展示了如何借助 SPSS过程命令 PLS来扩展SPSS-Python。利用同名的SPSS宏介绍了岭回归。

第 1 章介绍了往常被人们低估的相关分析(SPSS 过程命令 CORRELATIONS)的入门知识。本章开头部分解释了关联(因果性),并列举了几个错误结论的例子,如人们常说的喜欢玩暴力型电脑游戏和个人暴力倾向之间的关联。如果读者对回归分析感兴趣,则强烈建议先阅读关于相关分析的章节。借助于相关分析,作者阐述了首要的、对于(线性)回归分析也适用的前提条件。例如,尺度水平、同方差性和连续性。接下来的几段阐述了线性、产生错觉相关和一型差误累积几个主题,并且解释了为什么只给定相关系数的数值是远远不够的。本章还介绍了相关分析的其他一些特殊用途,主要是相关系数的比较和正准相关。最后一段归纳了实施相关分析的各种前提条件以及对其进行检验的方法。

第 2章介绍了回归分析的入门知识。本章采用逐步推进的架构,来阐明进行回归分析的基本原则,并且帮助读者从一开始就避免常犯的基本错误。

第 2.1节首先介绍了简单线性回归分析(SPSS过程命令 REGRESSION)。第 2.1节是基于第1章的内容展开的。通过一个简单的例子,阐述了如何根据杠杆值和残差来检验线性和识别离群值。还阐述了如何检验可能存在的自相关。一般来说,利用线性回归分析只能调查线性函数。利用线性回归分析来调查非线性函数通常会产生错误的结果。

第2.2节阐述了如果数据不是线性而是曲线分布时应该怎么做。第2.2节是基于第2.1节的内容展开的。本章提供了两种解决方案:将非线性函数进行线性化,并用线性回归进行分析;也可以用非线性回归对非线性函数进行估计(SPSS过程命令 CNLR和 NLR)。非线性回归是本章的中心主题,包括带有两个预测变量的非线性回归。此外,本节还阐述了用于(非)线性曲线拟合的SPSS过程命令CURVEFIT的意义和限制。最后几段总结了非线性回归的各种假设,并通过一个总览表介绍了较为知名的一些非线性回归模型,其中含有一个或多个预测变量。

第 2.3 节介绍了多元线性回归分析(SPSS 过程命令 REGRESSION)的基础知识。第 2.3节是基于第 2.2 节的内容展开的。模型含有多个自变量,而非仅有一个自变量,这种模型主要是在于自变量相互之间的关系。本节着重探讨了建模、变量选择、多重共线性和其他难点。除了识别和消除多重共线性外,本节还探讨了如何处理时间相依(自回归)数据。最后一段归纳了实施(非)线性回归分析的各种前提条件以及对其进行检验的方法(见第2.4节)。

第 3章介绍了逻辑回归和有序回归的基本方法。本章的结构是根据因变量的尺度水平构建的。最后几段分别归纳了所介绍方法的各种前提条件以及对其进行检验的方法。

二元逻辑回归(SPSS过程命令 LOGISTIC REGRESSION,第 3.2节)需要使用一个二值因变量,这个方法中没有考虑因变量中的极差信息。本节首先介绍了作为基本方法的二元逻辑回归,然后阐述了这种方法与其他方法的共同点和区别(主要是模型和尺度水平),并根据几个计算实例,主要阐述变量选择的不同方法,以及对所输出统计量的解释。最后探讨了经常出现的模型拟合优度和预测精度不一致问题。

有序回归(SPSS 过程命令 PLUM,第 3.3 节)需要使用至少两个取值的(定序)因变量,并且考虑到了因变量中的极差信息,同时阐述了与其他方法的共同点和区别(主要是模型、尺

度水平)。最后根据几个计算实例,阐述了如何解释模型的 SPSS 输出结果,其中这些模型带有定距和分类预测变量。

多项逻辑回归(SPSS过程命令 NOMREG,第 3.4节)同样需要使用一个至少二级的定类因变量,这种方法没有考虑因变量中的极差信息。对多项逻辑回归的阐述与第 3.2 节类似。此外,还介绍了一种特殊情况,即带有定量预测变量的巢式病例对照研究(1∶1)。

第 4章介绍了生存分析的基本方法。原则上,生存分析调查的是到出现特定目标事件为止的时间。目标事件既可以是期望事件(例如,延长订单、受聘、学习成功、治愈等),也可以是不良事件(例如,被解雇、故障、旧病复发、死亡等)。这些方法有各种各样的名称,例如,寿命分析、生存分析、时间影响或者事件分析等,它们来自于对目标事件的不同评估。根据对目标事件的评估结果不同,对于图表应给予不同的解释。

第 4.1 节首先介绍了生存分析的基本原则,然后介绍了面临的一些典型问题和生存分析的目标。

第 4.2节阐述了对不同生存函数(主要包括累积生存函数 S(t)、1减去生存函数(1-S(t))、密度函数f(t)、对数生存函数l(t)以及风险函数h(t))的规定。

第 4.3 节介绍了数据截尾的入门知识。在进行生存分析时,在某些个案中,可能出现目标事件没有如期望的那样发生,也就是说,目标事件完全没有或者没有按期望的(设定的)原因而发生。为了将这些个案与带有期望事件的个案隔开,就需要借助于截尾将其标出。本节介绍了左截尾、右截尾和区间截尾,并且诠释了在(非)试验性调查设计时的截尾。

第 4.4节以寿命表法和 Kaplan-Meier法为例,阐述了如何用这些方法测算生存函数,以及在这个过程中如何处理截尾的个案。从第4.6节开始介绍SPSS示例。

第 4.5 节介绍了对各组进行比较的不同检验:对数极差检验(又称时序检验或者 Mantel-Cox 检验)、Breslow检验(又称修正的 Wilcoxon检验、Wilcoxon 秩和检验)、Tarone-Ware检验和似然比检验。此外,本章还归纳了一个比较性综述,以及对于解释这些检验的建议方案。

在第 4.6 节中,计算和解释了如何用 SPSS 的寿命表法(SPSS 过程命令 SURVIVAL)和Kaplan-Meier 法(SPSS 过程命令 KM)。本节还阐述了 Cox 回归。针对寿命表法提出了带有或者没有因子的几个实例。在对 Kaplan-Meier 法的阐述中,介绍了带有/没有因子、带有分层变量并且针对测定置信区间的一些实例。

第 4.7节首先介绍了 Cox模型的特点(SPSS过程命令 COXREG),然后将这种方法与寿命表法、Kaplan-Meier法和线性回归相比较,计算和解释了Cox回归的几种变型(时间独立协变量、时间相依协变量、交互作用和“模式”)。接下来的几段介绍了检验 Cox 回归特定前提条件(主要是对截尾、多重共线性和比例性假设的分析)的方法以及如何建立对比(“偏差”、“简单”、“Helmert”等)。最后归纳了所介绍方法的各种前提条件,以及对其进行检验的方法。

第5章借助于SPSS分析示例介绍了回归分析方法的其他用途。

第 5.1 节阐述了两种形式的偏回归。第 5.1.1 节介绍了部分最小平方回归(Partial Least Squares,PLS)。尤其是在有很多预测变量、预测变量相互高度相关,并且(或者)预测变量的数量超过个案的数量时,建议使用 PLS。PLS兼具主成分分析和多元回归的特点,从而可以将任意测量水平、任意数量的(潜)变量之间的因果关系模拟成线性的结构化方程模型。此外,PLS 还支持混合回归模型和混合分类模型。自变量和因变量既可以是定距的,也可以是定类的。从SPSS 16版开始提供了PLS命令,PLS是基于Python扩展的。第5.1.2节介绍了利用SPSS过程命令REGRESSION进行相关分析的一种偏回归形式。

第 5.2节介绍了如何利用线性混合模型(SPSS过程命令 MIXED)对个体生长曲线进行线性建模。个体生长建模(individual growth modeling)大致上也可以改写为“对个体进行重复测量的方差分析”。对于“普通”线性回归而言,只有一条回归线(例如,回归线也会利用轮廓图生成重复测量的方差分析)通常不适合各个不同的个体(线性)运行曲线。但是在进行重复测量的回归分析或者方差分析之前,利用随机截距模型进行建模,就可以根据截距、斜率和两个参数同时估计出个体的运行曲线。借助于一个分为三级的实例分析,下文演示了某个培训项目所有学员的成绩在经过一段时间培训后是否以及在多大程度上有区别。在这个实例中具体检验了:(a)培训学员的(成绩)水平是否波动(截距),(b)培训学员成绩提高的幅度和速度是否不同(斜率),以及(c)在考虑到培训学员成绩水平的情况下,他们成绩的提高幅度是否不同(两个参数)。

第 5.3节介绍了岭回归(SPSS宏“Ridge-Regression.sps”)。岭回归可以(主要是通过目视)检验的是,可能具有多重共线性的数据是否可以用多元线性回归分析来进行分析。与其他统计方法相反,SPSS 岭回归没有采用菜单导航,而是只能采用宏的形式。但是,岭回归的实施并不复杂。本节主要演示了多重共线性的可视化,以及如何针对所选择的 K 值计算岭回归。由于2008年的SPSS 16版没有宏“Ridge-Regression.sps”,因此本节的实例主要基于SPSS 15版的宏。

第 6章用一个总览表介绍了利用 SPSS进行回归分析的其他方法(例如,多个因变量的回归分析)。与前面的章节相反,没有对示范性的 SPSS 分析进行复核。这个总览对完全性不做要求。作为例证,这里归纳了示范性分析的、没有注解的语法示例,主要是因为目前只有通过这种方式才能看到相应的要求。

为了评估 SPSS 的输出结果,了解其统计定义和推导过程是必不可少的。在本书的最后一章,归纳了一些最重要的统计方法的公式。

在开始进行分析之前,请先确定你的数据足以进行分析。检查你的数据是否有潜在的错误(主要是完整性、统一性、缺失值、离群值、重复值)。信任是非常好的,但是检查更加重要。对数据质量的准则和用SPSS验证数据质量这方面知识感兴趣的读者,请参考Schendera(2007)的著作。

在这里要特别感谢以下各位的专业建议和(或)他们通过语法、数据和(或)资料对本书做出的贡献:Vijay Chatterjee教授(西奈山医学院,纽约,美国)、Mark Galliker教授(伯尔尼大学,瑞士)、Jürgen Janssen教授(汉堡大学)、Mitchel Klein教授(埃默里大学罗琳斯公共卫生学院,亚特兰大,美国)、Roderick J.A.Little 教授(密歇根大学,美国)、Daniel McFadden教授(加州大学伯克利分校,美国)、Rainer Schlittgen教授(汉堡大学)、Stephen G.West教授(亚利桑那州立大学,美国)、Matthew M.Zack(疾病控制中心,佐治亚州亚特兰大,美国)。

还要感谢德国 SPSS 软件慕尼黑有限责任公司的 Alexander Bohnenstengel 先生、Sabine Wolfrum女士和 Ingrid Abold女士慷慨地提供了这套软件和相关的技术资料。同样,也要感谢SPSS瑞士分公司的Josef Schmid先生和Daniel Schloeth博士。

感谢奥登伯格出版社 Schechler 博士对发表本书的信任以及对此提供的大力支持。Peter Bonata先生(科隆)为 Cox回归一章奠定了基础。Volker Stehle先生(埃平根)负责本书的印刷排版工作。Stephan Lindow先生(汉堡)为本书制图。Markus Schreiner先生(海德堡)为特殊分布提供了随机数据。如果本书中还有阐述不清楚或者错误的地方,欢迎各位读者不吝赐教。

Dr.Christian FG Schendera(克里斯蒂安·FG·申德拉博士)瑞士,伯尔尼第1章 相关

第 1 章介绍了往常被人们低估的相关分析(SPSS 过程命令 CORRELATIONS)的入门知识。同时,本章开头部分解释了关联(因果性),并列举了几个错误结论的例子,如人们常说的喜欢玩暴力型电脑游戏和个人暴力倾向之间的关联(参见第 1.1 节)。借助于相关分析,阐述了首要的、对于(线性)回归分析也适用的前提条件,例如,尺度水平、同方差性和连续性(第 1.2 节和第 1.3 节)。接下来的几段阐述了线性、产生错觉相关和一型差误累积几个主题,并且还解释了为什么只给定相关系数的数值是远远不够的(第 1.7 节)。同时,还介绍了对相关系数的统计和解释,以及对线性的图形检验(第1.4和第1.5节)。然后对利用SPSS的相关系数做出了计算和解释(第 1.6节)。此外,还介绍了其他一些特殊的用途,主要是相关系数的比较和正准相关(第 1.8节)。最后一段归纳了实施相关分析的各种前提条件以及对其进行检验的方法(第1.9节)。如果读者对回归分析感兴趣,则强烈建议先阅读关于相关分析的章节。1.1 引言

没有因果方向的关联

相关不等于因果关系

科学调查的目的通常是分析两个变量之间的相关性。下列问题是相关分析的应用示例:

■ 妊娠期与新生儿体重是否相关?

■ 食物的重量(例如,单位:克)和营养成分(例如,单位:焦耳)是否有关联?

■ 汽车的发动机功率和耗油量是否有关联?

在进行相关分析时,首先应注意一条重要的基本原则:相关不等于因果关系!“相关无法证实因果关系”(Pedhazur,1982,579)。相关分析可以说明两个变量之间是否以及在多大程度上存在关联,但不能说明其关联的类型,即无法反映出这两个变量(如果有的话)中哪一个是原因,哪一个是结果。但是这适用于相反的情况,也就是说,如果不存在双变量相关,则没有双变量因果关系。

例如,如果观察到两个变量 A和 B之间具有统计学上的重大关联,则原则上可能有四个因果解释(参见Pedhazur,1982,110ff.,578ff.):

■ A影响B构成因果关系

■ B影响A构成因果关系

■ A和B受第三个或者多个变量的影响构成因果关系

■ A和B相互影响(构成因果关系)

相关系数无法阐明哪个因果解释是正确的。两个变量之间的相关是因果关系的必要条件,但不是充分条件。

因果模型中的哪一个是最可信的(原则上还可以设想很多其他因果模型),不是由A和B之间的相关,而只能是用一种恰当的理论来确定。只有逻辑和可靠的结论是解释相关的坚实基础。

即使在公开出版物中,也经常将相关与因果关系混淆,如果作者自己没有注意到这个问题,则读者也应予以批判地看待。

示例1:Gale 等人(2006)的著作报道了一个现象,即童年时的高智商与成年时成为素食主义者的高概率之间存在关联。在这里就混淆了相关和单向因果性,因为:(a)如果有人是素食主义者,就是因为他们聪明吗?(b)或者是否有人仅仅因为重视健康饮食而成为素食主义者,而这不一定与高智商有任何关系?

示例 2:一本关于癌症研究的出版物也提出了类似的论证。在使用荷尔蒙疗法期间,服用荷尔蒙会恶化而不是抑制女性的乳腺癌。但是根据 Peter R avdin(2006)的阐述,乳腺癌确诊病例的数量如今出现了下降,因为在美国有越来越多的妇女放弃了荷尔蒙疗法。大量妇女中断了荷尔蒙治疗,从而产生了这样一个效应,即乳腺癌病例的数量在短短几个月内快速上升。实际上,尽管相关等同于因果关系看起来具有相当的可信度:即使荷尔蒙疗法和乳腺癌风险上升事实上存在关联,但是并不能自动就得出相反的结论,即减少荷尔蒙疗法的应用(例如,通过修改开处方的惯例)肯定会使乳腺癌风险降低。服用荷尔蒙不是唯一的致癌因素。

示例 3:Cha 等人(2001)在著名的《生殖医学杂志》上发表了一篇文章,说看起来经验证明了祷告和怀孕概率之间存在关联。他们声称,如果由一个祷告小组对不育妇女做祷告,则她们的怀孕概率是没有接受祷告的妇女的两倍之多。这项研究被人们在很长一段时间内称为“随机临床评价研究”,主要是因为妇女们根本不知道有人在为她们祷告,并且祈祷者与她们相隔了几千公里。Cha 等人(2001)关于祷告和怀孕概率之间关联的文章是纯粹的谎言,其中一个作者因为多次诈骗已经受到法律制裁,甚至无法证明曾经做过这项调查研究。简单的重复并不能证实祷告和怀孕之间具有所声称的关联。但是,这并没有阻止盲目听信的公众将这项研究作为所谓的“信仰疗法”的疗效而予以大肆宣扬。

示例 4:在媒体反馈的研究领域,人们常说喜欢玩暴力型电脑游戏和游戏玩家暴力倾向之间存在关联,其实人们是从几个层面上混淆了原因和关联。实际上,这个“命题”本身就是科学上没有正确地,特别是没有以相关系数形式解释关联的很好例子。

层面1:将双侧相关减少到一个单侧因果方向。

将所声称的(只是隐式双侧的)、喜欢玩暴力型电脑游戏和个人暴力倾向之间的关联减少到喜欢玩暴力型电脑游戏作为暴力倾向的一侧原因。在这里就错误地把第二个潜在的作用方向排除在外,即个人暴力倾向可能是沉迷于暴力型电脑游戏的原因;这绝不能支持第一个作用方向(即喜欢玩暴力型电脑游戏是个人暴力倾向的唯一原因)的论点的可信性。

层面2:将复杂的关系网减少到唯一一个原因(单向因果性)。

在所声称的唯一一个作用方向(即暴力型电脑游戏作用于暴力倾向)中,将喜欢玩暴力型电脑游戏具有单向因果性这个论点隐含地表述为唯一一个影响因素。在社会科学领域,这样的观点就会被人们视为落伍(过时)的或者太过简单化。一个关联(如相关)仅仅能够将两个变量代入一个模型,这并不能说明这个模型是否正当地反映了(实证)现实的复杂性。

层面3:由于不现实的简单论点远离(实证)现实的复杂性。

只有在个别情况下,才能用单向因果和单调的变量影响描述社会科学领域研究对象(实证)现实的复杂性。换而言之,在这个领域通常认为各种因素形成了一个复杂、动态的网络。鉴于

已卖出或者人们正在玩的电脑游戏的情况,以及例如杀人狂的数量,从电脑游戏消费的实际情况来看更应得出下列观点:几乎每个杀人狂都玩过暴力型电脑游戏,但不是每个暴力型电脑游戏玩家都会大开杀戒。再仔细观察一下,就可以看出,前面声称的、喜欢暴力型电脑游戏和玩家暴力倾向之间的关联至少有两个错误。

一个是取样错误。将比例很小的极端组(如杀人狂)当作事实结果,以其作为部分(“pars”)推断出了所有玩家总体(“toto”)。但是由于取样错误,这个极端组并不能代表整体。此外,这里还错误地使用了“以部分代整体”原则。

另一个是思维错误。关于杀人狂(他们也玩暴力型电脑游戏,但是从数量上来看明显是少数)变得具有暴力倾向的原因的命题,在很大程度上忽视了一个问题,即为什么绝大多数暴力型电脑游戏的玩家没有大开杀戒。结论是十分明确的:(a)因为作用方向可能完全相反,从社会心理学角度来看,游戏玩家的心理状态不仅仅决定了他们是否喜欢玩暴力型电脑游戏,而且还决定了是否会(自主地)实施暴力行为;(b)因为如此一来,暴力型电脑游戏的单向因果效应这个论点就无法立足了。对电脑游戏下禁令改变不了前面所述的伪科学命题,因为相关不等于因果关系。

在如今的媒体心理学研究中,找不到证据说明电脑游戏(如魔兽世界)和暴力行为之间存在直接联系。与此相反,媒体的偏见、意外的效果(如在玩暴力型电脑游戏后感到放松)以及一些起到中和作用的因素(例如,年龄、性别、个性和社会结构)却经常见诸报端。也可以利用复杂的统计方法,例如,多元回归“构建”因果关系模型。这样的因果关系结构通常是很难让人一目了然的,也就导致一些伪科学的“发明”,得出夸张的结论,但是对所依据的数据进行仔细分析就会发现,这些结论是完全站不住脚的。这种“发明”的典型例子就是,例如,有人声称,死刑或者允许佩戴武器降低了犯罪率(参见Goertzel,2002)。

两个变量之间的相关不等同于两种构件(construct)之间的关联,只是表明了一些观点。例如,操作性定义或者样本依存性。相关分析也可以理解为,对无须太多解释的简单理论的具体操作方法进行统计建模。相关分析中具有统计显著性的事件并不排斥其他竞争性模型的有效性。因此,将相关分析解释为单向因果时,就同时犯了以下几个错误:

■ 将一个变量等同于一个构件

■ 将相关减少到一个因果方向

■ 将复杂的关系网减少到唯一一个原因(单向因果性)

因此,要谨慎地看待相关分析的“证据”。例如,所声称的两个变量之间的关联确实表现出统计显著性(也与显著性的绝对化相关,参见,Witte,1980;Schendera,2007)。

如果要检验在一个因果模型中,是否一个变量会有规律地造成另一个变量的变异,则可以选择回归法代替相关法。对于复杂的模型,可以考虑使用的方法主要是偏相关(第 5.3 节)或者偏回归,必要时也可以使用路径分析(第5.1节)。

为了测定两个变量之间关联的程度,统计学发展出了很多测量方法。然而,在各种文献中,对于相关量度(“相关”、“相联”)的专业术语并没有取得统一(参见 Lorenz,1992,58ff.)。例如,如果调查几列数值对之间(线性)关联的强度,则人们就将定距型数据或者定序数据(量度数据、极差数据)称为具有相关性。对于交叉列表、2×2表或者列联表则使用相联,或者列联的叫法。对于定序变量,则根据斯皮尔曼相关分析方法将关联强度称为相关。相反,根据肯德尔或萨默斯相关分析方法则称为列联或者相联。Bortz(1993,参见第6.3 节)甚至对二元变量采用了相关的说法。选择使用哪种方法,最终取决于变量类别的数量、分布和尺度水平(参见关于列表分析的章节)。在某些情况下,是否存在一个因果模型(例如,“X造成Y”)、关系的原因、变量的数量和其他因素也很重要。但是,所有方法都遵循一个基本原则。从根据经验观察到的关联和理论上的最大关联两个方面对变量进行比较。换而言之,将各个变量当前实际的共同点,与变量之间关系达到完美时变量之间本应具有的共同点进行比较。

皮尔逊相关系数(又称协方差相关或Bravais-Pearson相关)描述了两个定比、线性相关的变量(测量值序列)之间不受其单位影响的关联强度(又称紧密度)。1.2 第一个前提条件:尺度水平

数据的尺度类型决定了用何种形式证明两个变量之间的(线性)关联。如果数据是定距型,则可以将皮尔逊相关系数作为量度,利用肯德尔或者斯皮尔曼相关分析方法分析连续定序变量;如果两个定距变量之间的关联不是线性,而是单调的,并且这条信息是充分的,则也可以使用这些方法(如斯皮尔曼极差相关)。

如果有离散尺度的定序变量,则可以使用如伽玛、萨默斯等量度(具体可参考列表分析,例如,Schendera,2004,第12章)。

如果是两个分类(“定性的”)变量,则可以用列联系数描述其间的关联。所选择的相关分析方法要与所调查变量的尺度水平一致,这一点也很重要。对于尺度水平不同的成对变量,应始终选择使用较低尺度的变量的尺度水平。关联性和相关性度量一览表

这个表格中都是对称量度,只有 Eta2例外。在计算相关性或者关联性时,哪个是自变量、哪个是因变量并不重要。例如,当自变量是定距的、因变量是定类的时,在这种情况下就可以使用 Eta2。重要的是,接下来所选择的统计量与所确定的测量值分布形状(函数)一致。对于两个比例量度的相关性,Cohen 等人(2003,60-63)建议要小心谨慎,甚至完全不将其相关。

接下来介绍皮尔逊相关分析。这种分析方法的前提条件是,两个变量至少是定距的,但是如前所述,两个所调查变量之间的关联是线性的。1.3 其他前提条件:线性、同方差性和连续性

还需仔细探讨的一个皮尔逊相关系数前提条件是,两个所调查的变量(或者更准确地表述:其成对测量值)的图形表现出线性关联。例如,在散点图中,成对测量值的排列“基本上”呈

线性。如果一个散点图中的数据呈线性排列,则可以选择线性相关的量度。

如果两个变量精确地具有同样的分布形状(但是不一定是正态分布),那么就达到了最大程度的正关联(r=1.0)。如果两个变量精确地呈现镜像相反的分布,则达到了最大程度的负关联(r=-1.0)。为了利用皮尔逊相关系数描述双变量关联,变量不一定必须是正态分布的。两个变量的分布呈现的相互距离越大,关联就越小(Cohen等人,2003,53)。

仔细观察就可以发现,线性结合了三个可以通过图形(如散点图)检验的特征。

■ 成对测量值的线性排列:通过皮尔逊相关系数,无法恰当地描述曲线的测量值分布。

■ 围绕直线的发散程度:发散程度越窄,相关系数越大。排列越发散、越像是云状,相关系数越小。

■ 删除离群值:不存在离群值。无论是朝向函数方向,还是垂直于函数的离群值都会使相关系数产生偏误(参见Schendera,2007)。

出现较高相关系数的前提条件是数值分布呈线性,因此相关系数也可以不是线性检验的一种方法。如果没有呈现出三个特征中的至少一个,例如,线性函数、发散程度最小、离群值最少,就会产生较小的相关系数。由于只要有一个离群值(如果没有就会呈现完美的线性相关)就会在很大程度上使估计过程产生偏误,从而产生较低的相关系数,因此在这里也可以不将相关系数称为线性检验的方法。

如果散点图显示数据走向呈曲线形,则不能选择线性关联的量度,而要选择非线性关联的量度。换而言之,关联程度统计量的标准量度和皮尔逊相关系数,都以数据呈线性排列为前提条件。利用双变量散点图可以方便地检验是否存在“线性”,因此是一种“对线性的图形检验”。1.4 说明:对线性的图形检验1.4.1 过程GRAPH,Scatterplot选项

散点图描绘了在一个坐标系中的成对测量值(“散点图”)。散点图适合用来以图形方式描绘至少两个定距型定量变量之间的关系。在散点图中还经常插入(回归)直线,表示两个变量的(曲线形)线性关联(例如,参见下文的CURVEFIT)。

说明

下面的散点图展现了在两个刻度轴上的两个变量。一个变量确定水平轴,另一个变量确定垂直轴。X轴(在这里是腰围))变量的每个数值都与 Y轴(在这里是体重)变量的相应数值录入到了坐标系中。利用由此产生的散点图,可以表现出两个变量之间的关联。在本例中,两个变量之间呈现线性的正关联(图形是“线性检验”)。由于成对测量值的两种测量值分别发散在假想的相关直线两侧,并且与相关直线的距离基本相等,因此可以同时确定有同方差性(发散程度的一致性)。由于直线没有间断(例如,没有断续分布),如同在分析极端组时可能出现的那样,则确定了直线的连续性。

预设定

在SPSS程序主界面选择以下菜单项:编辑→选项→“查看器”选项卡。

请确定选项“在日志中显示命令”已选中。

在SPSS程序主界面选择以下菜单项:图形 → 旧对话框(旧版本SPSS上没有)→ 散点/点状→简单分布→定义。

单击X轴中的TAILLE(腰围)和Y轴中的GEWICHT(体重)。在“选项”路径下,单击“整行删除”命令来处理缺失值。在“标题”路径下,确定标题和子标题。单击“确定”按钮,调用图形。

解释说明:

GRAPH 命令调用一个图形。利用/SCATTERPLOT(BIVAR)命令确定类型,即双变量散点图。在等号后面是两个变量的名称,其数值对需要录入到散点图中。提到的第一个变量(在这里是 TAILLE,腰围)在 X 轴上表示。GEWICHT(体重)在 Y 轴上表示。根据MISSING=可以确定应如何处理可能出现的缺失值。这里选择了选项LISTWISE后就执行整行删除(还可以通过VARIABLEWISE命令逐个变量地删除个案)。通过TITLE、SUBTITLE和FOOTNOTE(必要时)命令输入标题、子标题和脚注的文字。1.4.2 SPSS过程命令CURVEFIT

线性关联是达到较高相关系数或者计算皮尔逊回归的基本条件之一。SPSS 过程命令CURVEFIT提供了另一种检验两个变量之间是否存在线性关联,或者另一个函数是否能更好地解释这种关联的方法。

说明

SPSS过程命令 CURVEFIT的功能远远超过双变量散点图的简单排列。CURVEFIT不仅检验可能存在的线性关联,而且还检验另外 10 个关联模型(主要是指数、指数分布、逆、立方、对数、二次、S(S)、增长和复合)。从根据经验存在的成对测量值(“观察”)的排列中,CURVEFIT命令截取测算出的直线函数(如果一次性绘制大量函数,就有可能看不到全貌)。此外,CURVEFIT 命令针对每个函数都测算出统计参数,例如 R2等。因此,不仅可以通过肉眼观察直线,还可以根据统计参数对不同的曲线模型进行比较。此外,通过比较还可以相对简单地判定哪个函数可能比直线模型更好地反映出所调查的两个变量之间的关联。Beobachtet观察 Linear线性 Logarithmisch对数 invers逆 Quadratisch二次 Kubisch立方zusammengesetzt复合 Exponent指数Aufbau结构 exponentiell指数分布 Losistisch逻辑

在SPSS程序主界面选择以下菜单项:分析→回归→曲线估计→定义。

将 GEWICHT(体重)确定为因变量,TAILLE(腰围)确定为自变量。从下面提供的模型中选择想要的曲线函数。勾选“在等式中包含常量”和“根据模型绘图”。单击“确定”按钮,调用曲线估计。

语句说明

CURVEFIT 命令调用了曲线估计的方法。CURVEFIT 命令标准化地输出一个曲线估计图和回归统计量的综合表,其中主要包括曲线函数或曲线方法、R2、自由度、F 值、显著性水平、上限(Upper bou nd)、常量(b0)和回归系数(b1,b2,b3)。置信区间预设定为 95%。CURVEFIT标准化地整行删除缺失值。

在VARIABLES后面是曲线函数的两个变量的名称,数据都应针对这些曲线函数进行调整。提到的第一个变量(在这里是 taille,腰围)作为自变量被列入建模,只能给定一个自变量。然后提到的第二个变量(在这里是 gewicht,体重)构成了因变量,可以给定几个因变量。如果 taille(腰围)成为因变量,gewicht(体重)成为自变量,则结果会得出其他函数(对此参见简单线性回归的说明),但R2还是同一个。只能给定一个 VARIABLES命令。/CONSTANT命令决定了回归方程是否应包含一个常量(或者是否不包含一个常量:NOCONSTANT)。根据/MODEL=命令,一次性可以给出最多 11个不同的回归模型(也可以通过选项 ALL)实现。由于 CURVEFIT 命令针对每个因变量和模型曲线都自动创建四个新的变量,因此在数据集很大时不应再将其作为所需的模型曲线调用。下面详细介绍不同的回归模型。如果调用一个逻辑回归模型(LGSTIC),则必须利用/UPPERBOUND 单独给出一个上限值,这个值是正数并且大于所给出的所有因变量中的最大值;对于现有数据,已经给出了数值 150。针对逻辑回归模型,应在输出结果中给出这个上限值。利用 PLOT=FIT(预设定)命令调用曲线估计图,PLOT=NONE删除曲线估计图的输出结果。

在 CURVEFIT前面的 TSET N EWVAR=确定了用于处理因变量数值的预设定。例如,时间序列和序列变量。如果是 NONE 命令,则不存储新的变量。相反,在 CURRENT 命令(预设定的)和ALL命令时存储变量,即在CURRENT命令时替换现有变量,相反在ALL命令时不替换。

预设定的例子不适用于时间序列数据。下述输出结果经过简化。模型总结和参数估计值续表

输出结果说明

如上所述,绘出曲线估计图后,在根据经验存在的成对测量值(“观察到的”)的排列中,针对每个调用的函数在散点图中绘出一条直线(线性的、对数的等)。如果将各条直线的比较限制在基本数据的值域内(SPSS 使绘出的直线超过作为基础的值域,这实际上是不允许的),则可以根据曲线估计图的图形确认,哪几个测算出的函数将会得出几乎同样的结果。注意,不要将这里的“同样”结果与“同样好”的结果混淆。为了更有说服力地在函数之间做出选择,可以查询表格中的回归统计量。

表“模型总结和参数估计值”列出了所调查模型的方程和特征值,因变量“体重”和自变量“腰围”各自在表格的上方和下方给出。在“方程”、“模型总结”和“参数估计值”下面列出了曲线函数的方程和相应的“R方”[R2]、F值[“F”]、自由度[“1”或者“2”]、显著性水平[“Sig”]和常量(b0),从“b1”开始根据不同模型列出了不同的回归系数。与先前的 SPSS 版本相反,在另一个表格中输出了所给出的允差上限,以及所遵守的或者没有遵守的允差。可以通过TSET设置QUA和CUB的允差标准。

根据参数选择曲线函数的前提条件是,利用曲线估计图可以认为所绘出的直线展现了对观察到的成对测量值的合理估计。如果测定的曲线完全没有反映出经验分布,那么再好的参数也是毫无意义的。下一个标准是显著性。首先只观察F检验达到显著性的曲线函数(在本例中是所有模型)。下一个标准是 R2。从显著的模型中,只观察 R2值最高的曲线函数(在本例中是LIN、QUA 和 CUB)。下一个标准是回归方程是否简单。因此,更大程度的方差解释就需要更复杂的回归方程,但是无法总是用方差解释来更好地说明复杂的回归方程的存在合理性。例如,如果线性和三次回归模型的R2之间只有0.001的区别,但是为此付出的代价就是,在二次函数的方程中有两个额外的变量(参见总览表),则应优先采用更简单的方程,在这里就是线性回归函数。这样做的优点是,不仅可以继续利用线性相关模型或者线性回归模型进行计算而没有实质性的信息丢失,而且利用线性模型对计算结果或者模型的解释,比利用二次模型的解释更加简单。但是最后应再次确认,用图形和统计方法找到的曲线函数是否真正适合描述相互关联的构件。为了进行最后的观察,通常应进行两方面的试验:(a)如果延长所找到的函数超过现有数据的值域,则可能会导致什么样的后果;(b)根据值域不同,公共函数是否可以分解为单个的、可能相互相通的函数。1.5 相关系数的统计和解释

如何计算和解释皮尔逊相关系数?1.5.1 相关系数的统计量

为了计算皮尔逊相关系数,可以使用几个不同类型的公式和计算方法。

例如,在第一个公式中,s和s是变量x和y的方差,s是x和yx2y2xy的协方差。根据这个公式,皮尔逊相关系数 r 定义为x和y的协方差除以x和y方差乘积的平方根。当两个变量发生相同变化时,系数达到最大(参见下文)。方差指的是采用最小定距的发散程度。另外两个公式是第一个公式的变型,第三个写法表明了测定简单线性回归的相似性。将两个采用最小定距变量的公共发散程度定义为协方差。对于标准化变量,协方差等于相关度。

对于计算作为描述性量度的相关系数 r而言,不需要假设两个变量的分布状况。但是,计算假设检验或者显著性检验的 r的前提条件是双变量正态分布(例如,Pedhazur,19822,40;参见Schendera,2007,如何处理截尾分布)。

解释相关系数的前提条件是两个变量之间存在线性关联(如通过散点图看出)。如果数据点形成一条完美的直线,则相关系数达到最大值 1.0。由于 r 是基于观察值和估计值之间距离的最小平方和,因此 r在最大程度上与数据相匹配。数据点在(假想)直线周围的(有规律)发散程度越大,误差方差就越大,从而 r越小。双变量发散程度越呈曲线形,线性相关系数就与指数相比越不适合现有数据的发散程度。取而代之,应选择适当的曲线函数(如三次函数、二次函数等)。

相关系数是什么含义?相关系数 r 是基于标准化(Z转换)的数值,是一个纯粹的数字,不受两个相互相关变量的测量单位影响。因此,r 的绝对值表示了以 Z值为单位的两个变量之间的线性关联。r 值越高,越能更好地通过两个变量的其中一个预测另一个。极差相关、φ 系数以及点二列相关系数 r只是根据r公式的等效计算方法(参见Cohen等人著作,20033,第2章)。

相关系数的平方(r2)表示 x和 y的共性方差的分量,或者两个变量之间线性相联的方差分量(“重叠”)。r2也称为决定系数。

1-r2表示非共性方差或者两个变量之间非线性关联性的分量(“不重叠”)。1-r2 也可以解释为一个变量对另一个变量的预测误差(方差估计误差)。1.5.2 相关系数的解释

通常,通过相关分析调查两个变量之间是否存在关联。皮尔逊相关系数(又称为简单相关系数,或者简称相关系数)是衡量两个连续变量之间线性关联的量度。如本章开头所述,除了皮尔逊相关系数之外,还有其他的相关量度。可以假设相关系数的值在-1~1之间。系数的正负号表明了关联的方向,其绝对值表明了关联的强度。正相关意味着只要其中一个变量的值升高,则另一个变量的值也会升高(图形:从左下到右上的上升直线,正号)。负相关则意味着如果一个变量的值增大,则另一个变量的值减小(图形:从左上到右下的下降直线,负号)。相关系数很低,则表明所调查的两个变量之间不存在线性关联。如果相关系数大约为+/-1,则表明两个变量之间存在完美的线性关联。如果接近于零,则两个变量之间没有线性关联。

在具有定距的并且可靠测量的变量这个前提条件下,低相关是由测量值分布的,而不是由测量水平本身造成的。两个变量的相关不等同于两个构件的关联;也有可能至少其中一个构件没有可靠地测量(参见Cohen等人著作,2003,53-55)。

针对相关系数的显著性检验同时也受基础样本量的影响。显著性在这里并不总是意味着关联性。比假设检验的显著性更重要的是系数的大小。

此时,对系数的评估在很大程度上取决于所提出的问题。对于在 0~1 之间的相关系数值经常做下列解释。相关系数r的解释说明

原则上,这样的“解释辅助说明”忽视了相关系数(精确性)和散点图(差异)可以相互补充的信息。

只有当相关系数较大时,例如,如果函数的极差从实用性角度来看非常大,才可以将线性函数解释为相关大。这既可以从图形上体现为线性排列,也可以用数值表现为相关系数大。例如,不是每个定量很大的相关系数都可以解释为定性很高的相关性。

■ 示例关联强度取决于变量各自的分布形状,但是不取决于其在X轴和Y轴上的位置。例如,如果双变量的相关系数为 0.9,则将一个(或者两个)变量的所有数值乘以或者除以一个常量(如 10)也不会改变相关系数的数值。因此,数值相等与相关系数可能实质上表达的是完全不同的关联。

■ 这同样适用于对各个变量测量值域(发散程度)极差的限制。例如,如果将数据(如1~100)的极差限制在一小段(如 1~10),尽管还会产生线性排列或者线性函数,但是再也不能普遍化地将极差描述为“很大”,也就代表了理论上可能达到的极差。即便这样能得出很大的系数也是如此。

因此,根据提出的问题或者数据位置不同,同样大的相关系数可能具有不同的显著性,就像不同大小的相关系数可能就内容而言完全表示同样的含义一样。

此外,当相关系数处于较低或者中等水平时,就产生了一个问题(尤其是在数据量很大时),即无法通过图形解释散点图模型(例如,根据上下重叠的成对测量值)。形状类似的散点图也经常用不同的相关系数来描述。

但是,如果利用散点图的差异无法精确地解释精确量度(例如,相关系数),则用形容词来描述相关系数就意义不大了。

因此,在这里明确不建议使用表示评价意义的术语,如“大”或者“小”。取而代之,相关系数的值应利用相应变量经验上的、以及理论上可能的极差予以说明。

重要的是应该知道,相关系数的大小不仅仅受调查条件(试验设备)影响,而且还受样本特征的影响(随机特性、特征易变性/代表性和大小)。

相关系数的大小也取决于相应的变异性,也就是两个变量的极差。如果忽视了两个变量中至少一个的极差,则就人为地降低了相关系数。根据用不同样本测得的关联,得出了同一个总体的不同相关系数。代表性抽样的随机特性决定了特定的样本变异,从而也决定了样本特定的相关;如果是没有代表性的抽样,则这个效应表现得更为明显。

在非代表性抽样中,极差经常因节选取样的方式而受到损坏。例如,如果不是根据具有代表性的样本,而是只以大学生为样本调查智力因素,则就应认为,分析中只采用了智力因素总极差中的上面一段,而不是具有代表性的一段。

只有利用足够大的样本才能精确地估计一个总体的相关系数;只有根据足够大的样本,才能比较不同的相关系数(假设这些相关系数来自同一个总体)。例如,Diehl 和 Kohr(1999)建立了一个表格,阐明了相关系数变异与样本量的依存性程度。相关系数变异的依存性

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载