潜变量建模与Mplus应用·基础篇(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-03 15:43:11

点击下载

作者:王孟成

出版社:重庆大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

潜变量建模与Mplus应用·基础篇

潜变量建模与Mplus应用·基础篇试读:

内容简介

本书以国际主流潜变量建模软件Mplus为分析工具,从理论到实践,深入浅出地向读者介绍潜变量建模的常用模型和Mplus分析过程,以实例演示整个分析过程,适合社会科学领域的高校教师、科研人员以及硕博士研究生作为教科书和参考书。序 言

潜变量模型发展迅速。然而方法学领域的发展延伸到应用领域需要一段时间。这个时间的长短取决于方法学者的推广和应用研究者的学习、接受和运用。现实中,大量统计方法躺在学术文献中睡大觉,而广大研究者面对数据无计可施。Muthén教授为了填补统计方法与实际应用的差距,开发了Mplus软件,并在短短的十余年间更新至第[1]7版,每个版本在功能上均有重大突破。Mplus的推出大大加速了潜变量模型的应用,已经成为潜变量建模领域的主流分析软件。

在国内,潜变量模型为大家所熟知的多限于SEM,尽管它只是潜变量模型的一部分,而潜变量建模软件也仅限于AMOS和LISREL。令人欣慰的是这种趋势正在向好的方向转变。这种转变可以从如下两个方面体现出来。第一,参加“潜变量建模与Mplus应用工作坊”的学员越来越多。他们多是在校研究生或高校教师,其中有人甚至年过半百。他们对新知识的渴望令人感动,对学习的态度让人钦佩。他们是我持续组织工作坊的动力,也是撰写、完善本书的动力。第二,网上交流潜变量建模与Mplus应用的团体和人数越来越多。截至目前,以Mplus软件为主题的QQ群(219343650)已有近600位成员,而且群内讨论异常活跃。希望本书的出版能进一步普及和推广潜变量建模方法与Mplus软件。

本书的目的在于为“讨厌”数学公式的学者介绍潜变量建模方法及Mplus软件实现,所以书中避免了令人生畏的数学公式,尽量通过平实的语言介绍模型背后的真谛。本书的安排如下。

第1章主要介绍变量类型和潜变量模型的基本情况。

第2章简要介绍了Mplus的基本情况,如何安装使用和该软件的分析功能等,并选择性的介绍了Mplus的命令。由于Mplus命令繁多,与本书内容无直接关系的命令并未介绍,有需要的读者可自行查阅Mplus用户手册。

第3章主要介绍如何通过Mplus实现路径分析和回归分析。路径分析是回归分析的拓展,在路径分析中包括几个回归方程,在传统的统计软件中估计路径参数需要分步进行,而在Mplus等结构方程建模软件中多个回归方程是同时估计的。另外,结构方程模型是在路径分析和因素分析的基础上发展的,所以路径分析和回归分析作为基础知识对理解本书后面各章内容均有裨益。该章还详细介绍了中介效应和调节效应检验的方法并提供了Mplus例句。

第4章介绍探索性因素分析(Exploratory Factor Analysis, EFA)。EFA是最基本的潜变量分析模型,放在前面学习有助于我们理解其他潜变量分析模型。尽管EFA是心理学和其他社会科学研究中最常用的多元统计方法之一,但在国内存在普遍的误用,对此读者应引起足够的重视。

第5章介绍验证性因素分析(Confirmatory Factor Analysis, CFA)。主要介绍CFA的基本概念和分析过程。关于CFA的高级应用单独放到第6章介绍。内容包括MTMM框架下的模型、潜状态-特质模型、随机截距因子模型和信度估计等。这些模型或功能作为CFA的扩展可用于不同的分析情景。例如,这里介绍的模型可用于方法效应(method effects)的检验。

第7章介绍测量等值(Measurement Equivalence, ME)/测量不变性(Measurement Invariance, MI)。ME是近年来测量/测验领域新的发展趋势。由于心理测量本身具有间接性的特点,所以对测验本身的精确性要求逐步提高。在比较不同群体观测分数差异时测量工具必须首先满足测量不变性的要求,否则在观测变量上进行的差异比较就没有意义。测量不变性可以放到不同的分析框架下进行,本书主要介绍了在验证性因素分析框架下如何检验不变性。另外测量不变性还可以放在项目反应框架中进行,此时的测量不变性称为项目功能差异。在二参数项目反应模型中,检验项目功能差异与在CFA下检验测量不变性是完全等价的,有兴趣的读者可以参考相关文献。

第8章介绍结构方程模型(Structural Equaion Modeling, SEM)。SEM是涉及潜变量的路径分析,它将因素分析与路径分析合而为一。本章主要介绍了SEM建模的一般过程,并通过潜变量中介模型和调节模型进行了示例。

第9章主要是SEM框架内的专题讨论。这些讨论涵盖了等价模型、形成性测量与反映性测量、缺失值处理等内容。尽管这些问题非常重要但作为潜变量建模的入门教程,这些内容尚不足以独立成章,所以放到一块介绍。

本书在写作过程中得到多位好友的帮助,他们或提供文献资料,或协助整理图表,或对内容给予中肯的评价,在此表示感谢。另外还要感谢我的太太赖红玉女士为本书绘图和整理参考文献;绍兴文理学院的周露阳博士为本书绘制了部分图表;中南大学郭骁为本书编写了小程序。本书得以出版还要感谢重庆大学出版社雷少波先生及本书责编林佳木女士的信任,将本书纳入万卷方法系列。最后,感谢前几期工作坊学员对本书手稿的反馈,以及“Mplus应用学院”(QQ群219343650)诸位管理员和成员的支持和鼓励。

关于本书的建议、意见、错误或不妥之处请与我联系(Email:276207278@qq.com)。王孟成2013年11月于广州[1]http://www.statmodel.com/verhistory.shtml1 潜变量分析模型概述1.1 变量类型1.1.1 连续变量

连续变量(Continuous Variable)是指在变量的取值范围内存在任意可能值的变量。例如,时间就符合这一标准,我们可以在1秒至10秒之间取无数可能的值,2.12秒、4.23秒等。连续变量与离散变量(Discrete Variable)对应,凡是取值范围内不存在任意可能值的变量都称作离散变量,如分类变量。心理学和社会科学使用的问卷或量表基本上很难达到连续变量的水平。例如常用的李克特5点计分系统,1分和2分之间就不存在1.5分(尽管将其视为连续变量对待),所以社会科学研究的数据通常为离散型数据。1.1.2 分类变量

分类变量(Categorical Variable)就是用少数几个数字代表不同类别对象的变量(Agresti, 2007)。分类数据在社会科学领域非常普遍。在教育测量和市场调查领域经常遇到这种类型的数据。例如,将某地区不同的收入群体分为好、中、差。再如,将某项试题的答案分成对和错。心理学研究常用的量表/测验计分方式多为李克特式,如典型的李克特5级计分:非常同意=5,同意=4,不确定=3,不同意=2,非常不同意=1。这种形式的数据本质上还是类别数据(顺序型),用5到1代表从非常不同意到非常同意的顺序,因为从“非常同意”到“同意”之间的距离并不等于“不同意”到“非常不同意”之间的距离。当类别变量超过5个时采用极大似然估计也能得到精确的估计结果(Johnson & Creech, 1983),所以也可方便地当作连续变量处理。

分类变量按照各类别间是否存在顺序关系可分为顺序变量(Ordinal Variable)和名义变量(Nominal Variable)。顺序变量是有大小、高低之差的类别变量。而名义变量则是没有顺序的类别变量,是用数字代表某类事物,数字之间并没有量的关系,只具有指代关系。如将性别分成男和女,分别用0或1表示。再如,把民族成分分成汉族=1、回族=2、壮族=3和其他民族=4。

分类变量呈二项式或多项式分布:(1)二项式分布

二项式分布(Binomial Distribution)又称伯努利分布(Bernoulli Distribution),是最常见的离散型随机变量的概率分布:或

系统中分别使用x表示成功的次数,n表示实验的次数,p表示成功的概率,q表示失败的概率,等于1-p,P(x,n,p)表示伯努利概率。例如,一项伯努利实验重复了5次,求2次成功的(如,硬币正面向上)的概率。此时,n=5,x=2,p=.5,代入公式:P(2,235,.5)=·.5(1-.5)=.161。二项式分布的均值为np,方差为npq或np(1-p)。(2)多项式分布

二项式分布是一次实验只有2个可能结果的概率分布。当一次实验出现2种以上等可能结果时的概率分布称为多项式分布(Multinomial Distribution)。例如,掷骰子可以产生6种可能的结果。因此二项式分布可视作多项式分布的特例,即只存在2种可能结果。

x-x为可能的结果,N为实验总次数,为各种可能结果1n的概率。X的均值和方差分别为Nθ和Nθ(1-θ)。iiii1.1.3 计数变量(1)泊松分布

有时候研究需要记录事件发生的次数。例如,发展心理学家在特定时间内记录儿童攻击行为或欺负行为的频次。再如,安全管理方面的专家统计某段时间内交通事故发生的次数,诸如此类都将产生计数型数据。计数数据在心理学研究中不常见,但在某些社会科学领域是相当普遍的。计数型数据服从泊松分布(Poisson Distribution),公式如下:

泊松分布的均值等于方差。当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中γ为np。

在泊松分布中有两个基本的假设限制了其应用(Sturman, 1999)。第一,计数变量(Count Variable)的方差和均值假设相等。在实际应用中,方差通常大于均值即过度离散(Overdispersion)。第二,观测独立。(2)负二项式分布(Negative Binomial Distribution)

负二项式分布与泊松分布类似,只是释放了泊松分布的两个前提假设,即方差和均值可以不等,观测可以不独立。负二项式分布是指在进行伯努利实验时,某个事先确定的成功次数出现时的概率分布。例如,事先规定出现5次硬币正面向上时即终止实验。负二项式的密度函数如下:

P·(x,r,p)为负二项式概率,p为每次独立实验成功的概率;x为实验的总次数;r为事先设定达到成功的次数。例如,求连续抛5次硬币出现3次向上的概率。此时,p=.5,r=3,x=5,将上述数值带入公式,算得。

负二项式分布与泊松分布类似,在负二项式分布中方差和均值并不需要假设相等,当两者相等时等价于泊松分布(Sturman, 1999)。在很多情况下,负二项式回归优于泊松回归(Hausman, Hall & Griliches, 1984)。1.2 外显变量和潜在变量

外显变量(Manifest Variable)或观测变量(Observed Variable)是可以直接观测的变量,如个体在量表/问卷条目上的得分或度量计上的读数。外显变量可以是连续的、分类的或顺序的、计数的和名义的变量。当然,不同类型的变量与潜变量之间的关系不同,上述五种数据类型分别对应着线性回归、Probit或Logistic回归、泊松回归、多项式回归。

潜变量(Latent Variable)通常是指不能直接观测的变量,需要借助外显的测量指标来估计。与潜变量类似的概念有很多,如建构(Constructs)、特质(Trait)和因子(Factor)等,这些概念经常替换使用,用于表达类似的意思。潜变量的正式定义也有不少(Bollen, 2002),如局部独立性(Local Independence)、期望值(Expected Value),观测变量非决定函数定义(Nondeterministic Function of Observed Variables)和样本属性定义(Sample Realization),这些定义的概念列在表1-1中。表1-1 潜变量的概念汇总概念名称具体定义和说明指标之间的相关是由于背后共同的潜变量造成的,一局部独立性旦潜变量保持恒定,指标间彼此独立。也即真分数,如果用同一个指标(工具)反复测量同一个被试多次,并且每次反应之间相互独立,那么多期望值次的期望均值就是真分数。在线性结构方程模型中,如果不能只通过方程去表达一个变量与外显变量间的关系,那么这个变量就是潜非决定函数变量。一个潜随机或非随机变量是这样一种随机或非随机变量,这一变量在特定样本中不存在样本实现。至少对于某些观测来说根据样本实现的观点,所以变量都是样本实现潜变量,除非它们可以获得样本值。概念的关键标准在于,在特定样本中某些个体是否存在确定的值。

这些概念在不同程度上概括了潜变量的某些属性,而由Bollen(2002)提出的样本实现定义最抽象也最具概括性,表1-2总结了这些定义对各种统计模型的适用情况(Bollen,2002)。表1-2 各潜变量定义对不同统计模型的适应情况a:假设误差不相关;b:测量误差相关与期望值定义相左。

在心理学、教育学等社会科学领域多数研究变量是需要通过外显指标来估计的潜在变量。由于考虑到测量误差,基于潜变量得到的结果更能揭示现象本身的关系。潜变量可以是连续的也可以是间断的,当其为连续变量时称作因子(Factor)或维度(Dimension),为间断变量时称为潜类别(Latent Class)。用于处理不同类型指标与不同类型潜变量之间关系的统计分析模型称作潜变量模型。1.3 内生变量和外生变量

在一个模型中根据变量在模型中的作用可以将其分为内生变量(Endogenous Variable)和外生变量(Exogenous Variable)。所谓的内生变量是指影响自身的因素在模型之内,外生变量则指影响自身的因素在模型之外。两者在路径图上的区别表现在箭头的方向上,一个只有发出的箭头而没有箭头指向的变量是外生变量,凡是有箭头指向的变量即是内生变量,不管是否发出箭头。

处于内生变量位置的潜变量称作内生潜变量(Endogenous Latent Variable),在LISREL系统中分别使用y和η表示内生显变量和内生潜变量。相应的,处于外生变量位置的潜变量称作外生潜变量(Exogenous Latent Variable),用x和ξ分别表示外生显变量和外生潜变量。表1-3呈现了LISREL的符号系统。表1-3 LISREL中的符号系统1.4 潜变量模型

社会科学领域的大多数概念往往不能直接测量,如智力、人格、社会经济地位等,这些抽象的概念常被称为潜变量。抽象的概念不仅存在于社会科学中,自然科学中也常涉及假设的构念(Construct)。例如,物理学中重力的概念,在物理世界里重力是无法直接被看见或触摸的,但是可用于解释很多外显的现象和不同外显现象间的关系。

与外显变量不同,潜变量往往是假设的概念,仅存在于研究者的头脑或理论中,并非实体存在。为了研究这些抽象的概念,研究者使用外显变量对潜变量进行操作化,同时使用统计模型来估计外显变量与潜变量之间的关系,进而使用可观测的外显变量来间接估计不可直接观测的潜变量。

在研究的过程中,各领域的研究者们发展了一系列的统计分析模型,这些方法被统称为潜变量模型(Latent Variable Model, LVM)。根据变量的分布形态可以将其分为连续型和离散型。连续型变量可以取任意值,而离散型变量的取值范围是有限的,如二分变量只能取两个值:1或0。潜变量和显变量均存在连续型和离散型两种形式,所以按照分布形态也可以将潜变量模型分为如表1-4所示的4种模型(Bartholomew & Knott, 1999)。表1-4 潜变量模型分类

当外显变量和潜在变量均为连续型变量时,处理外显测量指标与潜在因子之间关系的方法称为因子分析(Factor Analysis, FA)或因子模型(Factor Model, FM)。研究者对FA并不陌生,在心理学、教育学、管理研究等社会科学诸多领域FA被广为使用,是最常用的多变量分析方法之一(Fabrigar, Wegener, MacCallum & Strahan, 1999)。当潜变量为连续变量,外显指标为分类变量时,指标与潜变量之间的关系是非线性的,此时的分析方法称为项目反应理论或潜特质分析。项目反应理论目前主要用于大型能力测验,如GRE、TOFEL等。近年来,将项目反应理论用于临床评估和人格测验等应用领域日渐兴盛。

潜变量除了连续型分布外,也可以存在类别分布,即用潜在类别来解释外显变量间的相关。潜变量连续分布说明外显变量的差异是由其在潜变量上的量的差异引起的,而潜类别分布说明背后存在质的差异。1.5 潜变量模型——扩展1.5.1 潜变量模型的类型

近年来,潜变量分析模型领域最重要的革新是将连续型潜变量和类别型潜变量整合到一个模型中,即混合模型(Hybrids Model, Muthén, 2008)。表1-5根据连续-类别潜变量和横断面-纵向研究设计将潜变量模型划分为不同的类别。表1-5 潜变量模型类型——扩展连续潜变量类别潜变量混 合横断面因子分析模潜类别分析(Latent Class 因子混合模模型型,SEMAnalysis, LCA);回归混合型(Factor Cross-模型(Regression Mixture Mixture section Modeling, RMM)Modeling, ModelsFMM)纵向模潜变量增长潜在转换分析(Latent 增长混合模型模型Transition Analysis, 型Longitu(Latent LTA);(Growth dinal Growth 潜类别增长模型(latent Mixture ModelsCurve class growth modeling, Model, Model, LCGM)GMM)LGCM)

下面就表1-5的各种模型的基本情况作简要介绍,有兴趣的读者可根据引用的文献了解相关的详细信息。1.5.2 潜在类别分析

潜在类别分析(Latent Class Analysis, LCA; Lazarsfeld & Henry, 1968)是通过间断的潜变量即潜在类别(Class)来解释外显指标间的关联,使这种关联通过潜在类别变量来估计,进而维持其局部独立性的统计方法(见图1-1)。其基本假设是,外显变量各种反应的概率分布可以由少数互斥的潜在类别变量来解释,每种类别对各外显变量的反应选择都有特定的倾向(邱皓政,2008;Collins & Lanza, 2010)。当处理连续变量时称作潜在剖面分析(Latent Profile Analysis, LPA)。图1-1 LCA示意图1.5.3 潜在转换分析

LCA处理的是横断面数据,用于确定群体异质性(Heterogeneity),例如Carragher,Adamson, Bunting和McCann(2009)在一个包含12 180人的全美代表性样本中将抑郁症状划分成四个类别:严重抑郁症状组(Severely Depressed,40.9%),躯体症状组(Psychosomatic, 30.6%),认知情感组(Cognitive-Emotional,10.2%)和健康组(Nondepressed, 18.3%)。这种分析只是确定某个时间点个体的类别属性,然而在某个时点确定的类别属性是否会随着时间迁移而发生变化呢?为了解释个体类别属性随时间变化的情况需要使用纵向数据,这时的分析方法称作潜在转换分析(Latent Transition Analysis, LTA; Collins & Lanza, 2010)。图1-2是一个带有2个二分指标、3个时间点的潜在转换分析示意图。图1-2 潜在转换分析示意图1.5.4 因子混合模型

传统的因子分析使用连续的潜变量解释指标间的关联,其前提假设是样本同质,即样本内所有个体享有相同的因子结构。如果样本存在异质性,此时使用传统因子分析便不再合适。因子混合模型(Factor Mixture Model, FMM; e.g., Lubke & Muthén, 2005)用于处理存在异质群体的因子分析问题。FMM同时具有LCA和FA的特点。在FMM中,同时用因子和潜类别两种潜变量对观测数据进行建模。换句话说,通过同时抽取连续和类别的因子使观测指标达成局部独立性。在LCA中,一旦潜类别因子确定,各类别组内指标间达成局部独立性。而在FMM中则允许类别内指标相关,并通过连续的潜变量来解释这种“残余”的相关。因此可以将LCA和FA作为FMM的特例(Muthén,2008)。图1-3是FMM模型的示意图。图1-3 FMM模型示意图1.5.5 回归混合模型

将LCA与传统的回归模型相结合形成回归混合模型(Regression Mixture Model,RMM),即在不同的类别群体建立各自的回归模型(Ding, 2006)。可以将传统的回归模型视作RMM的特例,即只存在一个潜类别组。更一般的连续和间断潜变量结合的形式是结构方程混合模型(Structural Equation Mixture Modeling; SEMM; Bauer & Curran, 2004; Muthén, 2008),回归混合模型可以视作其特例。1.5.6 增长混合模型和潜类别增长模型

传统的增长模型(Growth Model,i.e., Hierarchical Linear Modeling,HLM or Latent Growth Curve Models, LGCM)并没有考虑群体异质性,即假设研究样本中的所有个体有着相同的增长轨迹。很多情况下群体存在异质性,考虑群体异质性的增长模型有两种形式:增长混合模型(Growth Mixture Modeling, GMM; Muthén & Muthén, 2000; Muthén, 2003; 2004)和潜类别增长模型(Latent Class Growth Analysis, LCGA; Nagin, 1999)。

GMM中同一个类别有着相似但不完全相同的增长轨迹,即同一潜类别内部个体允许存在方差变异。如图1-4,是一个GMM的发展轨迹图。图中3条加粗的线条为3个潜在类别发展轨迹,同时存在多条与潜在类别发展轨迹类似的个体发展轨迹。图1-4 GMM的发展轨迹

LCGM则假设同一个类别有着完全相同的增长轨迹,即同一类别内部不存在方差变异,其增长轨迹就是图1-4中加粗的线条。

GMM与LCGM的差别在于,GMM允许类别内存在变异,而LCGM各类别内的个体享有完全相同的增长轨迹(Muthén, 2004)。因此LCGM是GMM的特殊形式,而GMM更具灵活性(Muthén & Asparaouhov, 2006)。1.5.7 多水平混合模型

上述介绍的模型还可以扩展到多水平结构,例如多水平潜类别分析(Multilevel Latent Class Analysis; Vermunt, 2008)、多水平回归混合模型(Multilevel Regression Mixture Analysis; Muthén & Asparouhov, 2009)和混合SEM(Mixture SEM; Bauer & Curran, 2004)。对于这些高级模型的介绍超出了本书的范围,但我们鼓励读者根据相关文献学习和使用这些模型以提高研究水平。1.6 潜变量模型建模软件

近年来,SEM多元统计分析技术在国内外心理学界日益流行,国内先后出版了几本不错的教科书,发表的研究论文更是不计其数。其中多数研究采用经典的LISREL结构方程建模软件或图形操作界面的AMOS软件,其他结构方程分析软件使用较少,如Mplus、EQS、Mx等。SEM建模软件各有长处和不足。例如多数SEM教科书采用LISREL的符号表示系统,或以LISREL软件为演示工具,所以采用LISREL进行分析有助于对统计方法本身的理解。LISREL软件的不足之处在于,软件的编程较为复杂,操作者虽然可以在示例程序的基础上根据研究需要进行修改,但对于初学者来说还是非常有挑战性的。图形操作界面的AMOS软件非常适合初学者,在任务窗口上将变量之间的关系通过图标的形式呈现,软件会据此做出估计并报告估计结果,由于操作简便大受研究者欢迎。通过图形操作界面设定变量之间的关系,易用的同时也容易出错(Tomarken & Waller, 2005),特别是对SEM统计原理本身并不精通的初学者。当程序不能执行、报告错误时操作者尚能意识到模型设置错误等问题的存在,倘若有些程序设置错误仍能继续估计,所得错误结果被视为理所当然,实则害人害己。如果有一种SEM分析软件能同时具备LISREL的原理清晰和AMOS简便易用两个优点于一体那该多好啊!我现在告诉你,用Mplus执行SEM分析便可以达到这个要求。在Mplus中执行SEM分析,通过简洁的语句分别定义测量模型和结构模型,根据不同数据类型,程序自行选择适合的参数估计方法。在简单的SEM中仅涉及少数几个命令语句,如BY和ON,复杂的模型会涉及MODEL INDIRECT语句,即便如此,对于心理学研究中比较复杂的模型,语句设置也是比较简便的。更多Mplus特点的介绍将放在第2章。

下面是常用SEM建模软件及网址,以方便有兴趣的读者进一步了解。

商业软件:

AMOS(Arbuckle, 1995—2012)

www.spss.com/amos/

EQS 6.0(Bentler, 2006).

www.mvsoft.com/

LISREL(Jöreskog & Sörbom, 2006)

www.ssicentral.com/lisrel/

Mplus(Muthén & Muthén, 1998—2010)

www.statmodel.com/

大型统计软件:

SAS TCALIS

http://support.sas.com/documentation/cdl/en/statugtcalis/61840/PDF/default/statugtcalis.pdf

Stata GLLAMM

www.gllamm.org/

Statistica SEPATH

www.statsoft.com/products/statistica-advanced-linear-non-linear-models/itemid/5/#structural

Systat RAMONA

www.systat.com/

免费SEM软件:

AFNI 1dSEM package

http://afni.nimh.nih.gov/sscc/gangc/PathAna.html

OpenMx

http://openmx.psyc.virginia.edu/

SmartPLS(偏最小二乘法估计)

www.smartpls.de/forum/

※推荐阅读※

类别数据分析可参见Agresti(2007)的教科书,该书解释了类别数据分析常用的统计模型。Muthén(2008)的文章阐述了Mplus框架内所包含的潜变量模型,是概略性了解潜变量分析模型最好的读物。Bollen(2002)的文章对潜变量的定义给予了梳理和对比,并提出潜变量更一般的定义。Agresti, A. (2007). An Introduction to Categorical Data Analysis

Second Edition. Hoboken: John Wiley & Sons.Bollen, K.A. (2002). Latent variables in psychology and the social

sciences. Annual Review of Psychology, 53, 605-634.Muthén, B. (2008). Latent Variable Hybrids Overview of Old and new

Models. In G. R. Hancock & K.M. Samuelsen (Eds.), Advances in

latent variable mixture models. Charlotte, NC: Information Age

Publishing, Inc.2 Mplus简介及主要命令语句2.1 Mplus简介

Mplus是一款功能强大的潜变量建模软件,将其多个潜变量模型综合于一个统一的分析框架。Mplus主要处理如下模型:探索性因素分析(Exploratory Factor Analysis, EFA)、验证性因素分析(Confirmatory Factor Analysis, CFA)与结构方程模型(Structural equation modeling, SEM)、项目反应理论(Item Response Theory analysis, IRT)、潜类别分析(Latent Class Analysis, LCA)、潜在转换分析(Latent Transition Analysis, LTA)、生存分析(Survival Analysis)、增长模型(Growth Modeling)、多水平模型(Multilevel Analysis)、复杂数据(Complex Survey Data Analysis)和蒙特卡洛模拟(Monte Carlo Simulation)等。

Mplus软件的前身是Bengt. O. Muthén教授开发的结构方程建模软件LISCOMP。Mplus的第1版发布于1998年底,经过10多年的完善和[1]拓展,最近一次升级为2012年发布的第7版。当前的Mplus7提供了多个操作系统版(Windows, Mac OS X,和Linux)。

Mplus由基本主程序和两个扩展模块组成:多水平(Multilevel Add-On)和混合模型(Mixture Add-On)。通过不同搭配,Mplus提供四种不同的功能组合:

①基本程序。基本上等同于一般的SEM软件,能处理回归分析、探索和验证性因素分析、增长模型和生存分析等。

②基本程序+混合模型模块。在包含基本程序功能外,增加了估计类别潜变量模型的功能。

③基本程序+多水平模型模块。在包含基本程序功能外,增加了估计嵌套数据(多水平数据)的功能。

④基本程序+两个模块组合。包含基本程序功能、混合模型模块和多水平模型模块的全部功能。

由于功能不同,价格也不同(详见表2-1)。Mplus提供的学生价大致是商业版售价的三分之一。表2-1 Mplus7学生价目表Mplus Version 7 ProductsVersion 6.11 Student PricingMplus Base Program$ 195Mplus Base Program and $ 240Mixture Add-OnMplus Base Program and $ 240Multilevel Add-OnMplus Base Program and $ 350Combination Add-On

另外,可从Mplus主页(http://www.statmodel.com/demo.shtml)下载演示版。演示版具有Mplus全部的分析功能,只是在处理变量数量上受到限制。具体来说,演示版只允许最多2个自变量和6个因变量,以及只能分析2水平的变量。2.2 Mplus安装与运行过程2.2.1 Mplus安装

安装Mplus要求的硬件条件并不高,具体来说,

①操作系统。

a.Microsoft Windows 2000/XP/Vista/7;

b.Mac OS X10.4或更新版本;

c.Linux(Ubuntu, RedHat, Fedora, Debian,和Gentoo)。

②内存大于1GB。

③至少120MB的硬盘存储空间。2.2.2 Mplus运行过程

图2-1为Mplus的主界面,非常简洁。图2-2为Mplus的工作界面,所有的建模过程均呈现在工作界面上。Mplus默认命令符为蓝色字体,其他为黑色字体,注释通过感叹号“!”引导开始,为草绿色字体。图2-1 Mplus windows版的界面图2-2 Mplus的工作界面(输入窗口)

模型定义完成后,首先保存,然后点击图标,程序将会进入dos运行界面(图2-3)并出现运行提示(图2-4),短暂停留后(运行时间依据模型类型、复杂程度和样本量等因素而定)呈现结果输出界面(图2-5)。图2-3 Mplus的DOS运行界面图2-4 Mplus运行提示图2-5 Mplus结果输出窗口2.3 Mplus命令概述

Mplus命令最大的特点是能用简洁的语言表达复杂的模型,同时易于理解。Mplus的命令语句非常精炼,多数情况下,使用非常简短的语句便可表达复杂的关系,这种关系在其他同类分析软件中则需要复杂的设置。虽然图形操作界面的AMOS软件可以通过作图的方式设[2]定模型,然而当模型涉及较多变量时,无论在操作和美观上都很不方便。正如图2-6所示,这是一个涉及10个潜变量和61个测量指标的验证性因素分析模型。该图给人的第一印象便是乱,10个潜变量之间的45对相关系数很难厘清,在模型设定时一不小心就漏掉了某一(几)条路径。而该图所涉及的关系,用Mplus语句表达,则简洁而明了,见表2-2。图2-6 一个复杂模型的路径图表2-2 复杂模型路径图的Mplus表达

在Mplus中表达如此简洁是因为很多参数已经由Mplus在后台设定为默认设置。具体来说:①为了模型识别(为潜变量指定测量单位,见本书第5章),每个因子的第一个条目的负荷默认为1;②10个因子之间彼此相关;③因子方差、条目残差方差和条目截距自由估计;④[3]条目残差不相关;⑤测量指标为连续变量。当然,这些程序默认的设置可根据研究需要通过另外的设定而被改变。

上面这个例子给大家演示了Mplus估计模型时的优点,当然,这里提到的优点只是Mplus众多优点中最显而易见的方面,Mplus最有魅力的方面在于其提供多种估计方法和处理复杂模型的能力,这些特点将是本书要探讨的主题。

Mplus功能强大,包含很多语句,而本书主要介绍心理学等社会科学研究中常用的统计模型,所以只涉及部分语句,本书未涉及的语句有需要的读者可参考Mplus用户手册。另外,本章着重介绍最基本的语句,一些特殊语句将放到各章具体使用时再做详细介绍。2.4 Mplus常用命令

Mplus有十个一级命令,分别为:标题(TITLE),数据(DATA),变量(VARIABLE),定义(DEFINE),分析(ANALYSIS),模型(MODEL),输出(OUTPUT),保存数据(SAVEDATA),绘图(PLOT)和蒙特卡洛(MONTECARLO)。其中DATA, VARIABLE和ANALYSIS是所有分析必要的命令,其他命令则为非必要命令。请注意,这里的必要是指一个分析缺少这些命令将无法执行,其他非必要命令的缺失不会影响到分析的执行。然而,有些非必要命令对于有效的分析仍然是不可缺少的。执行一个分析的目的是为了得到有用的结果,如果不使用OUTPUT结果输出命令,整个分析可以执行,但并不报告要求的结果,这样的分析也是无效的。

十个命令群中,除了TITLE标题命令较为单一外,其他命令群均包含多个子命令,Mplus强大的分析功能就是通过这些子命令实现的。限于篇幅,下面仅对各命令群中最常用的子命令进行介绍,其他子命令可在Mplus手册第15—20章获得详细介绍。2.4.1 标题(TITLE)

标题命令用于为程序起个名称,并非Mplus必须的命令。标题可以是英文也可以是中文的。需要注意的是,标题中尽量不要出现Mplus的命令字符,以免产生不必要的错误。2.4.2 数据(DATA)

数据命令是Mplus必须的命令,用于指定数据文件存放的路径。(1)数据准备

心理学及社会科学研究者经常使用SPSS作为数据管理和统计分析的工具。使用SPSS的一个好处是可以通过SPSS将数据转换成与其他统计分析软件对接的数据格式或自由格式。具体通过SPSS的“FILE”下拉菜单中的“SAVE AS”来实现。不像其他结构方程软件可以读取多种数据文件,Mplus只能读取ASCII格式文件(通常后缀为.dat和.txt的文件)。

Mplus可以识别自由和固定两种结构的数据。由于心理学等社会科学领域的研究样本量通常不是很大,涉及的变量也不是很多,所以使用自由格式数据比较普遍。当样本量和变量很多时,使用固定格式的数据读取速度更快。Mplus通过DATA命令指定与数据相关的信息。FILE语句用于指定数据文件的存储路径和文件名。例如,

FILE is c:\mplus\ptsd.dat;

上述指令提示文件名为ptsd.dat,存储路径为C盘Mplus文件夹。在自由格式数据文件中,每列为一个变量,变量之间用空格、逗号或制表符进行限定,缺失值必须用“.”或其他数值代替(如,9或99),否则会发生读取错误。Mplus对变量数是有限制的,变量数的上限是500,字符的长度是5 000。也就是说,数据文件中最多能包含500个10位数的变量。(2)数据格式

固定格式

在固定格式文件中,每个变量所占字符数必须相等,FORTRAN式的定义是可以被Mplus接受的。常用的FORTRAN的描述符有“F”“x”“t”“/”。其中F用于指定变量的格式,其后可以跟整数,也可以跟小数。整数表示变量是没有小数点的整数值,整数表示是几位数;如果是小数则说明数据含有小数点,小数点前的数值代表数据包含几个数字,小数点后的数字表示数据包含几位小数。例如,12.36可写成F4.2的形式为1236。F前也可以有整数值,表示有多少个F,例如F4.1,F4.1,F4.1,F4.1,F4.1,可缩写为5F4.1。

x字符用于表示跳过多少列不读取,如25x,表示跳过25列不读。

t字符用于指定具体读取某列变量,如t30,表示读取第30列。

下面的语句:FORMAT IS 5F4.1,5x,t30,5F5.2;

第一个5F4.1是5个F4.1的缩写形式,即表示F4.1,F4.1,F4.1,F4.1,F4.1。第2个5x表示跳过5列数据不读取。t30表示直接读取第30列的数据,最后的5F5.2与5F4.1一样,表示5个保留2个小数点的5位数。整个数据文件有55位数。

自由格式

自由格式数据文件可以通过上述所说的SAVE DATA获得。具体操作步骤为,打开SPSS文件→FILE→SAVE DATA→对话框选择保存[4]文件类型,下拉选项中选择“Tab-delimited(*. dat)”格式,最后单击确定即可。这里需要特别提醒的是,Mplus不能识别数据文件中除数值以外的字符(特定的缺失值标签除外),所以在通过SPSS转换产生*.dat文件时要把原数据文件中的变量名等(非数值型)不需要的信息删去,以避免不必要的错误。

当数据文件的路径和格式等设置好后,还需要提供数据文件内容的信息,这一步通过TYPE来实现的。一般来说,数据文件要么提供单个信息(原始数据)要么提供汇总信息(在原始数据基础上汇总的信息,如相关矩阵、协方差矩阵等)。TYPE命令下共有9种类型可供选择,其中最常用的是INDIVIDUAL,即提供原始数据,也是程序默认的类型。INDIVIDUAL定义的数据矩阵为行表示观测样本,列表示变量。在社会科学研究中,绝大多数数据文件以INDIVIDUAL类型存储,所以通过SPSS转换后的*.dat文件即为这种形式,因此在多数情况下不需要TYPE语句。

另外,在有些情况下需要使用汇总数据。例如,原始数据无法获得,或是需要对某些概念间的相关系数矩阵或协方差矩阵进行元分析。汇总数据必须为自由格式的外部ASCII文件,而且需要使用NOBSERVATIONS注明样本量的大小。例如,TYPE IS CORRELATION MEANS STDEVIATIONS;

.4 .6 .3 .5 .5!均值

.2 .5 .4 .5 .6!标准差

1.0

.86 1.0

.56 .76 1.0

.78 .34 .48 1.0

.65 .87 .32 .56 1.0

汇总数据必须提供观测变量的个数,在DATA后加:“NOBSERVATIONS=1 000;”。

最后,DATA命令下还提供对数据结构进行转换的指令,有兴趣的读者可以参考Mplus6.0用户手册465-471页。2.4.3 变量(VARIABLE)

变量命令是Mplus必须的命令之一,必须通过变量命令才可以对数据文件进行有意义的处理。对于初学者来说,最大的困难之一就是如何整理数据和使用变量命令来定义变量。一般情况下,最基本的变量命令有三个:①定义数据文件中的变量;②选择分析使用的变量;③定义变量的类型或尺度。(1)VARIABLE定义数据文件中的变量

前面提到过,数据文件中除了数字之外不允许其他变量名称的字符存在,所以在分析数据之前需要给数据文件中出现的数据命名,或者说给每列变量取个名字。由于数据文件的格式已通过DATA命令定义,所以这里只需要给每列变量指定一个标签即可,所有变量都要有名称,否则程序读取时会出现错误,变量名最多允许8个字符。例如,VARIABLE IS/ARE/=y1 y2 y3 y4 y5。说明数据文件包含5个变量,名称分别为y1—y5。(2)USEVARIABLES选择分析使用的变量

一个数据文件可能包含很多变量,但某项分析可能只涉及部分变量,所以在某个具体分析之前要对所使用的变量进行选择,使用USEVARIABLES来定义。例如,USEVARIABLES ARE/=y1 y2 y3 y4 y5;或缩写成USEVARIABLES ARE/=y1—y5,意指数据文件包含y1—y10十个变量,而只使用前五个变量。(3)定义变量的类型或尺度

定义变量的类型或尺度很重要,因为在Mplus中,不同的变量类型对应着不同的参数估计方法,也就是说程序使用不同的统计方法是根据指定的变量类型进行的。例如,在回归分析中,连续型因变量对应线性回归,二分因变量对应logistic回归等。变量的尺度有连续、类[5]别、计数、名义、截尾,这些数据需要不同的字符来定义,分别对应:CONTINUOUS, CATEGORICAL, COUNT, NOMINAL和CENSORED。在Mplus中默认的数据类型是连续的,所以连续变量不需要定义,或者说,非连续性变量若不定义会被程序当作连续型变量处理。

心理学和社会科学研究中常用的量表多采用李克特式问卷,如李克特5点计分,1=非常同意,2=同意,3=中立,4=不同意,5=非常同意。从心理测量学的角度来说,李克特5点式数据为类型数据,并没有达到等距水平,因为从“1=非常同意”到“2=同意”之间的距离并不等同与从“3=中立”到“4=不同意”之间的距离,然而在实践中多数研究者将5点李克特量表视作连续变量来近似处理。需要提醒读者的是这种做法只是处理数据上的方便,得到的只是近似估计,而非5点李克特量表为连续型数据。在研究过程中也常会遇到二分变量,如MMPI, EPQ和CPI等人格量表或临床评估工具。在定义顺序变量(orderedcategorical)或二分变量(binary)时需要使用CATEGORICAL指令。用COUNT、 NOMINAL和CENSORED分别指定计数、名义和截尾数据。(4)USEOBSERVATIONS

用于选择符合特定条件的样本。例如,USEOBSERVATIONS=gender EQ 1 AND GRADE EQ 1;选择所有符合性别为1,年级也为1的样本。EQ为逻辑符,表示“等于”,除此之外,还有如下逻辑符:

AND:和;

OR:或者;

NOT:否;

NE:不等于或“/=”;

GE:大于等于“>=”;

LE:小于等于或“<=”;

GT:大于或“>”;

LT:小于或“<”。(5)缺失值

MISSING用于定义数据文件中的缺失值。Mplus提供两种缺失值标记:数值型和非数值型。前者是通过指定数据文件中的某(几)个数值代表数据缺失。例如,MISSING=ALL(9),表示所有变量的缺失值用9表示。如果不同的变量有不同缺失值标记符,则同MISSING=Y1(9)Y2(99)Y3(999),表示为变量Y1的缺失值用9表示,其他两个变量Y2和Y3的缺失值分别用99和999表示。MISSING=y1-y10(9);表示变量y1-y10的9代表缺失值。MISSING=y1(9)y2(9 99);表示变量y1的缺失值用9代表,y2的缺失值用9和99表示。

非数值型则是采用某种符号代表数据缺失。常用的非数值型缺失标记符有“*” “.”,或直接指代为空白MISSING=BLANK。需要注意,MISSING=BLANK不能用于自由格式的数据。

GROUPING:用于指定数据文件中用于分组的变量及数值标签代表的组别。例如,GROUPING=gender(1=male 2=female),说明数据文件中的gender为分组变量,1代表男性组,2代表女性组。(6)定义

DEFINE 定义命令是一个很有用的命令,可以通过加减乘除和逻辑转换定义新变量。也可以使用数据转换命令计算或转换新变量。常用的数据转换命令有如下几个:

MEAN 通过平均几个变量的均值定义新变量。例如:Y=MEAN(y1 y2 y3);定义一个新变量Y,其值等于y1—y3三个变量的均值。

CLUSTER_MEAN 同CLUSTER同用,定义每个CLUSTER中个体水平的均值。例如,Y=CLUSTER_MEAN(x);新变量Y为每个CLUSTER中x变量的均值。

SUM 通过求几个变量的和定义新变量。例如,Y=SUM(y1 y2 y3);定义一个新变量Y,其值等于y1—y3三个变量的和。

CUT 通过预定的切分点将变量划分为类别变量。例如,CUT Y1(10 20);将变量Y划分为3类,≤10的转化为0;10—20之间的转化为1,≥20的转化为2。注意:产生新变量时,产生的新变量必须写入USEVARIABLE,否则在随后的分析中不能使用。(7)辅助变量(AUXILIARY)

辅助变量有4个功能:

①配合SAVEDATA命令将分析中未使用的变量保存下来。

②与TYPE=GENERAL和ML估计配合使用,用于缺失值分析。辅助变量(Auxiliary Variables,与缺失值相关的变量)可以减少估计偏差并提高满足随机缺失假设的可能性(Collins et al., 2001; Schafer & Graham, 2002)。具体来说,在分析缺失值数据时将辅助变量纳入分析过程,但辅助变量并不出现在模型中。例如:AUXILIARY=z1-z4(m);括号内的m表示missing,即辅助变量用于缺失值分析。

③与TYPE=MIXTURE配合使用,用于检验变量均值跨类别差异检验,括号内e表示equality。例如:AUXILIARY=y1(e)y2(e);用以检验y1、y2两个变量的均值在不同潜在类别组是否相等。

④与TYPE=MIXTURE配合使用,作为潜在类别变量的预测变量进行多项式logistic回归,括号内r表示regression。例如:AUXILIARY=Y1(r)y2(r)。r和e不能同时使用,但第一种功能和与其他3种功能可以组合使用,例如:AUXILIARY=gender Y1-y5(e);。2.4.4 分析(ANALYSIS)

分析命令涉及的主要是参数估计方法。其表达式为:

ANALYSIS:TYPE=分析类型;=GENERAL!分析的类型为一般,为Mplus默认;=MIXTURE!分析的类型为混合模型;=TWOLEVEL!分析的类型为两水平模型;=EFA##!分析的类型为探索性因素分析;ESTIMATOR=参数估计方法;=MLM!稳健极大似然估计;=ML!参数估计方法;

Mplus提供的估计方法:

①ML(Maximum Likelihood)极大似然估计,是最常用的参数估计法,也是绝大多数结构方程建模软件默认的参数估计法。当因变量为连续变量时,也是Mplus默认的参数估计法。

②MLM估计。极大似然估计伴标准误和均值校正的卡方检验,此时得到参数为Satorra-Bentler校正统计量。此方法适用于非正态数据,见第5章,第6章及第9章。

③MLMV估计。极大似然估计伴标准误和均值-方差校正卡方检验,用于非正态数据估计。

④稳健极大似然估计(Robust Maximum Likelihood Estimator,MLR),适应于非正态和非独立数据(复杂数据结构,与TYPE=COMPLEX合用),标准误采用sandwich估计法。MLR卡方检*验渐进等价于Yuan-Bentler T2检验统计量。

⑤MLF极大似然估计伴一阶衍生近似标准误和传统卡方检验。

⑥Muthén有限信息参数估计(Muthén's Limited Information,MUML)。

⑦加权最小二乘法估计(Weighted least square,WLS)。当所有的指标为连续性变量时WLS所得卡方等同于渐进自由分布法ADF。WLS对数据分布形态没有要求,但是需要较大的样本量,如N>2 500,才能得到稳定的参数估计值。

⑧WLSM 加权最小二乘法估计伴均值校正卡方检验。

⑨WLSMV 加权最小二乘法估计使用对角加权矩阵伴均值-方差校正卡方检验。该估计法为处理类别数据设计,更深入的介绍见第9章。

⑩非加权最小二乘法(Unweighted Least Squares, ULS)。ULSMV 非加权最小二乘法使用全部加权矩阵伴均值-方差校正卡方检验。广义最小二乘法(Generalized Least Square,GLS)。2.4.5 模型(MODEL)

MODEL命令主要用于对假设模型进行设定。在MODEL模块中提供了如下表所示的语句用于设定模型。表2-3 Mplus命令汇总

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载