应用统计与SPSS应用(含CD光盘1张)(txt+pdf+epub+mobi电子书下载)

作者:朱红兵

出版社:电子工业出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

应用统计与SPSS应用(含CD光盘1张)

应用统计与SPSS应用(含CD光盘1张)试读:

前言

我们所处的时代是信息时代,信息时代离不开在大量的信息中去获取科学有用的信息,由于采集信息的方法中,很多时候使用了统计中随机采样的方式,因而使得收集到的信息中无不戴上随机的烙印,这使得对采集到的信息进行处理的数学方法也离不开统计学的身影。毫无疑问,统计学的理论和方法为处理自然科学和社会科学研究中众多受随机因素影响的实际问题,提供了有力的工具。

需求决定供给,正是这种时代的要求,目前,应用统计已成为各大学为许多非统计专业的本科生和研究生开设的一门必修课程。

众所周知,统计理论和方法在应用过程中的瓶颈之一,是其繁杂的计算过程,为了提高计算效率,统计学家不得不在简化计算方面花费很多精力,也由此产生了许多有助计算简化的算法,这些内容在传统的应用统计书籍中都占据了大量的篇幅,也需要占用读者很多宝贵的时间来掌握。而今随着计算机的普及专用统计软件的使用,这些影响统计普及和应用的障碍已不复存在。

本书是针对非统计专业的本科生、研究生及需要用统计方法来处理社会各领域科研问题的读者而编写的。本书以当今国际上最流行的统计软件之一SPSS为平台,以介绍统计概念、方法在实际中的应用和正确使用SPSS中的众多统计程序为立足点,目的是通过对初级、中级统计学知识的介绍,帮助非统计专业的读者来学习如何正确使用统计方法、如何判定这些方法与SPSS中程序的对应关系,以及如何正确分析和解释SPSS的输出结果。

因此,对各种统计方法的证明过程不作为本书的重点,多数都轻描淡写一带而过。全书侧重于应用,突出实用性,书中列举的大量例题均来源于实际科研中,通过对这些实例的解析,来帮助读者达到对书中所给出的各种统计方法的理解。

因在卢纹岱主编的《SPSS统计分析(第1-4版)》书中,已对SPSS软件的基本操作方法及各种选项的解释上做了详细的阐述,因此,本书对这些方面不再作详细介绍,而把SPSS中的操作重点放在究竟选何种选项上,即如何正确选择适宜的统计方法上。

本书可作为非统计专业的本科生和研究生的应用统计教材和教学参考书,也可作为从事数据分析或统计应用的各领域、各专业研究人员的统计工具书。

本书共分12章。前7章为常用统计部分,主要介绍统计方法的选择、抽样方法、数据资料的收集和整理、常用的分布和统计推断的方法,它适合于非统计专业的本科生作为统计入门课程内容。后5章偏向多元统计分析,主要介绍多因素方差分析、正交试验设计及其分析、相关与回归分析、聚类与判别分析、主成分、因子分析与对应分析,它适合于非统计专业的研究生作为统计入门课程内容。

在本书的编写过程中,卢纹岱教授不但担任了本书的审校,而且自始至终为本书的成稿提出了许多有益的建议和热情的鼓励和帮助,在此深表谢意。

全书由朱红兵编著。在编写过程中,苏林、朱启钊、苏为夏、林建亭、苏玉成、宋阳等同志在资料收集整理、数据录入、绘图、核对等方面做了大量工作,在此深表谢意。

由于编者的水平有限,错误之处在所难免,敬请读者批评指正。

反馈意见,请发电子邮件至:zhuhongbing@cipe.net.cn。

最后,尤其要感谢我的爱人苏林和我的家人,让我在没有家庭负担的情况下顺利完成本书的撰写工作。

编者

2011年1月于北京

第1章 SPSS的基本功能与统计方法的选择

SPSS原意为Statistical Package for the Social Sciences,即“社会科学统计软件包”,它是一个组合式软件包,集数据整理、科学计算、分析过程和结果输出等功能于一身。于20世纪60年代末由美国斯坦福大学的三位研究生研制。1984年SPSS首先推出了世界上第一个统计分析软件微机版本SPSS/PC+,是世界上最早的统计分析软件,在国际学术界有一条不成文的规定,即在国际学术交流中,凡是用SPSS软件完成的计算和统计分析,可以不必说明算法,享有极高的声誉。随着公司的进一步发展,SPSS公司已于2000年正式将英文全称更改为Statistical Product and Service Solutions,意为“统计产品与服务解决方案”。它是一款在调查统计行业、市场研究行业、医学统计、政府和企业的数据分析应用中久享盛名的统计分析工具。已广泛应用于自然科学、技术科学、社会科学的各个领域。随着统计学的不断发展,SPSS的功能也得到了进一步的拓展,已有迹象表明,SPSS将更改其名,用“PASW”取代“SPSS”。PASW英文全称为“Predictive Analytics Software”,即预测分析软件。为使读者不至于混淆本书中所涉及的内容,因此,值得一提的是,本书是基于SPSS16.0基础上撰写的。

本章的主要内容是根据科研工作中常用的统计分析的一般工作步骤,建立起与SPSS之间的桥梁,即对SPSS的基本功能与常用的80%的统计方法进行必要的归纳总结,欲使之成为在实际统计分析工作中选择SPSS的基本功能与统计方法的向导,所以,必然需要用到后面章节中的许多知识。因此,对于尚未掌握统计基础的读者,更不必惊慌,不要急于弄清楚本章中所有内容,只需在掌握了本章中的一些基本知识和概念后,就完全可以跳过对方法的选择归纳中的大部分内容,等在对后面几章的内容有了大致的理解,以及建立起一些基本的统计知识和SPSS的基本操作过程后,再回过头来关注本章其余内容也不迟。但对于已有一定科研经验和统计基础的读者,通过阅读本章归纳性的总结,或许能加快找到解决科研中遇到的问题所对应的统计方法,以达到事半功倍的效果,这正是作者所期望的。

1.1 SPSS主要功能概述

1.1.1 SPSS的主菜单简介

在SPSS中,菜单栏共有11个选项,见图1-1。分别是:图1-1 SPSS16.0中的主菜单

1.File:文件管理菜单,有关文件的建立、调入、存储、显示和打印等。

2.Edit:编辑菜单,有关文本内容的选择、复制、剪贴、寻找和替换等。

3.View:视窗菜单,有关SPSS数据编辑窗口外观、工具条显示、数据视窗和变量视窗的转换、单元格线显示、关闭等。

4.Data:数据管理菜单,有关数据变量定义、数据格式选定、观察对象的选择、排序、定义多重响应集、加权处理、数据文件的转换、连接、汇总、产生正交表等。

5.Transform:数据转换处理菜单,有关数值的计算、重新编码、建立时间系列、缺失值替代、产生随机数等。

6.Analyze:统计分析菜单,集中了一系列在应用中所要用到的统计方法。

7.Graphs:作图菜单,有关统计图的制作等。

8.Utilities:实用程序,包括变量、OMS标志、数据文件注释、定义变量集、使用变量集、运行手稿文件等。

9.Add-ons:附加内容,提供包括Amos、数据挖掘、抽样功效、数据录入、文本分析等应用程序,提供统计咨询、统计培训服务、可扩展的编程能力以及从三本统计手册中查找相关统计方法的说明等。

10.Window:窗口管理菜单,有关窗口的排列、选择、显示等。

11.Help:帮助菜单,有关帮助文件的调用、查寻、显示等。

点击主菜单选项即可激活菜单,这时会弹出下拉式子菜单,用户可根据自己的需求再点击子菜单的选项,来完成特定的功能。

从以上各主菜单主要从事的任务可见,SPSS16.0的基本功能包括数据管理、数据计算、统计分析、图表分析、输出管理以及可扩展的编程能力等。1.1.2 SPSS的主要统计分析功能

SPSS的统计分析功能主要集中在Analyze的主菜单中。单击Analyze弹出Analyze的子菜单,见图1-2。各子菜单对应的统计功能见表1-1。图1-2 统计分析菜单表1-1 各子菜单对应的统计功能(续表)1.1.3 SPSS的菜单与应用统计分析工作的主要步骤的对应关系

纵观现有SPSS中提供的应用程序的统计分析功能,虽然它有将别学科的数据处理方法逐渐引入的趋势,但整体而言,它基本上还是立足于数理统计的基本原理的。

数理统计是一门以概率论为基础,把带有随机性的数据作为研究对象,其任务是如何以有效的方法收集、整理和分析这些数据,并利用所得数据对所观察的现象做出推断或预测,以为决策提供依据。

数理统计的内容大体包括三个部分,一是数据资料的采集,二是数据资料的描述,三是统计推断。

数据资料的采集主要包括抽样方法(如何从总体中抽取样本)和实验设计(如何用最经济、最少次数的实验来获取与做大量实验等效结果的方法)等内容。

数据资料的描述是统计学的基础,侧重于研究对各个领域中的客观事物进行数字的计量、概括和表述方法,即主要研究对实验或调查中得到的大量数据资料如何进行科学整理,计算派生指标,制作统计图、表,找出这些数据的分布特征,计算出一些具有代表性的统计数字,用这些概括性的数字对总体特征进行简要的描述。

统计推断,它研究如何根据样本的特征推断总体的特征,即在描述统计的基础上,利用样本数据传递的信息,通过局部的研究来对总体的情形加以推断,并标明这种推断成立的可能性的大小。推断统计是当前统计学研究的主流。

上述这些内容将贯穿于统计的分析工作中。对于一般的统计分析工作,大致要经历如下的步骤,见图1-3。

上面框图中所提到的整理数据资料,就是对所收集到的原始数据,进行审核、归纳、分组,并正确地按照统计分析方法的要求把有效数据输入计算机的相关统计软件(如EXCEL、SPSS、SAS、Foxpro等)中,形成数据文件,以便进行统计计算和分析。详见本书的第2章。图1-3 一般统计分析工作步骤

在SPSS中,各子菜单的过程里提供了一般的统计分析工作步骤中所需要的大部分方法,不过它的分类并非按一般的统计分析工作步骤来分的,在有些过程里,它们是集数据资料的整理、描述和推断功能于一身的,因此,适当加以区分和归类,对我们快速进入工作状态是有益的。

我们将SPSS16.0菜单中的内容按其功能与一般的统计分析工作步骤中的研究设计、整理数据资料、描述数据资料和统计推断四步建立起初步联系。其对应关系见表1-2。表1-2 一般统计分析工作步骤与SPSS菜单和子菜单的对应关系(续表)

注:表中带*号者表示除其具有本项的主要功能外,同时还具有其他项的功能。

1.2 研究设计

研究设计是科学研究工作中的重要一环,它做得好与坏将直接关系到取得数据资料的代表性、有效性和可靠性,影响到统计结论的可信度。一般地研究设计是根据研究课题来制定的,它主要包括实验设计和调查设计。研究设计主要解决:研究指标的选择与设计;研究(被试)对象的确定、抽样方式的设计及其相应研究精度的确定和抽样方式下的样本容量的最低限的估计;对应的统计方法的确定和科研经费的预算等。1.2.1 研究指标的选择与设计

1.研究指标

不同的研究领域对指标的定义是各不相同的。在新华字典中对一般的“指标”定义为事先规定的应达到的目标。也指检查、统计工作中实际达到的标准。

显然,在这里所说的“指标”同字典中的指标是同字不同意的。

在不同的学科中,对指标的定义也不尽相同。

在统计理论与统计设计上所使用的统计指标是指反映总体现象数量特征的概念。它包括三个构成要素:指标名称,计量单位,测量或计算方法。

在研究中,反映个别现象的叫做个体指标,反映整体现象的叫做综合指标。由于统计的任务主要是反映整体的数量特征,因此,在实际研究中,需要对一个研究的整体作出分解,选择和设计反映各部分的个体指标,并对不是常用的新设指标,要对其范围和计算方法做出合乎实际的具体规定,这些具体规定通常称为“统计指标口径”。目的是在其他研究者采用同样的指标作研究时,可使用相同的标准,以便进行对比分析。

2.设计研究指标应当遵循的原则(1)以理论假设为指导

一项研究的目的在于检验研究提出的理论假设,因此,所选择和设计的研究指标必须能全面反映理论假设的内容,不能主观、随意地去罗列一大批与研究的理论假设毫无关系的指标。指标设计工作常采用演绎方法,由理论假设到研究目标,从研究目标到研究变量,再由研究变量到研究指标。因此,设计指标时,应首先明确理论构思与假设,然后确定研究目标,弄清所涉及的各种研究变量,最后根据这些变量的客观要求,来制定收集实际数据与资料的指标。并由此构成一个有内在逻辑联系的、完整的研究指标体系。(2)可行性

所设计的研究指标,既不是在数量上越多越好,也不是在操作上越复杂越好。只要能全面、完整地反映理论假设与研究变量的主要维度即可,应尽可能删去一切不必要的多余指标,注意使研究指标简化,特别要考虑所设计指标的可行性,在操作上越简单的指标越具有可行性。(3)可重复性

为使不同的研究人员在作相同的研究中能获得相同的结论,对研究中所设计的指标要使用操作定义明确地表述它们,保证它能够被观察、测量和重复操作。1.2.2 研究对象的确定

任何一项研究都要有具体的研究对象,研究对象可以是人、是物,也可以是文献记载或其他文字资料等,数量可以是一个,几个,也可以是成千上万个。

研究对象的确定不是随便的。它由以下几个方面决定:

首先,研究对象的确定取决于研究的目的,由研究的目的确定什么可作为研究的被试对象。例如,在“对中小学生实施分层递进教学,提高教学质量”的研究中,其研究对象就是中小学在校学生。一般地,对所要达到研究目的所关注的那个群体可以作为研究的对象。例如,在教育、教学科学研究中,由于我们往往需要关注影响教育、教学质量的因素,因此,此时的研究对象一般来说主要是指学生、学校、教师等这样的一些群体。

其次,无论什么样的研究对象,都必须要保证通过对它进行科学研究能够得出可靠的结论。如果研究对象是文献记载或其他文字资料,它必须是公开发行的或在国家的档案馆等地方可查证且得到各方认可的;如果研究对象为人、物或动物时,这就需要在确定研究对象时,能确信所选定的研究对象是可以通过某些确定的条件来判定其是否属于同类,同时还能确信选定的这些研究对象是符合研究的一些具体要求后参与到试验或调查中来的。在相同情况下所做的重复研究应有相同或相似的结论。

第三,确定研究对象应考虑其现实性和可能性,即根据研究者所具备的条件能否对研究对象进行研究。有些史料确实存在,但由于尚未到解密期等原因,暂时无法接触到,因此,这些资料不能作为研究对象。

第四,确定研究对象时还应考虑研究效率和效益,尽可能在比较短的时间内,以比较少的投入取得较大的研究成果。1.2.3 抽样设计

在调查研究和实验研究中,通常情况下是通过从研究所关注的那个集合中,抽取部分研究对象来加以研究,用以此获取的信息来对其所隶属的整个群体做出估计、推断。

所谓抽样设计是指抽样方案设计者在充分利用抽样框的辅助信息和各种概率抽样方法的特点的基础上,制定一个切实可行和精度满足要求且最经济高效的如何抽样的方案。它不但要包括从抽样框中抽出哪些单位,还包括调查失败时的补救措施和获取调查数据后如何计算主要信息量的公式。

抽样应满足随机化原则。抽样要尽可能做到随机,即使全体研究对象中的每个个体的入样的机会均等,这样可以避免研究者的主观倾向或人为因素造成抽样偏差。

一般地,常见的抽样调查包括普查、概率抽样调查和典型调查三类。(1)普查

所谓普查是对研究对象的全体进行的全面调查。如,全国人口普查,全民身体素质普查等,它费时长,而且还要投入大量的人、财、物力。一般不会经常进行,通常普查的周期在10年以上。(2)概率抽样调查

概率抽样调查是在非全面调查中运用概率统计理论指导抽样调查的方法。它根据研究对象总体中一些已知的信息,充分利用它们,并据此设计合适的抽样方案,从而获得好的有代表性的样本。它与普查相比,可以节省大量的人力、物力、财力,还能大大缩短调查的时间。实施按概率统计原理设计的抽样方案得到的样本还可以对每一个特征指标进行估计,并给出估计的误差,它是目前许多领域获取调查信息时最公认和最常用的一种抽样调查方法。(3)典型调查

典型调查是一种完全依靠先验经验的抽样调查。由于它抽取的样本含量较少,因此样本对总体代表性的好坏,很大程度上取决于设计取样方案的调查者掌握的先验信息。因而,它往往要以普查和概率抽样调查为基础确定典型样本。

上述三类抽样调查的配合使用,可以获得正确而时效性很强的总体信息。1.2.4 样本容量的确定

样本容量取多少合适是研究设计中必须慎重考虑的一个环节。虽然,样本容量越大,其代表性越好,但是,随着样本容量的增加,势必会增大研究中的人力、物力和财力的投入,因此,综合起来考虑未必就是样本容量越大越好。

样本容量的大小取决于以下一些因素。

1.研究的类型和范围

当研究是定量研究,研究范围较广,样本容量可适当大些;反之,研究是定性研究,研究范围较窄,样本容量可适当小些。

2.研究的精度

研究的精度越高,要求的样本容量越多。

3.允许误差限

用样本统计量推断总体参数时,允许误差限越小,要求的样本容量越多。

4.总体的同质性

当总体的同质性较好时,样本容量可以取得少些,如同一个人的血液的同质性较高,所以化验时只需几滴血即可;当总体的变异性较大时,样本容量应取得大一些。

5.总体容量

一般地,总体容量越大,所取的样本容量也应较大些。

6.测量工具的可靠程度

当测量工具的可靠程度较低时,测量的误差就比较大,需要的样本容量也应大一些,反之,可适当减少些样本容量。比如,在心理学测试中,一般学习能力、成就的测量工具的可靠性程度好一些,此时,样本容量可适当少些;而人格特质、自我概念和态度等方面的测量工具的可靠性程度差一些,此时,样本容量可适当大些。

7.研究经费

研究经费宽松时可以适当增加一些样本容量,但研究经费紧张时,需要严格控制成本,此时,只能量体裁衣了,能满足样本容量的最低要求即可。

8.分析的类别

当研究指标较多,它们之间的关系较复杂时,需要大一些的样本容量,反之,在一些单指标的研究中,样本容量可适当少些。

在第3章几种常用的概率抽样方法中,专门论述有关上述涉及的概念和样本容量具体确定的方法。1.2.5 实验设计中用到的一些基本术语

1.试验指标(因变量):试验中需要考察的指标。如研究不同锻炼方法对减肥的效果,不同运动强度对百米跑运动成绩的影响,则体重、百米跑成绩等就是试验指标,简称指标。

2.试验因素:试验中需加以考察的各种因素称为试验因素。例如,要研究不同的运动量、运动强度和运动持续时间对运动成绩的影响,则运动量、运动强度和运动持续时间等就称为试验因素,简称因素。

3.单因素方差分析:当考察的试验因素只有一个时,称单因素方差分析。如,当参与试验的被试对象的各方面条件都基本相似时,探讨同一个老师的几种不同的教法对学生学习成绩的影响,就是单因素方差分析。因为此时影响学习成绩的因素只有一个教法因素。

4.多因素方差分析:当考察试验的因素有两个或两个以上时,称其为多因素方差分析。例如,为了找出适合某个专项运动的运动强度、运动量、运动持续时间的较佳组合,我们需要考察不同的运动强度、运动量和运动持续时间等因素对专项运动成绩的影响,因此,它是一个多因素方差分析。

5.水平:每个因素所处的不同状态称水平。例如,将运动强度分为:大、中、小三种不同的状态,则称将运动强度分为三个不同的水平。

6.处理:在试验中,所有因素各取定一个水平组成一个试验条件,称这些试验条件为处理,又称单元。例如研究问题中的因素有性别,取值为0、1;有年龄,分三个水平1(10岁)、2(11岁)、3(12岁)。两个变量的组合共可形成六个处理:[1,1]、[1,2]、[1,3]、[2,1]、[2,2]、[2,3],代表两种性别与三种年龄的六种组合。在方差分析中,比较各处理下,因变量均值之间的差异。

7.试验单元:试验中被安排在一个处理的试验单位称为试验单元。

8.因素的主效应和因素间的交互效应:在多因素方差分析中,由于参与实验的因素至少有两个,如因素A与因素B,因素A、B对试验结果的影响称为因素的主效应,而因素A、B的联合作用对试验结果的影响称为因素的交互效应。

9.全面试验:如果每一个可能的处理都做试验,称为全面试验。

10.部分试验:只从所有处理中挑选一部分处理进行试验观察,这样的试验就称为部分试验。

11.实验设计的原则

1935年,R.A.Fisher在他出版的《试验设计法》中,试验设计应遵循三个原则,即重复、随机排列和局部控制。

重复是指在一个试验中同一处理设置两个以上的试验单位。这样可以估计试验误差,也可以降低试验误差。

随机排列是指试验中每个处理都有相等的机会安排在任何一个试验单位上。它和重复原则结合在一起使用,就能提供无偏的试验误差估计。随机要贯穿在整个试验过程的始终。

局部控制就是分范围、分区域控制非试验因素,使各处理所受的影响趋于最大限度地一致。1.2.6 常用的实验设计

差异问题主要关注两个或更多组或条件之间是否有显著性差异。在问到分组比较或差异问题时,能把独立变量和设计归结为组间或组内。

1.单组设计:从考察的总体中随机抽取一个样本含量满足要求的被试对象,从它们身上测定某个或某些观察指标的数值,同给定的分布或分布参数的常量进行差异检验。这种实验设计方案还称为标准对照。如果测试指标只有一个,叫做一元单组设计,如果测试指标有多个,叫做多元单组设计。

2.成组设计:实验中,仅涉及一个具有两水平的实验因素。当实验因素的水平与被试对象的分组无关时,可将全部的被试对象随机地分成两组,分别接受不同的处理,所以也称为完全随机成组设计。而当实验因素的水平与被试对象的分组有关时,只能在特定的被试对象所在的总体中随机各抽取一个样本,此时称为组内随机成组设计。由于在研究中的每个被试对象在且只能在一个条件或一个组中出现,所以它属典型的组间设计。当试验指标只有一个时,叫做一元成组设计,也称实验对照。当试验指标有多个时,叫做多元成组设计。

3.配对设计:(1)自身配对设计,在同一个被试对象身上,两次测得同一个定量测试指标的值,这些值成对出现。它也称为组内设计,即研究中的各个被试对象,经受或经历独立变量的所有的条件或水平。(2)同源配对设计,用来自母体相同的两个个体,进行配对,在同一个定量测试指标上各测试一次,从而得到成对数据。(3)条件相近配对设计,用各种条件相近者组成配对,在同一个定量测试指标上各测试一次,从而得到成对数据。当试验指标只有一个时,叫做一元配对设计,当试验指标为多个时,叫做多元配对设计。

4.单因素多水平设计:实验中,涉及一个具有k个水平(k>2)的实验因素。当实验因素的水平与被试对象的分组无关时,可将全部的被试对象随机地分成k组,分别接受不同的处理,所以也称为完全随机设计。而当实验因素的水平与被试对象的分组有关时,只能在特定的被试对象所在的总体中随机各抽取一个样本,此时称为组内随机设计。由于在研究中的每个被试对象在且只能在一个条件或一个组中出现,所以它属典型的组间设计。当试验指标只有一个时,叫做单因素设计。也称实验对照。当试验指标有多个时,叫做多元单因素设计。

5.随机区组设计:将全部被试对象按区组因素分成若干组,每个区组内的被试对象间互相接近,再将每个区组内的被试对象随机地分到每个处理组中。当试验指标只有1个时,称为随机区组设计。当试验指标有多个时,称为多元随机区组设计。

6.双因素无重复实验设计:将两个实验因素中的一个放置在横向上,一个放置在纵向上,设横向因素有R个水平,而纵向因素有C个水平,将全部R×C个原始条件基本相似的被试对象随机地分到各个处理的单元中去,每个单元只有一个被试对象。

7.析因实验设计:利用纵向和横向两个方向来排列全部实验因素及其水平,使实验因素之间的全部水平组合都能以纵横交叉的形式呈现出来,各种水平组合条件下至少做两次或两次以上的独立重复试验。当实验因素与被试对象无关时,也可将原始条件基本相似的被试对象随机地分到各个处理的单元中去,使每个单元有n个(n>=2)被试对象。

8.混合析因设计:根据某个或某些实验因素被试对象完全随机地分成几个独立的组(有一个组间变量),接受处理后,再在几个不同的时间点上从同一个被试对象上重复获得指标的观察值(一个组内独立变量),则称它为混合设计。混合设计在有实验前测试和实验后测试的实验研究中是通用的。

9.正交试验设计(Orthogonal experimental design):是研究多因素多水平的一种高效率、快速、经济的试验设计方法。日本著名的统计学家田口玄一将正交试验选择的水平组合列成表格,称为正交表。正交试验设计依托正交表,根据正交性从全面试验中挑选出部分有代表性的点进行试验,这些有代表性的点具备了“均匀分散,齐整可比”的特点,正交试验设计是分式析因设计的主要方法。例如做一个三因素三水平的实验,按全面实验要求,须进行27次组合实验,且尚未考虑每一组合的重复数。若按L9(3)^3正交表安排实验,只需做9次,大大减少了工作量。因而正交实验设计在很多领域的研究中已经得到广泛应用。1.2.7 在研究设计中的统计分析预案

在研究设计中,需要给出对收集到的数据资料使用何种统计方法进行统计分析的预案。

如何选择统计方法,这是科研人员最关心的问题。有些人错误地认为,对调查或试验中获取的数据资料,用SPSS处理后就能得到科学的统计结论,结果事实与之正相反。许多研究的成果之所以得不到大家的认可,许多花费了很大财力和精力的研究中,总存在着明显的瑕疵和缺陷,达不到理想的效果,这往往与误用统计方法有关,有些则是由于实验设计存在先天缺陷所造成,还有一些是由于只用了一些适用的统计方法,但数据资料中的许多信息还没有选择到更合适的统计方法将其完整地表述出来所造成。究其原因,从本质上而言,恐怕与其对统计原理和方法的不理解有关。

所以,单就统计方法的选择而言,建立起对统计基本原理的理解,掌握常用的实验设计方法以及相应的统计分析方法,这是正确选择统计方法的必要的前提和基础。本书中也会涉及到一些这方面的理论和知识,但本书关注的是如何引导你正确选择SPSS中的最适宜的方法,如何阅读统计结果并合理地解释之,所以更详细的统计理论方法的内容,则要在专门的统计书籍中获得,因此,阅读一些专门的统计书籍对于理解本章中正确选择统计方法肯定是有益的。

许多刚从事研究的人员尚未建立起良好的科研习惯,不按正常的科研程序办事,总是喜欢在实验研究和调查研究结束后,等到要进行数据资料分析时,才想起该用什么样的统计方法来处理手中的数据资料。实际上,这绝不是个好习惯。有时免不了要走弯路,甚至还会造成无可挽回的损失。例如,有位研究人员要做实验前、后数据资料的各指标间的相关和差异性检验,由于实验前没有考虑好应用什么样的统计方法处理实验结果以及这些方法对数据的要求,因而在收集数据资料时,未按配对资料的要求去对测试指标的值做完整的记录,只记录了具体测试指标的值。到数据资料分析处理时,已变成了一堆与研究目的毫不相关的无用数据,只得重新安排实验,从头再来。

因此,统计方法的选择绝不应该在数据资料分析时进行,而是要在研究课题确定后所做的研究设计或调查设计中就应该有预案。

一般来说,统计方法的选择是个复杂的系统,涉及多方面的因素,它主要与研究目的有关,显然还要涉及研究设计、调查设计和数据资料的类型以及分布类型等。因此需要将它们综合起来一起考虑,才能最终确认所需要的合适的统计方法。

例如,为了探讨不同缺氧方式影响肺泡表面活性物质代谢规律,将36只家兔随机分成4组,每组9只。一组为对照组,一组为急性缺氧组,一组为间断缺氧5d组,还有一组为间断缺氧15d组,实验观测肺泡支气管灌洗液中5种磷脂的相对含量,即溶血磷脂酰碱、磷脂酰碱、磷脂酰甘油、神经鞘磷脂、磷脂酰乙醇胺,则这个实验设计是属于完全随机单因素4水平5元变量的实验设计。由于测试指标值是计量数据资料,所以,在研究设计中,统计分析的预案是:实测数据资料后,可以根据数据资料的分布类型和协方差阵或方差的齐性,来选择相应的统计分析方法,具体过程参见图1-4、图1-5。图1-4 统计方法选择

图1-4中的(A)和(B)后接图1-5中(A)和(B)后续部分。图1-5 统计方法选择1.2.8 在研究设计中需要用到SPSS中的子菜单、过程和程序

1.计算抽样的样本含量

在计算抽样所需的样本含量时需要用到的SPSS中的子菜单、过程和程序见表1-3。表1-3 计算抽样的样本含量时需要用到的SPSS中的子菜单、过程和程序

2.抽样设计

在SPSS中进行抽样设计时,可以按以下方式进入选择一个样本的设计工具:

依次单击Analyze→Complex Samples→Select a Sample,在打开的抽样工具中按提示要求,选择应答和输入必要的参数,进行抽样设计。

3.产生正交表和正交设计方案

依次单击Analyze→Data→Orthogonal Design→Generate,在展开的对话框中可以设置因素名、水平数和最少试验次数,从而在当前工作的数据编辑窗口中产生所设定的正交表。

依次单击Analyze→Data→Orthogonal Design→Display,展开Display Design对话框,在该对话框中通过设定打印的因素名,从而可在输出窗口中生成正交试验设计的方案。

1.3 整理数据资料

1.3.1 在SPSS中建立数据文件

1.新建数据文件

在当前数据文件窗口,按File→New顺序,可打开一个新的数据文件编辑窗口。

2.定义变量

在编辑窗口下,单击Variable view按钮,在Variable view编辑窗口中,可以对变量进行定义。

在数据编辑窗口中已有数据的情况下,也可按Data→Define Variable Properties顺序,在展开的Define Variable Properties对话框中,选择需要定义的变量,在其后的Define Variable Properties的工具中对变量进行定义或修改。

3.插入变量、插入样品

按Edit→Insert Variable顺序,可以在选中的列前插入一个新变量。

按Edit→Insert Vacases顺序,可以在选中的行前插入一个新样品。

4.替换数据

按Edit→Replace顺序,在展开的Find and Replace对话框中,定义寻找和替换的数据,对数据文件中的某些数据进行替换。

5.排序

按Data→Sort Cases顺序,在展开的Sort Cases对话框中,顺序选择需要排序的变量组,对数据文件进行按样品的数值大小进行排序。

按Data→Sort Variables顺序,在展开的Sort Variables对话框中,选择用来排序的变量的名或标签、值等变量的内容,对数据文件的变量进行重新排列。1.3.2 在SPSS中读取数据文件

1.读取SPSS数据文件

按File→Open→Data顺序,可选择打开一个已经存在的数据文件。

2.读取其他数据库的数据文件

如果需要将在dBASE、Excel或MS Access Database中生成的数据文件,转换成SPSS数据文件,则可按下述步骤进行:

按File→Open Database→New Query顺序,展开Database Wizard对话框,在其工具中,选定数据文件的类型,再选择数据文件名,可在SPSS数据编辑窗口读取其他数据库的数据文件。

3.读取文本数据文件

按File→Read Text Data顺序,展开Open Data对话框,选择文本文件存放的途径和文件名,可在SPSS数据编辑窗口读取文本数据文件。1.3.3 在SPSS中合并数据文件

1.将其他数据文件中的样品数据增加到工作数据文件的记录后面

当数据文件中的变量名相同,需从另一个数据文件向当前工作数据文件合并数据时,可按下述步骤进行:

按Data→Merge Files→Add Cases顺序,展开Add Cases对话框,选择需要合并的文件名,即可。

2.将其他数据文件中的变量及数据添加到工作数据文件中

当两个合并的数据文件中有一个共同的关键变量,而其他变量名不同,需从一个数据文件向当前工作数据文件添加不同变量的数据时,可按下述步骤进行:

按Data→Merge Files→Add Variables顺序,展开Add Variables对话框,选择需要合并的文件名,指定共同的关键变量即可。

1.4 分析数据资料

总的说来,在研究过程中,研究人员一般主要关注三类研究问题,即如何对统计资料作整体的描述,比较研究中不同总体在相同测试指标上是否有差异性,从同一批被试对象中测得的不同指标间是否存在关联性等。对应于这三类研究问题,需要正确选择相应的SPSS统计过程、程序和统计量。1.4.1 研究目的是对数据资料作一般性描述

当研究的目的中,有需要用到对收集到的原始资料作整体描述时,采用描述统计的方法是正确的选择。

描述统计是统计分析工作的基础,侧重于研究对特定领域中的客观事物进行数字的计量、概括和表述方法,即主要研究对实验或调查中得到的大量数据资料在用科学的方法进行整理的基础上,找出这些数据的分布特征,计算出一些具有代表性的统计数字,用这些概括性的数字对总体特征进行简要的描述。

1.4.1.1 描述统计过程概述

在SPSS中,涉及描述统计的内容较多,主要集中在主菜单Analyze下拉式菜单中的Reports、Descriptive Statistics、Tables三个子菜单中和主菜单Graphs下拉式菜单中的Chart builder、Legacy Dialogs二个子菜单中。

Reports子菜单中对定性和定量资料进行按行、列等不同方式进行分层、分组统计,产生记录报表,同时可计算一些简单的描述统计量。

Descriptive Statistics子菜单中包括了一系列描述统计的分析过程,可以进行常用的频数分布表分析,对定量资料包括正态分布在内的各种常见分布的检验和探索分析,制作P-P图和Q-Q图,以及在二维列表中进行卡方检验等。

Tables子菜单中,主要针对分类资料产生各种所需的行*列表、频数表,并可产生复杂的多层/嵌套表及建立多重应答集。

Graphs子菜单中,提供了非常全面的统计图库,比其他统计软件有更强大的制图功能,利用豪华的操作界面可以制作出非常精美的统计图。

有关SPSS中描述统计的过程及其基本功能见表1-4。虽然有些方法上都有计算某些统计量的功能,似乎有些重复,但仔细推敲,实质上各种方法侧重点各有不同,这反过来给使用者提供了更大的自由选择的空间。表1-4 描述统计的过程与基本功能

1.4.1.2 描述统计过程的适用条件

在SPSS中提供的这些描述统计的方法,并不是任意一个测试指标变量都能用的,同样还要受到其他条件的限制。一般而言,研究指标的数据资料类型成为选择具体描述统计方法的首要条件。关于统计资料类型的划分,将在第2章2.1节中进行讨论。主要的资料类型是定量资料和定性资料。

1.不适用于定性资料的过程

在SPSS提供的描述统计的方法中,以下过程不适用于定性资料,见表1-5。表1-5 不适用于定性资料的描述统计过程

2.不适用于定量资料的过程

在SPSS提供的描述统计的方法中,以下过程不适用于定量资料,见表1-6。表1-6 不适用于定量资料的描述统计过程

3.既适合于定量也适合于定性资料的过程

在SPSS提供的描述统计的方法中,以下过程既适合于定量也适合于定性资料的过程,见表1-7。表1-7 适合于定性和定量资料的过程(续表)

1.4.1.3 描述统计过程中可分析的定量资料的分布类型

对定量资料而言,如何正确选择合适的统计量来描述定量资料的集中趋势的关键是要了解该测试指标的总体的分布类型。

在SPSS有关描述统计的过程中,涉及分析定量资料分布类型的过程,见表1-8。表1-8 定量资料分布类型的分析过程

1.4.1.4 定量资料描述统计分析过程中的常用统计量

定量资料分析中,可能要用到许多描述集中趋势和离中趋势及整体趋势描述的统计量,这些统计量在许多过程中可能重复出现,但有些也只出现在某个特定的过程中,为便于研究人员在具体的描述统计分析工作中,更有针对性地选择描述统计过程,将含有描述统计常用统计量的过程汇总在一起,具体参见表1-9和表1-10。

需要注意的是,大部分的统计量在其过程的主对话窗口中可以找到并能选择,但也有一些表中提到的统计量只有在其执行后的输出结果中才能看到。表1-9 定量资料描述统计分析过程中的常用统计量(I)表1-10 定量资料描述统计分析过程中的常用统计量(II)

1.4.1.5 对定量资料描述统计分析时的统计量选择

对定量资料用描述统计计算统计量时,需要考虑测试指标的分布类型,在测试指标的总体服从正态分布或对称分布时,描述数据资料的集中趋势统计量可用算术平均数,而测试指标的值是等比级数的数据资料时,也即它服从对数正态分布时,描述它的集中趋势统计量就要选用几何均数,而当测试指标的分布是偏态分布时,描述数据资料的集中趋势统计量可用中位数或众数。

1.4.1.6 描述统计分析时常用的统计图表

无论是定量资料还是定性资料,描述统计中最直观的方法是制作统计图、表。常用的表格有:行汇总表、列汇总表、交叉表、自定义表等,而常用的统计图有:直方图、P-P图、Q-Q图、圆图、散点图、条形图、线图、面积图、箱图和误差条图等。

1.4.1.7 选择描述统计方法的一般步骤

综上所述,当研究目的需要对研究问题作描述统计时,可根据资料的类型从表1-5至表1-7中选择适宜的描述统计的过程,如果是定量资料,则从表1-9、表1-10中,选择相应的方法对其分布进行分析和检验,再根据数据资料的分布类型,按1.4.1.5中的要求,确定选择合适的统计量进行计算,根据表1-9、表1-10中统计量集中所在的过程,选择相对集中的过程进行分析,根据研究目的,从表1-7中选择相应的图、表制作过程,制作相应的统计图、表。1.4.2 研究目的是对不同总体在相同指标上是否有差异进行推断

推断统计是统计分析过程中的重要内容之一,它研究如何根据样本的特征推断总体的特征,即在描述统计的基础上,利用样本数据传递的信息,通过局部的研究来对总体的情形加以推断,并标明这种推断成立的可能性的大小。

推断统计的方法,分布在SPSS的Analyze主菜单的下拉式子菜单中的极大部分过程中。正确选择推断统计方法是每个研究者都梦寐以求的。

1.4.2.1 差异性检验中合适的推断统计方法的选择

1.关于一元单组设计时差异性推断统计方法的选择(1)测试指标为尺度类型且服从正态分布,同一个已知正态总体均数作差异性检验时,可选择Analyze → Compare Means →One-Sample T Test…来实现。(2)测试指标为名义类型且服从二项分布,同一个已知率作差异性检验时,可选择Analyze → Nonparametric Tests→Binomial…来实现。(3)测试指标为有序类型且服从多项分布,同多项已知率(或已知期望频数)作差异性检验时,可选择Analyze → Nonparametric Tests→Chi-Square…来实现。(4)测试指标为尺度类型,样本含量大于100时,与参数未知的正态分布、均匀分布、泊松分布、指数分布作分布一致性检验时,可选择Analyze → Nonparametric Tests→One-Sample Kolmogorov-Smirnov…来实现。(5)测试指标为尺度类型,样本含量大于3小于5000时,与参数未知的正态分布作分布一致性检验时,可选择Analyze → Descriptive Statistics →Explore…,在Explore对话框中,单击Plots按钮,在Plots对话框中,选择Normality plots with tests选项来实现。

2.关于单元单因素设计时的差异性推断统计方法的选择

当有两个变量,其中一个是因变量时,此时选择差异性检验的适宜推断统计方法时,首先要根据因变量的测度类型,是尺度还是名义来做第一步区分;第二步,如果是尺度类型,根据样本含量的大小,可用1.4.2.1的1中的(5)或(4)的方法来判定它是正态分布还是非正态分布;第三步,结合因素变量的设计方法是单组、成组还是配对来加以综合考虑。具体选择方法参见表1-11。表1-11 为两个变量的差异性检验选择一个合适的推断统计

3.关于多元单组设计时多元正态总体均值等于常数向量检验时的推断统计方法

用各自的样本观察值减去相比较的各自已知的正态总体均数后所形成的新的样本数据值,选择Analyze →General Linear Model →Multivariate来实现作差异性的推断统计。

4.关于多元单因素设计时多元正态总体的差异性推断统计方法的选择

可以选用多因变量线性模型的方差分析,即选择Analyze →General Linear Model →Multivariate来实现作差异性的推断统计。

5.关于单元或多元多因素设计时的差异性推断统计方法的选择

根据因变量的个数、测度水平和分布及试验设计的类型,来选择合适的推断统计方法,见表1-12。表1-12 为三个或三个以上变量的差异性检验选择一个合适的推断统计1.4.3 研究目的是检查两个或多个变量之间的关联或相关

1.为两个变量的相关或关联问题的假设选择一个恰当的推断统计

根据变量的测度水平、分布类型来选择合适的推断统计方法,见表1-13。表1-13 为两个变量的相关和联合问题的假设选择一个恰当的推断统计方法

2.为预测来自几个独立变量中单因变量选择恰当的多元统计方法

根据因变量的测度水平和自变量的分布类型和测度类型,来选择合适的多元统计方法,见表1-14。表1-14 为预测来自几个独立变量中单因变量选择恰当的多元统计方法1.4.4 研究目的是缩减指标

在实际的科学研究中,有时反映一个整体的特征,往往需要用到很多的指标来同时进行刻画,由于指标一多,指标之间的关系就变得比较复杂,尤其在用到多元回归、判别分析等的多元统计分析时,由于变量之间的高度相关所产生的共线性问题,势必会影响统计分析的结果,因此,将变量归类,利用类间变量相对独立的特点,通过组合新变量或挑选各类的典型指标来减少变量之间的相关,就变得很有必要。此外,当研究指标较多时,也很难从主次关系的角度给出它们对整体的重要性,因此,通过适当的多元统计方法,将它们进行线性组合,变成少数几个综合指标,同时又能充分反映大量原始指标的信息,从携带信息量的角度来区分综合指标的重要性,这也是非常有意义的。

1.变量分类和求典型指标

按Analyze →Classify→Hierachical Cluster顺序,在展开的对话框中,如果要做指标聚类,选择Variables,如果要做样品聚类选择Case。

对聚成一类的变量,通过它们两两之间的相关系数,利用公式

在按Transform→Compute Variable顺序展开的Compute Variable工具中,计算每个变量的相关指数。

2.对尺度变量进行主成分分析、因子分析或对应分析

按Analyze →Data Reduction→Factory做主成分或因子分析,或按Analyze →Data Reduction→Correspondence Analysis,对变量和样品做对应分析。

第2章 数据资料的整理与描述

所谓数据资料的整理就是对所收集到的原始数据,进行审核、归纳、分组,并正确地按照统计分析方法的要求把有效数据输入计算机的相关统计软件中,形成数据文件,对数据资料的异常值、缺失值情况和分布类型进行初步的判定,以便后续进行进一步的统计计算和分析,并在此基础上制作相应的统计图表。

而数据资料的描述是将数据资料的信息通过少数代表集中趋势和离中趋势的统计指标反映出来,便于后续的统计推断。

2.1 SPSS数据文件的制作

本节的目的是建立SPSS数据文件。有关SPSS的安装、启动、数据编辑窗口的介绍、文件的存、取方式等基础知识方面的详细介绍,可参阅由卢纹岱主编的《SPSS统计分析》第1章的相关内容。

俗话说得好,巧妇难为无米之炊,SPSS也一样,当其数据编辑窗口的数据显示区(有行和列组成的二维平面表格)(见图2-1)中没有任何数据,即没有数据文件时,除查看(View)菜单中的全部过程和文件(File)菜单中新建(New)、打开(Open)、打开数据库(Open Database)、读取文本数据(Read Text Data)、重新命名数据文件(Rename Dataset)等与向数据编辑窗口中录入、导入数据文件和数据文件改名等少数过程及其他菜单中的极少数过程能够运行外,SPSS中的大部分功能,尤其是数据(Data)、转换(Transform)、统计分析(Analyze)、图形(Graphs)等菜单中的各个过程运行后都会出现如图2-2所示的对话框。这说明,调用SPSS各种程序之前,其数据编辑窗口中必须要有数据文件。

数据存放在数据编辑窗口的单元格(Cell)(见图2.1)中,在单元格中可输入文字、字母、数字等信息,一个单元格中只能存放一个数据。单元格的顶框是变量名(Var),最左侧边框是样品号(Case)又称记录号。

在统计学中,将参与调查或实验研究中的每个研究对象称为被试对象又称样品或个体,从被试对象身上得到的调查指标或试验指标的结果称变量,由于从每个被试对象身上测得的同一测试指标的值极有可能是各不相同的,因此,变量是一个在特定区间中可以取各种各样值的量,这是变量的可变性,此外,在一个具体被试对象身上测定一个具体指标得到的值就是该变量的实测值。例如,用百分制测试某班学生的数学考试成绩,则数学考试成绩是个统计指标也就是变量,它可在0~100分中取值,某个学生得分90,这是变量的一个实测值。被试对象在SPSS中用样品来描述,第三个被试对象称为样品3。因此从第三个被试对象上测得的第4个观察指标的值就应被录入第三个样品和第四个变量交叉形成的单元格中。图2-1 数据编辑窗口图2-2 数据编辑窗口中必须有数据才能计算

SPSS的数据文件由变量、样品及非空的变量值组成。它可在SPSS数据编辑窗口中录入、导入或修改而成,也可以在(按File→Open→Data顺序打开的)Open Data对话框中,选择其他格式的数据库文件转换而成。有关这方面的详细介绍,可参阅由卢纹岱主编的《SPSS统计分析》第2章的相关内容,及本章2.3节中的内容。2.1.1 统计资料的类型与变量类型、测度类型的对应关系

在SPSS中建立数据文件时,首先要涉及的是定义变量,而定义变量的关键是如何去指定它的类型和测度类型。变量的测度类型和变量类型同以后要遇到的各种统计分析过程直接有关,这一点已在第1章中作过阐述。变量的类型和测度类型的定义取决于调查指标和测试指标实测后所获得的统计资料的类型。

例2.1 在参与某个反映城市居民收入和支出现状的调查研究的被试者中,随机抽出一位章先生的一些个人资料见表2-1。表2-1 章先生的个人资料

从表2-1中易见,章先生的资料有文字和数字两部分组成。它可以说是统计工作中得到的数据资料类型的一个概貌。

2.1.1.1 统计资料类型

在章先生的个人资料中,我们观察到有两种资料类型:

一种是以数量形式表现的定量资料,如年龄、家庭人口、家庭总收入、身高、体重等,另一种是以属性或属性的程度来描述的定性资料,如性别、婚姻状况、爱好等。

定量资料根据取值的连续程度可分为:在一个给定范围内可以取任何一个值的连续型的计量数据(如身高、体重)和在整数范围内取值的离散型的计数数据(如家庭人口、每户的汽车数)。

定性资料根据属性和程度可分为:用数字代表事物属性分类的名义数据(如用1、0分别代表性别男、女,用数字1、2、3、4分别代表婚姻状况的未婚、有配偶、离婚、丧偶等)和用数字代表事物属性不同程度分类的有序数据(如用1、2、3、4、5分别代表学位:博士后、博士、硕士、学士、无学位等)。因而可用图2-3来归纳上述的统计资料的分类。

试读结束[说明:试读内容隐藏了图片]

下载完整电子书

若在网站上没有找合适的书籍,可联系网站客服获取,各类电子版图书资料皆有。

客服微信:xzh432

登入/注册
卧槽~你还有脸回来
没有账号? 忘记密码?