郑日昌《心理测量学》【教材精讲+考研真题解析】讲义与视频课程【38小时高清视频】(txt+pdf+epub+mobi电子书下载)


发布时间:2020-06-18 12:47:04

点击下载

作者:圣才电子书

出版社:圣才电子书

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

郑日昌《心理测量学》【教材精讲+考研真题解析】讲义与视频课程【38小时高清视频】

郑日昌《心理测量学》【教材精讲+考研真题解析】讲义与视频课程【38小时高清视频】试读:

视频讲解教师简介

教材精讲

辛素飞,北京师范大学心理学院心理学专业博士,已在心理学领域发表多篇核心论文。近年来一直从事心理学考研相关课程培训工作,经验丰富,熟练掌握心理学相关考试课程,具有深厚的讲课实践经历和网络授课经验,善于归纳总结知识点,在讲授过程中,能够将自己的理解融入其中,深入浅出地将核心知识点透彻分析,举一反三,达到事半功倍的成效。

授课特点:提纲挈领,条例清楚,主次分明,重点突出。考研真题解析

辛俊杰,首都师范大学教育学院心理学硕士。现执教于北京石油化工学院,讲授心理学课程,主讲社会心理学、发展心理学、心理测量学等课程。参与多项北京市科研项目,对心理学专业课的知识点有自己独到的见解和解题思路。

授课特点:富有激情,思路清晰,善于总结解题方法并运用贴切的生活实例说明问题,引人入胜。

第一部分 教材精讲[视频讲解]

第1章 心理测量总论[视频讲解]

一、心理测验的历史(一)心理测验在我国的悠久历史

中国是心理测验发展的源头,始于汉代、兴盛于隋唐的科举取士制度,被中外学者共认为是世界上最早的心理测验的实践。

古代教育家孔子就曾根据自己的观察评定学生的个别差异,把人分为中人、中人以上和中人以下,这实际上相当于测量学中的命名量表和次序量表;孟子也说过:“权,然后知轻重;度,然后知短长。物皆然,心为甚。”这就明确指出了对心理现象进行测量的必要和可能。

欧美各国通过考试选拔官吏的方法是18世纪末、19世纪初从我国学去的。

1920年南京高等师范学校,廖世承、陈鹤琴开设心理测量课;1921年,廖世承、陈鹤琴出版书《心理测量法》;1921年,费培杰将比内智力测验翻成中文;1922年,张耀翔在北京将心理测验列为入学考试科目;1922年夏,中华教育改进社聘请美国麦柯尔;1924年,陆志韦发表《订正比内西蒙智力测验说明书》;1936年代与吴天敏做修订(80年代吴天敏3修);1931年6月由艾伟、陆志韦、陈鹤琴、萧孝嵘等倡议,组织并成立了中国测验学会;1932年,《测验》创刊;1980年,北师大开设心理测验课;1980年,张厚粲开始对高考试卷做系统分析;1984年,中国心理学会成立心理测量专业委员会。(二)科学心理测验的产生与发展

1.心理测验的产生是社会的需要(1)在西方一些国家,工业革命成功后,对劳动力的需要急剧增加,且分工日益精细,因而有了专门人才的训练、人员选拔与职业指导的需要,这是促使测验发展的重要因素。(2)19世纪,在欧洲和美洲开设了一些护理精神病人的特别医院,因而急需确定收护标准和客观化的分类方法,这是促使测验发展的另一个重要因素。

2.心理测验的先驱(1)英国的生物学家和心理学家高尔顿(F.Galton)

①提出人的不同气质特点和智能是按身体特点的不同而遗传的。

②设计了测量差异的方法,这可视为心理测验的开端。

③第一个提出了相关的概念,为心理测验奠定了统计学基础。(2)美国心理学家卡特尔(J.M.Cattell)

①1890年,卡特尔在《心理》杂志上发表了《心理测验与测量》一文,这是“心理测验”这一术语第一次出现于心理学文献中。

②心理学若不立足于实验与测量上,决不能够有自然科学之准确性。

③心理测验如果有一个普遍的标准,则其科学的与实用的价值都可以增加。

④主张测验手续和考试方法应有统一规定,并要有常模以便比较。(3)法国心理学家比内(A.Binet)

①极力主张用测验法去辨别和发现智力落后的儿童

②905年,与助手西蒙(T.Simon)发表题为《诊断异常儿童智力的新方法》的论文,这篇文章介绍的就是世界上第一个正式的心理测验—比内-西蒙量表。

③比奈一西蒙量表问世后,各种语言的版本纷纷出现,其中最著名的是美国斯坦福大学推孟教授1916年修订的斯坦福一比奈量表,其最大的改变是采用了智商的概念,从此智商一词便为全世界所熟悉。

著名美国学者波林(E.G.Boring)指出:“在测验领域中,19世纪80年代是高尔顿的10年,90年代是卡特尔的10年,20世纪头10年则是比奈的10年。”

3.心理测验的发展(1)编制出一批操作测验,既可弥补语言文字量表在理论上的缺陷,又可适用于文盲和有言语障碍的人。(2)编制出团体智力测验,扩大了测验的应用范围。在第一次世界大战期间,为满足美国军队对官兵选拔和分派兵种的需要,编制了团体测验,对二百多万官兵进行了智力测查。(3)多重能力倾向测验逐渐受到重视。30年代,随着因素分析理论的发展,多重能力倾向测验在二次大战后编制出来,这种成套测验为分析个人心理品质的内部结构提供了适用的工具。(4)正当心理学家们忙于发展智力测验的时候,传统的学校考试也在进行一场改革,卡特尔的学生桑代克等人,利用心理测验原理,编制了第一批标准化的教育测验。因此后人尊称他为教育测验之鼻祖。一些专门的教育测验机构也在一些国家陆续成立,如美国教育测验中心成立于1947年,是目前世界上最大的测验编制和研究机构。(5)心理测验发展的另一领域涉及情感适应、人际关系、动机、兴趣、态度、性格等人格特点的测量。(6)60年代后,由于认知心理学的崛起,将实验法与测验法结合,产生了信息加工测验,为了解心理能力提供了一些补充方法,使心理测验出现了新的发展趋势。

二、心理测验的性质(一)心理测验的定义

1.什么是测量

测量:根据一定的规则对事物及其属性进行数量化确定的过程。

2.测量的要素(1)参照点:计算事物数量时的起点。

绝对零点

相对零点(即人定的参照点)(2)单位:计量事物标准量的名称。

好的单位必须具备两个条件:确定的意义、相同的价值(3)量表:

测量的本质是根据某一法则将事物数量化,即在一个定有单位和参照点的连续体上把事物的属性表现出来,这个连续体称为量表。

3.量表的类型(1)命名量表

①只是用数字来代表事物或对事物进行分类,量表中的数字没有任何数值意义,不能作量化分析,无大小意义,只表明类别。

②无参照点和单位。无法比较大小或进行任何数学方法运算。

③测量水平最低的一种形式,如代号、类别。(2)顺序量表

①表明类别的大小或某种属性的多少。

②主要用于分等论级和分类。

③数字仅表示等级并不表示某种属性的真正量或绝对值。 无参照点(没有绝对零度)和单位。

④无法进行数学方法运算。(3)等距量表

①存在大小关系,无绝对零度,但存在相对零点。

②有相等单位,可以进行加减数学运算,但不能做乘除运算。(4)等比量表

①是最精确的测量。具有相等单位又有绝对零点。

②大多是物理量表,可以进行各种数学运算。可以知道事物之间的某种特点上相差多少及它们之间的倍数关系。

4.心理测验的定义

目前,关于测验有许多定义,笔者较为赞同美国心理与教育测量学家布朗(F.G.Brown)的说法,测验是“测量一个行为样本的系统程序”。

通俗地说,心理测验就是通过观察人的少数有代表性的行为,对于贯穿在人的全部行为活动中的心理特点作出推论和数量化分析的一种科学手段。(1)测验测量的是人的行为,严格地讲,只是测量了做测验的行为,也就是一个人对测验项目所进行的反应。在这个意义上可以说,测验项目即引起某种行为的刺激。(2)一个测验不可能包含所要测量的行为领域的所有可能的项目,它所包含的只是全部可能项目的一个样本。因此测验项目的取样必须有代表性。(3)在编制、施测、评分和解释方面依据一套系统的程序。这种按照严格的科学程序去编制和使用,具有统一尺度并对误差作了严格控制的测验称之为标准化测验。标准化测验有三点好处:一是可以减少无关因素对测验目的的影响,使测量准确、客观;二是有统一的标准,便于对不同人的测验成绩进行比较和交流;三是同一份测验可反复使用,较为经济。(二)测验的特性

1.心理测量的间接性

研究者无法直接测量人的心理,只能测量人的外显行为,也就是说,只能通过一个人对测验题目的反应来推论他的心理特质。

特质是描述一组内部相关或有内在联系的行为时所使用的术语,是在遗传与环境影响下,个人对刺激作反应的一种内在倾向。可见,特质乃是个体独有的(与他人不同)、稳定的(表现于多种情境)、可辨别的(可与其他特征分开)特征。但它又是一个抽象的产物,一个构想,而不是一个被直接测量到的有实体的个人特点。由于特质是从行为模式中推论出来的,所以心理测量永远是间接的。

2.心理测量的相对性

在对人的行为做比较时,没有绝对的标准,我们有的只是一个连续的行为序列。所谓测量就是看每个人处在这个序列的什么位置上,由此测得一个人智力的高低、兴趣的大小等,都是与所在团体的大多数人的行为或某种人为确定的标准相比较而言的。

3.心理测量的客观性

测验的客观性实际上就是测验的标准化问题。对一切测量的共同要求是测验工具的标准化。(1)测验用的项目或作业、施测说明、施测者的言语态度及施测时的环境等,要求标准化。(2)测验评分记分的原则和手续也要经过标准化,使反应的量化是客观的。(3)最后,分数转换和解释标准化,对结果的推论应该是客观的。

三、心理测验的种类(一)按测验功能分类

1.能力测验

可进一步分为普通能力测验与特殊能力测验。前者即通常说的智力测验,后者多用于测量个人在音乐、美术、体育、机械、飞行等方面的特殊才能。

2.成就测验

主要用于测量个人(或团体)经过某种正式教育或训练之后对知识和技能掌握的程度。因为所测得的主要是学习成就,所以称做成就测验,最常见的是学校中的学科测验。

3.人格测验

人格测验主要用于测量性格、气质、兴趣、态度、品德、情绪、动机、信念、价值观等方面的个性心理特征,亦即个性中除能力以外的部分。(二)按测验对象分类

1.个别测验

个别测验每次仅以一位被试为对象,通常是由一位主试与一位被试在面对面的情形下进行。(1)优点:主试对被试的行为反应有较多的观察与控制机会,尤其对某些人(如幼儿及文盲)不能使用文字而只能由主试记录其反应时,就非采用面对面的个别测验不可。(2)缺点:不能在短时间内经由测验收集到大量的资料,而且个别测验手续复杂,主试需要较高的训练与素养,一般人不易掌握。

2.团体测验

团体测验是在同一时间内由一位主试(必要时可配几名助手)对多数人施测。(1)优点:可以在短时间内收集到大量资料,因此在教育上被广泛采用。(2)缺点:被试的行为不易控制,容易产生测量误差。(三)按测验方式分类

1.纸笔测验

测验所用的是文字或图形材料,实施方便,团体测验多采用。文字材料易受被试文化程度的影响,因而对不同教育背景下的人使用时,其有效性将降低,甚至无法使用。

2.操作测验

操作测验项目多属于对图片、实物、工具、模型的辨认和操作,无需使用文字作答,所以不受文化因素的限制。此种测验的缺点是大多不宜团体实施,要花费大量的时间。

3.口头测验

测验项目为言语材料。主试口头提问,被试口头作答。

4.电脑测验

测验项目可为文字或图形,在电脑上显示,被试按键作答。(四)按测验目的分类

1.描述性测验

测验的目的在于对个人或团体的能力、性格、兴趣、知识水平等进行描述。

2.诊断性测验

目的在于对个人或团体的某种行为问题进行诊断。

3.预示性测验

目的在于通过测验分数预示一个人将来的表现和所能达到的水平。(五)按测验难度分类

1.速度测验

题目较为容易,一般都没有超出被试的能力水平,但数量较多,且时限较短,几乎每个被试都不能做完所有题目。在纯粹的速度测验中,分数完全依赖于反应速度。

2.难度测验

包含各种不同难度的题目,由易到难排列,其中有一些极难的题目,几乎所有被试都解答不了。但作答时间较为充裕,使每个被试都有机会做所有的题目,并在规定时间内做完会做的题目,因此测量的是解答难题的最高能力。(六)按测验要求分类

1.最高作为测验

要求被试尽可能做出最好的回答,主要与认知过程有关,有正确答案。能力测验、成就测验均属最高作为测验。

2.典型作为测验

要求被试按通常的习惯方式做出反应,没有正确答案。一般说来,人格测验测量的均属典型作为。(七)按测验性质分类

1.构造性测验

又可称作客观测验。在此种测验中,所呈现的刺激和被试的任务是明确的。

2.投射性测验

在此种测验中.刺激没有明确意义,问题模糊,对被试的反应也没有明确规定。(八)按测验解释分类

1.常模参照测验

此种测验是将一个人的分数与其他人比较,看其在某一团体中所处的位置。

2.标准参照测验

此种测验是将被试的分数与某种标准进行比较来解释。(九)按测验应用分类

1.教育测验

教育部门是测验应用最广的领域.许多能力和人格测验都可在学校中应用,但用得最多的是成就测验,平时说的教育测验,主要指后者。

2.职业测验

主要用于人员选拔和职业指导,可以是能力和成就测验,也可以是人格测验。

3.临床测验

主要用于医务部门。除感觉运动和神经心理测验外,许多能力和人格测验也可用来检查智力障碍或精神疾病,为临床诊断和心理治疗工作服务。

第2章 心理测验的编制[视频讲解]

一、编制测验的一般程序(一)确定测验目的

1.测量对象

在编制测验前首先要明确测量对象,也就是该测验编成后要用于何种团体。

只有对受测者的年龄、智力水平、文化背景以及阅读水平等做到心中有数,编制测验时才能有的放矢。

2.测量目标

所编的测验用来测量什么,是测能力、人格,还是学业成就,也是必须首先考虑的问题。不但要明确测量的目标,还要对测量目标加以分析,将此目标转换成可操作的术语,即将目标具体化。

如美国著名测验学家瑟斯顿通过因素分析,将智力分解为七种基本心理能力:

语文理解:阅读时了解文字意义的能力;

语词流畅:正确迅速拼字与敏捷联想词义的能力;

数字运算:正确而迅速使用数字解答算术问题的能力;

空间关系:运用感觉器官及知觉经验正确判断空间方位及各种关系的能力;

机械记忆:用重复感知的方法记住事物的能力;

知觉速度:迅速而正确地观察与辨别事物的能力;

一般推理:根据已知条件推出新判断的能力。

瑟斯顿根据上述七种因素于1941年编成了“基本心理能力测验”。

3.测验用途

所编出的测验是要对被试做描述,还是做诊断,抑或是选拔和预测,这一点也是在测验编制前就应明确的。目的不同,编制测验时的取材范围以及试题难度等也不尽相同。(二)拟定编制计划

1.编制计划,实际上就是对测验的总体设计,指出测验的内容结构和项目形式等,以及对每一个内容、目标的相对重视程度。不同的测验有不同的编制计划。例如成就测验的编制计划通常是一张双维细目表,其中一个维度是内容,就是某一学科教材中的各个课题,另一维度是在教学中要达到的行为目标。

下表是一个小学高年级自然常识测验的编制计划。表中的数字代表每一类题目所占的百分比,这些比例反映着每一个内容及目标的相对重要性。

2.测验计划有两个用途:(1)在编制阶段,测验计划指出应该编多少和编哪些种类的项目;项目编好后,可将项目的实际分布情况与测验计划对照,以确定测验项目是否恰当地代表了所要测量的领域,核对重要方面的内容是否有遗漏。(2)在记分时可按表中百分比确定每类项目的分数。(三)设计测试项目

1.搜集有关资料

测验计划编好后,就要搜集有关资料作为设计项目的依据。一个测验的好坏和测验材料的选择适当与否有密切关系,为此要注意几个问题。(1)资料要丰富

资料搜集越齐全,设计项目便越顺利,这样测验内容便不致有所偏颇,而且能提高行为样本的代表性。如编制人格测验,搜集的资料应包括:人格的主要理论,用于描述人格的术语,临床观察的资料,以及其他人格测验的项目等。(2)资料要有普遍性

所选择的材料对测验对象要尽可能公平,即被试都有相等的学习机会。如,编制标准化的学科成就测验时,要以统一的教学大纲和统编教材作为题目来源,不能只考虑个别教师的意见,要考虑大多数教师和专家的意见。编制智力测验时则要尽量避免特殊知识经验和文化水平的影响。

2.选择项目形式

测验编制者还必须确定测验内容的表现方式,是纸笔测验还是操作测验;是只要被试认出正确答案,还是需要他自己做出正确答案。

在大多数情况下,任何内容都可以用几种形式呈现,问题是如何选择“最优的”表现方式。在一个测验中,可以采用一种题型,也可以采用几种题型。(1)在选择项目形式时,要考虑以下几点:

①测验的目的和材料的性质

如果要考查学生对概念和原理的记忆,宜用简答题;要考查对事物的辨别和判断的能力,宜用选择题;要考查综合运用知识的能力,宜用论文题。

②接受测验的团体的特点

如对幼儿宜用口头测验,对于文盲或识字不多的人不宜采用要求读和写的项目,而对有言语缺陷的人(如聋哑、口吃)则要尽量采用操作项目。

③各种实际因素

当被试人数过多,测验时间和经费又有限时,宜用选择题进行团体纸笔测验,而人数少,时间充裕,又有某些实验仪器和设备时,可用操作测验。(2)廖世承、陈鹤琴先生几十年前曾提出以下几条选择测验形式的原则:

使被试者容易明了测验做法;做测验时不会弄错;做法简明、省时;计分省时省力;经济。

3.编写和修订项目

制订项目的过程包括写出、编辑、预试和修改等一系列过程。在获得一个令人满意的项目之前,这些步骤是不断重复的。

在这个过程中,编制者和有关方面专家要对项目反复审查修订,改正意义不明确的词语,取消一些重复的和不适用的项目。然后将初步选定的项目汇集起来组成一个预备测验。

编写项目要注意以下几个问题:(1)项目的范围要与测验计划相一致;(2)项目的数量要比最后所需的数目多一倍至几倍,以备筛选和编制复本;(3)项目的难度必须符合测验目的的需要;(4)项目的说明必须清楚。(四)项目的试测和分析

初步筛选出的项目虽然在内容和形式上符合要求,但是否具有适当的难度与鉴别作用,必须通过实践来检验,也就是要通过预测进行项目分析,为进一步筛选项目提供客观依据。

1.试测

项目性能之优劣,不能仅凭测验编制者主观臆测来决定,必须将初步筛选出的项目组合成一种或几种预备测验,经过实际的试测而获得客观性资料。

预测应注意以下几个问题:(1)预测对象应取自正式测验的群体。如,对于一个成就测验来说,进行预测的学生和以后的测验对象属于同一个年级,且具有相同的课程背景,取样时应注意其代表性,人数适中。(2)预测的实施过程与情境应力求与将来正式测试时的情况相近似。(3)预测的时限可稍宽一些,最好使每个被试都能将项目做完,以搜集较充分的反应资料。(4)应随时记录被试的反应情形,如在不同时限内一般被试所完成的题数、题意不清之处等。

预测的目的在于获得被试对项目如何反应的资料,它既能提供哪些项目意义不清、容易引起误解等质量方面的信息,又能提供关于项目好坏的数量指标,而且通过预测还可以发现一些原来想不到的情况,如检验时限多长合适,在施测过程中还有哪些条件需要进一步控制等。

2.项目分析

对项目的分析包括质的分析和量的分析两个方面。前者是从内容取样的适当性、题目的思想性以及表达是否清楚等方面加以分析;后者是对预测结果进行统计分析,确定项目的难度、区分度、备选答案的适宜性等。

编制一套测验,只依据一次预测的结果所作的项目分析是不够的。由于预测的被试样本可能会有取样误差,故由此得到的项目分析结果未必完全可靠。为了检验所选出的项目的性能是否真正符合要求,有时需进行第二次项目分析。(五)合成测验

1.项目的选择(1)在选择项目时,不但要考虑项目分析所提供的资料,还要考虑测验的目的、性质与功能。最好的项目,就是只测定所需要的特征,并能对该特征加以有效区分的难度合适的项目。一般说来,项目的区分度越高越好,这是选择项目的一条重要标准。特别是对于选拔测验,此标准尤为重要。(2)选择项目的另一个指标是难度。难度多大为合适并无一个绝对标准,而要根据测验目的来确定。有的要求难一些,有的则要求容易一些,有的可不考虑难度。就是同一张试卷,题目难度也可以不同,只要整个测验的难度分布符合要求即可。(3)根据项目分析资料选出的项目,还要与测验计划再次对照,看看材料内容以及所测量的行为目标是否与计划相符,必要时加以适当调整。此外项目的数量还必须适合于所限定的时间。

2.项目的排列(1)项目选出之后,必须根据测验的目的与性质,并考虑被试作答时的心理反应加以合理安排。在测验开头应该有一两个十分容易的项目,以使被试熟悉作答程序,解除紧张情绪,建立信心,进入测验情境。对项目的总的编排原则是由易到难,这样可以避免被试在难题上耽搁时间太多,而影响对后面问题的解答。在测验最后可有少数难度较大的项目,以测出被试的最高水平。(2)下面是两种常见的排列方式:

①并列直进式

此种方式是将整个测验按项目内容或形式分为若干分测验,属同一分测验的项目,则依其难度由易到难排列。

②混合螺旋式

此种方式是先将各类项目依难度分成若干不同的层次,再将不同性质的项目予以组合,作交叉式的排列,其难度则渐次上升。此种排列的优点是,被试对各类项目循序作答,从而维持作答的兴趣。

3.编造复本

为增加实际的效用,一种测验有时需要有两个以上的等值型,称做复本,复本越多,使用起来愈便利。

例如,我们要用测验来考察一班学生在一学期中的进步,必须测量两次,一次在开学初,一次在学期末,两次结果的差别代表一学期中成绩的提高。如果测验只有一份,用两次就难免有练习的影响,两次测验结果的差异不能完全代表进步的大小。要是这个测验有几个复本替换使用,就可以免掉这种困难。

测验的各份复本必须等值,所谓等值需符合下列几个条件:(1)各份测验测量的是同一种心理特质;(2)各份测验包含相同的内容范围,但题目不应有重复;(3)各份测验题型相同,题目数量相等,并且有大体相同的难度分布。

只要有足够数量的题目,编造复本的手续是很简单的。先将所有适用的题目按难度排列,其次序为1、2、3、4、5、6……

如果要分成两个等值的测验本,可采用下面的分法:

A本:l、4、5、8、9、12、13、16、17、20……

B本:2、3、6、7、10、11、14、15、18、19……

如果要分成三个等值的测验本,可采用下面的分法:

A本:l、6、7、12、13、18、19、24……

B本:2、5、8、11、14、17、20、23……

C本:3、4、9、10、15、16、21、22……

采用此分法可使复本之间在难度上基本相等,从而获得大体相同的分数分布。复本编好后,应该再试测一次,以判定各本究竟是否等值。(六)测验使用的标准化

一套好的题目并不一定是一个好的测验。对于测验的基本要求是准确、可靠。为了减少误差,就要控制无关因素对测验目的的影响。这个控制的过程,称做标准化,包括测验编制的标准化和测验使用的标准化两方面。制作过程的标准化可保证量具本身符合要求,而使用过程的标准化可保证操作规范,使用得当。

测验使用的标准化又可分为施测过程标准化、评分计分标准化、分数解释标准化三个环节。

1.施测过程

尽管对于所有的被试使用了相同的题目,如果在施测时各行其是,所得的分数便不能进行比较。为了使测验条件相同,必须有统一的指导语和时间限制。(1)指导语

①给被试的指导语属于测验刺激的一部分,它的内容通常包括对测验目的的说明和被试应该如何反应的指示(包括如何选择反应、记录反应以及时限等)。

②对于纸笔测验来说,这些指示一般印在测验的开始部分,也可以印在另外一张纸上。要求简单明确,不引起误解。如果题目形式对被试是生疏的,还应该有一些例题。指导语会直接影响被试的反应态度与方法。有人以不同的指导语对几组被试实施同一个能力测验,结果表明,将该测验说成“智力测验”的一组,成绩较高;将该测验说成“日常测验”的一组,成绩较低。

③为了保证测验情境的一致,还要有对主试的指导语,主要是对测验细节作进一步解释,以及其他一些有关事项,包括测验房间场地的安排(照明、桌椅等),测验材料的分发,如何计时、记分,对被试的各种提问如何回答,以及在测验中途发生意外情况(如停电、有人迟到等)应该如何处理。

总的要求是,无论什么人在什么时候什么地点使用同一测验,都必须做同样的事,说同样的话。对主试的指导语与测验是分开的。(2)时限

确定测验的时限,要考虑施测条件和实际情况的限制(如一节课时间的多少),以及被试的特点(如对儿童、老人时间不宜过长),更重要的是考虑测量目标的要求。

人格测验中反应速度是不重要的,可不定时限,但在测量能力和成就时,速度是要考虑的。纯速度测验,时间应限制,使被试中没有人能在规定时间内做完全部题目。纯难度测验只考察被试解决难题的水平而不考虑时间。通常所用的时限是使约90%的被试在规定时间内完成全部测验。

2.评分、记分

只有评分客观时,才能把分数的差异完全归于被试的差异。

一般说来,对于自由反应的题目(如问答题、论文题等),评分者之间很难取得完全一致,而选择题、是非题的评分较为客观,因此有人将由此类题目组成的测验称做客观性测验。

为使评分尽可能客观,有三点要求:(1)及时而清楚地记录反应情况。(2)要有一张标准答案或正确反应的表格,即记分键。(3)将被试的反应和记分键比较,对反应进行分类。

无论采用何种评分方法,都必须符合客观、准确、经济、实用四项原则。

分数评出后还要进行合成计算,即将各题目分数合成分测验分数,再将分测验分数合成测验总分数。准确无误是对计分的基本要求。

3.分数解释(1)一个标准化测验,不但编制、施测和评分要标准化,对分数的解释也必须标准化,如果同一个分数可做出不同的推论,测量便失去了客观性。测验分数必须与某种参照系统比较,方能显出其意义。多数心理测验是把个人所得的分数与代表一般人同类行为的分数(即为“常模”)相比较,判别其所得分数的高低。(2)建立常模的方法:

在将来要使用测验的全体对象中,选择有代表性的一部分人(称标准化样本),对此样本施测并将所得的分数加以统计整理,得出一个具有代表性的分数分布,此即为该测验的常模。(3)有些测验并不将被试的分数与其他人比较,而是看其是否达到某种标准,如体育达标测验、驾驶执照考试等。(七)搜集信度、效度资料

测验编好后,必须对其测量的可靠性和有效性加以评估,为此就要进行测量学方面的分析,搜集信度和效度资料。

1.信度

信度指的是测量的可靠性或一致性。我们用钢片卷尺去量黑板长度,所得的结果是可靠的,因为无论是由一个人量数次还是分别由几个人去量,所得的结果都是一致的。如果我们改用橡皮筋做的软尺去测量黑板的长度时,因为拉力大小不同,多次或多人测量所得的结果就难得一致。

2.效度

效度指的是测量的有效性或正确性,这是对测量工具的最基本的要求。衡量一个测量工具有没有效,就是看它所测量的是不是它所要测的东西。

例如,以磅秤量体重是有效的,但如果用它量身高,虽然多次测量结果一致(信度高),但所得的数量并不能代表个人的身高,因此对量身高来说,磅秤是个无效或效度较低的工具。(八)编写测验手册

为使测验能够合理地实施与应用,在正式测验编制完成后,还要编写一本手册,就下列问题作出详尽而明确的说明:

1.本测验的目的和功用;

2.测验的理论背景以及选择项目的根据;

3.测验的实施方法、时限及注意事项;

4.测验的标准答案和记分方法;

5.常模表或有助于分数转化、解释的资料;

6.测验的信度、效度资料。

二、测验的项目分析

在试测的基础上对各个项目进行分析是编制和修订测验的重要环节。

一般说来,测验的项目分析包括定性分析和定量分析两个方面:定性分析主要是依靠测验编制者丰富的经验和所受的训练,对项目的内容和形式是否得当进行分析;定量分析主要是指对项目难度和区分度等进行分析。(一)项目的难度

所谓难度就是指测验项目的难易程度。一道试题,如果大部分被试都能答对,则该题的难度就小;如果大部分被试都不能答对,则该题的难度就大。

一个项目的难度大小,除了与所测的内容本身的难易程度有关以外,还与测验的编制技术和被试的知识经验有关。由于表述不清或者是因被试没学过,一个本来容易的项目可能变得较难。这就是说测验的难度具有相对性。

1.对于是非题、选择题等采用二分法记分的项目,难度通常用通过率来表示,即用答对或通过该题人数的百分比作为指标:

P为项目的通过率,R为答对或通过该项目的人数,N为全体被试人数。

用通过率代表难度时,P值越大其难度越小,P值越小其难度越大。因此也有人将其称之为易度,而将未通过该题的人数百分比作为难度指标。

2.当被试人数较多时,可以先将被试依照测验总分从高到低排列,然后将总分最高的27%和最低的27%的被试定为高分组和低分组,分别计算两组在某一项目上的通过率,最后用下式计算该项目的难度:

式中P、P分别为高分组与低分组的通过率。HL

3.在选择题中,由于允许猜测,备选答案数目越少,机遇的作用越大,就越不能反映题目的真实难度。为平衡机遇对难度的影响,可用下面的公式校正:

式中CP为校正后的通过率,P为实得通过率,K为备选答案数目。

4.对于论述题等不用二分法记分的项目,常常用下面的公式来计算难度:

式中X为全体被试在某一项目上的平均分,X 为该项目的满max分。

进行难度分析的主要目的是为了筛选项目,项目的难度多高合适,取决于测验的目的、性质以及项目的形式。

大多数测验希望能较准确地测量个体之间的差别,在回答某题时,如果被试全对或全错,则该题就无法提供个别差异的信息。因此,为了使测验具有更大的区分能力,以选择接近中等难度的项目为好;当测验用于选拔人员时,应该比较多地采用那些难度值接近录取率的项目,例如,我们要招收20%的申请者,测验的难度就应较高。

测验分数的分布背离正态有两种情况:其一是项目难度普遍较大,被试的得分普遍较低,使低分段出现高峰,呈正偏态;其二是项目难度普遍较小,被试的得分普遍较高,使高分段出现高峰,呈负偏态。(二)项目的区分度

区分度是指测验项目对被试的心理特性的区分能力。区分度高的项目,能将不同水平的被试区分开来;区分度低的项目,则不能很好地鉴别被试水平,水平高和水平低的被试得分差不多。

1.鉴别指数法

区分度分析的一种简便方法是比较测验总分高和总分低的两组被试在项目通过率上的差别:D=P-PHL

式中P为高分组在某项目上的通过率,P为低分组在该项目上HL的通过率,二者通过率之差为鉴别指数D。D值越大,项目的区分度越高,即项目越有效。

2.相关法

计算区分度最常用的方法是相关法,即以某一项目分数与效标分数或测验总分的相关作为该项目区分度的指标。相关越高,则该项目区分度越高。(1)二列相关

二列相关适用于两个连续变量,但其中一个变量被人为分成两类。例如,当一个测验的题目分数是连续的,而效标分数或测验总分被分为及格和不及格两类时,就可以采用二列相关法;当效标或测验总分是连续的,而题目分数被分成通过、不通过两类时,也可采用此法。

其公式为:

式中X为与二分变量通过组对应的连续变量的平均数,X为与pq二分变量未通过组对应的连续变量的平均数,X为连续变量的平均t数,S为连续变量的标准差,p为通过组人数与总人数之比,q为未通t过组人数与总人数之比。y为p与q交界处正态曲线的高度。(2)点二列相关

点二列相关适用于一个变量为连续变量,另一个变量为二分变量(或双峰分布)的数据资料。例如,选择题答对记1分,答错记0分,这时题目分数为二分变量,而总分为连续变量。为了计算其区分度可采用点二列相关,其公式为:(三)区分度与难度的关系

1.区分度与难度有密切关系。假如,某项目的通过率为1.00或0,则说明高分组与低分组在通过率上不存在差异,因此,鉴别指数D为0。假如,项目的通过率为0.50,则可能是高分组的所有人都通过了,而低分组却无人通过,这样D的最大值可能达到1.00。从上述分析中可以看出,难度越接近0.50,项目的潜在区分度越大,难度越接近1.00或0时,项目的潜在区分度越小。

2.难度和区分度都是相对的,是针对一定团体而言的(绝对的难度和区分度是不存在的)。一般说来,较难的项目对高水平的被试区分度高,较容易的项目对水平低的被试区分度高,中等难度的项目对中等水平的被试区分度高。

3.由于人的多数心理特征呈正态分布,所以当需要把人作最大程度区分时,项目难度的分布也以正态为好,即特别难与特别容易的项目较少,越接近中等难度的项目越多,而所有项目的平均难度为0.50。(四)项目分析的特殊问题

1.选择题反应模式的分析

对于选择题,除了分析其难度和区分度外,还要分析被试对每个备选答案的反应情况。一般主要做以下分析:(1)如果正确的备选答案被所有被试选择,则说明该题目太易或题目中可能提供了某种暗示;(2)如果某个错误答案没有一个被试选择,说明该选项不具迷惑性,错得过于明显,一般说来,除非有2%以上的人选择,否则这个备选答案就应该修改;(3)如果所有被试都选择了同一个错误答案,可能是编制测验时把答案定错了,也可能是在教学中发生了错误;(4)如果高分组被试的选择集中在两个答案上,二者选择率相近,说明该题可能有两个正确答案或另一答案也有一定道理;(5)如果高分组对正确答案的选择与低分组相等或低于后者,说明所考察的东西与水平无关;(6)如果一个题目被试未答人数过多或选择各个备选答案人数相等,则说明题目过难或题意不清,使得被试无法作答或凭猜测作答。

2.标准参照测验的项目分析

标准参照测验主要用于判断被试是否掌握了某些知识技能,是否达到了一个事先确定的标准,测验结果只与既定标准比较而不在被试之间作比较。因此,测验分数的变异性不是标准参照测验的必要条件,所以,常模参照测验的项目分析方法不完全适用于标准参照测验。(1)难度分析

标准参照测验可以采用常模参照测验的方法来计算难度,但是在筛选项目时,对难度水平的要求与常模参照测验不同。

由于标准参照测验的目的是为了考察被试对某方面的知识技能的掌握情况,因此,只要能反映教育目标或教育者认为重要的内容,无论其难度为多少,都可以编入测验。

例如,我们在教学开始之前,为了了解学生的准备状态所进行的前测,多数题目将产生很低的通过率,但这些题目应该保留,因为它们表明了哪些东西需要学习。在进行一段教学之后,为了检查学生的掌握情况所进行的后测,即使每个题目都有很高的通过率,这些题目也是可用的,因为它们反映了教学的效果。

同一道题在教学前后对学生进行测验,学生的得分如为FP模式(F为失败,P为通过),则说明教学取得了较好的效果或题目较好;如为FF模式,说明教学效果太差或题目太难了;如为PP模式,说明题目过于容易了;如为PF模式,则说明这个题编制有错误或者教学上出现了错误。(2)区分度分析

标准参照测验一般分数变异较小,因此不适合用相关法来计算区分度,但是可以采用类似鉴别指数的方法计算,即比较两组的通过率。

①根据测验分数将被试分为达标组与未达标组,然后分别计算它们在某一项目上的通过率,两组考生通过率之差,便是该项目的区分度,其公式为:

P、P为达标组与未达标组在某一项目上的通过率Sn

②用同一测验对同一组被试在教学前后各施测一次,分别统计各项目前后测的通过率,二者之差便是项目的区分度。公式为:

D值越高,说明项目对教学效果越敏感,所以有人将其称作教学效果敏感指数,其公式也可写为:

S为敏感指数,R和R分别为前测、后测通过的人数,N为学生AB总数。

此种方法的主要缺点是:

a.同一测验施测两次可能会产生练习效应,成绩的提高究竟是由教学引起的,还是由练习引起的难以分辨;

b.只有等两次施测后才能进行项目分析;

c.当D值低时,难于做出明确的解释,无法确定是由试题不良还是由教学不当所致。

③取两组条件相近的考生,一组接受过同测验有关的学科的教学,另一组没有接受过此种教学。施测同一测验后,分别统计每组考生答对某题的人数,两组考生通过率之差便是该题的区分度,其公式为:

式中p和p分别为教学组和未经教学组对某题的通过率。iu

此法的缺点:两组考生除在教学方面不同外在其他有关方面必须同质,而这一点很难做到。

第3章 测验的误差及其检验[视频讲解]

一、测量的误差(一)误差的种类

所谓误差就是在测量中与目的无关的因素所产生的不准确的或不一致的结果。对于测量中不准确的或不一致的结果,可用下面的靶形图来加以说明。

上面的靶形图反映了误差的两种主要形式。图(a)是由与测量目的无关的偶然因素引起的变化无规律的误差,使得多次的测量结果不一致,这种误差的大小和方向是随机的,叫做随机误差;图(b)是由与测量目的无关的因素引起的恒定的有规律的误差,它稳定地存在于每一次测量中,这种误差叫做系统误差。

从上面我们不难看出,系统误差只影响测量的准确性,而随机误差既影响准确性又影响一致性。(二)误差的来源

要使测量准确可靠,必须减小误差;要控制误差,必须了解误差的来源。常见的误差来源主要有三方面:测验自身、施测过程、受测者。

1.测验自身引起的误差

主要来源于测验的编制过程,其中项目取样影响最大。当测验项目较少而取样缺乏代表性时,被试的反应很难代表其真实水平。对于有些类型的项目,如是非题、选择题,被试可能凭猜测作答,从而降低分数可靠性。此外,题目用词模棱两可,或对要求叙述不清等,也会带来误差。

2.施测过程引起的误差

在测验的实施过程中可能引起误差的因素很多,如测试环境、时间、主试者、意外干扰、评分记分等。(1)测试环境

施测现场的温度、光线、桌面高低好坏等对被试都有影响。(2)测试时间

时间安排也是影响测试准确性的一个重要因素,如果时间安排不当或时限不统一,必然会引起测验结果的改变。(3)主试因素

主试的年龄、性别、外表、言谈举止、表情动作、对测验过程的熟悉程度等都能影响测验的结果。如果不按照规定施测,如给予暗示、制造紧张气氛等都会带来很大的误差。(4)意外干扰

在测试环境复杂,特别是当被试人数较多时,可能发生意外情况。例如:停电、有人生病、作弊等等,无论哪种情况出现,都会影响测验结果的准确性。(5)评分记分

评分不客观和记分出现错误也是较常见的误差。一般来说,客观题的评分较为准确客观,而主观题的评分标准难以掌握,再加上阅卷者的风格、情绪以及其他心理因素的干扰,因而很难保证分数的一致性。

为了有效地控制测验实施中的误差,主试应该严格地遵守标准化的程序去施测和评卷记分,不得随意改动和发挥。

3.被试引起的误差

在测量工作中,最复杂的和最难控制的是由被试本身引起的各种误差。(1)应试动机

被试对测验的动机不同,会影响其作答态度、注意力、持久性及反应速度等,从而影响测验的结果。在测量成就、能力时被试如果动机不强,他就不会尽力作答。(2)测验焦虑

测验焦虑是被试在应试前和测试中出现的一种紧张的情绪体验。测验的焦虑会影响被试的反应。一般来说,适当焦虑会使人维持一定的兴奋水平,注意力增强,反应速度加快,从而对测验产生积极的影响。但过高的焦虑会使工作效率降低,注意力分散,思维狭窄,反应速度减慢,因而会大大影响成绩。

国外有不少学者针对“焦虑与测验成绩的关系”进行了大量研究。

研究表明:①能力与测验焦虑成负相关,能力较高的人,测验焦虑一般较低,而对自己没有把握的人,测验焦虑较高;②抱负水平与焦虑成正相关,抱负水平过高的人测验焦虑一般也高;③缺乏自信、情绪不稳的人容易产生测验焦虑;④经常接受测验的人焦虑较低,而对测验程序不熟悉的人焦虑较高;⑤当测验成绩对被试关系重大时,被试容易产生焦虑;⑥被试不了解测验的目的、指导语不清等会增加被试的焦虑。(3)测验经验

任何一种新的项目形式,由于被试比较陌生,就可能使测验成绩受影响。但是如果提供足够的演示和练习,测验成绩就会提高。有些被试经历过多次测验,掌握了一定的答题技巧,他们善于觉察正确答案与错误答案的微妙差别,会合理地安排时问,因此经常比那些能力相近、但缺乏测验经验的人获得更高的分数。(4)练习效应

任意测验在重复使用时,由于被试对测验的内容和程序已经相当熟悉,因此会使成绩提高。(5)反应倾向

独立于测验内容的反应倾向,也会使得本来能力相同的被试获得不同的成绩。对于速度测验,由于测验时间有限,而题量又较大,求快与求准两种不同倾向会对测验成绩产生影响;对于是非题,某些人可能有偏好选“是”或选“非”的倾向;对于选择题,有些人可能有偏好选择某个位置或偏好选长项的倾向。所有这些都会给测验成绩带来误差,为此在编制时一定要注意控制这些倾向的影响。(6)生理变因

生病、疲劳等生理因素,以及在智力、情绪等方面的生物节律会影响测验成绩而带来误差。(三)真分数

1.真分数指的是在测量没有误差时所得到的真值。真分数只是一个理论上构想的概念,在实际测量中是无法得到的,因为无论什么测量工具都不可能没有误差。真分数的操作定义是无数次测量结果的平均值。把任何一个测验成绩都看做是真分数和测量误差的和,这是经典测量理论的基本思想,即:X=T+E

这里X为实得分数或观测分数,T是假设的真分数,E是测量误差。

需要说明的是,这里的测量误差E指的是引起测量不一致的变因所产生的效应,即指随机误差,不包括系统误差。E可能是正的,也可能是负的。即一个人的实得分数可能大于真值,也可能小于真值,总是围绕着真值上下波动。

2.对于一个团体来说,实得分数、真分数和测量误差之间有如下关系:

这里只涉及随机误差的变异,系统误差的变异包含在真分数的变异中。这就是说,真变异数还可以分成两个部分:与测量目的有关的变异和与测量目的无关但却稳定的变异,即:

二、测量的信度(一)什么是信度

作为一个好的测验,它的结果必须可靠。所谓可靠,是指多次测量的结果保持一致。人们通常把测量结果的可靠性称之为信度,即测量结果的一致性或可信性程度。一个好的测量工具,对同一事物反复多次测量,其结果应该始终保持不变。

在测量学中,信度被定义为:一组测量分数的真变异数与总变异数(实得变异数)的比率。即

式中的r称做信度系数。XX(二)估计信度的方法

由于测验分数的误差来源不同,估计信度的方法也有所不同。下面具体介绍几种信度系数的估计方法。

1.再测信度(1)用同一个测验,对同一组被试前后两次施测,两次测验分数所得的相关系数为再测信度。因为它能反映两次测验结果有无变动,也就是测验分数的稳定程度,故又称稳定性系数。其计算公式为:(2)计算再测信度应满足以下几个假设:

①所测量的特质必须是稳定的;

②遗忘与练习的效果相同;

③两次施测期间被试的学习效果没有差别。

以上几条假设较难做到,所以有些测验不宜用再测法估计信度。(3)采用此法时应注意以下几个问题:

①两次测验的时间间隔要适当。时间太短,第一次的回答记忆犹新,因此夸大了稳定性;时间太长,由于受学习、成熟等的影响,从而降低了稳定性。

②再测法适用于速度测验或人格测验,而不适用于难度测验。因为速度测验或人格测验项目多,被试无法记住测验内容;

③应注意提高被试的积极性。由于是再测,被试易失去兴趣,采取不合作的态度,使得第二次测验不可靠,所以提高被试的积极性是再测法成功的重要条件。(4)评价:

①优点是能提供测验结果是否随时间而变化的资料,可作为预测被试将来行为的依据。

②缺点是易受练习和记忆的影响。

2.复本信度(1)根据一组被试在两个平行(等值)测验上的得分计算的相关系数即为复本信度。因为它反映的是两个测验之间的等值程度,因此又叫等值性系数。其计算方法与再测法相同。在用复本法估计信度时,两个等值测验可以连续施测,也可以相距一段时间分两次施测。(2)在采用此法时,一定要注意:

①两个测验必须在项目的内容、形式、数量、难易、时限、指导语等方面相同或相似;

②两次测验的时间间隔要适当,若太短,由于测验太相似被试可能厌倦,若太长又可能会因新的学习而产生干扰。(3)尽管复本信度的方法避免了再测法的缺点,应用范围较广,但它本身也有一定的局限:

①复本法只能减少而不能完全排除练习和记忆的影响;

②对许多测验来说,建立复本是相当困难的。

3.分半信度

前两种估计信度的方法,都必须经过两次测试才能求得,但是有的测验或者由于没有复本,或者由于种种原因不可能再测一次,对于这种情况,有时可以采用分半法估计信度。(1)分半法是按正常的程序实施测验,然后将全部项目分成相等的两半,根据各人在这两半测验的分数计算其相关系数。通常采用奇偶分半法,求出所有被试奇偶数项目总分的相关系数。由于这样求得的只是半个测验的信度,因此要用斯皮尔曼一布朗公式校正,校正公式为:(2)分半法尽管不需要施测两次或编制两份等值的测验,但它实际上是假定两半测验等值,亦即两半测验分数具有相同的平均数和标准差。当假定不能满足时,可以采用下面两个公式来估计信度:

弗朗那根公式:

卢伦公式:(3)使用奇偶分半法一定要注意两个问题:

①如遇到有牵连的项目或一组解决同一问题的项目时,这些项目应放在同一半,否则将会高估信度的值;

②当试卷中存在任选题或试卷为速度测验时,不宜采用分半法。

4.同质性信度

同质性也称内部一致性,指的是测验内部所有题目间的一致性。分半法实际上就是对测验内部一致性的一个粗略估计。但是对于同一个测验分半的方法是很多的,而用每一种分半方法所得的信度值又不尽相同,因此分半信度并不是最好的内部一致性估计。为了弥补分半法的不足,有必要采取一些其他方法。(1)测量同质性的基本公式(2)库德一理查逊公式

较为常用的是K—R公式20

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载