知难行易·教研合一(txt+pdf+epub+mobi电子书下载)


发布时间:2020-10-01 18:29:56

点击下载

作者:郭位,特洛伊

出版社:清华大学出版社

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

知难行易·教研合一

知难行易·教研合一试读:

前言

教学是大学最重要的使命之一,应得到规范的评估,许多教师却认为无法客观地评估教学。在研究型大学,有些反对评估教学表现的意见源于教学不如研究有价值的观念,因此,用不着花费精力去评估。教学和研究关系的本质则是这个问题的另一个方面。做研究的教授认为做研究对促进和更新课堂教学是必要的;未投入研究的教授则倾向于认为做研究实际上妨碍了良好的教学。

不可否认,度量教学表现是一个需要考虑多种变量的复杂工作。从这个问题引出许多相关问题,诸如:教学表现与班级规模的关系如何?由学生做出的教学评估是可靠的教学表现指标吗?研究型教师是更好还是更差的课堂教师?教学评估与老师给的分数关系紧密吗?年长的教师给低年级学生上课比年轻老师更好吗?母语是英语的教师比母语是非英语的老师做得更好吗?

从我们在美国和国际型大学的经验来看,我们经常遇到上述问题。在这些问题当中,对教师的研究日渐重视是否不利于教学已经是一个长久以来被反复讨论的话题。然而,近来这种争论在排名靠前的大学里已经很少见,因为常识告诉我们积极的研究实际上对教学活动有益。然而,由于到目前为止还没有针对这些问题的严格研究,这个概念仍停留在“假定”上,而非“已经证明”。因此,我们决定自己做分析。

研究基于1999—2003年的正式教学与研究报告,涉及美国最大的工程类院校之一——得克萨斯农工大学工学院350名终身职位序列的教师和50名非终身职位序列的教师,研究涉及的学生包括11个工程专业的2000名研究生和8000名本科生。几乎所有学生都是全日制的。研究期间,《美国新闻与世界报道》(US News and World Report)一直把得克萨斯农工大学工学院的本科生和研究生课程评为全美国前15名。

就这项研究的目的而言,区别表现和效率很重要。表现是一个静态的量度,归结为根据一套标准得出的最后结果;而效率是最终是否成功的量度。以打篮球为例,比赛中的成功投篮率是量度表现,而比赛的最后结果则是量度效率。虽然我们承认,好的教学评分并不一定意味着有效的教学(也不意味着他们提供了全面的教学评估),但就这项研究的目的而言,我们用它们作为教学表现的关键量度。由学生作出的教学评分可能是教学评估中最苛刻的一种,对于很多教育者来说是他们唯一接受的量度。美国每个大专院校都使用这种方法。我们没有试图去评估教学效率,因为这需要数十年以上的时间来搜集必要的数据。这里用学生评教来代替教学表现的评估。

虽然许多学者以及一般公众认为,他们能回答关于教学、教师、班级规模、研究以及之间的相互关系等问题,但是本书的内容以前没有任何文献记载。根据我们的研究,许多有关教学表现以及教学表现与研究表现之间关系的看法,都是主观臆测而并非事实。此外,大多数公众忽视的是,课堂教学只是教学任务的一部分。(其他要素包括提供建议、担当学生及同侪的导师、做教学研究、分发教学资料、编写和选择教科书、发表专业演讲,可能还要准备教学软件等。)当然,教学只是教师全部职责中的一个要素。(其他还包括研究、出版、专业及社会服务、学生管理、外展活动、终身学习。)

我们自己的专业兴趣驱使我们在“业余”时间完成了这项研究,尝试用实证的方法把学术界和一般公众长期以来关心的这些问题解释清楚。我们把研究的重点集中在工学院,因为我们对这一领域最熟悉,而且把研究限定在一个学院能使存在于多个不同学科之间的变异减至最小。

在这里报告的可以理解为观测得出的结果。而不是关联性的结果。也就是说,我们不是为了寻求因果关系。我们知道这份研究报告尚属初探,希望能吸引更多学者对此类相关问题做进一步的研究。郭位 香港城市大学Mark Troy 美国得克萨斯农工大学2008年6月致 谢

田纳西大学的朱晓燕为本研究的统计分析提供了非常宝贵的信息和建议,并对报告的初稿做了许多关键的修正。Linda Maria从一开始就帮助做分析验证,并利用各种大型纷繁芜杂的数据文件建立了作为分析基础的关联式数据库,使得Dini Sunardi可以进行统计分析。

台湾清华大学统计所的曾胜沧及周若珍、经济系的林世昌,得克萨斯农工大学统计系的Michael Longnecker、田纳西大学古典学系的Susan Martin、西北大学管理科学系的Mark Daskin曾为本研究提出宝贵意见。田纳西大学工业工程系的袁涛和统计系的Xu Liu以及得克萨斯农工大学教育系的Prashanti Chennamsetti也提出了深具洞察力的建议,在此深表感谢。

本研究经过得克萨斯农工大学审查委员会核准。我们还要感谢得克萨斯农工大学各学院的院长、测量与研究服务办公室、得克萨斯工程实验站办公室,以及2002年在得克萨斯农工大学工学院任职的11位系主任,他们的协助让我们能够顺利搜集到研究所需的数据。

本研究得到美国国家科学基金、得克萨斯农工大学Wisenbaker主席基金、台湾清华大学国联光电讲座基金、田纳西大学、得克萨斯农工大学测量与研究服务办公室的支持,为此深表感谢。

在正式出版本书之前,我们曾就报告的主题受邀在美国和其他20余个高等教育研究机构做过学术演讲,并从许多听众那里得到了富有建树的批评和意见,列举如下:

奥本大学

北京航空航天大学

北京科技大学

中南大学

香港科技大学

台湾成功大学

台湾交通大学

台湾大学

清华大学(台湾新竹)

北卡罗来纳州立大学

美国西北大学

俄亥俄州立大学

伦斯勒理工学院

罗格斯大学

首尔大学

上海交通大学

得克萨斯农工大学

清华大学(北京)

田纳西大学

休斯敦大学

马里兰大学

密歇根大学

华盛顿大学

西安交通大学

香港城市大学

佐治亚理工大学

乔治·华盛顿大学

香港清华同学会

香港大学校友会

本书由清华大学教育研究所的邓雪梅翻译第1~4章,孔令昭翻译第5章、第6章和第7章的部分内容,张淞云翻译作者简介、附录及第7章的部分内容;全书由邓雪梅统稿,由清华大学工业工程系的郑力教授进行审读。此外,香港城市大学的陈龙根先生为本书的出版做了很多工作,在此一并致谢。1导  论

过去1/4世纪以来,高等教育领域对评估教学表现抱有越来越浓厚的兴趣。从20世纪70年代末开始,以学生问卷评定教师教学表现的方式,已经遍及美国各大专院校,几乎无处不在。在高等教育领域从没有任何其他话题引起过这么多的相关研究。例如,Seldin(1999)注意到,有关教学效果的出版物已经超过15000种。此外,除了校园停车,没有什么其他话题能引起教师这么多的讨论。

在研究型大学,做研究的任务至少与教学任务同等重要,而且与教师晋级和获得终身职位息息相关。有些人之所以反对评估教学表现是源于一种观念,认为教学不如研究那么有价值。教学评分低被视作托词,因为教师把过多精力放在研究上,从而牺牲了教学。

尽管有些教师反对,但工程学科的师生和一般公众还是对教学表现和研究生产力之间的真正关系产生了疑问(Hattie & Marsh, 1996)。有些人认为两者之间呈正相关关系(Kuo, 2006; Wei, Cheng & Zhao, 2007)。持正相关观点的人认为,好老师一般来说在教学和研究方面都很出色,因为这两方面都是学术优秀的组成部分。持负相关观点的人则认为,好的教学表现只能以牺牲研究为代价。许多非研究取向的教师认为,获得经费支持的研究工作不可避免地会削弱在教学上投入的精力,因而会损害教育要达到的目标。除了这两种观点,还有一些人认为教学与研究之间无任何关联(Hattie & Marsh, 1996)。关于这个问题,尽管目前仍缺乏具体证据,但多数教师却坚持认为只有他们才拥有真理。

这项研究的目的是:(1)找出某些能代表学生、班级、教师的变量与教学表现之间的关系;(2)探讨研究生产力与某些教师属性之间的关系;(3)探讨教学与研究之间可能存在的关系。

这项研究使用学生教学评估来测量教师的教学表现,并使用多种方法来测量研究生产力,包括年加权研究生产力(AWRP)、年期刊论文发表数(ANJA)、年研究经费(ARE)、研究经费高低(LRE/HRE)、研究生产力高低(LRP/HRP)。

1.1节讨论教学表现和研究生产力的衡量方法;1.2节讨论使用的变量以及能代表学生、班级与教师的属性。为了方便读者阅读,本研究使用的所有专业术语缩写都列在附录A中。

这项研究得出的结论是在统计分析庞大的系统数据基础上建立的。所收集的数据来自1998年春至2002年秋美国得克萨斯农工大学工学院的师生,可以看作是美国全部工学院的一个样本。TAMU的工学院是全美最大的工学院之一,近年来,每年招收8000本科生和2000名研究生。《美国新闻与世界报道》连续多年将得克萨斯农工大学工学院的本科生部和研究生部列入美国前20位。1.3节说明本研究使用的数据库。1.4节介绍本研究使用的统计方法。

此外,在得出分析结论、正式发表研究结果之前,我们使用附录B中的问卷对工学院教师做了一个简短的问卷调查。这项补充研究(post study)的目的是要确认教师教学生涯中的经验,以及他们对不同教学和研究问题的看法。稍后我们会将本研究的结论与这项调查结果相比较。

需要指出的是,我们所做的研究并非出于任何基金机构或资助人的要求,也与任何修正教学评鉴的主张无关。做这项研究是出于我们长期以来对教学的兴趣,以及想澄清某些长期存在的有关学生、班级和教师因素与教学评估和研究生产力之间的疑问,并理清教学与研究工作之间的关系。我们审核了一些人所关心的事,并希望能够提供某些问题的答案。在这份报告中,我们依据统计分析对各种因素之间的联系作出结论。但我们并不认为这种联系就是因果关系。根据Freedmen, Pisani & Purves(1998)的观点,有联系不等同于因果关系。有联系只是因果关系的间接证据,但这种证据并不完整。因果关系的结论应当小心处理。此外,本研究只呈现结果,对为什么存在这种结果不予解释。1.1 教学表现和研究生产力的衡量方法

对于如何评估研究生产力和教学表现,人们曾经提出的建议数不胜数。研究生产力可以用很多方法衡量。在这项研究中,我们用获得的研究基金(研究支出)以及期刊文章、会议论文、出版的专著作为衡量标准。虽然,“不出版,就出局”不再是评估工程学的标准,我们还是运用期刊文章数作为比较老师研究生产力的一个单独指标。而论文的引用次数和获得的专利数则不包括在我们的研究中。

然而,就教育成绩而论,不存在普遍承认的衡量标准。学生评教虽然不是教学表现的唯一量度,但应用广泛,而且所作的评估常常被学生和学校公布在网上。许多教师深感教学表现不能由学生评估达成。许多人还反对把学生当作“顾客”,而从某种意义上说,这正是学生评教的真正含义。Trout(2000)讨论了学生评估制度的阴暗面,指出这些评估并不精确。然而,学生打分却是应用最多的衡量教学表现的量化方法。Cashin继续其1988年的研究,在1995的报告里简要概括了学生评教的研究后强烈建议,学生的评分应被看作数据资料而不是评估,因为教学评估应与其他资料来源结合起来解释。基于对学生评教的充分研究,Cashin(1995)发现,学生评教在某种程度上确实能测出教学表现的某些方面。虽然我们认识到,得分高并不一定意味着教学有效果,也不能提供全面的教学评估,但在本研究中我们仍然使用学生评教作为教学表现的关键量度标准。在本书中,我们使用教学表现(teaching performance)一词来代替教学有效性(teaching effectiveness)一词,因为与有效性相比,教学表现更易测量。

自1998年以来,得克萨斯农工大学工学院就采用教学评估(见附录C),让学生评估教师和课程。这项评估由教师委员会设计,包括教学各个方面8个单独的问题,但并不包括关于课程或者授课教师的整体表现。在临近每个学期结束的时候,要求学生在其所在的班级评估教师的教学表现。如附录C所见,学生用里克特量表(Likert Scale)从8个方面给教师评分。本研究所报告的数据来自1998—2002年秋5个年份学生的评分。全部研究调查的时间限于这5年之内,也就是1998年春至2002年秋。

本次研究的评分等级从1~5,1代表最差,5代表最好。在大部分情况下,这8个问题各自独立,但是对每个单独的学生来说却紧密相关。初步的分析表明,用8个问题的平均分来分析与用8个问题的单独评分来分析没有显著区别;这样,采用8个项目评分的平均分适合我们的研究目的。单独评分可能有助于教师改进,但对我们的分析没有太大意义。1.2 有关变量

这份报告中的变量共分成以下3类:学生变量,班级变量和教师变量。每个变量对应于学生、班级和教师的属性。

1.学生变量

年级:大一新生、大二本科生、大三本科生、大四本科生、研究生。

学科:航空航天工程、生物与农业工程、生物医学工程、计算机工程、化学工程、计算机科学、土木工程、电子工程、工程技术、工业配送、工业工程、机械工程、核工程、海洋工程、石油工程。

性别:男、女。

种族:白人/盎格鲁撒克逊人、西班牙裔、非裔、美国原住民族、亚裔/太平洋岛屿居民、其他/不明。

公民身份:美国公民、非美国公民。

预期成绩:A表示4分;B表示3分;C表示2分;D表示1分;F表示0分。

实际成绩:A表示4分;B表示3分;C表示2分;D表示1分;F表示0分。

平均学分绩点(GPA):第一组(<2.0分)、第二组(2.0~2.5分)、第三组(2.5~3.0分)、第四组(3.0~3.5分)、第五组(3.5~4.0分)。

2.班级变量

年级:大一本科生、大二本科生、大三本科生、大四本科生、研究生。

规模:小型(少于21名学生)、中型(21~75名学生)、大型(75名学生以上)。

学期:春季、夏季、秋季。

3.教师变量

职称:正教授、副教授、助理教授、(资深)讲师。

终身职位:终身制、以终身制条件聘用、非终身制。

系别:航空航天工程、生物医学工程、化学工程、计算机科学、土木工程、电子工程、工业配送/工程技术、工业工程、机械工程、核工程、石油工程。

性别:男、女。

种族:亚裔、白人、西班牙裔。

年龄:年轻(不到40岁)、中年(40~60岁)、年长(60岁以上)。

经验:很短(<2年)、短(2~6年)、中等(7~12年)、长(13~35年)、很长(35年以上)。

学生和班级变量只用在有关教学表现分析上,教师变量则同时用于教学和研究两方面的分析。除了单一变量对教学表现和研究生产力的影响之外,我们还探讨了学生、班级、教师3种变量之间的相互作用对教学表现的影响,以及教师变量间的相互作用对研究生产力的影响。更重要的是,我们还通过分析教学评估与AWRP, ANJA, LRE/HRE, LRP/HRP的相关性,以及考察教学或研究奖的获奖者与未获奖者在教学与研究上的差别,来调查教学表现与研究生产力之间的关系。

需要注意的是,如果在研究进行期间(1998年春至2002年秋)学生或教师的某些属性发生了改变,那么他的个人状况也随之调整。例如,一位助理教授在2000年秋升为副教授,那么他(或她)在2000年以前被归为助理教授,在2000年秋以后就归为副教授。1.3 资料来源

本研究的资料来自得克萨斯农工大学不同单位拥有和维护的各个数据库(见附录D)。

期末教学及课程评估资料是常规收集的用于课程评估的资料,存档于TAMU测量与研究服务办公室。资料包括近10000名学生在1998年春至2002年秋,每年的3个学期末缴上来的个人课程评估。这些资料包括对工学院近400名不同职位、状况教师所开课程的评估。虽然校方鼓励学生做课程评估,但是由于时间冲突、教师督促不够等各种原因,只有一部分学生参加了课程评估。

1998年春至2002年秋工程类学生的背景资料也由TAMU研究服务办公室(Measurement and Research Services, MARS)提供。

发表的科研成果方面的记录来自10个工程类院系的档案资料,包括1998年春至2002年秋在工程院任教的近400位教师的资料。所分析的数据包括每年工程类教师所发表的期刊论文、会议论文、合著章节及专著数目。

研究基金方面的资料来自于得克萨斯工程实验站(TEES)1998年春至2002年秋,近400位教师的资料,包括教师每年的研究经费。

院级和校级的教学与研究获奖记录来自TEES和TAMU。每年约有10个教学奖和10个研究奖由工程院和学校颁发给工程类的教师。

授课教师的背景资料来自TAMU的学院院长办公室(Office of the Dean of Faculties),其中包括1998年春至2002年秋所有教师的档案资料。

本研究用于分析的全部资料都予以保密。被试者的姓名、证件号、社会安全号码不会出现。我们只报告汇总后的资料,以防泄漏个人身份。1.4 统计分析

本研究所分析的是从TAMU工学院得到的有关特征属性,将这些数据作为探索性研究的基础,以作进一步预测。我们以TAMU的数据作为样本,显然是一个大到具有代表性的样本,得出的结论足以推断美国各地以致全世界工学院教师的教学评估和研究生产力。从某方面说,我们希望这项探索性研究能对非工学学科教学相关项目的分析起到指引作用。因此,从统计观点看,无论是本研究的假设检验还是相关推论,可能不那么严密,但从实践观点看却是合理的。

在做统计分析之前,我们先对数据做了预处理,从样本空间中排除不完整和不一致的样本点。例如,某些教师不适当地被归为(资深)讲师,但实际上他们的主要任务是寻找研究经费而不是教学。考虑到这个原因,我们的分析中排除了这些人。另外,在分析教师种族与教学表现和研究生产力的关系时,因为样本数太少,我们排除了非裔美籍教师。实际上,我们的数据库里只有4位非裔美籍教师。除非非裔美籍教师的样本量扩大,在有关教师种族的研究中,排除这部分样本比较合理。

我们将在2,3,5章分别检验以下3个假设:

原假设a 由期末教学与课程评估测出的教学表现,与学生、班级、教师3个变量无关。

原假设b 由AWRP,ANJA和ARE测出的研究生产力,与教师变量无关。

原假设c 教学表现与研究生产力无关。

检验上述关键假设的同时,我们还检验了其他几个特定假设,以找出教学表现和研究生产力之间更详细的关联。当我们研究某一个变量与教学表现或研究生产力之间的关系时,把所有其他变量以及那些可能存在但本研究没有涉及的变量视为随机、微小因素,可以忽略不计,其原因是样本规模足够大,而这些因素间的混合作用又很复杂,中心极限定理(central limited theory)为此提供了证明。在第4章我们分析了某些教学表现和(或)研究生产力变量间的二元交互作用。在本报告中,我们在适当的时候采用箱形图、平均数图和(或)分布图来形象地显示研究结果。

如果p值<α,就拒绝原假设;相反,如果p值>α,则接受原假设(除非另行说明,在本研究中α=0.05)。在这种情况下,根据Royall(1986)的观点,与小样本相比,大样本通常能为一个结论提供更有力的证据。有一点需要注意的是,“统计上”的显著与“实际上”的显著之间的差别——如果研究的样本很大,那么在α水平上的统计上的显著,其实可能很小,没有达到实际上的显著;然而,产生同样p值的小样本间的差异却可能有大得多的预期处理效果(Royall, 1986)。也就是说,统计上的显著意味着“合理地相信差异是真实的”,而实际上的显著则意味着“差异本身很大或很重要”。

附录E显示本报告中使用的统计技术,并讨论有关的统计要求、限制和相关注意事项。附录F说明箱形图的作用,从视觉上形象地概括重要的统计分布情形。

这项研究是一个档案数据的相关性分析,这些数据最初是学校为了行政目的而搜集的,教师和学生都不需要另外花费时间和精力,也并不牵涉任何欺骗或胁迫。1.5 本研究的架构

本书其他内容按下列章节安排:第2章分析各个学生、班级和教师变量对教学表现的影响;第3章分析每个教师变量对研究生产力的影响;第4章论述当只涉及教师变量时,学生、班级和教师变量间的交互作用对教学表现和研究生产力的影响;第5章着重论述教学与研究之间的关系;第6章是以对工学院教师的调查为基础做的一项补充研究;第7章是本书的结论和讨论。2教学表现

在这一章,我们分析各学生、班级、教师变量对教学表现的影响。可能的变量值已经在1.2节列出。2.1 学生

在以下各部分,我们分析个别学生变量对教学评估的影响,并指出由统计分析得出的观察结果。在箱形图中,特定群体的样本规模N代表这个群体学生提交的评估问卷份数。因为学生要在每学期上课的每个班里提交评估问卷,因此总样本规模远大于学生总数。要注意的是,每个小部分的总样本数并不一定完全一致,因为有些学生提交评估问卷时可能没有指明特定的属性(变量),因此这部分分数不能计入该特定变量的分析。本研究其他部分的类似现象也出于同样的原因。2.1.1 年级

我们把评教的学生根据年级分组,包括一年级、二年级、三年级、四年级、研究生5组。图2.1是每个组的教学评估分数箱形图。图2.1 以年级划分的教学评估分数箱形图

Braskamp & Ory(1994)概括了几项研究后发现,高年级课程的评分比基础课程的评分高。对此现象,常见的解释是,基础课程的班级规模较大,并常常由缺乏经验的教师授课。我们则提出另一种假设(alternative hypothesis):比较成熟的学生才懂得对优良的教学心存感激,因此高年级课程得到更高的评分是因为学生更年长、更成熟。修课动机也是一种可能的假设,二、三年级的学生往往会选修更多自己选择的主修课程。无论如何,我们在此提出的假设,并不是检验课程的深浅,而是学生就读的年级。

我们要回答人们普遍关心的问题:教学评估分数随学生年级的变化而系统地变化吗?设:

H0=平均教学评估分数不随学生年级变化而变化

Ha=平均教学评估分数随学生年级变化而变化

分析结果是,方差齐性(也就是组变异性相等假设)不成立(Levene statistic=262.014,p-value≈0)。5个组的平均教学评估分数有显著差异(Welch statistic=1387.121,p-value≈0)。如图2.1所示,配对平均数比较(pairwise mean comparisons,也称Games-Howell比较或Games-Howell法)证实,大一新生给的平均教学评估分数最低,研究生给的平均教学评估分数最高。学生年级越高,给授课教师的评分往往越高。研究生的评分样本方差最小(0.488)。将研究生排除在外,平均差异仍然显著(Welch statistic=785.827,p-value≈0)。

这种评分上的差别主要在于研究生教育和本科生教育本质上的差别,因此,除非另外说明,余下的研究将去除研究生部分。

需要注意的是,样本的规模从大一到大四逐年递增,到研究生又减少。大一、大二学生样本规模相对较小。这是由于大一、大二学生要在工学院之外选修很多基础课(例如,数学、统计、管理),工学院的课程在全部课程中只占很小一部分。相比之下,大四学生的样本规模相对较大。一般来说,大四学生上的课较多,此外,在大学前3年之后直到毕业,都算是大四学生。许多学生在大四这一年级待了不止1年,因此大四学生上的课比其他年级多。2.1.2 学科

现在,我们以学生主修的学科专业划分教学评估,回答下列问题:工学院教师教学评估分数随学科专业(academic discipline)的不同而改变吗?图2.2显示各组(学科专业)教学评估分数分布情况。图2.2 以学科专业划分的教学评估分数箱形图

设:

H0=平均教学评估分数不随学生主修的学科专业变化而变化

Ha=平均教学评估分数随学生主修的学科专业变化而变化

方差齐性不成立(Levene statistic=15.571,p-value≈0)。依据韦尔奇测验(Welch statistic=129.548,p-value≈0)的结果,工学院各系学生给的教学评估分数显著不同。配对平均数比较结果显示,工业配送专业学生所给的分数平均最高,机械工程专业学生的平均分数最低。虽然这些学科(disciplines)都在工学院一个学院之内,结果却跟Cashin(1992)的研究发现一致。Cashing的研究发现,商科和社会科学专业的学生(工业配送可能是其中一部分)给分较高,计算机科学专业的学生给分较低,工程专业和物理专业的学生给分最低。2.1.3 性别

本节用学生性别来划分教学评估,回答下列问题:教学评估分数随学生的性别不同而不同吗?图2.3显示男、女生两组教学评估分数的分布情况。其中,女生样本的平均数(4.012)比男生(3.989)高。图2.3 以性别划分的教学评估分数箱形图

设:

H0=平均教学评估分数不随学生性别变化而变化

Ha=女生平均教学评估分数会比男生平均教学评估分数高

依据学生性别划分的教学评估分数方差有显著不同(Levene statistic=19.854,p-value≈0)。方差不相等情况下的t检验(t=-3.454,p-value=0.001)表明,平均看来,女生比男生对教师的评估高。这个结果与Braskamp & Ory(1994)所引用的其他研究结果不同。其研究结果显示,不同性别学生的评分之间没有差异。我们推测,出现这种差异与工学院独特的、男生占大多数的氛围有关,也可能是动机问题,可能与工学院女生学习动机较高有关。2.1.4 种族

本节用学生种族划分教学评估,回答下列问题:学生的种族会对评分有影响吗?图2.4显示各种族学生教学评估分数分布情况。图2.4 以学生种族划分的教学评估分数箱形图

设:

H0=平均教学评估分数不随学生种族类别变化而变化

Ha=平均教学评估分数随学生种族类别变化而变化

方差齐性成立(Levene statistic=1.976,p-value=0.079)。这6个种族群体间的得分平均数差异显著(F=43.642,p-value≈0)。配对平均数比较结果显示,亚裔/太平洋岛屿居民后裔的学生所给的分数最高(样本平均分=4.106),美国原住民族和白人/盎格鲁人学生所给的分数最低(样本平均分分别为3.888和3.976)。2.1.5 公民身份

本节按学生有无公民身份划分为美国公民与非美国公民两组。非美国公民的学生与美国公民相比,给教师打的分数会不同吗?从图2.5可以看出,非美国公民所给的平均分数往往高于美国公民。图2.5 以学生公民身份划分的教学评估分数箱形图

设:

H0=平均教学评估分数不随学生公民身份变化而变化

Ha=非美国公民学生打的平均教学评估分数比有美国公民身份的学生高

方差齐性不成立(Levene statistic=36.949,p-value≈0)。方差不相等情况下的t检验(t=-19.805,p-value≈0)证实了上面的假设。因此,平均看来,非美国公民学生对其授课教师的评分比有美国公民身份的学生高。2.1.6 预期成绩

当学生在所修课程临近期末为他们的授课教师打分时,还要求他们预测在本门课程上期望得到的成绩。随后可以从学生数据库中得到他们实际的学期成绩。成绩可分为0,1,2,3,4共5个等级,0分最差,4分最高。我们之所以要观察教学评估和学生预期成绩是因为这两者之间的关系会带来一个问题,即是否成绩给高分对教师教学的评分就高。从图2.6可以看到,教学评分随预期成绩变化而变化。图2.6 以预期成绩划分的教学评估分数箱形图

预期成绩不同的学生对授课教师的评估也不同吗?设:

H0=无论学生预期成绩如何,平均教学评估分数都相同

Ha=平均教学评估分数是学生预期成绩的函数

方差齐性不成立(Levene statistic=139.880,p-value≈0)。韦尔奇测验(Welch statistic=1762.540,p-value≈0)证实,评分平均数之间存在显著差异。除了0分与1分相比较的一组,几乎所有配对平均数比较都有显著差异。进一步的回归假设(F=7231.839,r=0.269,p-value≈0)表明,随着学生预期成绩的增长,从统计结果看,给教师打出的评估分数确实增加了,如图2.7所示。其中,0.269的相关系数与其他研究结果一致,即相关系数落在0.1~0.3之间(Cashin, 1995)。虽然达到显著地步,但是相关系数明显较小,只能2解释全部变化的7%(r=0.072)。图2.7 以预期成绩划分的平均教学评估分数分布图2.1.7 实际成绩

虽然学生在给他们的授课教师评分时,不知道他们的实际成绩,我们仍对学生的实际成绩与教师的教学评分之间的关系感兴趣。学生的实际成绩与预期成绩有关吗?在92623个样本中(学生-班级数据),55799(约60.24%)个样本得到了他们的预期成绩;25956(约28.02%)个样本得到的实际成绩低于预期;10868(约11.73%)个样本得到的实际成绩高于预期。图2.8说明了实际成绩和预期成绩之间的潜在关系。图2.8 以预期成绩划分的实际成绩箱形图

设:

H0=预期成绩与实际成绩无关

Ha=预期成绩与实际成绩有关

皮尔逊相关测验(r=0.624,p-value≈0)确认,这两个变量之间存在正线性关系。

图2.9显示分别获得0,1,2,3,4实际得分学生的教学评估分数分布情况。图2.9 以实际成绩划分的教学评估分数箱形图

成绩不同的学生给教师的评分也不同吗?设:

H0=无论学生实际成绩如何,平均教学评估分数都相同

Ha=平均教学评估分数是学生实际成绩的函数

方差齐性不成立(Levene statistic=116.062,p-value≈0)。韦尔奇检验(Welch statistic=999.692,p-value≈0)指出,5组的平均评分有统计差异。除了0分与1分相比的组以外,所有配对平均数都有显著差异。

与2.1.6节类似,图2.9和图2.10显示,教学评估分数似乎与实际成绩呈正相关。进一步的回归分析亦表明,实际成绩与教学评估之间呈正相关(F=3848.513,r=0.198,p-value≈0)。需要注意的是,本节使用的总样本规模大于2.1.6节的样本规模,这是因为有些学生没有回答他们对课程的预期成绩。图2.10 以实际成绩划分的平均教学评估分数分布图2.1.8 学期平均学分绩点

在本节的分析中,我们依据学生学期平均学分绩点(term-grade point average, Term-GPA)来划分教学评估分数。学期平均学分绩点是做教学评估的那个学期整个学期的平均成绩点数。如1.2节所述,学期平均成绩点数分为5组。从图2.11所示的教学评估分数分布可见,平均教学评估分数是学期平均学分绩点的函数。学期平均学分绩点高的学生比低的学生对教师的评估高。图2.11 以学期平均学分绩点划分的教学评估分数箱形图

学业表现好的学生与学业表现不那么好的学生对教师的评估有差异吗?设:

H0=无论学生学期平均学分绩点如何,平均教学评估分数都相同

Ha=平均教学评估分数是学生学期平均学分绩点的函数

方差齐性不成立(Levene statistic=28.467,p-value≈0)。韦尔奇测验(Welch statistic=149.907,p-value≈0)证明,平均评估分数差异显著。此外,配对平均数比较显示,各对平均数都不相同。2.2 班级

在下面的分析中,我们用班级属性考察教学评估分数,如年级、班级规模、开班的学期。本节中,箱形图的样本规模代表满足特定群体标准的班级数目。2.2.1 水平

在本节我们把研究生水平的班级包括在内,按大一本科生、大二本科生、大三本科生、大四本科生、研究生5个年级来划分教学评估分数。从图2.12可见,课程评分随班级水平上升而上升。如2.1.1节所述,此前已有研究发现,年级越高,课程评分越高。图2.12 以年级划分的课程评分箱形图

课程评估分数(即教学评估分数)随年级变化而系统地发生变化吗?设:

H0=所有年级的平均课程评估分数都一样

Ha=所有年级的平均课程评估分数不相等

方差齐性不成立(Levene statistic=79.251,p-value≈0)。韦尔奇检验(Welch statistic=513.423,p-value≈0)确认,平均课程评估分数随年级的变化而变化。除了大二水平和大三水平班级的比较之外,所有配对平均数比较都显示显著差异。在配对平均数比较基础上所作的进一步分析表明,大一水平的班级得分最低,研究生水平的班级得分最高。此外,大一水平班级样本方差最大(0.305),而研究生水平班级的样本方差最小(0.116)。这些发现与2.1.1节得到的结果非常相似,在2.1.1节中我们依据学生年级比较教学评估分数。因为大一学生一般修大一水平的课,大二学生修大二水平的课,大三、大四以此类推,因此,得到同样的结论是合理的。

大学本科与研究生课程之间的差异可能是造成课程评估差异的原因。因此,除非另外说明,下面的研究将排除研究生水平的课程。在排除研究生水平的课程以后,平均数间的显著差异仍然存在(Welch statistic=140.373,p-value≈0)。大一班级依然得分最低,大四班级得分最高,大二、大三课程之间则没有显著差异。2.2.2 规模

在有限的几篇文章(Fernández, Mateo, & Muñiz, 1998; Crittenden, Norr, & LeBailly, 1975; Wood, Linsky, & Straus, 1974; Williams & Ory, 1992)中,有学者研究了学生的教学评估与班级规模之间的关系。根据他们搜集的资料,他们用班级规模对平均评估分数和非平均评估分数(即利用所有可用的数据)做了线性回归或多项式回归分析。其中,Fernández等人(1998)、Crittenden等人(1975)、Williams和Ory(1992)用线性回归发现负的小绝对值回归系数以及很小的相关系数。由此说明,整体看来,小班级往往得到较高的评分,但其线性关系很弱。Fernández等人(1998)也发现7次多项式回归,其中r=0.216,Wood等人(1974)则使用了r=0.911的二次多项式回归。

依据这些早期研究,郭位(2007)推测,学生人数很多的班级之所以收到较低的课程评估分数,原因在于师生间的互动水平低。图2.13是不同班级规模课程评估分数散点图,其中每一个点代表一个相应规模班级的评分。图2.13 不同班级规模的课程评估分数散点图

教学表现会受班级规模影响吗?设:

H0=课程评估分数与班级规模大小无关

Ha=课程评估分数与班级规模大小有关

相关性检验结果(r=-0.076,p-value≈0)显示,班级规模与课程评估负相关。此外,线性回归显示斜率是-0.002,几乎等于0,意味着随班级规模变化表现出来的评分变化不显著。

为了进一步证实我们的推测,我们把不同班级规模分为3组:

小型——≤20名学生;

中型——21~75名学生;

大型——>75名学生。

图2.14是每一班级规模的箱形图。图2.14 以班级规模划分的课程评估分数箱形图

设:

H0=各类型班级的平均课程评估分数都相同

Ha=各类型班级的平均课程评估分数并不相同

方差齐性成立(Levene statistic=2.675,p-value=0.069)。从图2.14和方差分析F检验(F=31.747,p-value≈0)可知,这3组的平均课程评估分数有显著差异。给少于21名学生的小型班级授课的教师得到的评分通常最高。但是,中、大型班级的平均课程评估分数之间没有表现出显著差异。

2.2.1节的分析表明,大四水平的课程容易得到高分。一般来说,大四水平课程的班级规模较小,因此人们也许会怀疑,小型班级得到高分会不会主要因为大四水平课程的班级规模较小。为此,我们在下一次分析中排除了大四水平的班级,以消除这一潜在因素。排除大四水平的班级以后,方差齐性不成立(Levene statistic=5.734,p-value=0.003)。统计分析的结果证实了前面的结论:各组之间的平均课程评估分数有显著差异(Welch statistic=43.755,p-value≈0),20名学生及以下的小班得到最高分。因此,大四水平的课程不是造成各组中平均数有差异的原因。

另外,只排除小型班级不会导致产生一个很强的结论。等方差t检验(t=1.740,p-value=0.082)证明,在α=0.05水平下,中型和大型班级之间的平均数差异并不显著。2.2.3 学期

学校在3个学期开课:春季,夏季,秋季。图2.15显示按学期分组的课程评估分数分布情况。图2.15 以学期划分的课程评估分数箱形图

不同授课学期的课程评估分数有差异吗?设:

H0=各学期的平均课程评估分数都相同

Ha=各学期的平均课程评估分数并不相同

方差齐性成立(Levene statistic=1.814,p-value=0.163)。方差分析F检验结果(F=21.756,p-value≈0)指出,各学期的平均课程评估分数差异显著。从配对平均数比较看来,全部平均数配对比较差异都很显著。在夏季开的课程得到的课程评分最高,秋季开的课程得到的评分最低。2.3 教师

Renaud和Murray(1996)发现,教学效果与教师的年龄成反比,与教师的几方面特征显著相关。教师的特征属性不是与教学呈正相关并随着年龄增长显著下降,就是与教学呈负相关并随着年龄增长而上升。

在这一节,我们依据对丰富资料的统计分析,来探讨教师变量对教学评估的影响。箱形图中特定组的样本规模N代表该组教师在研究时段内(1998年春至2002年秋)上课的班级数目。需要注意的是,一名教师在一个学期内可能教几门课,因此,样本的总体规模可能比参与研究的教师总数大得多。2.3.1 职称

我们根据教师的职称给教学评估分类。职称包括正教授、副教授、助理教授和(资深)讲师。图2.16显示各组教师的教学评分分布情况。图2.16 以教师职称划分的教学评估分数箱形图

教师职称影响教学评估分数吗?设:

H0=平均教学评估分数不随教师职称而变化

Ha=平均教学评估分数随教师职称而变化

方差齐性不成立(Levene statistic=12.139,p-value≈0)。韦尔奇检验(Welch statistic=3.075,p-value=0.027)显示,平均教学评估分数差异显著;然而配对平均数比较表明,任一对平均数比较都没有显著差异。2.3.2 终身职位状况

一般说来,几乎所有正教授和部分副教授都已经取得终身职位;部分副教授和助理教授虽然尚未取得终身职位,但是是按终身制条件聘用的;部分助理教授和几乎所有(资深)讲师则不在终身制内。在这一节,我们根据他们的终身职位状况分类,这就与2.3.1节中的分析不同。图2.17显示按终身职位分类的教学评估分数分布情况。结果显示,以终身制条件聘用的教师往往比非终身制和终身制教师获得更高评分。图2.17 以终身职位状况划分的教学评估分数箱形图

终身职位状况的不同会造成教学评估分数的不同吗?设:

H0=3种不同终身职位状况的教师的平均教学评估分数都相同

Ha=平均教学评估分数是教师终身职位状况的函数

方差齐性不成立(Levene statistic=6.136,p-value=0.002)。从韦尔奇检验结果(Welch statistic=39.303,p-value≈0)判断,终身职位状况影响教师的评分。从配对平均数比较看来,以终身制条件聘用的老师得到的平均评分最高,而终身制和非终身制教师之间的平均评分差异不显著。2.3.3 系别

我们按1.2节列出的学系,按教师所属的单位给评估分数分组。从图2.18可见,各学系之间教学评估分数的分布不同。图2.18 以系别划分的教学评估分数箱形图

教学评估分数随所属系别不同而有差别吗?设:

H0=各学系教师的平均教学评估分数都相同

试读结束[说明:试读内容隐藏了图片]

下载完整电子书


相关推荐

最新文章


© 2020 txtepub下载