汉语测试、习得与认知探索(续一)(txt+pdf+epub+mobi电子书下载)

作者:张旺熹

出版社:世界图书出版公司

格式: AZW3, DOCX, EPUB, MOBI, PDF, TXT

汉语测试、习得与认知探索(续一)

汉语测试、习得与认知探索(续一)试读:

出版前言

为加强研究生之间的学术交流,激发研究生们的科研热情,北京语言大学汉语水平考试中心于2008年11月30日举办了“首届语言测试与习得研究生学术论坛”,会后精选了18篇论文集结出版,论文集《汉语测试、习得与认知探索》已由北京语言大学出版社于2010年3月正式出版发行。2010年11月20日,在北京语言大学举办了“第二届语言测试与习得研究生学术论坛”。来自北京语言大学、北京大学和北京外国语大学的近百名中外研究生参加了论坛,共同就语言测试、语言习得、语言认知及语言教学等领域的相关问题进行交流和探讨。

本届论坛征集论文42篇,提交的论文和举办的论坛具有以下几个方面的特点:(1)涉及的研究领域广泛。本次论坛提交的论文涉及语言测试、语言习得、语言本体和语言认知研究、语言教学研究等领域,抓住了各个领域的一些热点问题;(2)研究方法丰富多样。本次论坛提交的论文采用多种研究手段,尤其是在利用语料库资源和采用实证研究方法等方面,体现出非常明显的特点;(3)论文的来源具有开放性。来自不同高校的研究生提交了论文并参加研讨,还吸引了来自日本、韩国等国和中国台湾地区的研究生参加论坛并发表自己的研究成果,体现出国际化的特点;(4)团队合作研究已成规模。本次论坛收到了多篇合作研究论文,同学们发挥各自的特长,体现了很好的团队合作精神,也大大提高了论文的质量。

论坛结束后,我们组织了论文评审委员会,对提交会议的论文进行匿名评审,最后有21篇论文入选文集,其中包括语言测试研究论文6篇,语言习得研究论文8篇,语言认知研究论文7篇。为了保持论文集的延续性,本届论坛的论文集定名为《汉语测试、习得与认知探索(续一)》。

论文集编委会成员均为北京语言大学汉语水平考试中心的研究生导师,他们从论坛组织、论文指导、论文评审等各个环节都全力投入,对入选论文也提出了很多具体的修改意见。导师们的辛勤付出,对提高研究生的科研能力和论文写作水平都有着重要的指导意义,也是论文集能够出版的保证。

感谢世界图书出版公司郭力女士为本论文集的出版所提供的帮助,感谢本书的责任编辑武传霞所付出的辛劳。北京语言大学汉语水平考试中心研究生管理办公室的李郁老师和金樱老师在论坛的组织和论文的收集整理过程中做了大量的工作。王正刚先生对本书进行了细致的编校。汉语水平考试中心硕士研究生王专同学为本论文集的编辑做了很多基础性工作。

谨对上述各方面人员为本论文集的出版所作的贡献表示感谢!北京语言大学汉语水平考试中心2011年3月8日(1)

初级阶段留学生语言能力的结构与特点

丁慧明 周莉 周聪北京语言大学 汉语水平考试中心

摘 要 本文以HSK[初级](改进版)考试的实考数据为材料,运用结构方程模型的分析方法,对考生听、说、读、写四项技能之间的关系进行考察。我们还探讨输出类技能(说、写)与输入类技能(听、读)之间的关系,主要依赖于视觉通道的技能(读、写)与主要依赖于听觉通道的技能(听、说)之间的关系,在此基础上来分析初级水平汉语学习者语言能力结构内部的关系。经过研究,我们发现:(1)听+说+读+写的四因子模型拟合程度最好,最适宜用来描述初级水平留学生的语言能力结构;(2)初级阶段留学生的听、说、读、写四项技能总体来看呈现分散的趋势;(3)听觉渠道和视觉渠道对初级阶段留学生汉语技能发展的影响最为明显。

关键词 语言能力结构 结构方程模型 初级汉语一问题的提出“语言能力”这一概念由乔姆斯基提出,他认为语言能力是“说话人—听话人所具有的关于他的语言的知识”(乔姆斯基,1965:2)。此概念自提出以来引起了学术界的广泛讨论,不同阶段人们对其内涵有不同的理解。研究语言能力结构不管是对语言测试还是对语言教学而言都有着深远的意义。Bachman(1990)说“一个关于语言能力的明晰而精确的定义,对语言测验的开发和应用而言,是基本的要求。”语言测试作为应用语言学的一个分支,把探究人的语言能力作为自己的终极目标。这个目标有双重意义,一是研究语言能力,弄清其本质及形成过程,进而对其进行理论上的解释;二是理论解释可直接用于语言教学,因为语言教学的现实目的就是使人获得一种语言(第二语言)的语言能力。因而,语言能力对语言测验来说,无论是在理论层面还是在实践层面都是一个核心问题(张凯,1998)。汉语作为第二语言时,学习者的汉语能力结构也会呈现出一定的特点。而目前对汉语(L2)能力的研究,尤其是国内在这方面的研究主要集中在理论层面,实证研究成果尚不多见。因而用实证的方法探讨汉语学习者的语言能力结构显得很有必要。二语言能力结构已有的相关研究2.1 国外语言能力结构研究

根据Spolsky(1995)的观点,国外语言测验领域对语言能力的研究大致经历了三个阶段。(一)技能/成分说阶段,代表人物是Lado和Carroll。Lado的语言能力观是技能成分相结合,他认为语言测验涉及两种变量:成分和技能。成分是语言本身的各种成分,技能是听、说、读、写四种,各种成分虽可单独被研究、描写和测量,但在语言中从不单独出现,而是综合在听、说、读、写各项技能中。Carroll提出了包括语言维度和技能维度的二维语言能力模型图,语言维度由音位/拼音、形态学、句法、词汇四元素构成,技能维度由听力、口语表达、阅读、写作四元素构成。技能/成分说对语言测试的开发和研究影响很大,分立式测验也由此盛行开来。HSK的理论基础——它对于语言能力的基本假设,大体上也遵循了Lado对语言能力的定义(陈宏,1997)。(二)一元化阶段,代表人物是John Oller。Oller(1974)认为,听的能力要求与其他能力不一样,需要将语音、语法、词汇等方面相结合,是完成语言交际的根本前提,但是他仍然强调听与其他的能力是融合在一起的。后来,他提出单一能力假说,认为语言能力根本没有结构,而是一个单一的不可再分的能力,所有的测验测量的都是一个一般因素。他使用主成分分析法(principal component analyses)分析了UCLA英语分班考试(Oller,1976;Oller Hinofotis,1980),得出的结果支持单一能力假说。(三)语言交际能力模型的建立,代表人物是Bachman。20世纪80年代,研究者们用探索性因素分析法(Bachman,Davidson,Ryan Choi,1995;Carroll,1983)和验证性因素分析法(Bachman Palmer,1981,1982;Kunnan,1995)证明了Oller的“单一能力说”至少是过于绝对。Bachman推出了由语言能力、策略能力、心理生理运动机制构成的语言交际能力模型。听说读写四项技能形态在心理生理运动机制这部分,根据不同渠道、不同模式,可以有不同的归类。详见下表:表1 Bachman对四项技能形态的归类四项技能形态渠道模式听听觉渠道理解性模式说听觉渠道表达性模式读视觉渠道理解性模式写视觉渠道表达性模式

一些研究表示还存在一个高阶能力(Bachman Palmer,1981,1982;Kunnan,1995)。尽管如此,目前语言测试学界在第二语言能力结构尤其是技能形态问题上已基本达成共识,认为第二语言能力结构是由多个部分构成的,每个部分又涉及不同的子能力。但是不同的研究所得出的结构模型又不尽相同,不过这跟研究所用的方法、工具以及数据样本有很大的关系。Swinton和Powers(1980)以及Manning(1987)采用探索性因子分析的方法对TOEFL纸笔考试进行了研究,得出一个二因子结构,独立的听力因子以及一个由结构、词汇、阅读理解混合成的因子。后来Hale等人(1988)用验证性因子分析的方法也得出了同样的结论。由于TOEFL纸笔考试没有口语和写作,所以很容易得出上述结论,也就不能完全描述二语者的语言能力。自2005年ETS推出TOEFL iBT以来,又有很多研究者作了大量研究。比较有影响的是Sawaki等人(2008)对试卷因子结构进行分析,找到了四个独立的听、说、读、写一阶因子和一个高阶因子。这跟之前的TOEFL纸笔考试研究相比,得到了更多的因子。Stricker等人(2005)对和TOEFL iBT试卷具有相似结构(包括了听、说、读、写四个部分)的LanguEdge测试进行分析,得到了说、听读写两个因子。2.2 国内语言能力结构研究

目前,国内对语言能力结构尤其是汉语学习者能力结构的专门研究比较少,大部分的相关文献主要集中在HSK考试的结构效度研究方面。张凯(1992)使用探索性因子分析方法对HSK试卷的结构效度进行了探讨,试卷由听力、语法、阅读、综合四个部分组成。研究者最后找到了三个因子,分别为阅读理解、听力理解以及一个未知因子。郭树军(1995)用Henning(1987)的方法对HSK(试卷构成同上)的内部结构效度进行研究,得到了相似的结论。陈宏(2000)用探索性因子分析的方法也对相同结构的材料进行了分析,得到了四个因子。其中可以较为清晰辨认的包括阅读理解、听力理解以及方法因素。李慧、朱军梅(2004)采用验证性因子分析方法对HSKJ234进行构想效度的研究,也得到了四个因子,分别为听力理解能力、语法结构能力、阅读理解能力和综合填空能力。但在这些研究中,试卷都没有包括口语和写作部分,所以这些结果不能全面反映汉语学习者的能力结构。王佶旻(2008)立足实证,拟构了初学者口语能力模型。首先提出口语表达分为听—说模式和独白模式的理论构想,采用半直接式口语测验。施测完毕得到分数后,作者先对拟建的模型进行探索性因素分析,用主成分分析法提取到两个因素,此结果支持了理论构想;接着作者对模型进行验证性因素分析,各项拟合指标均显示模型有较好的拟合度。这两项分析结果说明,对口语能力结构的理论构想是基本正确的。马新芳(2005)以HSK(高等)、MHK(三级)为例,对第二语言阅读能力和写作能力的关系作了实证分析。她具体研究了这两种能力水平不平衡的现象,发现“阅读水平低的人相应的写作水平一般也比较低,阅读水平高的人写作水平要滞后于阅读水平,达不到相应的阅读水平的高度;写作水平低的人相应的阅读水平一般也低。”作者通过考察口语和写作、口语和阅读的相关,探索组织能力在阅读、写作中的不同作用。进而考察证实写作能力不同于阅读能力这一假设,检验结果也支持了作者的假设。2.3 已有研究的模型类别

上述理论与实证研究提出了众多语言能力结构模型,我们选取有代表性的如下8种。孰优孰劣,哪种与真实的汉语(L2)能力最为接近,我们暂无从得知,接下来本研究将对这8个模型进行逐一检验。表2 8个语言能力结构模型三研究方法与被试3.1 样本

本研究的样本是2009年参加了HSK[改进版](初级)考试所有分测试的考生,共49人。他们来自意大利、法国、美国、德国、英国、保加利亚、瑞典、西班牙、蒙古国、韩国、日本、泰国、马来西亚等13个国家。3.2 测量工具

本研究采用的测量工具是2009年HSK[改进版](初级)考试试卷,包括主试卷、口语试卷和写作试卷三个部分,全面测量听、说、读、写四个方面。主试卷有听后看图选择15题,听问题并选择应答15题,听对话和问题并选择回答20题,选择正确答案完成句子40题以及短文阅读30题。主试卷题目都是采用二级计分。口语试卷包括重复句子20题、简短回答20题和口头陈述2题。写作考试分为完成句子、看图并用指定词语写句子两部分,各10题。口语考试和写作考试采用的都是1~3级的评分量表。表3 HSK[改进版](初级)试卷构成3.3 研究方法

我们采用结构方程模型(Structural Equation Modeling,以下简称SEM)来分析数据,分别估计8个模型的拟合指数,比较这8个模型的优劣。结构方程模型作为一种多元数据分析工具自80年代以来被广泛应用于生物、教育、经济、医学、心理学和社会学等领域。国外语言测试领域运用结构方程模型进行研究的成果也已有不少,最早使用它来研究语言能力结构的是Swinton和Powers(1980)。Bachman和Palmer用它来研究FSI口试的构念效度(1981)、交际语言能力的构成(1982)及交际语言能力的自我评估(1989)。Ginther和Stevens(1998)用它来调查一项西班牙语测试的因素结构。Song(2008)也运用此方法研究第二语言听读测验理解分技能的可分性。国内语言测试领域运用此项技术进行研究的成果还不多,吴红云、刘润清(2004)运用它来研究外语写作元认知能力与写作成绩之间的关系。王佶旻(2008)运用它对初级水平汉语学习者的口语能力结构进行了探索。我们的研究是要比较8个模型的拟合程度,观察因子间的相关关系。而结构方程模型可以同时处理潜变量及其指标,能够分析涉及潜变量的复杂关系,能够用来比较不同的模型(侯杰泰、温忠麟、成子娟,2004),很符合我们研究的需要。

上文我们已经讲过HSK[改进版](初级)的试卷结构及题目类型,整个测试是由4个部分组成,共10种题型,182题。由于结构方程模型分析数据时要求研究中使用的变量个数同样本量的比值不能太大,如果在样本小的情况下变量个数多,那极可能得到不稳定的解。所以我们不能直接将每个题目视为一个指标,而应将题目合并为题目组以减少指标量,一个题目组视作一个指标,用题目组还能使数据更接近正态分布。具体做法是:听力理解部分的三个题型以每个题型作为一个题目组,分别命名为L1,L2,L3;综合阅读部分的两个题型以每个题型作为一个题目组,分别命名为R1,R2;口语考试部分的“重复句子”“简短回答”“口头陈述”分别有20题、20题、2题,“口头陈述”的题目数量过少,与其他题型的题目数相差过大,不宜单独作为一个指标,考虑到“口头陈述”与“简短回答”在考查目的、答题模式等方面更为接近,我们将二者合并,命名为S2,“重复句子”题目组命名为S1;写作考试里的“完成句子”共10题,作为一个题目组W1,“看图并用指定词语写句子”共10题,作为另一个题目组W2。表4 题目组构成3.4 数据分析

我们先统计每个被试在10个观测变量上的原始分得分,将统计得到的数据输入LISREL 8.80,检验是否存在缺失值。发现有一个缺失值,我们用均值代替。由于数据中是否存在相关关系尚不确定,根据(Jöreskog Sörbom,1988,1993)的观点,我们选择在协方差矩阵基础上分析数据,而非选择相关矩阵,用LISREL软件计算出数据的协方差矩阵。如下表所示:表5 数据的协方差矩阵

我们运用LISREL 8.80软件对上文提到的8个理论模型逐一进行验证,使用极大似然估计(ML)的方法进行参数估计。由于复杂模型需要迭代多次才能收敛,SEM的默认迭代次数是250次,我们在输出指令中追加为迭代500次。

结构方程模型软件在检验模型时,会提供众多拟合指数供我们参考。这些指数主要分为两大类:绝对拟合指数和相对拟合指数。依据Kelloway(1998)的观点,我们在检验模型、考察模型整体拟合情况22时选择了χ,df,p,χ/df,RMSEA,GFI,AGFI,CFI,NNFI,22ECVI这10个指数。χ能够恰当地用来反映模型的拟合优度,但χ的值2极易受样本大小的影响。考虑到本研究中N=49,χ的显著性阀值α22应取0.01,当χ检验显示p>0.01,即χ不显著时,表明模型拟合数据22(Kelloway,1998)。χ/df是卡方与自由度的比值,通常报告χ/df比222报告χ更受欢迎,特别是在模型比较时,χ/df比χ更有参考价值(侯2杰泰、温忠麟、成子娟,2004)。Kline(1998)指出,χ/df≤3表示拟合较好。RMSEA是近似误差均方根,侯杰泰(2002)指出该指数受样本量影响较小,是较好的绝对拟合指数。Steiger(1990)认为,RMSEA低于0.1表示好的拟合,低于0.05表示非常好的拟合。GFI,AGFI都是拟合优度指数,AGIF是在模型一定的自由度条件下调整GIF,二者取值都在0~1,大于0.9表示拟合较好,如果二者差异很大则表明模型里有意义不显著的参数(Kelloway,1998)。Bentler(1990)提出了相对拟合指数CFI,它的取值范围在0~1,大于0.9表示拟合较好,CFI不受样本容量的系统影响。赋范拟合指数NNF在小样本的情况下会低估模型拟合程度,而非范拟合指数NNFI不受样本容量的系统影响,故本研究选用NNFI,它的取值范围也是在0~1,一般达到0.9就表示拟合良好。ECVI用来评估期望差异,以0为下限,它的值越小表明模型拟合得越好。下表是8个模型在这些指数上的拟合效果:表6 模型的拟合指数22

根据上表我们可以看出,四因子模型中χ检验p>0.01,χ/df小于3,表明拟合较好。RMSEA小于0.1。GFI等于0.92,是8个模型里GFI最大的,表明拟合最好。AGFI虽略小于0.9,但和另外7个模型相比最大,且与GFI的差异也是最小。CFI和NNFI均超过了0.9,达到1.00,表明拟合很好。ECVI等于1.44,和其他模型相比是最小的。三因子的两个模型GFI和AGFI未达到0.9,其他指数值尚可。二因子模型的p,RMSEA,GFI,AGFI,NNFI均不在可接受范围内。另外,2“听读写+说”模型的χ/df大于3。单因子模型的p,RMSEA,GFI,AGFI,NNFI也均不在可接受范围内。综合来看,8个模型的拟合水平从好到差依次如下:

四因子“听+说+读+写”模型

三因子“听+读写+说”模型

三因子“听读+说+写”模型

二因子“听说+读写”模型

二因子“听+说读写”模型

二因子“听读+说写”模型

二因子“听读写+说”模型

单因子“听说读写”模型

我们发现四因子模型“听+说+读+写”在8个模型中拟合得最好,不过模型评价可以从三个方面进行,以上只是用各种拟合指数从整体角度进行的比较。我们还需通过检验参数的显著性来评价参数的意义及合理性,通过计算测定系数来评价方程对数据的解释能力。接下来,我们就这两个方面具体分析四因子模型。路径分析图(未标准化的参数估计结果)及参数估计结果表如下所示:图1 四因子模型路径分析图表7 四因子模型参数估计结果

通过这些数据,我们可以看到标准误都大于0,未出现负值。T值能够反映参数估计的显著性,通常认为T值大于2表示显著即自由估计的参数设置合理。我们的T值均大于2,说明四因子模型设置的参数相对合理。未标准化的参数估计值大小依赖于有关变量的尺度单位,相互之间不便比较。因此我们需要标准化的参数估计值(完全标准化的解)对因子负荷及因子相关进行评价,一般认为该值介于0.5~0.95之间表明指标设置合理、有意义。本研究的四因子模型标准化参数估计值在0.60~0.95之间,都比较理想。R2(平方复相关系数,也叫测定系数),是判定一个线性回归拟合度的重要指标。它体现了回归模型所能解释的因变量变异性的程度,可以充当潜在构想被测程度的信度指数(Bollen,1989a)。取值在0~1之间,越接近1越好,大于0.5表明模型的拟合度不错。四因子模型的R2除W2略低于0.5(0.49)以外,其他观测变量的R2值都较为理想。

我们再来检视四因子模型的的标准化残差,见下表:表8 四因子模型的标准化残差

标准化残差绝对值大于4时说明指标有问题,大于2.5时需要引起研究者的注意。本研究四因子模型的标准化残差在-2.33~1.72之间,绝对值均未超过2.5,表明指标设置合理。

综合以上分析,无论是拟合指数还是参数的显著性以及测定系数都显示本研究的“听+说+读+写”四因子模型同其他7个模型相比是最为理想的模型。四因子模型内部技能间的关系见下表,其中,听和说、读和写的相关最高。表9 四因子模型技能间的相关技能关系相关0.95L—S听和说听觉渠道的技能0.85R—W读和写视觉渠道的技能0.82L—R听和读理解性技能——0.77

R—S读和说0.66S—W说和写表达性技能——0.60L—W听和写四讨论

我们运用结构方程模型对8个模型进行逐一检视,得出的结果是:二因子模型比单因子模型理想,三因子模型比二因子模型理想,四因子模型比三因子模型理想,即四因子模型最为理想,最适宜用来描述初级水平留学生的语言能力结构。如果将模型的因子个数视做因子间的聚散程度的话,那么本研究中的四因子模型中,因子最为分散。从三因子到二因子再到单因子,因子间的集中程度越来越高。本研究结果显示,四因子模型各方面都表现最佳,与周聪(2010)的研究结果相吻合,反映出初级阶段留学生汉语能力结构内部技能间呈分散趋势。在实际的汉语使用环境中,学生不可能只用一项技能就完成交际项目。一项技能可以在一定程度上反映其他项的技能水平,但这并不意味着它们之间可代偿。各项技能之间从逻辑上和经验上来说都相对独立。就本研究的结果来看,目前汉语(L2)课堂的分课型(综合课、口语课、听力课、阅读课)是较为合理的。另外,四因子模型中听和说、读和写的相关最高,前者属于听觉渠道技能,后者属于视觉渠道技能。二因子模型中按渠道划分的“听说+读写”模型拟合情况也比按模式划分的“听读+说写”模型好。这表明将初级阶段留学生的汉语能力按渠道进行划分更接近其技能发展的真实情况,听觉渠道和视觉渠道对初级阶段留学生汉语技能发展的影响最为明显。在今后的教学实践中,可以考虑多采用听觉和视觉刺激的方式进行课堂讲解、操练。

早在语言教学的听说法盛行前,作为其理论基础之一的行为主义心理学就通过实验发现,“听”和“说”一个是刺激、一个是反应,二者间有着密切的联系。本研究中听和说的相关很高,正印证了这一点。至于相关达到了0.95,一方面可能是因为二者都属于听觉渠道的技能,另一方面可能是HSK[改进版](初级)考试方式的影响。口语考试三个部分都是先“听”,然后作答,对所听内容的把握势必会影响到作答的成绩,这其中听力水平就势必会对口头表达造成影响。听和写不属于同一渠道,也不属于同一模式,之间没有理论上的直接联系。另外汉语的特点也可能会带来一些影响,汉语是意音文字,汉字形体与语音无直接联系,汉语里的词几乎无表意义的形态变化。“听”的策略与“写”的策略又有很大不同,在本研究中二者相关最低,仅为0.60,此结果合情合理。但同样是对初级水平汉语学习者语言能力的研究,只是样本不同,周聪(2010)的研究结果中四因子之间的相关却是“听”和“写”最高。两项研究结果的不一致可能是样本构成差异造成的。周聪(2010)所使用的样本中日韩学生超过50%,而本研究的样本中日韩学生所占比例不到10%;另外,也可能是样本总体各自的汉语能力内部结构某些方面存在差异造成的。陈宏(1997)提出,现在认为所有第二语言学习者都遵循着同一条发展道路还为时尚早。我们还不能排除初级阶段学习者汉语能力结构内部存在细节差异的可能性。总之,初级阶段留学生听、说、读、写四项技能间的内部关系还需要我们进一步深入、细致地探讨。五研究的不足

使用极大似然估计法(ML)的条件之一是要求变量正态分布,对样本大小也有要求。本研究的样本比较小,只有49个,处理数据时无法进行多元正态检验(检验后显示不出z值及p值)。虽然有不少研究(如Hau Marsh,in press;Hu,Bentler Kano,1992)显示,多数情况下,就算变量不是正态分布的,ML估计法也仍然合适,即ML估计是稳健的(robust)(侯杰泰、温忠麟、成子娟,2004)。但在以后类似的研究中,如果条件允许,我们认为还是应该对数据进行这方面的检验。由于样本大小的限制,我们也无法作跨组别不变性的研究。

本文的研究对象是初级水平的留学生,且只是对其能力结构的轮廓有了大概的认识,欲知全貌尚有很多工作要做。此外,我们今后还可以作中级、高级水平留学生语言能力结构及四项技能间内部关系的研究,对中高级留学生语言能力内部结构特征作进一步考察,进而可以作初、中、高三个水平级别上的纵向比较研究。参考文献

北京语言大学汉语水平考试中心(2007)《中国汉语水平考试——HSK[改进版]样卷》,北京:北京语言大学出版社。

陈 宏(1997)汉语能力结构差异的检验与分析,见王建勤主编《汉语作为第二语言的习得研究》,北京:北京语言大学出版社。

陈 宏(1997)结构效度与汉语能力测验,《世界汉语教学》第3期。

郭树军(1995)汉语水平考试(HSK)项目内部结构效度检验,见《汉语水平考试研究论文选》,北京:现代出版社。

韩宝成(2006)结构方程模型及其在语言测试中的运用,《现代外语》第1期。

侯杰泰 温忠麟 成子娟(2004)《结构方程模型及其应用》,北京:教育科学出版社。

李 慧 朱军梅(2004)汉语水平考试J324卷构想效度的验证研究,《考试研究文集(第2辑)》,北京:经济科学出版社。

马新芳(2005)对第二语言阅读能力和写作能力关系的实证分析,《语言测试专业硕士论文精选》,北京:北京语言大学出版社。

王佶旻(2008)汉语作为第二语言的初学者口语能力结构初探,《心理学新探》第1期。

张 凯(1992)汉语水平考试结构效度初探,见《首届汉语考试国际学术讨论会论文选》编委会编《首届汉语考试国际学术讨论会论文选》,北京:北京语言大学出版社。

周 聪(2010)综合式测试方法对初级水平汉语学习者的适用性研究(未发表),北京语言大学。

Bachman, L. F. (1990) Fundamental Considerations in Language Testing. Oxford: Oxford University Press.

Bollen, K. A. (1989) A new incremental fit index for general structure models. Sociological Methods Research, 17: 303 ~ 316.

Carroll, J. B. (1983) Psychometric theory and language testing, in J. W. Oller, Jr. (Ed.), Issues in Language Testing Research (pp. 80 ~ 107). Rowley, MA: New-bury House.

Ginther, A. J. Stevens. (1998) Language background, ethnicity, and the internal construct validity of the Advanced Placement Spanish language examination, in A. J. Kunnan (ed.), Validation in Language Assessment. Mahwah, NJ: Lawrence Erlbaum Associates, Inc., 169 ~ 94.

Hale, G. A., Stansfield, C. W., Rock, D. A., Hicks, M. M., Butler, F. A., Oller, J. W. (1988) Multiple-choice Cloze Items and the Test of English as a Foreign Language (TOEFL Research Rep. No. 26). Princeton, NJ: ETS.

Henning, Grant (1987) A Guide to Language Testing, Newbury House Publishers, Cambridge.

Jöreskog, K. G., Sörbom, D. (1988) LISREL 7: A Guide to the Program and Applications. Chicago: SPSS Inc.

Jöreskog, K. G., Sörbom, D. (1993) PRELIS 2: User's Reference Guide. Chicago: Scientific Software International.

Kelloway, K. E. (1998) Using LISREL for Structural Equation Modeling: A researcher's guide. Thousand Oaks, CA: Sage Publications.

Kunnan, A. J. (1995) Test Taker Characteristics and Test Performance: A Structural Equation Modeling Approach. Cambridge: Cambridge University Press.

Manning, W. H. (1987) Development of Cloze-elide Tests of English as a Second Language (TOEFL Research Rep. No. RR- 87 ~ 18). Princeton, NJ: ETS.

Oller, J. W. (1974) Issues in Research in Language Testing. Rowley, MA: Newbury House.

Oller, J. W. (1976) Evidence of a general language proficiency factor: An expectancy grammar. Die Neuen Sprachen, 165 ~ 174.

Oller, J. W. Hinofotis, F. A. (1980) Two mutually exclusive hypotheses about second language ability: Factor analytic studies of a variety of language subtests, in J. W. Oller, Jr., K. Perkins (Eds.), Research in Language Testing (pp. 13 ~ 23). Rowley, MA: Newbury House.

Sawaki, Y., Strieker, L. Oranje, A. (2008) Factor Structure of the TOEFL Internet-Based Test (iBT): Exploration in a Field Trial Sample. Princeton, NJ: ETS.

Song, Min-Young (2008) Do divisible subskills exist in second language (L2) comprehension? A structural equation modeling approach. Language Testing, 25 (4) 435 ~464.

Spolsky, B. (1995) Measured Words. Oxford: Oxford University Press.

Strieker, L. J., Rock, D. A., Lee, Y. -W. (2005) Factor structure of the LanguEdge test across language groups (TOEFL Monograph Series No. MS-32). Princeton, NJ: ETS.

Swinton, S. S. D. E. Powers (1980) Factor analysis of the TOEFL (TOEFL Research Report 6). Princeton, NJ: ETS.————————————————————

(1) 此项研究得到教育部人文社会科学重点研究基地重大项目“汉语作为第二语言的能力标准(项目批准号:06JJD740005)”和北京语言大学汉语水平考试中心研究生科研项目“初级阶段留学生语言能力的结构与特点”的资助。(1)任务类型对考生语言复杂性的影响冯佼佼北京语言大学 汉语水平考试中心

摘 要 口语测试环境下,语言复杂性作为考生语言水平的重要表征,是考官进行有效测评的重要参考指标。本研究以转写成书面形式的C-TEST口语面试实测话语样本为分析材料,运用描述性统计、方差检验和非参数检验的方法考察任务类型、语言水平对被试输出话语复杂性的影响,以及任务类型与语言水平之间的关系。进而结合语言复杂性、语言难度和二语习得等相关理论深入剖析影响考生话语复杂性的内在机制,以期为口语面试中考官的有效测评提供参考依据。

关键词 口语考试 任务类型 语言水平 任务复杂性 语言复杂性一引言

复杂性、准确性、流利性作为考察学习者语言输出质量的三项参考指标,能够反映学习者驾驭语言的能力,是考官对考生进行有效测评的重要依据。在口语考试中,任务的合理设置有助于发挥考生的语言潜力、提高考生的语言复杂性,进而有助于考官准确评估考生的语言水平,因而研究任务与语言复杂性的关系意义重大。已有学者做了大量实证性研究来考察任务类型对语言复杂性的影响(Foster Skehan,1996;董红霞,2004;徐琴芳,2005;卢力,2006;谭晓晨、董荣月,2007;周孝华,2007)。鉴于此,本研究考察在口语测试环境下,考官提问任务类型与被试输出话语复杂性的关系。

本研究借鉴以往学者关于任务类型与语言复杂性关系的研究成果,运用描述性统计、方差检验和非参数检验的方法考察考官提问任务类型、语言水平对被试输出话语复杂性的影响,以及任务类型与语言水平之间的关系。进而结合语言复杂性、语言难度和二语习得等相关理论深入剖析影响考生话语复杂性的内在机制,以期为口语面试中考官有效测评提供参考依据。二理论基础2.1 任务类型

任务是指“说话者能运用目的语做些什么”(Swender,1999)。C-TEST口语考试是北京语言大学汉语水平考试中心开发的汉语作为第二语言的面试型口语考试。在C-TEST口语考试中,要求学生自我介绍、叙述经历、看图说话、发表议论、解释一系列与日常工作密切相关的现象。

在C-TEST口语考试的进程当中,考官提问任务的主体部分依次为自我介绍、看图说话和发表议论,因此本文选取以上三种任务类型作为研究对象。面试中第一个任务为自我介绍,例如“T1:请你先简单地做一个自我介绍”。在这一任务中,考官并没有提醒考生作过多的情况介绍,例如提问考生学汉语的情况、工作情况。而这些任务则是在考生完成自我介绍之后,考官为缓解考生紧张情绪,作为热身任务而追加提问的,因而本文将这些追加提问看做另一类任务而不予考虑。看图说话允许学生有一分钟的准备时间,进而对图画进行描述,例如“T1:还可以,好,请你看一下这幅画,好,告诉我们这个画里的内容”。在这一部分,考官有可能对考生进行追加提问,这里仅考察与描述图画紧密联系的提问任务,例如“T1:有别的吗?(1.0)”,而暂不考察考生对此图的看法与感想,例如“T1:诶::你们家有过这样的场面吗?有过这样的一家人在一起为一个老人过生日这样的情景,有过吗?(10.0)”。发表议论要求考生口头评论、谈论利弊、给予问题的解决方法等,例如“T1:对,那么现在在大城市呢,就是很多快餐越来越多,比如说像肯德基呀,麦当劳啊,这样的快餐店,对,很多人他工作忙,选择吃快餐,你能不能谈一谈吃快餐有什么好处?”。2.2 语言复杂性

准确性、流利性、复杂性为学习者语言水平的三大表征,其中复杂性关心输出性语言如何组织,反映学习者如何构思以及如何重组内部语言(Skehan,1996)。本文研究被试输出话语复杂性,仅考察句法复杂性,未涉及词汇复杂性。运用第二语言习得领域中关于口语表现复杂性的通用计算方法——C单位小句测量法,分析每一任务下考生的语言复杂性:表示为小句总数/C单位总数,即统计出每一任务下考生话语的小句总数和C单位总数,用小句总数与C单位总数之比表示该提问任务下考生话语的复杂性,统计数值与复杂性成正比。

其中,小句是以标点符号为标记,被逗号、句号、问号断开的语段(陈平,1987);而C单位即交际单位(communication unit),定义为语法上独立的述位结构或就问题所作出的回答,这种回答形式上不是独立述位结构,只不过它没有重复所提问题的成分(张文忠等,2001)。Brock(1986)认为C单位为独立的句子,包括省略句,可以有效考察口语语言复杂性。2.3 任务复杂性、任务难度

本研究结合任务复杂性、任务难度来考察任务类型对语言复杂性产生影响的内在机制。以往的学者并未区分任务复杂性和任务难度,例如Skehan(1996)提出任务难度包括以下因素:参与人数的多少、任务信息类型、抽象度、熟悉度、对任务信息的操作是修复还是转化,而这些因素实际混淆了任务复杂性与任务难度。Robinson(2001)明确区分了任务复杂性和任务难度,认为任务复杂性取决于任务施加给学习者在注意、记忆、推理等方面的认知要求,简单任务总是比复杂任务要求低。Robinson(2001)提出任务复杂性不受个人差异的影响,包含了两大类:资源指引型(例如:+/-少数成分、+/-无推理要求、+/-此时此地)和资源消耗型(例如:+/-准备、+/-单一任务、+/-背景知识)。“+/-”表示成分的存在和缺失,朝资源指引方向上能够增加任务复杂性(例如+推理要求),而朝资源消耗方向上降低任务复杂性(例如+准备)。Robinson(2001)提出任务难度是学习者自身因素的结果,受个人差异的影响,包含两大类:情感因素(例如动机、焦虑、自信)和能力因素(例如学能、水平、智力)。不同考生情感因素的差异会影响对同一任务的难度评估,从而影响认知资源储备。例如焦虑强的学习者在完成任务时会导致认知资源总量的缩小,导致分配给语言形式的注意力下降;而焦虑弱的学习者会引起认知资源总量的扩张,提高分配给语言形式的注意力。能力因素也会影响对同一任务的难度评估,语言不同水平的考生也会对同一任务产生不同的难度评估,从而导致认知资源储备的差异。例如水平高的学习者完成任务时认知资源会扩张,提高分配给语言形式的注意力;而水平低的学习者会缩小认知资源,导致分配给语言形式的注意力下降。Robinson(2001)将任务类型分为两类:独白性任务和互动性任务,结合任务复杂性和任务难度,认为在资源指引型维度上,较复杂的独白任务产出复杂性高的语言;而在资源消耗型维度上,较复杂的独白任务则产出复杂性低的语言;对于互动型任务,复杂的任务产出复杂性低的语言。

在资源指引方向上,本研究参考大多数学者选取的三大因素:+/-无推理要求、+/-准备、+/-背景知识。由于考虑到无法控制“+/-无推理性”该因素,因此仅选取“+/-准备、+/-背景知识”两个因素。在任务难度方面上,仅选取“水平”一个因素,用来考察语言水平对语言复杂性的影响。仅选取此因素而不考虑其他因素,原因在于本文未通过问卷调查获取考生的反馈信息,不能考察考生的动机、自信、焦虑等因素。而学能和智力因素难以测评,也不作为本文的研究重点。最后考虑到分析的全面性,将Skehan(1996)抽象度理论纳入研究,即抽象的任务能够引导考生产出复杂性高的语言。

考虑到C-TEST口语考试是一对一的面试型考试,不存在多个考生互动的情况,因而属于独白性任务,非互动性任务。因此按照Robinson(2001)的观点,(+准备)、(+背景知识)能够降低任务复杂性,提高语言复杂性。按照Skehan(1996)的观点,(+抽象)也能够增加考生语言复杂性。鉴于任务类型中不同因素的程度差别,本文拟出因素的主观量表,用“+”“-”符号的数量表示因素程度的差异,“+”“-”符号数量越多,程度越高。例如(+准备)、(++准备)、(+++准备),其中“+”表示存在该因素,“++”表示该因素比较充分,“+++”表示该因素非常充分;“-”相反。2.4 任务类型对语言复杂性的影响

任务类型对语言产出复杂性影响的研究比较丰富(Skehan,1996;Wendel,1997;Mehnert,1998;Ortega,1999),然而,由于任务类型的定义未能统一,导致任务类型和任务条件、任务准备混淆。例如卢力(2006),卢力、孙云梅(2009)误将独白/互动任务定义为任务类型,谭晓晨、董荣月(2007)误将复述/即席定义为任务类型。Brown,Anderson,Shilock,Yule(1984)认为静态的任务(例如描述description)比动态的任务容易(例如叙述narration),比抽象任务容易(做决定opinion giving)。多数学者划分的任务类型多为个人信息传达、看图说话、作决定(Foster Skehan,1999;董红霞,2005),个人信息传达和看图说话为常选类型,同时和作决定、情况说明(张烨,2006)、发表看法(徐琴芳,2005;谭利思,2006;程丽波、李杰,2008)、解决问题(徐琴芳,2005)、故事叙述(黄嫱,2009)共同组成三项任务类型。结论为:个人信息传达任务复杂性最低,看图说话任务比个人信息传达任务复杂性高,然而,比作决定、情况说明、发表看法、解决问题等任务复杂性低。

总之,前人就英语作为第一语言或第二语言来考察学习者的语言复杂性。考虑到目前汉语作为第二语言的研究发展迅猛,将任务类型与语言复杂性引入汉语作为第二语言的研究领域意义重大。鉴于此,本研究旨在明确任务类型与语言复杂性的关系,以期减少考官提问的盲目性,提高考官提问的效度。有望使考官提问更理性、更科学、更有助于引导考生施展语言能力,激发考生发挥更复杂的语言潜力。三数据的搜集与整理3.1 研究对象

C-TEST口语考试是北京语言大学汉语水平考试中心开发的汉语作为第二语言的面试型口语考试,考生等级分为7级。其中1级和2级为初级,3级和4级为中级,5级和6级为高级,7级为专业级,为研究需要,本文将7级划归为高级。本文提取60份考生的实况录像,受试者是韩国SK集团的管理者,初级、中级和高级水平考生各20名。3.2 语料的加工

本文运用话语分析领域国际通用的语料转写方法。为了保持转写材料的准确性,本文规定了如下转写细则:研究的语料剔除了重复、沉默、停顿和无意义的“我这个”“那个”“他那个”;剔除了非应答语的语气词、自言自语“怎么说呢”和听不清楚的话;剔除考生开始回答问题前的“好。”“是。”“经验?”“哦,旅游。”等话语;剔除话末“所以”“我我我”等不完整表达的词语;重复性句子算一个句子。3.3 研究假设

1.语言水平对考生语言复杂性有显著影响。

2.任务类型对考生语言复杂性有显著影响。

3.任务类型和语言水平存在交互作用。3.4 测量手段

所有的数据都使用SPSS17.0进行处理,使用了描述性统计、方差检验和非参数检验的方法来推断各变量之间的关系。四结果与讨论4.1 变量的描述性统计

60份语料的描述性统计数据如下:表1 变量的描述性统计表4.1.1 结果

初级水平下三种任务类型均值分别为2.584,3.25,4.0335;中级水平下三种任务类型均值分别为3.4170,3.55,5.185;高级水平下三种任务类型均值分别为3.79,6.66,9.63。初级、中级和高级考生的自我介绍复杂性均值分别是2.584,3.4170,3.79,看图说话复杂性均值分别是3.25,3.55,6.66,发表议论复杂性均值为4.0335,5.185,9.63。4.1.2 讨论

无论类型如何,随着考生语言水平的增长,语言复杂性增长非连续,初级—中级增长幅度明显低于中级—高级的增长幅度。初、中级水平下的语言复杂性差异不大,我们推测学生可能在初、中水平阶段未能将更多的认知资源分配给语言形式,特别是语言复杂性。初、中级水平考生可能更多关注语言内容的表达或者能够在关注内容表达的同时,又兼顾到准确度和流利度,但对复杂性注意力不够。而在高级阶段,学生可能已经能够兼顾到语言复杂性。

无论水平高低,自我介绍的复杂性最低,看图说话其次,发表议论复杂性最高。我们推测这主要与三种任务类型的差异相关,而任务复杂性和任务难度、认知策略同时也是影响考生的语言复杂性的三个因素。

在随后的方差检验和非参数检验中,会进一步验证以上推测。4.2 考察三个假设

考虑到本研究采用两个自变量——等级和类型,一个因变量——复杂性。我们采用双因素方差分析的方法研究三个问题:等级的主效应是否显著,类型提问的主效应是否显著,以及不同类型提问和语言水平之间是否存在交互作用。表2 主体间效应的检验表

因变量:复杂性Sig.F源类型25.886.000等级35.467.000类型*等级5.535.0004.2.1 不同语言水平对考生语言复杂性是否有显著影响

为了进一步考察等级之间的具体影响,本文在进行了单因素方差检验之后对等级作了多重比较。如表:表3 等级多比较Sig.(I)类型(J)类型均值差值(I-J)12-.762.067 *3.000-3.32221.762.067 *3.000-2.560*31.0003.322 *2.0002.560*.均值差值在.05级别上较显著。

4.2.1.1 结果

表2结果显示:等级的主效应非常显著(F=35.467,p=.000<0.05),存在显著性差异,表明水平高的考生语言复杂性明显高于水平低的考生。

表3结果显示:

初级考生与中级考生无显著差异,与高级考生有显著差异;

中级考生与初级考生无显著差异,与高级考生有显著差异;

初、中级考生都与高级考生有显著差异。

4.2.1.2 讨论

首先,认知资源会随着考生水平的提高而扩张。Robinson(2001)认为水平不同的考生对同一任务难度估计有所不同,水平高的学习者完成任务时认知资源会扩张,提高分配给语言形式的注意力;而水平低的学习者会缩小认知资源,导致可分配给语言形式的注意力下降,从而导致语言复杂性下降。

其次,内容和语言形式之间、语言形式内部会相互争夺认知资源。二语学习者的认知资源总是有限的,对一方面的过多注意必然会忽视另一方面。特别是水平有限的学习者,关注的焦点是如何有效地将内化信息传达给考官,必然强调内容的表达,很难兼顾语言形式,因此必须将更多的认知资源分配到内容上去(Anderson,1995;Skehan,1996;Vanpatten,1990)。而且,以往研究认为学习者的流利性、准确性和复杂性之间是相互抵制的(吴旭东,1999;张文忠,2000;张文忠、吴旭东,2001)。在这种情况下,水平有限的学习者为了使中介语更接近目的语,首先会关注词汇的准确性,只有解决了此问题,才有可能注意到语言复杂性;因而分配给语言复杂性更少的认知资源;而高水平的考生词汇量大,能够将比较多的认知资源分配给语言复杂性,从已有的认知图式里选择更多样、更复杂的句式,提高了语言输出的复杂性。

最后,认知资源会随着考生水平提高而从较简单的语言形式转移到更复杂的语言形式上。Williams(1999)认为所有的技巧习得过程都可以分为两个阶段:被控制过程和自动化过程。被控制过程是尚未习得的过程,而在被反复使用之后,被控制过程变为自动化过程。例如同一句式,水平低的考生处于信息的被控制过程,所需的认知资源大,从而影响语言复杂性;而水平高的考生熟练掌握了简单句式,能够自如运用该句式,从而将认知资源的注意力分配给其他更复杂的句式和更多样的词汇。

总之,水平高的考生认知资源会扩张,而且还能够将原本分配给内容、语言准确性以及简单语言形式的认知资源分配到复杂的语言形式上。但具体来说,初级与中级考生语言复杂性差别不显著。说明中级考生虽然词汇量有所增加,语言准确性有所上升。但是由于水平有限,还是不能自如地将认知资源分配给复杂的语言形式,从而导致在语言复杂性方面与初级考生区别不大。但是初、中级与高级考生的语言复杂性差别都很显著,这是因为高级考生认知资源扩张的同时,又能兼顾到更复杂的语言形式。

实证结果也从另一方面证明语言复杂性可以作为衡量考生水平高低的一个稳定变量,反映考生驾驭语言的能力。考生语言复杂性越高,水平越高。4.2.2 不同类型提问对考生语言复杂性是否有显著影响

为了进一步考察类型之间的具体影响,我们在进行了双因素方差检验之后对等级作了多重比较。如下表:表4 类型多比较Sig.(I)类型(J)类型均值差值(I-J)

试读结束[说明:试读内容隐藏了图片]

下载完整电子书

若在网站上没有找合适的书籍,可联系网站客服获取,各类电子版图书资料皆有。

客服微信:xzh432

登入/注册
卧槽~你还有脸回来
没有账号? 忘记密码?