HSK等价性的实验研究_误差分析论文

关于HSK等值的试验研究,本文主要内容关键词为:HSK论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一 问题的提出

测验、考试被作为一种尺度来对人的心理特质进行测量,这种尺度应该具有稳定性。不同的考试版本之间应该具有一致性。对于同一个测量对象,不能用这个版本测量得到一个度量,用另一个版本测量却得到相差很大的另一个度量。根据国家教委的规定,汉语水平考试(HSK)成绩是外国留学生进入中国高等院校学习专业的必要条件(国家教育委员会,1992)。今天,国内外许多机构已经将HSK成绩作为人员选拔的一种依据。如果HSK证书的授予标准缺乏稳定性和公平性,那么,不仅会大大影响HSK的信度和效度,而且会对有关的决策产生误导,会使考生受到不公平的对待。

尽管我们在命题过程中总是尽量保持考试难度的稳定性,但不同试卷之间在难度、信度、分数分布方面的差别很难完全避免。这样,就需要将具有不同难度、分数分布的试卷的分数转换到一个统一的量尺之上,采用统一的量尺对应考者进行测量。这种将一个测验的不同版本的分数统一在一个量表上的过程即等值(equating)。

随着计算机技术的迅速发展,测验、考试的计算机化正在成为一种重要的发展趋势。项目反应理论的发展,为这种趋势提供了工具。使计算机辅助自适应性测验成为可能。计算机化的GRE已经问世,计算机化的TOFEL也将在不久问世。美国教育测验服务中心(ETS)已经宣布,1998年将在全世界大部分地区用计算机化的自适应性TOEFL取代原来的纸笔测验,2001年在全球完全取消纸笔测验(ETS,1997)。实现计算机化自适应性考试是摆在HSK面前的重要课题。计算机化自适应性测验开发中的一个核心环节就是在统一的量表上标定试题参数,实现各个考生所回答的不同题目之间的等值。

基于经典测验理论(以下简称CCT)之上的等值方法只能实现不同试卷之间的等值,满足“试卷库”建设的需要,很难实现在统一的量尺上标定试题难度和区分度的任务,很难满足题库建设和实现计算机辅助自适应性HSK的需要。实现基于项目反应理论(以下简称IRT)之上的测验等值是实现计算机辅助自适应性HSK考试的关键。

关于基于IRT的等值方法的研究,不仅可以提高现在以纸笔方式进行的HSK的等值可靠性,而且是实现计算机辅助自适应性HSK的前提。因此,我们开展了此项研究,旨在分别对基于CTT和IRT的多种等值方法进行比较,以期为HSK的题库建设确立最好的等值方式。

二 关于等值问题的研究状况

在心理测量学领域中,等值问题的研究开展较晚。虽然从50年代就有一些零星的研究,但80年代才引起比较广泛的注意(R.L.Brennan,ACT,1987)。在70年代、80年代出版的有关心理测量的教科书中几乎见不到关于等值问题的讨论,甚至一些90年代出版的大学心理测量学教科书中都未涉及测验的等值问题。Anastasi的Psychological Testing一书被认为是较权威的心理测量教科书。在1976年出版的第四版和1982年出版的第五版中均未涉及等值问题。在1988年出版的第六版中也仅仅提到一句话:“等值问题受到越来越多的关注,但此问题超出本书的范围。”(第98页)直至今日,关于等值问题的系统性文献也十分少见(Livingston,ETS,1996,第369页)。近年来,心理测量学家们对测验等值问题给予越来越多的关注,不仅提出了许多等值方法,而且围绕等值问题展开了多方面的研究。在等值数据资料的收集方面,即可以采用以“人”为媒介的共同被试组设计,也可以采用以“题”为媒介的“锚测验”设计。在等值数据资料处理的理论模型方面,可以依据基于真分数假设之上的CTT,也可以依据基于潜在特质假设之上的IRT。在两种理论模型的框架内,区别于数据收集的方式不同、所采用的计算方法不同等,又存在着多种不同的等值方法。等值研究的内容涉及到不同等值设计之间的比较、不同理论模型之间的比较、不同的等值系数估计方法之间的比较、关于造成等值误差因素的研究等。

从现有研究文献中反映出,像测验误差不可避免一样,等值误差也是不可避免的。事实上,各种模型、各种方法都具有或强或弱的一定假设,都仅仅适合一定的测验条件。有些假设是可以通过一定方式来检验的,有些假设是不可能或很难被检验的。(Braun,H.I.,Holland,P.W.1982,第25页)因此,测验等值是一项难度很大的工作。进行了许多等值研究的ETS学者Cook和Petersen曾经写到:“许多心理测量学家将等值视为一种基于一定理论之上的主观艺术,因为,同一测验的不同版本之间的真实关系,实际上是根本无法了解的。而且,真实的数据根本无法满足各种等值模型所包含的假设。”(1987,第225页)至今,对于如此众多的各种等值方法的误差来源、误差幅度尚不够清楚,对于各种方法的适用条件也不够清楚。

在我国,迄今等值是测验研究中最薄弱的一个环节,许多重要的考试都尚未实现统计等值。据笔者了解,目前实现了统计等值的考试有HSK、浙江省的高中会考以及英语水平考试(EPT)。HSK迄今所采用的等值数据的收集方式为“锚测验”设计,等值所依据的理论模型为经典测验理论,所采用的计算方法为Tucker线性等值方法。浙江省高中会考所采用的等值数据收集方式是共同组设计,将不同试卷同时施测于外省的同一组考生(蔡建民)。EPT所采用的等值数据收集方式为“锚测验”设计,等值所依据的理论模型即非经典理论,也不是IRT,而是自己创造的一种方法,基本上属于平均数等值(孙玉荣)。

现行HSK“锚题”等值的基本过程是:首先根据a组在锚题和在α卷上的表现、b组在锚题和在β卷上的表现以及全体在锚题上的表现来估计全体在α卷和在β卷上的表现,之后,根据全体在α卷和在β卷上的表现的估计值计算等值转换系数。借助“锚题”实现等值的原理是:不同试卷的两次考试的平均分之间总会存在差异。造成这种差异的原因有两方面。一是两份试卷的难度不同,一是参加考试的两组考生的水平不同。根据考生在“锚题”上的表现,我们可以估计出两组考生之间在水平上的差异。在排除了考生水平的差异的影响之后,我们就可以估计出两份试卷在难度上的差异。

HSK现行等值方法的局限性是非常明显的,主要有:

1.由于不同试卷施测于不同考生,等值过程受到来自考生和来自试卷两方面误差因素的影响;

2.由于Tucker模型假设不同试卷之间、锚题与不同试卷之间具有线性关系,假设对于两组考生锚题与全卷之间具有相同的回归,因此,考生样本水平之间的差别对等值结果影响很大,影响到等值的准确性;

3.受到锚题与整卷之间相关的局限,等值的可靠性很大程度上依赖于锚题与整卷之间的相关。显然,锚题于整卷之间不可能达到完全的相关。在我们实际的等值过程中,锚题与整卷之间的相关基本在0.8以上,但有时在0.8以下,基本上没有能够达到0.9的情况。这样,势必影响到等值精度。

4.相同的一组锚题多次出现在不同试卷中,可能使一些多次参加考试的考生产生练习效应,影响考试的信度。同时,也影响到HSK的信誉。

5.现在,从标准试卷中选择锚题已经很困难,随着HSK的发展和扩大,现有标准试卷中的题目将被穷尽。

即使仅仅进行纸笔测验,现行等值方法也需要改进。如果考虑到发展计算机辅助自适应性测验的需要,进行关于等值方法的研究就更为迫切。

三 研究方法

本项研究的基本思路是:根据HSK的特点,通过试验比较,选择最适合HSK的等值方法。如果有可能,最好在最短时间间隔内将两个不同的考试版本施测于同一组考生,以共同组方式实现等值。但是,这种方式很难实现。第一,很难保证参加等值试测的考生具有与正式考试一样的动机水平,认真作答;第二,专门组织等值试测的工作量很大,代价较高。因此,今天国际上科学化较高的考试如SAT、GRE、TOEFL等均采用共同题方式进行等值,HSK也只可能采用共同题方式来实现等值。在多种共同题等值方法中,哪种方法得到的结果最接近共同组等值方法的结果呢?这就是本项研究试图回答的问题。本项研究将以共同组等值结果作为效标,对各种共同题等值模型的等值误差幅度进行检验、比较,从而为HSK选择一种既可行、又较准确的等值方式。

为了实现研究目的,我们让数量足够大的一组考生于1997年5月18日和5月25日先后参加了两次HSK正式考试,中间间隔一周。两次考试采用不同的HSK试卷,两份试卷具有共同题。试卷结构与共同题数目见表1。

我们假设,一周之内考生的汉语水平不会发生明显的变化,两次考试的成绩都能反映考生的实际水平。两次考试的成绩差异是由试卷难度差异造成的。我们将两次考试的实际分数差异作为效标,考察各种等值模型反映这种难度差别的准确性。

考生对待考试的态度将影响到考试成绩。为了保证考生在两次考试中具有相同的动机水平和认真程度,我们在考试报名公告中明确告知考生:5月18日的考试免费,自愿参加,对于参加两次考试者,我们将根据两次考试中成绩较高的一次颁发HSK成绩单和证书。

考生报名非常踊跃,在开始报名后的一天半中就将规定的500个名额报满。5月18日实际参加考试人数474,其中参加5月25日考试者463人。山东青岛的32名考生在5月25日参加完济南考场的考试之后又于5月28日参加了青岛考场的考试。两次考试所用试卷与我们进行等值试验所用试卷完全相同。因此,实际获得的考生样本为495人。

本研究中考察了4种基于CTT的等值方法:

1.等百分位方法

2.Tucker观察分数线性等值方法

3.Levine观察分数线性等值方法

4.Levine真分数线性等值方法

(关于各种CTT等值方法和2、3、4所包含假设的讨论以及计算方法,参看Kolen,M.J.Brennan,R.L.1995,第105-133页)

本研究中考察了11种基于IRT的等值方法:

1.基于Rasch模型的题目难度参数等值

2.基于单参数LOGISTIC模型的能力参数等值

3.基于双参数LOGISTIC模型、ms方法的题目参数等值

4.基于双参数LOGISTIC模型、mm方法的题目参数等值

5.基于三参数LOGISTIC模型、ms方法的题目参数等值

6.基于三参数LOGISTIC模型、mm方法的题目参数等值

7.固定单参数方法

8.固定双参数方法

9.同时估计单参数的等值方法

10.同时估计双参数的等值方法

11.同时估计三参数的等值方法

(关于各种IRT等值方法的原理和计算,参看Hambletom,R.K.等,1985;Mislevy,R.J.,Bock,R.J.,1990;漆书青、戴海崎,1992;Kolen,M.J.Brennan,R.L.,1995)

差异量的计算采用加权误差均方差(以下简称总误差),其计算方法是:

HSK的等值是以各个分测验为单位分别进行的。在本项研究中分别计算了听力、语法、阅读、综合四项分测验的等值结果。为了对各种方法进行比较,在研究中还计算了一项加权平均。计算方法是:加权平均=(Σ分测验总误差×分测验题数)÷总题目数。

四 研究结果

在本项研究中,我们将用于5月25日的试卷视为标准卷,将用于5月18日的试卷视为新卷。在统计分析时发现,新卷的第一部分听力测验中第39题区分度很低,在IRT参数估计中不收敛。因此,将此题删去。为了进行比较,在标准卷中也删去区分度较低的第42题。这样,实际统计的听力试题49题,全卷169题。

对各种等值方法的比较结果汇总于表2。表中所列数据为总误差。表中加权平均一项中所列是按题目数量进行加权的平均分。

本项研究的一个基本假设是,在间隔一周的时间中考生的汉语水平不会有实质性的改变。基于这一假设,采用了两次考试分数的线性转换作为评价各种等值方法的效标。实际的统计分析数据基本满足这一假设,两次考试成绩之间具有很高的相关,总分的相关达到.9620。在图1中给出了两次考试成绩的相关示意图,从中可以看出,存在一些成绩明显“奇异”的考生。这些考生成绩对于本项研究的效标实际造成了干扰作用。因此,我们将两次考试成绩的原始分相差大于10分的92名考生删除之后,重新按403人计算了效标分数。在图2中给出了删除这些“奇异”考生之后的两次考试成绩的相关示意图。

由于在IRT三参数模型中包含猜测参数,不存在与原始分数低分段相对应的估计等值分数。在实际的等值过程中,通常可以从最低能力所对应的观察分数向下外推,按线性原则计算出与新卷相对应的标准卷观察分数。为了对各种等值模型进行比较,我们可以采用这种方法。但是,一方面考虑到这种估计方式会增加可以避免的等值误差,另一方面考虑到这一分数段并不是我们进行等值比较所关心的问题。因此,我们没有进行这种外推,而是同时计算了其他方法不包含这一分数段的总误差。在表2中给出的是不包含低分段分数的结果。

五 讨论

(一)等值方法比较的效标问题

进行等值方法比较研究最困难的问题是等值效标的确定。在以往的研究中,研究者们曾经采用了“身循环等值到自”、“模拟等值”、“大样本”等不同的效标,这些效标各自具有不同的缺陷,直接影响到等值研究的结果。因此,Kolen 和Brennan认为,“对不同等值方法的效标关联研究尽管可以为方法的选择提供一些依据,但不能得到确切的、唯一的选择,因为,往往是不同的效标支持不同的方法。”(Kolen & Brennan,1995,第268页)

在本项研究中,以试验方法确立了等值效标,以“共同组设计”的等值结果作为“锚题设计”等值的效标。试验方法的困难在于很难保证考生与正式考试具有相同的动机水平,像对待正式考试一样地对待试验。由于采用了“两次考试中择优报告成绩”的方法,本项研究解决了试验研究的“动机水平”问题。在等值研究的效标确立方面进行了新的探索是本项研究的特点之一。

(二)进行等值的必要性

研究结果表明,并非在任何情况下等值都是最好的处理。如果有证据表明两份试卷的难度差异很小,可以不进行等值处理。在表2中给出了不进行等值处理的结果。从表2可以看出,在本项研究所比较的15种等值方法中,有8种方法的等值误差小于“不等值”,有7种方法的等值误差大于“不等值”。在综合分测验上,所有方法的等值结果均不如“不等值”;在语法和阅读分测验上,有10种方法的等值结果不如“不等值”。

在实验研究的条件下,我们知道在类似综合分测验的情况下等值是不必要的。但是,在实际的测验等值过程中我们无法知道等值是否必要。因此,我们只能为了控制测量误差而采取等值方法。尽管在有的情况下进行等值处理可能增大了测量误差,但总体来讲,等值处理仍然是必要的。

(三)CTT方法与IRT方法的比较

在本项研究中比较了4种CTT方法和11种IRT等值方法。以表2中的结果为例,4种CTT方法均排在等值误差最小的5种方法之中。其中,又以Tucker观察分数线性等值方法,即HSK现行等值方法的误差为最小。在表2的结果中,“同时单参数”等值方法在全部15种方法中排在第三。

尽管就总体而言,对于HSK数据来说,IRT方法的误差大于CTT方法,但从本项研究中得到的结果并不一致。在听力部分,误差最小的前7种方法全部属于IRT方法。在语法部分,误差最小的前3种方法全部属于IRT方法。

今天,HSK面临的是题库建设和发展计算机辅助自适应性考试问题。CTT方法不能解决这两个问题。CTT只能实现“试卷”之间的等值,不能实现“试题”之间的等值。今天,ETS组织的SAT测验的试题分析主要是基于CTT的,但其等值过程却是通过IRT模型而实现的。在笔者仅见的一项关于采用经典测验模型进行计算机化自适应性测验的研究中,研究者也采用了IRT等值模型。(Hicks)因此,我们面临的问题不是“采用CTT还是IRT模型”,而是“IRT模型是否可以被接受”。本项研究的结果表明,对于HSK来说,某些IRT模型是可以被接受的。

(五)参数转换方法与题目特征曲线方法的比较

在本项研究所涉及的11种基于IRT的方法中,方法1至6属于参数转换方法:对标准卷和新卷分别进行参数估计,以ms或mm方法找到锚题之间的转换关系,并对新卷的题目参数进行转换;方法7至11属于题目特征曲线方法:在新卷的参数估计过程中引入来自标准卷的限定。由于在题目特征曲线方法中有更多的信息参加了整个等值过程,等值的误差应该较小。实际的结果与预期相一致。从表2的结果可以看出,误差最大的5种方法均属于参数转换方法。从本研究的结果看,在HSK的等值过程中参数转换方法不足取。

研究结果中也存在着不一致的情况。在语法分测验上,在各种方法中“题目二参数ms转换方法”的误差最小。在听力分测验上,“题目二参数mm转换方法”的误差亦较小。

(五)单、双、三参数IRT方法的比较

关于单、双、三参数的比较结果很不一致。一方面,各个分测验的结果不一致。例如,在听力分测验上,同时估计单参数方法的误差小于三参数方法,在语法分测验上,同时估计单参数方法的误差又大于三参数方法;另一方面,参数转换方法与题目特征曲线方法、固定参数方法与同时估计方法之间的结果也不一致。例如,同时估计的单参数方法误差小于双参数方法,在固定参数时,单参数方法的误差大于双参数方法。在本项研究中,未能就单、双、三参数方法的比较问题得到一致性的结果。

(六)关于HSK题库等值方式的建议

综合本项研究的结果,建议在今后HSK题库建设和HSK计算机辅助自适应性考试的开发中主要采用“同时估计单参数”的等值方法。这种方法的总误差加权平均为2.37676,在15种方法中排第3位,仅仅低于第1位的Tucker线性方法(加权平均为0.86693)和第2位的等百分位方法(加权平均为1.86909)。在4项分测验中,听力排名第1,总误差0.90485。排名最低的是语法测验,排在第9位,但总误差只有1.21510。总误差数值最大的是阅读测验,达3.72124,排名第5。

根据ETS的高级统计学家C.Lewis在“中美教育研讨会”(1997.10.21-24)上的介绍,ETS在SAT、TOEFL的等值过程中同时采用多种等值模型之后求平均数。根据我们已往采用多种线性等值方法对HSK的不同试卷进行等值的经验,求平均的方法不一定是一种好的方式。在HSK题库建设过程中,我们需要同时采用多种方法互相参照。在最后的结果选择过程中,我们将根据标准卷、新卷和锚题的平均分、标准差进行主观判断,选择最为合理的结果。

六 主要结论

(一)在有些情况下,进行等值处理并非是最好的选择。

(二)对于HSK现行等值设计和数据特点来说,总体上看,经典等值方法优于IRT方法。为了进行题库建设,我们只能在IRT方法中择优。

(三)不论是单、双、三参数,不论是ms方法和mm方法,IRT参数转换等值方法的误差都较大,均不足取。

(四)建议在HSK的题库建设中采用单参数ITR模型、以BILOG同时估计参数的方法进行等值。

标签:;  

HSK等价性的实验研究_误差分析论文
下载Doc文档

猜你喜欢