认知元反应理论--IRT直接应用于多值评分问题_联合概率论文

认知元反应理论——IRT直接应用于多值记分题,本文主要内容关键词为:应用于论文,认知论文,理论论文,IRT论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1 引言

项目反应理论(Item Response Theory,IRT)[1] 是一个相当成熟的测验理论,已经得到广泛的实际应用。IRT在理论上简单明了, 在实践中便于实施,具有很大的优越性。

但是0—1记分测验有很大的局限性,普遍认为多值记分题对考查受测者能力的作用不可能完全用0—1记分题代替。我国的许多大规模考试如会考、高考、自考等都含有一定数量的多值记分题,这些试题不能用IRT处理。为克服这一困难,IRT研究者曾提出不少多值记分题的IRT 模型,如部分记分模型(Partial Credit Model)、广义部分记分模型(Generalized Partial Credit Model )、 等级反应模型(GradedResponse Model)等[2]。 这些模型一般都需要提出若干附加假设以便使IRT的基本思想和方法能够应用于多值记分题。 我们发现从认知理论的观点来考察,多值记分题(除少数只能依靠主观印象评分的多值记分题外),的诸测试点之间实际上存在着一定的逻辑关系,依据这些关系能客观地得到各测试点的联合概率以及整个测试样本的联合概率,并可应用极大似然估计法估计参量。由此,在不需要任何附加假设的情况下,IRT就可直接应用于含有多值记分题的测验。

2 认知元反应理论

2.1 IRT的基本思想与方法

在IRT中,一份0—1 记分测验的试卷和一组受测者构成一个统计系统,每一个受测者对各试题作出答案是一个随机事件,因种种不确定因素的影响,受测者可能答对也可能答错,答对的概率取决于他的能力和试题的难度、迷惑程度等因素。受测者的能力愈强,试题愈容易,答对的概率就愈高;反之,答对的概率就低。用一份试卷对一组受测者进行测试,在诸试题相互独立的情况下,这一统计系统出现某一特定结果的概率P乃是各受测者对各个试题作出特定答案(随机事件)的诸概率P[,ij]之积(联合概率),即

n mP=ППP[,ij](1)

j=ii=1

式中,n是受测者数,m是题数。P[,ij]是第j受测者对第i题作出特定答案(答对或答错)的概率

P[,ij]=p[,ij](答对概率)P[,ij]=q[,ij]=1-p[,ij]

(答错概率)(2)

研究表明,答对概率p[,ij]可以用2—参量或3—参量Logistic模型来表示

1-c[,i]p[,ij]=c[,i]+───────────────── (3)

1+exp(-α[,i](θ[,j]-b[,i]))

式中的参量α[,i]和b[,i]分别为项目i的区分度和难度,c[,i] 为项目的猜测度(当c[,i]为0时,式(3)为2—参量的Logistic模型),θ[,j]为受测者的能力参量。

根据概率论,如果受测者人数很多,试题数也不少,则统计系统出现这一特定测验结果可近似地认为是最大概率事件,据此即可估计各受测者的能力参量和各试题的参量(难度、区分度等),称作IRT 的极大似然估计。

2.2 认知元

0—1记分题是考察受测者一些知识点的掌握和运用,从认知理论的观点来看, 不妨将这些知识点的集合称作一个“认知元”(Cognition Element,CE)。在IRT中,每个认知元就是一个考察“项目/试题”,它们应是相互独立的。

与0—1记分题不同,多值记分题含有多个测试点,每个测试点都是一个独立的、非对即错的认知元。这些认知元之间一般存在一定的逻辑关系(纯主观题除外),这从我国大规模考试的评分标准中可以清楚地看出。例如某试题的评分标准规定:

答对某测试点——例如写出某公式(认知元A)给3分(分值α),若在此基础上再答对某一测试点——计算出某量(认知元B)再给4分(分值β);若又答对另一测试点(认知元C)给4分(分值γ);若求出最后结果(认知元D)再给2分(分值δ)。

从上述评分标准可清楚地看出,该题是由4个独立的认知元A、B、C和D构成,其逻辑关系如图1所示(注意,受测者在答对A 的基础上才能解答B,A和B呈“串联”关系;C和A不存在解答的依赖关系, 两者呈“并联”关系)。若解答A和C都依赖受测者对试题条件的正确分析与理解(认知元M),则需要将共同的部分M分解出来:A=A'+M,C=C'+M,以保证认知元A'和C'的独立性。于是该题的逻辑关系如图2所示。

从图1和图2可见,根据多值记分题本身的结构和特点,在准确的评分标准的基础上,就能够将多值记分题的认知元复合体加以适当地分解。若某一认知元不是非对即错,则应继续分解,直至认知元独立化,其记分唯一化。于是,每一个认知元实际上便成为一个0—1记分题。一个多值记分题若由k个独立认知元构成,则可形成k个0—1记分题。这样就能将应用于0—1记分题的IRT 的基本思想和方法直接应用于多值记分题,既能保持多值记分题的优越性,又能使参量估计更为精确并具有良好的统计特征。

2.3 由认知元确定多值记分题的联合概率

既然能够确定多值记分题中各认知元之间的关系,就不难写出各受测者对各试题作出特定答案的联合概率P[,ij]。就图1而言, 若受测者j在测验中取得部分分值α+β+γ(答对A,B,C,答错D), 则他取得这一特定答案的概率P[,ij](A,B,C)应当是他答对A,B,C的概率P[,ij](A),P[,ij](B),P[,ij](C)以及答错D的概率q[,ij] (D)的联合概率

P[,ij] (A,B,C)= P[,ij](A)·P [,ij] (B)·P[,ij](C)·q[,ij](D)

余类推。一个受测者对这一多值记分题的应答结果可能有7 种不同的情况,其分值及其联合概率如下(为简化计,下面一律略去下标ij):

分 值联合概率

满分分值α+β+γ+δ(全答对) P(A,B,C,D)

=p(A)p(B)p

(C)p(D)

部分分值α+β+γ(答对A,B,C,答错D) P(A,B,C)

=p(A)p(B)p

(C)q(D)

部分分值α+β(答对A,B,答错C) P(A,B)

=p(A)p(B)q

(C)

部分分值α+γ(答对A,C,答错B) P(A,C)

=p(A)q(B)p

(C)

部分分值α(仅答对A,答错B,C)

P(A)

=p(A)q(B)q

(C)

部分分值γ(仅答对C,答错A) P(C)

=q(A)p(C)

全部答错分值0(A,C都答错)

P(0)

=q(A)q(C)

在部分分值的联合概率公式P(A,B)及P(A,C)中不出现答对或答错认知元D的概率P(D)或q(D),这是因为受测者未能全部答对A,B,C,就不可能进一步去解答试题,从而也就没有受到认知元D 的检验,因此与认知元D无关。不论受测者是否有能力答对认知元D,他都只能得到分值α+β或α+γ。同样,部分值γ和全部答错两种情况下受测者都已答错了A,因而也不可能进一步去接触认知元B,当然它们的联合概率公式就和认知元B无关,更不会与认知元D有关。

上述多值记分题的7种不同分值,受测者必须取其一, 因此它们的概率之和为1。由于q=1-p,故不难检验上述诸式之和能够满足这一要求。

就图2而言, 一个受测者对这一多值记分题的应答结果及其联合概率则变成(注意,只要答对A和B中两者之一,则必已答对M):

分 值联合概率

满分分值α+β+γ+δ(全答对) P(A,B,C,D)

=p(M)p(A')p

(C')p(D)

部分分值α+β+γ(答对A,B,C,答错D) P(A,B,C)

=p(M)p(A')p

(C')p(D)

部分分值α+β(答对A,B,答错C) P(A,B)

=p(M)p(A')p

(B)q(C')

部分分值α+γ(答对A,C,答错B) P(A,C)

=p(M)q(A')q

(B)p(C')

部分分值α(仅答对A,答错B,C)

P(A)

=p(M)p(A')q

(B)q(C')

部分分值γ(仅答对C,答错A) P(C)

=p(M)q(A')p

(C')

全部答错分值0(A,C都答错)

P(0)

=q(M)+p(M)q

(A')q(C')

全部答错可能由于以下两种情况:一是答错了共同认知元M;二是M是正确的,而A'和C'却错了。不难证明,上述7 种联合概率之和仍等于1。

由于多值记分题不存在猜测因素,故应采用2—参量Logistic 模型。

可见,即便是多值记分题,根据认知元分析也不难确定式(1 )中各试题的概率P[,ij],按式(1)—式(3)应用联合极大似然估计法,估计受测者的能力参量和项目参量(难度、区分度)。

因此,IRT 直接应用于多值记分题的关键在于用“认知元”来理解“项目/试题(Item)”一词。为强调认知元概念的重要性,将IRT 称为认知元反应理论(Cognition Element Response Theory,CERT )可更明确地反映其实质。

3 认知元反应理论的应用和讨论

3.1 认知元反应理论是IRT严格、自然的推广,除认知元这一基本概念外,并没有、也不需要引用任何其他假设和模型。它可以作为含多值记分题的测验和题库的理论基础,应该进行广泛的研究和检验。

3.2 与每个受测者对0—1记分题都有应答结果不同, 在多值记分题中,某些受测者对某些认知元并没有应答结果,作者曾担心这种情况会使极大似然估计发生困难,不能得到估计结果。然而,实际上并未出现这种情况。本研究曾就一份含复杂的多值记分题的试卷用认知元反应理论进行了模拟研究,没有遇到什么困难。模拟试卷含有30个单选题(具有猜测度),10个各具有3个填空的试题(共30 个无猜测度的填空认知元),2个各有5个认知元的多值记分题,2个各有7个认知元的复杂多值记分题以及2个各有11个认知元的更为复杂的多值记分题, 因此该试卷有46个试题,106个认知元,即形成106个0—1记分题,设2 000 个受测者的能力服从正态分布(以及对正态分布稍有偏离的另外两种情况)。用随机的方法,按Logistic模型和多值记分题各认知元的逻辑关系,生成2000个受测者对模拟试卷的一组应答数据。应用认知元反应理论处理了这一组模拟数据,估计该试卷的项目参量和受测者的能力参量,并对模拟试卷的各项目的拟合优度(goodness of fit)进行了χ[2]检验。在106个项目中,只有8项的经验项目特征曲线与理论项目特征曲线之间的差异显著,大多数项目的拟合优度较好。

3.3 本研究也曾将认知元反应理论用于实际考试样本:1994 年全国高考“物理”试卷、江苏省1995年自学考试“中国古代文学作品”试卷和1997年全国MBA联考“数学”试卷等, 列出了所有多值记分题的联合概率,据此编制了估计受测者能力参量和各项目的难度、区分度等参量的计算机程序,并对上述考试的各项目的拟合优度进行了χ[2]检验。除少数项目的经验项目特征曲线与理论项目特征曲线之间的差异显著外,大多数项目的拟合优度较好。例如,“中国古代文学作品”试卷有49道试题,分解出104个项目(认知元),其中只有6项拟合较差(因篇幅所限数据从略)。

3.4 IRT要求各试题(项目)具有独立性,就0—1记分测验而言,总是假设各个试题是不相关的。但是,有些试题实际上是相关的,这可以用统计检测来发现。从认知元的观点来分析,这些试题是由于具有共同的认知元。对于这类情况,认知元反应理论可以给予合理的处理,即将两个相关的0—1记分题视为一个由3个认知元构成的多值记分题。 由此可见,在本理论中,考察受测者能力的基本反应项目是相互独立的认知元,而不是一道试题本身。

3.5 即使评分主观性较强的“写作”这一类试题, 如果考查的重点不在于检测受测者的写作的“才华”,而在于写作的基本技能,则认知元反应理论也是适用的。当然对于这类试题,如何确定其认知元还有待进一步的探讨。

标签:;  ;  ;  

认知元反应理论--IRT直接应用于多值评分问题_联合概率论文
下载Doc文档

猜你喜欢