推广理论在初中英语口语测试可靠性中的应用研究_英语口语论文

初中英语口语测试信度的概化理论应用研究，本文主要内容关键词为：英语口语论文,初中论文,理论论文,测试论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

关于义务教育阶段英语学习对青少年发展的重要性，我国新课程标准有非常详尽的阐述，并且提出了“通过英语学习，培养学生的英语语言的综合应用能力，促进心智发展，提高人文素养”的总目标。为了实现这一目标，新课程标准对于英语教学评价也给出了指导意见：“终结性的评价应采取口试、笔试和听力相结合的形式，全面考察学生的综合语言运用能力。”

然而，教学实践中，受评分标准的可信度、操作的复杂性、考试的成本较高等影响，一直以来，义务教育阶段英语口语测试的普及程度远不如纸笔测试，这必然会影响学生语言综合能力的全面发展。查阅相关文献，我们发现，关于初中英语口语测试的研究并不算少，但在评分标准信度方面，现有研究大多采用传统的经典测量理论。英语口语测试是一种行为观察测量，对评分者的依赖性较强，而且评分标准的科学性、评委的数量、试题的形式以及彼此之间的交互作用都会给测试结果带来一定的误差，这些误差用传统的经典测量理论是无法有效评估的。概化理论在解决这类以行为观察为主要评估方式的测试的信度问题方面，有着经典测量理论所无法比拟的优势。

概化理论（Generalizability Theory）是一种评估行为测量信度的统计学理论。这种理论的提出，源于人们认识到传统的经典测量理论没有对造成误差的各种来源进行区分，从而给出的测量结果过于粗糙。不同于经典测量理论，概化理论可以将测量中的系统误差和非系统误差加以区分并对各个变量分别估计。相对于经典测量理论对平行测验中假设上的苛刻要求，概化理论仅假设平行测验是从相同的全域中随机抽样即可。此外，概化理论还对“常模参照”决策和“标准参照”决策加以区分，这也是仅以“等级顺序”进行决策的经典测量理论所无法实现的。

本研究采用实验法，编制了英语口语测试的评分标准，并以65名初二学生为样本获得其英语口语测试成绩，应用概化理论对该评分标准及评分者信度等进行分析。研究的目的在于，分析英语口语测试中误差的各种来源，从而为有效控制误差来源，提高英语口语测试的信度提供实证参考，同时也为改进评分标准和测试环境提供量化参考。

二、研究方法

（一）研究步骤

本研究主要有以下几个步骤：

首先，查找文献，依据相关理论编制符合新课程标准要求的英语口语测试评分标准；

其次，根据新课程标准规定的初二学生应该掌握的话题，设计口语测试试题，并确定口语测试的形式；

再次，寻找样本进行施测；

最后，使用Brennan R L的mGENOVA软件，对数据进行分析处理并撰写报告。

（二）研究工具

1.口语测试评分标准

英语口语测试评分标准由研究者自行编制，编制依据主要是新课程标准对综合语言运用能力的要求以及Bachmann的语言交际能力模型。评分标准以知识应用、口语技能、表现力为一级指标，其下分设15个二级指标，每个二级指标分设三个等级，目的在于分别考查学生对语言知识的应用能力、英语口语的基本技能以及英语口语应用中的策略能力，最后以三个一级指标合成的总成绩来衡量学生的英语口语综合应用能力。

2.口语测试形式

口语测试的形式有即兴演讲、角色扮演、小组讨论等。在不影响测试结果的同时，研究者还需要考虑操作的简便性。综合考虑后，本研究选择了即兴演讲的形式。整个测试分成三个环节：第一环节为学生自我介绍，时间约1分钟；第二环节为学生即兴演讲，时间约3分钟；第三环节为问答阶段，即评委根据学生的自我介绍及演讲内容提出相关问题，学生回答，时间为1分钟。由于即兴演讲和问答都是现场抽题，现场回答，学生不能提前准备，因此，学生能否说得对，说得好，更多与他们平时的积累有关。因此，这种测试方式可以考察学生的口语综合应用能力。

3.测试对象和评委的选择

本研究从山东省济南市几所中学抽取了65名初二学生，女生人数略多于男生。评委有三人，均是有着多年教学经验的中学英语教师。

4.研究设计

根据我们的假设，知识应用、口语技能、表现力三个指标考察的能力是既有相关关系但又有区别的三种能力或特质，符合多元概化理论的应用条件。我们将学生在这三个指标上表现出来的英语口语综合应用能力作为测量目标（p），将对英语口语评估有较大影响的评估者因素（r）作为评估侧面，并假定评估者（r）随机取样于容量无限的评估者全域，被试（p）也随机取样于容量无限的被试总体，这样就形成了多维度的单侧面p·×r·完全随机设计。

三、研究结果

（一）评分标准有较好的信度，评委则是测试中误差的主要来源之一

概化理论的优势在于，它可以根据不同的误差来源对测量分数进行具体分解，并通过方差分析的方法，深入考察误差来源对测量信度的影响程度。通过分析我们发现，本次测试中，研究者自编的评分标准有较好的信度，三名评委的评分误差则较大。

表1为每位评委对每个一级指标给出的平均分，及三位评委对于每个一级指标给出的总平均分。表2为三位评委对所有选手打分的总平均分。我们发现，三个一级指标的总平均分比较接近，而三位评委打分的总平均分差异较大，评委2的平均分比评委1高出了16分。

表3的数据显示，三个一级指标的相关系数及协方差分量较大，用其来代表学生的英语口语应用能力，结果会比较一致，而且可以将三个指标组合起来进行整体性评价。这说明，研究者设定的评价指标在评估学生口语综合应用能力上是可靠的。

下页表4则表明，三名评委在三个一级指标上的可靠指数并不高，但全域总分的可靠指数比较高。由此我们可知，三名评委对于评分标准的理解还存在较大的差异，即我们通常所说的评分者一致性存在较大的误差。

（二）口语技能对学生英语口语总成绩的贡献最大，知识应用所导致的误差最大

通过分析知识应用、口语技能、表现力三个一级指标对学生英语口语总成绩的方差贡献和误差情况，我们得到了如表5所示的结果：三个一级指标的概化系数比较理想（0.77435，0.81392，0.77931），全域总分的概化系数较高（0.90769）。这表明，研究者自编的口语测试评分标准信度较高。进一步的分析表明，在三个一级指标中，对学生口语总成绩贡献最大的是口语技能，贡献率达到37.72%，表现力的贡献相对最弱，为27%，这正符合了“口语测试中要重点考查学生英语语音、语调、语速、词语运用以及语法正确性等语言表达基本要素”的要求，也进一步证明了口语测试评分标准的可靠性。

此外，分析数据也表明，知识应用这个指标所造成的误差较大。知识应用主要考查学生即兴演讲的内容、逻辑结构等要素，而这些要素又容易受到学生对主题熟悉程度的影响。本研究中，知识应用造成了这么大的误差，表明口语测试试题还存在不足，这也为研究者后期的改进提供了重要的参考信息。

（三）评委人数越多，越有助于口语测试信度的提高，但三名评委就能达到理想的信度水平

口语测试属于行为测量，评分者作为主要的评价者，在测试中起着重要的作用。多位评委共同打分，有助于降低由于评委主观性过强而导致的信度损失。然而，实际操作中，研究者还必须要考虑测试成本和信度要求之间的合理配比。究竟多少位评委可以达到理想的信度水平，这在传统的信度分析中是很难实现的，多元概化理论则恰好具有这种优势，通过分析概化全域中评分者侧面水平数的变化所导致的多元概化系数的变化情况，我们可以找出最佳的评委数量。从表6和下页图1，我们不难看出：随着评委人数的增加，每个一级指标的G系数都在不断提高，说明评委数量越多，评分者误差越少。然而，随着人数的增加，G系数的增量逐渐减少。当评委数量为3人时，口语技能的G系数已达到0.81392，全域总分的G系数大于0.90，且远远大于各分维度的G系数。由此，我们可以得出结论：在英语口语测试中，三名评委就能达到理想的信度水平。值得一提的是，在测试结果的厉害性较低时，如校内开展的口语测试中，如果想降低测试的成本，两名评委也能达到基本的信度要求。

（四）优化三个一级指标在总成绩中的权重，可以更好地提高测试信度

多元概化理论对于改进测试的优势还表现在：通过求特征根，研究者可以得出最优概化系数及相应的特征矢量（即各测评维度的权重）。

由表5的方差贡献率我们可以看出，三个一级指标对方差的贡献率不同。由此我们可以考虑：在总成绩合成时，将三个一级指标赋予相应的权重后再进行加总。基于这样的设想，本研究进一步分析了赋予三个一级指标不同权重时，概化系数与可靠指数的变化情况。由表7我们可以看出，权重的变化对G系数的影响不太大，当表现力指标的权重被提高到0.20，G系数大于0.90。因此，在总成绩合成时，我们可以尝试这样一个公式：口语测试总成绩=知识应用分数×0.35+口语技能分数×0.45+表现力分数×0.20，以便测试信度得到更好的保证。

四、总结与思考

相比经典测量理论，概化理论在区分测试中的各种误差来源以及改进测验程序方面有着巨大的优势，尤其是当评分者主观性对测试结果有着重大影响时，概化理论的应用显得格外必要。

（一）结构化是口语测试评分标准有着良好信度、效度的重要保证

效度与信度是各类测试中必须考虑的两个指标。口语测试的效度要求测试结果能真正反映受试者的语言行为和语言能力，信度则保证了测试结果能反映出受试者持久稳定的语言能力和语言行为。本研究中，研究者自编的口语测试评分标准结合了新课程标准对综合语言运用能力的要求以及Bachmann语言交际能力模型，将对学生英语口语能力的考察划分为知识应用、口语技能以及表现力（即交际策略）三个一级维度，并在每个一级维度下分设二级维度，从而建立了结构化的评分标准。这种结构化，首先保证了测试结果能从语言知识、语言技能以及交际策略三个方面来反映受试者的语言能力，其次也保证了受试者表现出的这种能力是持久稳定的。效度的分析不是本研究讨论的重点，我们不在这里赘述，但分析结果表明，该评分标准的确具有良好的结构效度。就信度而言，概化理论的分析结果表明，结构化能使评分标准的整体信度得到有效的保证，而不会受到个别维度有较大误差的影响。

行为测量强调信度，是因为人们假设个人或群体的行为有一定程度的稳定性。而行为，无论是理论还是实践经验都表明是由多个方面所构成的，绝不仅仅只包含单一的要素。这就决定了行为测量的结果一定是多个要素的综合，且这种综合也并非是线性的组合，而是结构性的组合。因此，针对所要测量的行为，依据相关的理论和假设确定多个考察的维度，并在各个维度内再设立可操作的观察指标，这种结构化的过程才能够使测量的结果反映真实的行为。语言是思维的载体，语言的应用过程必然是个体知识的应用、表达的技能，以及为了获得理想的表达效果而采用一定表达策略的综合过程，因此，本研究自编的口语测试评分标准，以这三者为一级指标建立了结构化的测量标准，才能获得良好的效度和信度。反观当前很多的口语测试评分标准，大多只关注到口语技能层面，相对忽视了对语言知识和交际策略的考察，如此仅关注到语言应用的一个方面，即便能获得良好的信度，但由于测量的构想与新课改要求、相关理论不符，测量结果的可解释程度也将是非常有限的。

（二）应用概化理论是优化测验设计的有效方法

概化理论除了可以更加有效地区分各种误差来源，对于改进测试的作用，也在本研究中得到了很好的验证。通过概化理论的分析，研究者认为，为了使测验结果更加可靠，在以后的口语测试中，设计者至少应做如下几方面的改进：第一，测试前加强对评委的培训，以增加评委间的评分一致性；第二，试题设计尽量实现难度相等，从而尽可能降低学生和口语测试试题之间的交互影响；第三，调整知识应用、口语技能和表现力三者在总成绩中的权重，重点突出口语技能的比重，评委人数的确定则可以测试的重要性为依据，以便在保证测试信度的同时降低测试成本。

以上这些改进，都是建立在概化理论分析得出的实证数据基础之上的。然而，当前的很多同类研究，只能通过评分者之间的一致性来评估信度，无法获得有助于测验改进的实证数据，这也导致对测验的设计和改进只能依靠研究者的主观经验，科学性较差。因此，若想使受评分者主观性影响较大的行为测验、作品分析测验等的设计和改进更加具有科学性，研究者应当更多地考虑应用概化理论。

（三）研究结果的广泛应用有助于解决实践问题，也有助于后期的拓展研究

缺乏良好信度和效度的口语测试评分标准是当前义务教育阶段英语口语测试薄弱的原因之一。本研究中，评分标准的信度、效度以及测验改进的方向都已经获得了实证研究的支持，笔者以为，该评分标准和测验流程，在适当改进后，可以广泛应用于初中阶段各类英语口语测试。这种应用，一方面，可以确保初中英语口语测试中的信度、效度，从而为英语口语测试的普及提供必需的技术保障；另一方面，可重复、可验证是科学研究的重要特性，而可重复、可验证的前提是相关研究所采用的标准、流程等一致，从这个方面来说，这一应用也能为后期的拓展研究提供更多的实证资料，从而使口语测试在初中英语语言能力测试中的地位和作用得到应有的提升。

标签：英语口语论文; 英语论文; 测量理论论文; 误差分析论文;

推广理论在初中英语口语测试可靠性中的应用研究_英语口语论文

猜你喜欢