基于自然语言处理和游戏环境的交互式阅读思维策略训练系统(iStart&ME)_系统思维论文

积极阅读与思维的交互式策略训练系统(iSTART-ME)——基于自然语言加工与游戏环境的理解与训练,本文主要内容关键词为:自然语言论文,思维论文,策略论文,加工论文,环境论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[中图分类号]B84

[文献标识码]A [文章编号]1000-5455(2013)02-0052-15

积极阅读与思维的交互式策略训练系统(Interactive Strategy Training for Active Reading and Thinking),即iSTART,是一套通过训练学习者如何使用有效的阅读策略进行自我解释(self-explanation),从而提高中学生和大学生的阅读成绩的智能教学系统。iSTART系统的基本步骤是:首先,给学习者介绍自我解释概念;然后,指导学习者提供如何使用诸如释义(paraphrasing)、建立连贯性推理、精细加工之类的阅读理解策略;最后,要求学习者在阅读科普类文章时进行练习以生成自身的自我解释,从而改进其自我解释质量,实现提高其阅读理解水平的目标(Magliano et al.,2005; McNamara,2004; McNamara,O'Reilly,Best & Ozuru,2006)。

一、iSTART的背景:SERT系统

iSTART的最初模型来自于一个基于人类干预的自我解释的阅读训练系统(Self-Explanation Reading Training,SERT)(McNamara,2004; McNamara & Scott,1999; O'Reilly,Best & McNamara,2004)。SERT系统是一个人对人的训练系统,旨在教会学习者通过运用有效的阅读策略如何生成有效的自我解释,同时,也希望通过自我解释的过程教会学生有效的阅读策略。

Chi及其同事(Chi et al.,1994)的研究发现,自我解释可以改进学习者的理解和问题解决,但对理解与问题解决水平较高的学习者的促进效果要相对小一些。同时,阅读理解领域的很多研究也旨在寻求改进理解的策略(Brown & Palincsar,1982; Palincsar & Brown,1984),所以,设计SERT系统的目的就是把自我解释与阅读策略训练有机结合起来,使得学习者能学到如何更好地对阅读文本进行自我解释,也能在自我解释文本的同时练习使用阅读理解策略。SERT系统最初是一对一的干预系统,之后发展成为以班级或小组为对象的干预系统。我们先简要介绍这两个系统,然后分析这两个系统训练效果的一些研究。

(一)一对一的SERT系统

McNamara(2004)最初开发的SERT系统是一个基于实验室研究的干预系统,包括2个学习阶段3个测验阶段,由实验人员逐个对学习者进行单独的训练,这就像家庭教师单独对个别学生进行辅导一样。

SERT的第一部分为总体介绍,主要包括6个自我解释策略的使用方法,这6个策略是:(1)理解监控;(2)释义或用自己的话复述;(3)预测或对文本中下一步将出现什么样的信息或将发生什么事件做出预测;(4)连贯的建立或文本中的观念间联系的建立;(5)运用自身的领域知识进行精细加工;(6)逻辑推理或运用逻辑的、普遍的世界知识以及各种常识对文本进行解释,使之获得意义。在总体介绍部分,学习者需要掌握有哪些策略,为什么这些策略有助于他们的阅读理解以及在自我解释中用到的每一种策略的具体例子。

SERT的第二部分为练习与演示,在该部分中,学习者通过4篇科普文章练习使用自我解释策略。学习者朗读这些文章并大声向实验者或辅导教师读出来,当需要进行更多的自我解释时,辅导人员就为学习者提供帮助,即提供一个脚手架。在阅读完每一篇短文并进行自我解释后,再回答与该短文有关的问题;接着,让学习者观看一段同辈学习者自我解释同一篇科普短文的录像,该录像会在某个重要的时间点上自动停止播放,这时,要求学习者说出录像中那位同辈所使用的策略是什么。同时,给学习者提供该录像的文字副本,以便他们能返回去确定何时使用了策略、使用了什么策略等。该阶段的目的就是为学习者提供自我解释的练习机会,并给他们提供他人是如何解释文章的一个样例。这样就为学习者提供了策略使用的更多实例,并鼓励学习者反思应该使用哪些类型的策略以及何时使用等。

McNamara 2004年以大学生为被试考察了SERT系统对阅读理解与自我解释质量的影响。该研究中,她让21名大学生接受SERT系统的训练(实验组),另21名学生只是朗读4篇科普文章,不接受训练(控制组)。结果发现,在训练阶段,与只进行朗读的控制组相比,接受自我解释训练的实验组只有在4篇训练短文中最困难问题的理解上具有显著的促进效果。训练结束后,要求两组被试去自我解释另一篇关于细胞有丝分裂的高难度的文章,结果发现,接受过SERT系统训练(即接受阅读策略的自我解释训练)的被试的理解成绩显著高于没有接受系统训练的被试的阅读理解成绩,尽管在实验中实验者也鼓励他们使用自我解释策略。

对被试在接受SERT系统训练后的自我解释结果的分析表明,SERT最基本的功用在于帮助知识相对贫乏的读者运用逻辑的、常识的或世界知识对阅读文本进行自我解释。因此,这些结果表明SERT能有效帮助低知识被试更加有效地对阅读文本进行自我解释(即使用更有效的策略),从而比控制组中没有接受训练的低知识被试表现出极为显著的阅读成绩的改善。更为重要的是,这些接受了SERT系统训练的低知识被试在经过系统训练后,阅读理解成绩居然与高知识被试的成绩不相上下。

值得注意的是,SERT系统的训练效果只有针对文本内容的问题才表现出来,低知识被试由于缺乏足够丰富的领域知识,因此,难以产生合理的推论去支撑一个完整连贯的情境模型。然而,释义(paraphrasing)或转述策略与基于逻辑的和一般知识的推理策略两者都有助于理解文本中的基本思想,形成更为连贯的文本层面(textbase)的理解。从教育层面上看,这一点尤为重要,因为连贯的文本层面的表征是建构个体知识的必要条件之一。

McNamara 2000年以6-8年级的中学生为被试进行了一项一对一的SERT系统训练的实验室研究,因为训练没有达到显著性的改进效果,因此,一直没有发表该研究报告。这结果似乎表明,自我解释与阅读策略训练对6-8年级的学生没有任何迹象表明其促进效果,但更为可能的原因是,这些学生还没有掌握足够的基本技能,因此难以从SERT系统的训练中受益。特别需要指出的是,这些学生没有掌握足够的释义技能以及缺乏运用知识解释文本的能力,这也可能是其训练效果不明显的原因之一。

McNamara对她们的这项研究结果进一步分析发现,受训练的学生既不是对文本内容进行解释,也不是对文本中的主要观念建立联系,而是对文本中与主要观点无关的一些细节之间的关系进行解释。据此,我们把SERT或iSTART系统要求的最低年龄定为8年级。

(二)以小组或班级为单位的SERT系统

虽然一对一的SERT系统的训练效果是令人鼓舞的,然而它需要一个人类专家来进行大量的一对一的指导,这在时间与专家的个人投入两方面限制了该系统的大面积推广。鉴于此,SERT系统的升级版就需要能在课堂情境中让多组学生可以同时使用。SERT系统的团体训练版与一对一的单体版非常相似,主要区别在于材料的分配方法、各训练要素的顺序以及合作性学习环节的使用等方面。

SERT团体训练系统吸取了与班级授课中课堂导入部分相似的要素,这样就可以一次为20-30名学生提供训练。在介绍部分呈现相关信息并提供同属于一个系列的6个阅读策略的实例,然后是一个类似的脚本,这与一对一的SERT系统是一样的。把阅读策略的样例投射到一个屏幕上,让团体所有学习者都能看到,同时给每个学习者一个含有策略实例的文本材料。允许学习者小组讨论这些材料,但学习者在此训练阶段基本上没有什么疑问与讨论。

SERT团体训练系统的各训练要素在理论上又经过了重新的设计,吸取了榜样学习、支架式学习、消退原理(fading)以及合作学习的教育原则(参见McNamara,2000)。在SERT一对一的单体版中,学生先自我解释某篇短文,然后观看另一学生是如何解释同一篇短文的,但在SERT团体版中,先给学生集体播放一段如何运用阅读策略的录像,然后让学生练习运用这些策略去解释不同的文本。这样,这一演示环节就为学生从对阅读策略的简单的描述到现实情境中如何运用阅读策略整个过程提供了支架。在团体训练的演示阶段,学生观看SERT系统单体版中使用过的录像,在6个不同的时间点上暂停录像,要求学生写出录像带中的学习者所使用的策略(研究者也给他们提供了录像带的文本材料),播完录像后,让所有学生参与集体讨论,讨论的主题是录像中的那个学习者究竟用了哪些策略。

在学习者观看录像及完成演示阶段的讨论后,把他们两两分为一组,要求他们在小组内练习使用这些阅读策略,一个学生先对一篇短文中的所有句子进行自我解释,然后另一个学生则对该短文做个总结,接着,让该组两个学生交换角色再进行练习。该练习程序中设计一个对短文进行总结任务的目的就是使两个学生都能关注短文理解,并能提升其理解水平。当然,也要求一个学生给另一个学生的自我解释提供反馈,但这种情况很少发生。

现已有一些研究对课堂情境中以大学生与高中生为训练对象的SERT使用效果进行了评估。Magliano等2005年完成了一项以29名大学生为被试的前-后测研究,结果发现,接受训练的学生回答科普类文章的是否题的能力得到了改善,而且,这种训练对那些需要推理才能准确回答的比较困难的问题效果更为明显。McNamara 2009年以265名选修生理学概论课程的大学生为被试,考察了SERT系统的训练效果对他们课程考试的影响,结果发现,SERT系统对低知识的被试的促进效果最大,而且,接受了该系统训练的学生的该课程成绩与没有接受训练的高知识学生的课程成绩一样优秀。

当然,SERT系统对高中生同样也十分有效。O'Reilly,Taylor与McNamara(2006)进行了一项涉及农村、城市中心及城郊的9-12年级465名中学生的训练研究。他们发现,接受SERT系统训练的学生比没有接受该系统训练的学生理解科普文章的能力显著提高了,但这种效果却只在农村学校学生中观察到,城市中心及城郊学校的学生却没有观察到这种效果。城郊学校的学生可能在训练前就已经熟练掌握了这些策略,而市中心学校的学生则可能还没有掌握足够的阅读技能,从而难以从训练中获益,而农村学校的学生则在环境条件与自身的技能水平方面正好与SERT系统的要求匹配,从而表现出明显的改进。

O'Reilly,Best与McNamara(2004)比较了SERT与控制条件以及与一种称为预览(previewing)或叫K-W-L的训练技术的效果差异。预览技术可以教会学生预览一个章节的具体细节,然后写出其所知道、想知道以及所学会的内容。该研究的被试为城区的136名选修了生理学课程的9、10年级学生。在实施了一个星期的训练后,检测学生的理解科普文章的能力,结果发现,低知识的学生通过SERT系统训练后有了明显的改进,而控制条件与预览策略却没有明显的改进。然而,高知识的学生却没有从SERT系统中获益,预览训练对理解也没有显著的效果。

不管是针对一对一的SERT系统训练还是小组或团体的SERT系统训练效果的研究结果发现,只要是接受了某种形式的自我解释训练的学生都可以从中获益。不幸的是,两种SERT系统的效果都受到了一定的情境限制,即它们都需要一个这方面的人类专家教师来提供自我解释训练,而且训练者也必须事前经过培训。因为需要一个训练有素的人类专家来实施干预过程,因此,在实际应用过程中就显得比较昂贵,同时,其影响面也就受到一定的局限(这是因为一次训练中最多也只能是20-30人)。因此,从目前情况来看,把该系统作为一个教师训练系统加以推广似乎不大可能。

SERT团体系统还存在来自合作学习方面的其他一些问题。SERT团体系统中的合作学习成分实际上是一种参与式的训练方法,它可能会导致低反馈质量、无反馈或者低效的两个学习同伴。小组讨论在很大程度上依赖于该小组的动力学特征,因此,这对高中教师来说是一个挑战。此外,由于系列原因,要创设有效的小组也特别困难。具体来说,这些因素包括:准备程度、兴趣、友谊关系、竞争、社会生存(social survival)等。研究发现,这些因素可以使学习者的注意焦点从训练本身转向其他无关活动或任务。这些来自高中课堂的研究结果表明,对高中学校环境中的学生,一对一的训练系统更有助于他们的学习,但如果要让许多学生参加训练的话,这种一对一的训练就是不现实的。理想的做法是把一对一的系统与团体系统的优点结合起来设计一个混合系统,在该混合系统的实施过程中,既照顾到学生的个体基础,同时也可以对较多的学生同时进行。这就是iSTART系统的思想。

二、iSTART系统及其运作

当今的技术日趋成熟,它不仅可以考虑到个体差异,而且也可以同时为多人提供SERT服务。目前,越来越多的研究者开始运用一些算法如潜在语义分析(Latent Semantic Analysis,LSA)(Hu,Graesser & TRG,1998; Landauer,Foltz & Laham,1998)来识别文本的意义。有关研究发现,在开发一些需要对输入的文本信息进行解释和反应的教学系统时,这些算法是非常必要的(Graesser,Wiemer-Hastings,Wiemer-Hastings,Harter,Person & TRG,2000; Wiemer-Hastings,Wiemer-Hastings & Graesser,1999)。因此,我们开发了积极阅读及思维的交互式策略训练系统(Interactive Strategy Trainer for Active Reading and Thinking),即iSTART系统。该系统可以在智能化的教学系统(Intelligent Tutoring System,ITS)中为SERT训练提供实例。iSTART是一个基于网络的SERT系统,它适合于各类学校使用,任何能连接互联网的个体都可以使用。我们设计iSTART这个自动化系统是为了解决SERT系统存在的缺陷,因此,ITS技术可以为广大学习者提供个性化的、具有良好适应性的、积极参与的训练。

在iSTART中,SERT系统被分解成为导入模块、演示模式以及练习模块三部分,这三个模块实际上各自体现了榜样示范学习(modeling)、支架式学习(scaffolding)和消退学习(fading)的教育原则。此外,练习模块的运用为个体提供了带有反馈的个性化的实践机会。

(一)iSTART模块介绍

1.模块一:导入模块。在以往的SERT系统中导入模块的内容是以演讲的形式介绍自我解释和具体的阅读策略的。我们认为,这种独白式的呈现方式比较单调,容易使学生丧失兴趣从而发生注意的转移。但如果不用独白的方式呈现介绍性材料,那么用什么方式呈现更好?研究发现,可以利用替代学习的优势来解决这一问题(Cox,McKendree,Tobin,Lee & Mayes,1999)。替代学习观认为,观察学习过程与直接参与这一学习过程的功效是一样的(Craig,Driscoll & Gholson,2004)。这就是为什么在许多研究中都要设计一些活动的学习者,让他们积极参与交互式的对话。在这样的学习过程中,学习者的活动与对话对于观看这一学习过程的学习者来说就是一个观察学习的过程(e.g.,Bransford,Brown & Cocking,2000; Graesser,Hu & Person,2001; Graesser,Hu & McNamara,2005; Louwerse,Graesser & Olney,2002)。因此,iSTART中的对话都是三人对话,其中两个是学生,一个是教师,对话形式由问题与问题的答案组成。使用对话形式来呈现材料就可以把材料分解为很小的单元,学生更容易理解与掌握,同时,通过两个学生的对话也可以让观察学习者模仿学习过程。

导入模块利用了课堂式的讨论来为每一种目标策略提供榜样示范,这些示范中包括了表现优秀者的示范,也包括了表现不良者的示范。接着,需要提供两个学习者之间的交互作用过程的示范。在这个师生之间、生生之间的相互作用过程中,教师需要对某一策略进行描述,学生需要提问,并且为这一策略提供不同的例子,有些是很好的例子,有些则是不怎么好的例子。iSTART导入模块中的所有策略与SERT系统中策略是完全相同的,但有唯一的一个例外,即在iSTART中,逻辑推理策略与精细加工策略是合二为一的,将这两种策略作为其世界知识和常识的一部分来使用。我们之所以如此设计,是因为学生弄不清楚使用常识的精细加工(即逻辑)与使用领域知识的精细加工(即精细加工)之间的区别。因此,iSTART中的策略包括:理解监控策略、释义策略、预测策略、连贯策略和精细加工策略。

在每一种策略中,都设计一些形成性测验,在介绍完一种策略后,一个学习者给另一个学习者提一些问题,从而可以了解学生对学习过的策略的掌握情况。当学生不能正确回答问题时,就给他们一些提示。这种测验不需要对话或替代学习,只是由一个学习者提出,因此,这种测验在一定意义上是形成性测验。

2.模块二:演示模块。iSTART系统中的演示模块来自于SERT系统训练中学生观看的演示录像。设计该模块的目的是为了给学生把学到的策略知识运用到现实的文本阅读时提供一个脚手架或一个支撑点。在SERT系统中,学生是以两人一组的方式观看录像,而iSTART系统设计了两个动态的虚拟角色:一个是教师或教练的角色,叫做Merlin,另一个是学生角色,叫做Genie。在演示过程中,教师与学生之间是相互作用的,并且在分析学生提供的自我解释的样例中为学习者提供指导,学生先出声读出一个句子并给出其自我解释,教师为学生的自我解释提供反馈,同时要求参加训练的学生指出该演示中的学习者(Genie)使用了什么策略;教师也可以要求学生说明究竟使用了什么策略来解释某一特定内容。学生与教师之间这种相互作用方式与学生与教师在练习模块中的相互作用方式是类似的,该模块中提供的演示及内容与最初的SERT系统完全一致,但改进之处是学习者可以自定步速,通过自动化的训练向前迈进。

3.模块三:练习模块。为了使iSTART系统的干预训练成为自动化,不再需要SERT系统中的真人参与,就需要在练习模块中做出很大的适应性调整,如整个干预需要完全自动化;学生做出自我解释后需要提供及时的、准确的、有用的反馈(McNamara,Boonthum,Levinstein & Millis,2007; Munoz,Magliano,Sheridan & McNamara,2006)。

iSTART设计了两类练习模块:常规练习模块与拓展练习模块。常规练习模块安排在为期两个小时的初期训练阶段,一般要求学生在两个小时内完成从导入到演示阶段,再从演示到练习阶段的训练。在常规练习中,直接指导的成分逐渐减弱,系统自动为学习者提供两篇科普文章,以便他们能有机会运用刚刚学到的知识。在拓展练习中,系统则为学习者提供多篇以前没有接触过的文章,因此,学习者就有机会去阅读这些文章,并做出自我解释。在这两类练习模块中,作为教师角色的Merlin始终扮演着自我解释的教练角色,在学生生成他们自己的自我解释时给予指导。

在常规练习模块中,学习者第一次真正有机会开始生成他们自己的自我解释。该模块运用了两篇经过挑选的文章,因此,iSTART可以对学习者的练习结果做出非常准确的评估与针对性的反馈(McNamara et al.,2007)。训练中,要求学生读出文章中的某个句子,并给出其自我解释,系统综合运用潜在语义分析和词语分析方法对学生的每一种解释进行分析,由教师给学习者提供反馈,反馈不仅包括学习者自我解释的质量评定,也包括给学生提供一些建议以提高自我解释的质量。例如,教师可能说:“嗯,这个解释不错!但下次练习时要把文章不同部分的信息联系起来。”教师也可以要求学生指出具体使用了什么策略、在何处使用了这些策略等问题,从而把这个练习活动再向前推进一步。在整个练习模块中,教师根据每个学生的自我解释的质量灵活调整其反应。总之,当学生做出相对丰富、内容相关的自我解释时,教师就做出很有激情、赞许的行为,而如果学生的自我解释内容贫乏、无关时,教师就提供更好的自我解释的支点,并教他们如何进行自我解释。

当学生结束常规的练习模块训练后,程序就会自动地引导其进入拓展练习模块。在拓展模块中,学生通过接触多种不同的辅助文本,从而提高其自我解释的质量(Levinstein,Boonthum,Pillarisetti,Bell & McNamara,2007)。拓展模块在形式及功能上都与常规模块完全一致,学生将花大部分时间在该模块的练习上,并且有机会把刚掌握的策略运用到新的、不同的文本中去。这些文本可以是拓展模块本身提供的,也可以是教师后面添加进去的。因此,拓展练习模块为学生提供了一个自定步调的、随时都可以接受iSTART系统的训练。

(二)iSTART系统与SERT系统的区别

iSTART系统是从SERT系统发展而来,二者在许多方面存在相似性,但还是存在重要区别。

第一,iSTART是基于网络的系统,因此,只要能连通网络,就可以进入该系统,但SERT系统却不能。

第二,iSTART系统是自动化系统,因此,可以在个体水平上运行,并能提供自定步调的教学,学生可以随时停下来或随时开始。

第三,iSTART系统利用了动态的虚拟的教师而不是真正的教师,这样就可以为每一个学生提供如何正确使用不同策略的指导。教师为学生介绍自我解释的概念,演示如何运用每一个具体的策略,例如,在导入模块中设计由一个教师与两个学生组成的课堂式的讨论,在讨论进行过程中为学生提供相关的阅读策略。三人之间可以相互影响、相互提问,教师还要给学生提供例子以解释如何使用适合的策略(当然也包括提供反例)。这些相互影响为学生如何使用策略的主动加工过程提供了范例。

第四,iSTART系统运用了自然语言加工原理(natural language processing,NLP)来说明自我解释,然后提供反馈,如图1所示。

图1 iSTART系统中的自我解释练习与反馈的自然语言加工过程

(注:Intelligence Engagement:智力活动;Feedback:反馈;Algorithm:算法;NLP:自然语言加工)

(三)iSTART系统的自然语言加工算法规则

对学生自我解释的内容与质量的反馈是练习环节中最重要的部分。练习过程中需要非常迅速地把这些反馈提供给学生。如图1所示,iSTART系统中教师Merlin提供给学生的反馈实际上受到自然语言加工的算法规则控制,这表现在:学生在系统中做出一个反应,即对文本中的一个或多个句子做出解释,这一反应是以自然语言的形式出现的,换言之,学生不是从所提供的多种反应中选择一个反应,而是以自然语言形式对文本内容做出自我解释。学生的反应是开放式的,这些反应可能不符合语法或者带有歧义,甚至拼写上也有错误(Renner,McCarthy,Boonthum-Denecke & McNamara,2011)。因此,给学生提供的反馈受到自然语言算法规则的控制。自然语言加工的算法规则与反馈共同构成了iSTART系统中“智能”的核心,系统根据这些算法规则针对学生个体的不同需要做出反应并调整训练方法。例如,一旦学生进入练习模块,教师就根据学生提供的自我解释给予反馈,并鼓励他们运用新近学到的策略去生成新的解释。练习模块的重点是给学生提供机会去应用已经掌握的阅读策略,并且整合来自不同方面的知识以理解那些具有一定难度的文章。学生的自我解释或许包括一般性的世界知识和一般领域知识,当然也可能是来自前文中的某些句子。教师为学生的每一种解释都提供反馈,对于那些有一定长度且内容相关程度高的自我解释,教师给予更多的积极反馈,而对于那些简短且内容相关程度较低的自我解释,教师则给予更多的相互作用式的、支持性的反馈。教师鼓励学生拓展其自我解释,要求学生接纳更多的信息,或者建议他们把当前的信息与文章的其他内容联系起来。iSTART系统如此设计的目的是对学生的反应的质量进行评估,从而达到教师对学生的反馈起到良好的教育效果。

对iSTART系统来说,要在几秒钟内对学生的自我解释的质量提供非常准确的反馈在算法上是一个挑战。iSTART系统给学生的自我解释质量的记分分为0、1、2、3四级:0分表示学生的自我解释太短,而且大多是无关信息;1分表示学生的自我解释只与目标句有关,这是一种基于句子的解释;2分表示学生的自我解释吸纳了文章其他方面的信息,超越了目标句本身,因此,这是基于文本的解释;3分表示学生的自我解释在总体水平上吸纳了各种信息,甚至文本外的信息,自我解释的内容贯穿了文章的主题,这是一种基于整体信息水平的自我解释。对学生的自我解释质量的评估包括三步:第一步,把学生的反应以元认知的表达方式呈现在屏幕上,如“我不明白他们在这里说的是什么?”;第二步,运用基于词汇分析(word-based)的方法和基于潜在语义分析(LSA)的方法分析学生的自我解释内容(参见McNamara et al.,2007);第三步,把这两种方法分析的结果与第一步中屏幕上的学生的元认知反应结合起来,给学生提供以下六种反馈中的一种:(1)对元认知内容的反馈;(2)对与文本内容似乎无关的解释的反馈;(3)对与句子内容相比自我解释显得过于简短的解释的反馈;(4)对学生的解释与原文中的句子非常类似的反馈;(5)对那些为理解下一句话做出了建议的反馈;(6)对学生的自我解释做出了恰当评价的反馈。

iSTART部分评估程序是基于潜在语义分析的(LSA),LSA是从一个非常巨大的语料库中来寻求词汇意义表征的计算方法,它与只在表层水平寻求字面意义的匹配的词汇分析方法不同(参见Landauer & Dumais,1997; Landauer,McNamara,Dennis & Kintsch,2007)。LSA中利用语料库通过文本共生矩阵(document co-occurrence matrix)来创建一个词汇库,然后通过奇异值分解方法(singular value decomposition)生成一个高一级向量空间。通过测量多维向量空间(称为余弦值)中表征的相似性来衡量两个语言单位(如两个词语或段落)之间的概念相似性。已有研究表明,LSA在计算文本相似性(Landauer & Dumais,1997; Landauer,Foltz & Lanham,1998)、文本连贯性(Foltz,Kintsch & Landauer,1998; Shapiro & McNamara,2000)、文章的年级水平(Landauer et al.,1998)等方面获得的结果与人类的判断不相上下。iSTART系统运用LSA方法就是为了计算学生提供的自我解释与文本中的目标句、主题和先前内容的相似性。系统根据计算获得的相似性水平的高低,判断学生的自我解释的水平高低。

要能对学生的每一个自我解释做出恰当的反馈就需要iSTART系统提供非常准确的评价信息,显而易见,如果系统算法提供的评价能准确反映学生自我解释的质量和相关特征,那么,系统提供的反馈就可能是适合的。要能实现这一目标,并能与学生有意义地相互作用,系统就必须能准确地解读自然语言文本。

iSTART系统的算法综合利用了基于词汇的分析方法和潜在语义分析方法(参见Landauer,McNamara,Dennis & Kintsch,2007),基于词汇的分析方法能为低水平的自我解释(即解释内容偏离主题或只是简单重复目标句)提供一个更为精准的结果,这种方法比LSA在这方面的区分力更强大。但LSA能为高水平的、复杂的自我解释提供信息更加丰富的测量。所以,在iSTART最后的评价系统中就综合了这两种方法,这样就可以为不同层次的自我解释提供准确的测量。

基于词汇的分析方法最初需要对资料进行人工编码,但目前则可以实现自动化分析。最初的算法规则是要求专家为每篇文章找出一系列“重要的”词汇,然后,为每个“重要的”词汇找出一系列的相关词汇。但这种方法现在已经不用了,目前基于词汇分析的做法是根据文章中的内容词(名词、动词、形容词、副词)来确定词汇分析的成分,文章中的内容词可以在文章中自动识别出来(McNamara et al.,2007)。词汇分析方法同时包含一个长度标准,即学生的自我解释必须超过一定数量的单词,这可以通过用某一特定系数乘以目标句中的单词数目而获得。

基于LSA的分析方法则采用了一系列指标对学生做出的自我解释与系统提供的文本特征变量进行比较,从而确定自我解释的水平与质量。LSA的指标包括:(1)文章标题;(2)目标句中的单词数量;(3)前两个相邻句子的单词数量。LSA的第三个指标最初只计算存在因果联系的单词的数量,但这就需要对每一个文本进行篇章分析,因此增加了许多额外的工作,所以,现在就用相邻句子的数量来代替了。对于科普类的文章,因其本身的特点,我们预期这种替换同样可以获得非常好的测量结果,但现在还不清楚这种替换对其他类型的文章是否可以获得同样理想的测量结果。

McNamara等2007年利用iSTART系统中的一些练习文本对iSTART算法的可行性进行了探讨,其方法是:学生先对一篇文章中的目标句进行自我解释,然后利用iSTART的算法与人工的评分者分别对学生的这些自我解释进行评估,结果发现,二者的评分具有高度的一致性,r值范围为[0.64,0.71],特别是对于那些自我解释水平处于两个极端的数据,iSTART算法的结果与人工评定的结果更为一致。

后来一些研究以新加进iSTART系统中的不同文章为材料(这些文章从未让学生进行过自我解释的训练),重新探讨了iSTART算法的可行性,结果发现,iSTART算法获得的结果与人工评分的结果具有很高的一致性,kappa系数达到0.646(Jackson,Guess & McNamara,2010)。同时,这两项研究也表明,不管是iSTART算法还是人工评定,对于基于文本的解释(text-based explanations)的区分都有一定难度。

这些结果表明,iSTART算法同样可以用来测量学生从未接受过训练的新文章以及以某种适当方式呈现的新信息,同时也表明,iSTART系统的测量可以达到与人类的测量同等准确的水平,并且提供了学生生成自我解释需要的加工程度的一般性的指标,即学生在何种程度上加工句子水平、文本水平或整体水平的信息。

iSTART算法有效性的研究结果表明,iSTART可以准确地评估学生的自我解释,因此,该系统有能力为每一个学生提供有针对性的反馈。已有的实验研究表明,iSTART不仅可以提高学生的自我解释能力,也可以提高他们对那些具有挑战性的文章的理解能力(Magliano et al.,2005; McNamara et al.,2006)。

(四)对iSTART系统的评价

迄今为止,多项研究结果表明,完全自动化设计的iSTART系统与基于人工服务的SERT系统可以取得同等好的训练效果(O'Reilly,Sinclair' & McNamara,2004; O'Reilly,Best & McNamara,2004),这两套程序都包括以下三个阶段:对策略的介绍、使用策略的演示以及阅读科普类文章时的练习使用策略。这三个阶段分别体现了榜样示范—支架建立—消退(modeling-scaffolding-fading)的教育原则。

关于iSTART系统有效性的研究都一致发现,该系统对提高学生的自我解释水平具有非常理想的效果。我们(McNamara,2004; O'Reilly et al.,2004b)与O'Reilly(O'Reilly et al.,2004; O'Reilly et al.,2004a; O'Reilly et al.,2006; Taylor,O'Reilly,Sinclair & McNamara,2006)在以大学生与高中生为被试的研究中都发现,接受过iSTART系统训练的被试在阅读成绩与策略使用水平方面都比控制组显著要好。其他一些研究结果也发现,iSTART系统的训练效果与基于人工服务的SERT训练方案的效果同等的好(Magliano,Todaro,Millis,Wiemer-Hastings,Kim & McNamara,2005; O'Reilly et al.,2004b; O'Reilly et al.,2004)。我们另一项研究还发现,接受过iSTART训练的学生能更加有效地使用自我解释策略(McNamara,O'Reilly,Best & Ozuru,2006)。

当然,iSTART系统的训练效果与个体之间的差异也有一定的关系。我们的一项研究考察了iSTART训练对青少年学生阅读理解与策略使用的影响,该研究同时还考察了学生先前的阅读策略知识是否会与策略训练的效果发生相互作用。该研究的做法是,让实验组学生接受iSTART训练,控制组学生观看如何自我解释文本的简短的演示,然后让两组学生自我解释一篇关于心脏疾病的文章,并回答一些基于文本的问题和连贯性推理的问题。结果发现,iSTART训练和先前的阅读策略知识对学生的自我解释水平的提高都有显著的促进效果,同时,对特定句子的自我解释水平又直接与这些句子有关问题的理解成绩的提高相关。此外,研究还发现,阅读策略教学的效果也受到了个体先前的阅读策略的影响,对先前的阅读策略水平低的学生,iSTART的效果更多地体现在基于文本的、字面的理解上,而对先前的阅读策略水平高的学生,iSTART的效果则更多地体现在难度更大、更具有整合性的连贯推理问题上。

因此,iSTART系统对不同类型的学生都有明显的促进效果,但由于他们各自的最近发展区(Vygotsky,1978)不同,iSTART产生作用的方式便不尽相同。如果个体先前的阅读策略知识丰富,那么他们就能进行更深层次的加工(如连贯性推理和精加工),因而就能在连贯性推理问题上取得更好的成绩。然而,对先前的阅读策略知识相对贫乏的个体而言,他们却难以对文本的基本信息形成连贯的理解,因此,需要学习如何把每一个句子中片段的概念进行整合以形成连贯的心理表征。所以,不同基础的学生是基于他们各自的最近发展区取得进步的。从已有的研究来看,iSTART至少涉及了阅读理解发展的两个阶段:第一阶段是学生必须首先获得基于文本的信息的完整的心理表征,即把单个句子中的信息如何组合在一起。一旦形成了连贯的概念表征,他们就可以向更深层次的理解推进;第二阶段是深层次的理解,主要包括加工概念之间的联系以及文本与学生的世界知识之间的联系。

最近,为了探讨iSTART在多大程度上可以提高学生自我解释的水平,我们在真实的课堂情境中进行了一项为期一年、具有较高生态效度的研究(Jackson,Boonthum & McNamara,2010),389名科学课程的中学生参与了该实验。在实验的一年时间内,学生们在接受了导入模块、演示模块以及初步的练习模块训练后,每周花一定时间在iSTART系统中进行策略训练练习,在拓展练习期间,学生根据系统提供的文章或教师另外布置的材料进行自我解释练习。结果发现,经过一年的训练后,学生的成绩得到了显著的提升,如图2所示。

图2 个体训练前的能力水平、文章数量与自我解释平均得分的关系

图2不仅清楚地表明了学生的自我解释的水平与所接受训练的文章数量多少存在显著的正相关,而且还表明学生在接受多篇文章的自我解释训练后,他们的自我解释水平提高更为明显。此外,我们还发现,最初低阅读能力的学生经过训练后成绩与高阅读能力的学生已经没有什么区别了。在前10篇文章的前测中,高能力组的学生的自我解释显著优于低能力组学生的自我解释,但是在经过足够的训练后,这种差异却不再存在了。

该研究与先前的研究都表明,iSTART系统能提高学生的自我解释能力,进而提升他们对具有挑战性的科普文章的理解。从这个角度来看,自然语言加工(NLP)的算法规则在其中发挥的作用是关键,这表现在:第一,这些算法规则是控制整个系统的智能的一部分,它们可以以智能上具有适应性的方式为学生提供反馈;第二,自然语言加工的算法规则通过不断与学生交互影响,有助于学生更多地投入到学习中。在为时2-4个小时的实验室条件下,还能让学生保持一定的动机,投入到学习中,然而,技能的形成则需要长期的重复练习(Jackson,Boonthum & McNamara,2010)。Jackson等的研究发现,在课堂情境中,经过数周或数月的长时间练习后,学生的兴趣就大为降低(e,g.Bell & McNamara,2007),因此,要激励学生的学习,仅仅靠自然语言加工的算法规则是不够的。基于这一考虑,我们在iSTART系统中增加了游戏活动及其基于游戏的其他一些成分,把iSTART系统发展成为iSTART-ME(Motivationally Enhanced)系统,即动机得到提升的iSTART系统(Jackson,Boonthum & McNamara,2009; Jackson,Dempsey & McNamara,2010)。开发这个升级系统的目的是希望能更好地激励学生,使他们能在课堂或家庭这样真实的环境中愿意使用iSTART系统,并能坚持较长的时间。

三、iSTART-ME:基于游戏环境的iSTART系统

基于游戏环境的iSTART-ME系统是在原来的iSTART系统的基础上,通过整合一些游戏规则以及支持有效学习、提升动机、维持学习投入的一些因素而发展起来的,本文简要介绍该系统,更为详细的内容可以参考以往有关文献(Jackson,Boonthum & McNamara,2009; Jackson,Dempsey & McNamara,2010)。

学生在iSTART系统的练习过程中,系统会自动地从一篇短文转向下一篇短文,中间无任何干预行动,而在iSTART-ME系统中增加了一个选择菜单,如图3所示。一些研究者认为,一项任务如果能包括反馈、想象、个性化、主动选择以及好奇心等因素,那么,学生的学习动机和学习效果就能得到提升(Cordova & Lepper,1996; Papastergiou,2009),因此,我们把这些特征都吸收到了iSTART-ME系统中,学生利用这个选择菜单,可以选择相应的按钮继续学习新的文章,也可以检查自己获得了多少个点数,提升了多少水平,也可以用挣来的点数购买自己感兴趣的奖励品,或将某个角色个性化,或者玩一些微型的教育游戏(这些游戏需要用到iSTART系统练习用的策略)。

图3 iSTART-ME系统中选择菜单截图举例①

iSTART-ME也吸取了一些微型的教育游戏,每一款游戏都是一个单独游戏,可以在10-20分钟内完成。设计这些教育游戏的目的是为了提升学生对阅读策略的识别能力、生成新的自我解释、提升元理解意识及扩大词汇量等。每一款游戏可能涉及以上内容的一个或两个方面,都在游戏环境下进行。游戏结束后,要求学生重新回到iSTART-ME系统的选择菜单。

在选择菜单上,学生可以在智能指导下的练习(Coached Practice)、双人决战(Showdown)和骰子战争(Map Conquest)三种练习方式中进行选择,如图4所示。

图4 iSTART-ME中练习环境的截图

“智能指导下的练习”实际上就是最初的iSTART系统练习部分的升级版,在该练习方式中,给学生提供一篇文章和某个目标句,教师逐句出声阅读,当读到某个目标句时就停下来,要求学生生成自己的自我解释,并为学生的自我解释提供言语的反馈。此外,该练习方式还整合了游戏的基本元素,如得分、反馈键等。对学生的每个目标句的自我解释都要给予评分,学生在获得教师给予的反馈后,可以重新提交其自我解释,教师再重新评分并再次反馈,这样,经过几次循环后,就以学生几次得分的平均作为学生在该目标句上的最后得分值。

在“双人决战”的练习方式中,让学生与一个计算机玩家进行比赛,看谁能写出更好的自我解释,赢者就获得一个奖励物。学生提交其自我解释后,系统就会进行评分并作出质量高低的评估(即iSTART自我解释分数),质量高低以所获得的星星数量多少来表示,一般把星星数量分为0、1、2、3四个水平。在每一轮的较量中,学生的计算机对手也同样经过这一过程,比较两者分数的高低以及获得的奖励数多少决定谁是该轮的赢家,在游戏最后,所赢轮数最多者即为最后的获胜者。在“骰子战争”的练习中,学生也需要生成其自我解释,其自我解释的水平决定了其所挣骰子的数量(0-3个)。学生将这些骰子放在一张地图上,并利用他们来征服对手的领地。值得注意的是,与“智能指导下的练习”方式不同的是,在“双人决战”与“骰子战争”的游戏中,学生只需要对每个目标句提供一个自我解释,而且也不能重新提交另一个自我解释来获得更高的分数。

以往有研究探讨了iSTART-ME系统中不同单元的训练效果(Brunelle,Jackson,Dempsey,Boonthum,Levinstein & McNamara,2010; Dempsey,Jackson,Brunelle,Rowe & McNamara,2010),最近一项研究则探讨了iSTART-ME系统各个单元在持续几周的时间内的训练效果,该研究的目的是为了提高iSTART系统的生态效度,因此,允许学生之间相互交流,使之更像现实的课堂环境。9名学生参与了这个实验,他们全部接受了iSTART-ME系统各个单元(导入、演示、练习及含有选择菜单的互动)的训练,共进行了8次训练,每次约一个小时,为期三周半。学生完成所有训练环节后,接受一个后测,主要测量被试的态度、喜欢程度以及动机等。图5呈现了在三种游戏方式下对有关后测问题的平均评定等级(Jackson,Davis,Graesser & McNamara,2011)。

图5 三种游戏方式下对后测问题的平均评定等级

从图5中可以非常清楚地发现,智能指导下的练习组的评定结果都非常一致地低于游戏环境下的双人决战组与骰子战争组的其中一组,在某些项目上的结果比这两组都要低。在这个比较中,我们发现一个十分有趣的结果,即对骰子战争组的评定结果似乎有冲突,因为在“对游戏的失望程度”的评定上,该组的结果是显著高于其他两组,然而该方式却又被评定为最喜欢的游戏方式。这可能是因为在该种游戏方式的初期,即游戏的地图识别阶段,被试报告说他们感到有些混乱,因此,自然而然就会形成挫折感。现实中,大多数游戏环境和令人喜欢的现实环境都具有这一特征。

四、结论

为了提高学生阅读理解中使用策略的能力,我们设计了iSTART训练系统,该系统最初为个体与个体面对面的干预系统,即一对一的SERT系统,接着,根据课堂环境的合作学习的特点,我们又开发了团体SERT系统,然后,把SERT系统发展为十分有效的、学生可以自定步速的智能系统,即iSTART系统;为了提升学生的兴趣,我们最近又设计了基于游戏环境的iSTART-ME系统。该系统的每一次转换或升级都是为了解决前一个版本中潜在的问题,从而在整体上改善系统的训练效果。

该系统的每一个版本所遵循的教育原则基本上是相同的,训练目标都是要教会学生掌握阅读理解中具体的自我解释策略,经过榜样示范、教师提供支架式的帮助和教师引导作用逐步减弱(即消退)等环节,使学生获得这些阅读技能。所有的训练版本中都包括对某种具体的自我解释策略的介绍(榜样示范)、对该策略使用的具体演示,包括有效的演示与无效的演示(支架式帮助)以及给每个学习者提供练习机会以便把每一种策略都能运用到具体的文章中去(练习或教师作用的减弱)。虽然不同版本的效果有些不同,但只要是经过了自我解释训练,学习者的阅读理解成绩都能得到显著的改善。表1是对不同版本各训练单元的具体做法的总结。

当然,还有一些稍有不同的版本没有包括在表1中(参见Levinstein et al.,2007),但涉及计算机工作原理及合作学习有效性的教育原理变化的思想却都在这些版本中得到了体现。例如,从一对一的SERT系统到团体SERT系统、从iSTART系统到iSTART-ME系统的转变,实际上就是从简单环境下的完全个体化的训练到复杂环境下的群体训练的转变、从个体间的相互作用到团体间的合作学习的转变。从SERT系统到iSTART系统的另一个重要改进是系统中的每一个训练单元都变成了自动化的单元,最初SERT系统的学习材料也都经过相应的调整后转变成为电子材料了。

从目前的研究结果来看,该系统的训练效果是令人振奋的,这主要归之于它解决了教育领域研究中两个常见的问题:一是准确评估学生的反应及成绩;二是维持或提高学生的学习乐趣与动机。已有研究结果表明,基于自然语言加工算法规则的iSTART-ME系统是颇为有效的,学习者愿意在持续时间较长的期间内,乐于与基于游戏的训练系统保持相互作用。具体而言,基于自然语言加工算法规则的评估结果与人类专家的评估结果没有什么差异,因此,计算机系统能为不同的学习者提供准确的、适合特定个体的反馈。正是因为这些特点,就能使学生持续地使用该系统,进而改善其成绩。学生对基于游戏的练习方式给予了更高的等级评价,这说明iSTART-ME中的游戏本身也可以提升其在训练中的愉悦程度,从而使得他们能长时间地坚持与该系统相互作用。在对基于游戏的学习结果分析中,一个特别有趣的结果是骰子战争练习方式在挫折感与愉悦度两方面的评定结果都最高。逻辑上讲,对游戏的失望程度越高,愉悦度应该越低,但实际结果却不是,这可能是因为骰子战争游戏界面的复杂性导致了学习者的这种失望程度,但由于学生的坚持性以及该游戏最后带来的满足感抵消了最初的冲突引起的消极效果。

iSTART-ME系统既能准确地对学生的成绩进行评定,也能在相对长的时间内成功地维持学生的愉悦感,这一令人振奋的结果为未来研究提供了重要的基础。未来研究可以更加详尽地探讨复杂的评定问题以及不同游戏成分(如竞争、挑战、多样性、控制程度等)在不同时间段的不同效果。最后,该系统允许学生用自然语言进行自我表达,同时在游戏环境中他们的愉悦感也得到了提升,这就极大地激发了学生再次使用该系统的可能性,从而成为使用该系统的“回头客”,这样,也就自然而然地加速了阅读技能的获得,进而提高其阅读理解水平。(十分感谢为该项研究做出贡献的所有研究者,其中包括Irwin Levinstein以及奥多明尼昂大学(Old Dominion University)的多名编程员,同时要感谢孟菲斯大学的多名研究生,他们为本研究也付出了辛勤的劳动。本文中的所有观点、结果、结论或建议均为作者的看法,不代表美国教育科学研究所(the Institute for Educational Sciences)或美国自然科学基金委员会(National Science Foundation)的观点或立场。)

实习编辑:肖时花

[收稿日期]2012-11-06

注释:

①图3、图4为iSTART系统中游戏环境的截图,因该系统目前只有英文系统,没有开发出中文系统,因此,就不能在截图中直接把英语翻译成中文。

标签:;  ;  ;  ;  

基于自然语言处理和游戏环境的交互式阅读思维策略训练系统(iStart&ME)_系统思维论文
下载Doc文档

猜你喜欢