测试效果的内在机制_信息加工理论论文

测验效应的内部机制，本文主要内容关键词为：测验论文,效应论文,机制论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

分类号B842 DOI：0.3724/SP.J.1042.2016.00892

1 引言

“测验效应”是指提取比同等时间的重复学习，在随后的记忆测验中能取得更好的成绩(Roediger & Butler，2011；Karpicke & Roediger，2008)。研究者通常先让被试学习实验材料，随后一半被试参加最初测验，另一半被试重复学习实验材料，一段时间后，所有被试在相同条件下接受最终测验。研究者通过比较测验与重学两种条件下被试在最终测验中的成绩，来考察测验效应。例如，Roediger和Karpicke(2006)指导实验组的被试进行最初测验(该研究使用自由回忆测验)，对照组的被试重复学习实验材料，一周后所有被试均参加最终测验。结果发现，在最终测验中，实验组被试的成绩显著优于对照组，即出现了测验效应(Roediger & Karpicke，2006)。

研究者使用实验室材料，如单词序列、英语词对等，以及多种实际教学材料，如散文、科学文等，均观察到了测验效应(e.g.，Karpicke & Blunt，2011；Carpenter，2009；Lehman，Smith，& Karpicke，2014)。由此看来，测验不仅可以用来评估学习效果，还可以作为增强记忆的方法，这引发了心理学研究者与教育者的广泛关注。随着研究的深入，当代教育者已逐渐发挥测验效应在教育实践中的应用，如使用课堂小测验，合理编制一些习题，指导学生进行自我测验等，从而提高学生的学习效率。

测验效应的早期理论，如提取努力理论(effortful retrieval)、必要难度理论(desirable difficulties)、迁移适当加工理论(transfer-appropriate processing)，认为测验效应并非由于被试在学习时间上的差异，而是提取加工对测验效应的形成起关键作用。虽然这些理论均有部分实验依据，但仍存在一定局限性。

Carpenter，Pashler和Cepeda(2009)提出的精细提取理论(elaborative retrieval theory)认为被试在提取时能够联想到与提取线索相关的语义信息，并对这些信息进行精细加工，从而产生测验效应(Carpenter，2009；Carpenter，2011；Rawson，Vaughn，& Carpenter，2015)。这一理论强调测验中存在精细加工过程，而研究者很难直接考察该过程，通常依赖于间接的推理。例如，Rosburg，Johansson，Weigl和Mecklinger(2015)使用ERP(事件相关电位技术)，对比测验与重学两种学习条件下被试的脑电活动差异，发现测验条件下，在刺激呈现后500～700 ms被试产生更正的左侧顶叶新旧效应，即LPC(late parietal component)。Rosburg等人推测测验可能使已有的记忆痕迹得到了精细加工，从而支持精细提取理论(Rosburg，Johansson et al.，2015)。然而，该研究仅关注测验效应的结果而并未直接提供内在机制(如语义关联信息激活)方面的证据。

2014年由Karpicke等人提出的情景背景理论(episodic context account)认为测验效应并非由于语义关联信息的激活，而是时间背景信息的回想导致的。其认为被试在测验时会进入情景提取的认知状态，进而复原先前学习阶段的时间背景信息(context reinstatement)，这是测验效应形成的关键(Karpicke，Lehaman，& Aue，2014)。自20世纪90年代末，已有多项研究使用神经科学方法考察这种情景回想认知状态(Rugg & Wilding，2000)，这启发我们总结提取加工(提取模式、提取方向)的研究方法，从提取加工角度考察测验效应，将有利于解决理论间的争论点并更清晰地阐述测验效应背后的形成机制。

本文首先简要梳理测验效应的早期理论及其局限，之后总结测验效应的最新理论，即精细提取理论与情景背景理论，以及二者的争论点。最后，基于记忆的特点以及情景背景理论，将提取加工(提取模式、提取方向)神经科学研究与测验效应结合，重点论述考察测验效应内部机制的研究方法。

2 测验效应的理论及争论点

2.1 早期理论

提取努力理论认为测验条件下，被试需花费更多的努力，对实验材料进行更深度的编码，从而在随后测验中产生更好的记忆成绩(Jacoby，1978)。该理论可以解释一些提取增强记忆的现象，如需要被试花费更长时间去提取的项目在随后测验中更容易被提取(Karpicke & Bauernschmidt，2011)。

Bjork等人在此理论的基础上提出了必要难度理论。该理论引入了时间因素，区分了提取强度(被试提取某个项目的难易程度)与储存强度(记忆保持的持久性)，并认为二者的增长呈负相关。由于测验相比重学更具有一定难度，该理论认为，测验条件下，项目的提取强度较低，储存强度较高，即记忆保持的时间更久(Bjork，1994)。

迁移适当加工理论认为记忆成绩依赖于编码阶段与测验阶段被试认知加工的匹配程度。测验效应是由于最初测验与最终测验所需的认知加工的匹配程度优于重学与最终测验的匹配程度(Morris，Bransford，& Franks，1977；Roediger & Karpicke，2006)。

以上三个理论均从提取角度解释了测验效应。但是提取努力理论对“提取努力”的定义模糊，任务难度并不能完全作为“提取努力”的客观衡量标准。这可能会导致该理论在描述“提取努力”与完成任务所需时间的关系上与已有的记忆理论的观点不一致，其认为完成任务的时间越长，代表提取努力越大。而记忆提取的理论将“提取努力”定义为被试在完成提取任务时占用的认知加工资源，提取努力越大，完成任务需要的时间更短。此外，难度与提取努力之间并非总是线性关系(Karpicke et al.，2014)。必要难度理论虽对提取努力理论进行了补充，但仍没有明确给出“提取努力”的操作性定义(Bjork，1994)。总的来说，这些理论主要给出了测验效应形成的描述性理论框架，并未揭示测验效应的内部机制。

2.2 精细提取理论

Carpenter等人在记忆的激活扩散理论、提取努力理论及必要难度理论的基础上，提出了精细提取理论(Carpenter，2009；Bjork，1994；McDaniel & Masson，1985)。该理论认为提取会激活已储存的记忆内容，使被试联想到与靶子相关的语义信息，这些语义关联信息会得到精细编码。精细加工后的语义关联信息在随后测验中能够作为更有效的提取线索，因此测验项目在随后记忆测验中会更容易被提取(Carpenter，2009；Pyc & Rawson，2010；Carpenter，2011)。部分行为研究支持了该理论，例如，Carpenter(2009)使用具有不同语义关联程度的线索-靶子词对，观察到测验条件下弱关联词对能产生更明显的测验效应，而重学条件下语义关联程度对被试的记忆效果没有影响。Carpenter认为测验条件下，弱关联词对比强关联词对能够激活并精细加工更多的语义关联信息，而重学条件则不会出现这种精细加工过程(Carpenter，2009；Rawson et al.，2015)。该理论也得到了神经科学研究的支持(Rosburg et al.，2015)，但其仍存在一定的局限性，比如不能解释实验材料为空间图形(而非意义词)时观察到的测验效应(Carpenter & Pashler，2007)，并且难以解释提取诱发遗忘现象(Karpicke et al.，2014)。

而Karpicke等人对精细提取理论提出质疑，其认为语义关联信息会增加被试的记忆负担，干扰被试提取靶子(Karpicke et al.，2014)。假定精细提取理论成立，他们认为测验产生的记忆优势应等同于直接进行精细加工的学习条件。Karpicke等人通过比较测验与精细学习两种学习条件，发现测验条件下的记忆效果仍优于精细学习(Karpicke et al.，2014；Karpicke & Smith，2012)。此外，Karpicke等人让被试学习多个词表，测验条件下的被试能够更准确地回忆某个词表的项目，而精细学习条件下，被试在回忆某个词表时会掺杂更多无关词表的信息。由此，Karpicke等人认为测验与精细学习有本质区别，测验效应的内在机制并非测验能够激活并精细加工语义关联信息(Lehman et al.，2014)。

2.3 情景背景理论

Karpicke等人(2014)提出情景背景理论，该理论认为事件发生时的情景背景信息，尤其是时空背景或时间顺序信息(而非较为具体的颜色、字体、声音等背景信息)在随后提取过程中作为有效的提取线索，帮助被试完成测验任务。

情景背景理论有4个基本假设。首先，在学习阶段，被试对学习内容的项目信息，如语义、语音等信息，与事件发生时的时序背景信息，比如事件出现的时间、地点、序列位置等，进行编码加工(Lehman & Malmberg，2013)，并加以合并储存。随后，在提取阶段，被试将当前可用的背景信息作为提取线索，并与已储存的时序背景信息特征进行匹配，根据匹配程度来锁定搜索范围(包含要提取的靶子和某些干扰信息)。被试越精确地缩小搜索范围，成功提取靶子的几率越大。当提取线索较少时，如自由回忆测验，被试需要调整自身的提取策略，回想更多的时序背景信息来完成提取任务(Watkins & Watkins，1975)。在成功提取后，被试会更新已储存的项目信息及情景信息(Lohnas & Kahana，2014)。在随后的测验中，由于更新后的信息既包含学习阶段的时序情景特征也包含提取阶段特征，因此更容易与提取线索相匹配，从而增加提取线索的有效性，缩小搜索范围，有助于被试成功提取靶子信息(Lehman & Malmberg，2013)。

Bai，Bridger，Zimmer和Mecklinger(2015)在被试完成学习后，指导被试对一半项目进行最初测验或重学，记录此时被试的ERP，随后对所有项目进行立即测验，一天后对所有项目进行延迟测验。该研究使用了“相继记忆”范式，即根据随后记忆测验的成绩将编码阶段的项目分为随后记住与随后忘记，将两类项目的ERP差异称为相继记忆效应(Subsequent memory effect)。Bai等人采用该范式将最初测验的项目分为4类：最初、立即测验均记住而延迟测验忘记的项目(RF)，3次测验均忘记(FF)与均记住的项目(RR)。研究者分别对比RF与FF、RF与RR引发的ERP差异，得到成功提取效应与最初测验的相继记忆效应，观察到在刺激呈现后500～700 ms二者分布的头皮区域高度相似，并在左侧顶叶头皮区域均出现了LPC成分。Bai等人推测最初测验时出现了和成功提取相似的回想，由此支持了情景背景理论。

情景背景理论认为提取时被试进入一种情景回想状态，这是测验效应形成的关键(Karpicke et al.，2014；Karpicke & Zaromb，2010)。被试会根据提取的信息类型以及任务的具体要求采取合适的提取策略，改变对提取线索的加工方式，产生不同程度的情景信息回想。

情景记忆的相关研究将提取时被试进入的情景回想状态定义为“提取模式”，将提取过程中被试采取的提取策略定义为“提取方向”，并将“提取模式”与“提取方向”均归类于“提取加工”(Rugg & Wilding，2000；Mecklinger，2010；Herron & Wilding，2006；Morcom & Rugg，2012；Karpicke et al.，2014)。因此，情景背景理论启发研究者从“提取加工”角度解释测验效应现象，解决情景背景理论与精细提取理论的争论点。接下来我们将讨论“提取加工”与测验效应之间关系，并指出从“提取加工”的角度研究测验效应的方法。

3 测验效应背后的机制—情景背景理论的启示

3.1 提取模式与测验效应

如上所述，情景背景理论认为测验效应是因为测验时被试努力地回想先前学习阶段的时序情景信息，而在回想前被试需要进入一种情景信息回想的认知状态，即提取模式，而重学时被试不需要进行有意回想，该理论强调提取模式是测验效应形成的关键。一些行为研究通过操纵被试回想先前情景信息的程度，证实了提取模式与测验效应之间的关系。例如，Karpicke和Zaromb(2010)使用提取模式区分了测验效应与产生效应(指被试使用由线索最先联想到的词来完成的任务，如词干补笔任务，对随后记忆成绩的增强作用)。测验中被试需要有意回想先前学过的实验材料，而产生条件下，被试需要完成词干补笔任务(不需要有意回想)，结果显示有意回想条件下的最终测验成绩优于无意回想(Karpicke & Zaromb，2010)，该结果也得到了研究的验证(Pu & Tse，2014)。Karpicke等人认为测验条件被试需要积极提取学过的材料，而产生条件被试只需要根据已有的知识经验完成任务，二者的本质区别在于被试有没有进入情景回想状态，即提取模式。

值得注意的是，早在20多年前，Tulving指出提取需要满足两个先决条件，第一，进入提取模式中，第二，存在提取线索(Tulving，1983)。被试在提取模式中，回想和重构已储存的信息，这会促进对当前项目的加工，从而产生更好的记忆效果。尽管很早之前提取模式便被作为提取的一个重要因素，但是多年来并没有得到重视，因为我们很难区分提取模式与编码模式两种状态。直到20世纪90年代末，研究者应用神经科学的方法来考察提取模式(Rugg & Wilding，2000)。2014年Karpicke等人提出的情景背景理论，建立了提取模式与测验效应之间的桥梁，这启示我们借助于提取模式的神经科学研究方法来考察测验效应。

关于提取模式的神经科学研究方法，研究者通常首先要求被试识记学习材料，即学习阶段，随后对学习材料完成情景提取任务(需要回想先前的学习情景)或非情景提取任务(不需要回想)，并记录被试在完成任务时的脑电活动，将两种任务下被试的ERP差异认为是提取模式引发的神经关联。部分研究者要求被试对项目进行再认或回忆，如新旧判断、线索回忆测验等，将其作为情景提取任务，在非情景提取任务中要求被试对项目进行语义判断。例如，Duzel等人在被试学习一系列名词后，指导被试进入测验阶段。在不同Block中分别要求被试进行情景提取任务(新/旧再认判断)或非情景提取任务(生物/非生物判断)，并使用ERP技术记录被试在进行两种类型任务时的脑电活动。Duzel等人观察到相比非情景提取任务，情景提取任务下，被试的右侧前额叶头皮引发更正的脑电活动(Düzel et al.，1999，2001)。其他诸多研究使用相似的范式得到了相同的结果(Cabeza et al.，1997；Morcom & Rugg，2012)。

另外，一些研究者让被试回忆项目在先前学习阶段的编码任务或情景信息，将此作为情景提取任务。例如，Herron和Wilding(2006)在被试完成学习阶段后，指导被试进入测验阶段，首先呈现给被试两种符号中的任意一种，如“X”或“O”，提示被试进行不同类型的任务。两种符号分别对应情景提取任务(分为两种：回忆项目在学习阶段的空间信息或编码任务类型)和非情景提取任务(判断项目为可运动或不可运动物体)，并记录测验阶段被试的ERP。结果显示相对于非情景提取任务，情景提取任务下，在提示符号呈现后800～2300 ms，被试的右侧额叶头皮引发更正向的波形(Herron & Wilding，2006)。Evans，Williams和Wilding(2015)使用相似范式验证了该实验结果(Evans et al.，2015)。

在提取模式的神经科学研究方法及成果的基础上，最近我们实验室的一项研究借鉴提取加工的研究方法，使用ERP技术考察提取模式对测验效应的影响(under review)。首先被试在相同条件下学习两序列(List 1/List 2)单字，随后被试重学部分单字，对部分单字进行新/旧再认判断，对部分单字进行序列来源判断，记录测验时被试的脑电活动。最后被试需要对所有单字进行记住/知道/新再认判断。我们分别对比测验(新旧再认测验、序列来源测验)与重学条件下正确拒斥新项目引发的神经活动差异，来考察提取模式的神经关联。结果显示，在刺激呈现后300～500 ms时间窗口，测验条件下被试的额中央头皮能够引发更正P300，即出现早期的提取模式效应，且该效应与最终测验成绩成正相关，在一定程度上能够预测最终测验成绩。这项研究从提取加工角度来考察了测验效应的神经机制，这为我们使用电生理学方法考察测验效应的形成机制提供新的视角。

3.2 提取方向与测验效应

情景背景理论认为被试在参与不同类型的测验时，会根据任务要求(如不同测验形式)调整自身的提取策略，即改变提取方向，这使得被试对先前学习阶段的情景信息产生不同程度的回想。当前可用信息较少时，被试需要更大程度地回想编码阶段的情景信息，从而取得更好的最终测验成绩。已有多项行为研究考察测验形式与测验效应的关系。例如，Verkoeijen，Tabbers和erhage(2011)比较自由回忆、线索回忆与新旧再认测验三种测验形式下被试在最终测验中的记忆效果，结果显示，在保证一定正确率的前提下(避免测验过难，被试正确率过低)，自由回忆测验能够引发更为明显的测验效应(Verkoeijen et al.，2011)，此研究结果也得到了其他实验的证实(Smith & Karpicke，2014)。

提取方向影响测验效应的潜在机制一方面可能是提取线索偏向，即增加对提取线索的加工深度，以促进提取线索的内部表征与已储存的记忆内容的相互影响。另一方面可能反映了目标偏向，即直接作用于已有的记忆表征，调节其可获得性，而非作用于提取线索(Dzulkifli & Wilding，2005；Mecklinger，2010；Rosburg，Mecklinger，& Johansson，2011)。我们可以借助于提取方向的神经科学研究方法来考察测验效应。

先前研究主要通过两种方法来考察提取方向的神经关联。部分研究者操纵编码阶段(如使用不同的编码任务、改变编码的刺激类型等)，使用相同的提取任务，比较不同编码任务下在提取中正确拒斥新项目的神经活动差异(避免了提取成功造成的混淆)，来考察提取方向的神经机制。例如，Rugg，Allan和Birch(2000)操纵编码任务深度，如使用词汇造句或对词汇进行字母判断，测验时均使用新旧再认判断，记录此时被试的脑电活动，发现相对于“深编码”任务，接受“浅编码”任务的被试在刺激呈现后200～600 ms，其左侧前额叶头皮产生更正的脑电波。这种差异表明编码深度会影响被试在测验时采取的提取方向。“浅编码”条件下被试更多地回想先前的时空背景信息，从而增加与已储存的记忆内容的相互影响(Rugg et al.，2000)。

Robb和Rugg(2002)操纵编码的实验材料类型(词语和图片)，测验时呈现词语并指导被试进行新旧再认判断，即判断是否学过该词或词所代表的物体图片，记录被试此时的ERP。发现当编码材料为图片时，在刺激呈现后300～1800 ms，被试额叶、中央区与顶叶头皮均引发更负的脑电波。这说明被试会根据需提取的信息类型采取不同的提取方向。当要求被试判断是否学过词对应的图片时，被试需要对测验词形成图像表征，回想更多的时空背景信息，从而增加与已储存背景信息特征的重叠程度。

除此之外，另外一部分研究者使用相同的编码任务，变换提取任务要求(使用再认测验或来源测验；提取听觉信息或视觉信息；提取感知条件或想象条件下的词-图片信息)，比较不同的情景提取任务中被试引发的神经关联差异，来考察提取方向的神经机制(Herron & Rugg，2003；Hornberger，Rugg，& Henson，2006)。例如，Rosburg等人(2011)指导所有被试进行两种编码任务，呈现给被试词语和词语代表的物体图片或者仅呈现词语，要求被试想象词语代表的客观物体，从而将实验材料分为感知条件或想象条件的词-图片对。测验时均使用词并做两种排除任务：将某个编码任务的词作为靶子，按“旧”反应键，另一种编码任务的词和新词按“新”反应键，并记录测验时被试的ERP。研究者通过比较两种提取任务下被试正确拒斥新项目引发的ERP差异，发现当想象条件下的项目作为靶子时，在刺激呈现后的600～800 ms，被试的左侧前额叶头皮能够引发更正的脑电波形。这说明两种提取任务下，被试采取了不同的提取方向。当想象条件下的项目为靶子时，被试在概念水平加工测验词，更多依赖于项目出现时的情景信息(Rosburg et al.，2011)。

此外，Morcom和Rugg(2012)呈现给被试图片和词语(二者代表不同的客观物体)，并要求被试识记，测验时呈现词语并进行两种排除任务：将图片作为靶子，按“旧”反应键，词(非靶子)与新词均按“新”反应键；反之将词作为靶子，图片(非靶子)与新词按“新”键。Morcom等人使用fMRI(功能性核磁共振技术)扫描记录测验时被试激活的脑区，对比两种条件下非靶子的新旧效应，结果显示，当学过的图片为靶子时，非靶子在左侧顶叶腹侧头皮有更明显的新旧效应。而当词为靶子时，左侧顶叶腹侧区域没有出现该效应。这说明被试会根据要提取的信息类型调整提取方向，当学过的图片为靶子时，被试主要加工线索的图像特征，回想先前学习时的情景背景信息，这不可避免地对非靶子信息也会产生回想。

已有一些研究证明了提取方向对测验效应的影响。Karpicke等人在一个行为研究中，通过比较不同的最初测验形式(精细学习，新旧再认判断，来源再认测验)考察了提取方向对测验效应的影响(Karpicke et al.，2014)。结果发现两种测验比精细学习有更高的记忆准确率，同时，来源再认比新旧再认在最终测验中有更好的记忆表现。基于提取方向的研究方法，我们实验室最近的一项研究(under review)对比了两种最初测验形式，即新旧再认判断与来源再认时，被试正确拒斥新项目引发的神经活动，将此差异作为提取方向的神经关联，并将其与两种测验形式下的最终测验成绩进行相关分析，结果显示，在刺激呈现后的500～900 ms，被试的中后部脑区引发的脑电波可以预测两种测验条件的成绩，表明了提取方向对测验效应的影响。

4 总结与展望

多数理论从提取角度解释测验效应，早期理论主要为测验效应提供了描述性理论框架，指出任务难度、最初测验与最终测验的时间间隔等是测验效应的影响因素，并未解释测验效应的内部机制。而最新理论(精细提取理论与情景背景理论)尝试解释提取中被试的认知加工过程，但对于语义关联信息激活是否是测验效应内在机制仍存在争议。解决理论间冲突点以及对测验效应本质的考察仍需要脑机制方面的研究。目前仅有少数研究使用fMRI或ERP技术，发现测验条件下能够产生更多的回想成分，如更正的左侧顶叶新旧效应，或激活颞叶中回，尤其是海马(与语义联想相关)、额叶下回、中脑(与认知控制相关)等脑区(Eriksson，Kalpouzos，& Nyberg，2011；Hashimoto，Usui，Taira，& Kojima，2011；van den Broek，Takashima，Segers，Fernández，& Verhoeven，2013；Wing，Marsh，& Cabeza，2013；Bai et al.，2015；Rosburg et al.，2015)。

少数研究者如Rosburg、Bai等人使用指示回想的神经活动，如LPC，来考察测验效应。虽然回想被认为反映了加工或表征的复原，但根据此成分仅仅能够反映测验效应的结果，而不能完全反映测验时出现的具体认知状态或加工。未来研究可以直接观察提取模式(对比测验或重学)，提取方向(比较不同形式的测验)时被试的脑电活动或激活的脑区，如前额叶，从而考察测验效应形成的内在认知状态与加工。

精细提取理论从精细化加工角度解释测验效应，但Karpicke等人认为语义关联信息会干扰提取，Karpicke等人依赖于行为数据发现测验条件的记忆效果优于精细学习(要求被试对已有概念构建逻辑图或联想关联词)(Karpicke & Blunt，2011；Karpicke & Smith，2012)。未来研究可以进一步考察测验与精细学习条件下被试认知状态上的差异。研究者可以结合提取模式的神经科学研究方法，对比测验与精细学习两种任务下被试的神经活动差异，将该差异与最终测验成绩的行为指标进行相关分析，得到测验与重学时神经活动的差异对记忆成绩的预测程度，以考察提取模式与测验效应的关系。

研究者发现学习条件(测验、重学)与测验的时间间隔(最终测验为即时测验或延迟测验)之间存在交互作用。例如，Roediger和Karpicke(2006)发现当最终测验为立即测验(与最初测验间隔5分钟)时，重复学习的成绩优于测验条件。而当最终测验为延迟测验(与最初测验间隔1周)时，测验条件成绩优于重复学习(Roediger & Karpicke，2006)。情景背景理论认为这种交互作用是由于即时测验与延迟测验需要被试进行不同程度的情景回想(Karpicke et al.，2014)，该理论认为相比即时测验，延迟测验依赖于更多情景信息表征或复原。因此，未来研究可以使用相继记忆范式，对比即时测验与延迟测验的项目在最初测验时引发的神经活动。如果延迟测验的项目产生的相继记忆效应比即时测验更明显，则说明延迟测验的项目在最初测验中能够引发更强的与情景信息加工相关的神经活动，这样就可以支持情景背景理论对这种交互作用的解释。

标签：信息加工理论论文; 语义分析论文; 信息加工论文;

测试效果的内在机制_信息加工理论论文

猜你喜欢