现代西方学习心理学赏罚观探析,本文主要内容关键词为:学习心理学论文,探析论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
提 要 本文系统地探讨了现代西方学习心理学关于奖励和惩罚的观点和研究,指出联结派学习理论强调的是外部奖惩对学习的影响,认知派学习理论强调的是内部奖惩的效果,对两派的观点进行了评论,并指出未来研究的方向。
关键词 联结派 认知派 赏罚观 强化
奖励与惩罚是否对学习有影响,有什么样的影响,是否是学习所必须的等问题一直是学习心理学家非常关心的问题。虽然不同心理学家对此问题的观点各不相同,但笔者认为仍可归属于联结派和认知派两大范畴之内,只不过两派各自的侧重面不同而已,联结派注重外部奖励或惩罚的效果,认知派则关注内部奖励或惩罚的效果。但整体说来,赏罚的研究和论述贯穿了各自的体系中,因此,从某种意义上说,现代西方学习心理学实质上就是一部关于赏罚效果的心理学。本文试图挖掘两派关于赏罚的合理内核,使有关赏罚的零散的研究和论述系统化,为建立新型的学习理论和开展这方面的研究提供理论指导。
一、联结派学习理论的赏罚观
从桑代克、巴甫洛夫到华生,从赫尔到斯金纳,几乎所有联结派学习理论家都强调奖赏或称强化在学习中的价值,把奖赏(强化)信奉为无所不能的法宝,认为可以根据个人的强化史来分析任何行为。这一思想在斯金纳的体系中达到了顶点,因他卓越的研究使他成了这方面无可争辩的代言人。因此,本节我们以桑代克和斯金纳为代表分析联结派的赏罚观。此外,还将分析联结派中一种与众不同的赏罚观——格思里的观点。
联结派的早期代表人物桑代克的赏罚观实质上就是他最重要的学习律:效果律。他的效果律包括奖赏律和惩罚律,而且对效果律的理解分为早晚期两个阶段。早期的观点是:凡是一种刺激——反应的联结产生的是满意的反应,则学习者乐于重复这种反应(奖赏律);反之,凡是这种联结引起的是烦恼的反应,则学习者力求避免这一反应(惩罚律)。桑代克所谓的满意的反应就是指奖赏,烦恼的反应即是惩罚。换言之,赏即导致反应概率的增加,罚则使反应概率下降或中止反应。他说:“在对同一情境所做的若干反应中,那些伴随着或紧接着使动物满意的事态发生的反应中,在其它条件相同的情况下,将会与该情境更加牢固地联结,……那些伴随着或紧接着使动物不适的事态发生的反应,在其它条件相同的情况下,将会削弱与这一情境的联结。”〔1 〕而且满意或不舒适的程度越高,刺激——反应联结就越加强或越减弱。”〔2〕
关于赏罚的效果,桑代克还有一个副律,用来说明时间的进程及对情境反应的注意情况对学习的效果发生作用。他说:“在其它条件相同的情况下,同一程度满意之感,对于两秒之前所形成的联结会比两分钟之前所形成的联结发生更强的作用,——对于曾经密切加以注意的情境和反应之间的联结,会比对时距相同而未加以注意的系列发生更强的作用。”〔3〕在这里, 他实际上看到了即时强化和延时强化的不同效果,只是没有明确提出罢了,但这种区分对后来关于强化效果的研究产生了极为深远的影响。另外,他也看到了注意对学习的作用,这一点也是值得肯定的。
但到30年代初期,由于其它研究者和他本人的研究使他不得不重新认识赏罚的效果。1932年他用小鸡做的一个实验结果显示给一个联结的奖赏总是真正加强这个联结,给予惩罚则几乎不削弱或一点也不削弱这个联结。以后,他以人为被试所做的实验获得相同的结果。据此,他改变了早期的赏罚观,更多地强调奖赏,而不大强调惩罚对学习的影响,抛弃了效果律的一半——惩罚律。修正后的效果律可概括为:“奖赏增加联结强度,但惩罚无法强化联结。”这一发现至今仍有深远的含义,他的惩罚观与我们几千年来的常识是背道而驰的,但对我们有着莫大的启示,尤其是当我们在学校教育、子女教养及行为改变等方面感到惩罚的无效时,我们是否应当对这种千百年来一直运用的方法进行反思,从而去深刻领会桑代克的惩罚观的深远的教育含义呢?
斯金纳把强化对学习的作用推到了极为重要的地步,把强化做为他的学习理论的基石和核心,因此,有人称他的学习理论为学习的强化论。他认为任何学习(行为)的发生、变化都是强化的结果,要控制人的行为,就要设法控制对行为的强化。他说:“要保持行为的强度,就必须强化”。〔4〕他的思想可高度概括为:一个操作发生后, 接着就给一个强化,其强度就会增强。
斯金纳对强化的理解是独到的,他以一种相当操作性的方式来界定强化的,他认为凡是可以提高反应概率的任何刺激都可以起强化作用。换言之,刺激所强化的不是特定的反应或有机体本身,而是同类反应将来可能出现的概率。他区分了两类强化:正强化和负强化。这里特别要指出是负强化,因为有些人容易把负强化视为惩罚,这是违背斯金纳原意的。他的负强化是当某种刺激在有机体做出一个操作反应后消失,反应概率增加,这种刺激即是负强化物它产生的作用称负强化。它与在一定反应之后呈现讨厌刺激使反应概率降低或中止的惩罚是不同的。
斯金纳还区分了强化的两个来源:一级强化物和二级强化物。这种区分对理解、解释和控制人类复杂的行为是很有意义的。人类绝大多数行为并不象动物行为那样直接去获取一级强化物,人类可以间接地获取二级的、甚至三级的强化物来满足某种需要,这也是人类的高明之处,虽然高等灵长类动物具有形成二级强化的能力,如黑猩猩获取餐票取食的实验,但与人类复杂多变的社会行为比较而言,动物的这种“复杂的行为”又显得是何等的简单,因此,一、二级强化的划分对理解人类行为是入术三分、富有启迪的。
斯金纳对强化的第二方面的研究是强化的程式。他在这方面的研究如此卓越,以至有人认为这方面的研究是他对心理学最大的贡献。 〔5〕他对强化程式的关注是基于他对现实生活中的强化并不总是一致的或连续的观察。他指出:“由于不可能做到强化每一个反应来控制行为,因此,在工业和教育方面,几乎都是以间歇强化为其特征的”。〔6 〕他详细研究了两种主要的间歇强化:间隔安排和比例安排。每一种安排又以固定和可变两个维度各分成两种,即固定间隔、固定比例、可变间隔和可变比例四种强化程式。研究结果指出在固定间隔强化中,强化之间时间间隔越短,反应率越高;反之,则越低。固定比例强化比定时强化产生较高的反应率。以后的研究和实践证明对强化程式的研究具有重大的理论意义和在教育、行为治疗等方面广阔的应用前景。他的程序教学思想实质上就是他的强化论在教育领域中的应用。
同强化一样,斯金纳是根据结果来界说惩罚的,强化是增加反应概率,惩罚是抑制反应的概率。他说:“惩罚是依据一个人被惩罚之后,比较不可能再以相同的方式表现该行为的假定而设计的。因此,它被设计成可以从某项事件或情境中移走笨拙、危险或是其它不被喜欢的行为”。〔7〕他区分了两种惩罚,一种是呈现厌恶刺激,如电击; 一种是取消正强化,如罚款。根据他和他的学生埃斯蒂斯的研究得出的结论是:“相对来说,惩罚不是使行为产生任何永久性变化的有效手段。……虽然惩罚仍然有力量,对行为确有抑制性影响,但除去惩罚之后,原先的反应又会恢复,且在消退过程中发生的反应数量与未受惩罚的反应一样多。”〔8〕与此同时,惩罚还可能会引起攻击行为之类的副效应, 因此,对于惩罚,斯金纳总的观点是反对的,不到万不得已时不使用惩罚。其主要原因是惩罚最终是没有效果的,给予惩罚只能压抑行为,当惩罚威胁消失时,行为出现的次数又回到原来的水准,而且,惩罚只能使人注意那些被惩罚的不良行为,惩罚本身不能提供任何适当行为的信息。
席尔斯、麦考比、李文(Sears,Maccoby,Levin,1957 )研究了379名新英格兰效区的母亲如何抚育她们从出生至6岁的子女,得到了与斯金纳类似的结论:“长期以来,把惩罚当作一种技术,藉以消除某些行为是无效的。”〔9〕
然而,从斯金纳整个思想体系中可以发现,在惩罚问题上,他的观点有点矛盾,一方面反对惩罚的合理性,另一方面又不否认惩罚在矫正行为方面所起的作用。这是其一;其二,对他的关于惩罚暂时有效、长期无效的观点做进一步分析,可以得出正强化也是无效的结论,因为正强化产生的效果也是暂时的、不持久的,随着正强化的消失,反应也会随之消退。所以,有人认为斯金纳的强化原理是桑代克效果律的翻版。我们认为这种观点是值得商榷的。在桑代克那里,强化是用来解释刺激——反应联结加强的一条主要原理,而在斯金纳看来,强化只是某个用来描述反应概率增加的术语,如何安排强化才是核心所在。关于惩罚,斯金纳和桑代克后期的观点基本相同,但不完全相同,桑代克否认惩罚的效果,而且主张不把惩罚做为一种控制行为的技术。而斯金纳虽然否认惩罚的整体效果,但还是把它做为行为矫正的有效的技术。
本世纪30年代以前,几乎所有的联结派学习理论家都强调强化或奖励的作用,但格思里却独树一帜,毕生都坚持认为学习本身是一个比较简单的过程,形成刺激——反应联结只需暂时的邻近就足够了,无须求助于强化,桑代克的效果律是完全不需要的。在格思里看来,如果说强化影响学习的结果的话,那只是强化是一种机械性的安排,没有新东西加入联系性学习中。强化作用仅仅改变了刺激条件。如在迷箱里,猫在它得到增强物之前所做的最后一件事是移开门栓,结果就可以从箱里逃出。因为受到奖励的反应总是最后出现的反应,之后再也没有对那个器官上的刺激产生干扰性反应使之代替最后(正确的)反应的机会。因此,奖励并没有加强行为,它只是保护行为,使之不致于对相同的刺激形成新的联系。由于导致奖励的行为是问题情境中最后一个行动,即奖励和反应最接近,所以当同样的情境下次再出现时,这个行动(反应)最利于复现。
关于奖励,格思里还有一个观点必须要指出,那就是他的关于强化作用的某些“预期性奖励”的解释。他说:“……,不仅一般的吃食运动常常由饥饿性肌肉收缩引起,而且为特殊性质的食物所需要的特殊运动也可能出现。因此,当白鼠走迷津时,它对任何奖励物,如葵花籽、谷物等已有了准备,因为这些食物都是它曾经吃过的。”这种预期性奖励的观点与行为主义强调客观的精神是格格不入的,因此,立刻引起争议,也是他的观点经常受到攻击的原因之一。由此,我们可以看出,用行为主义的观点来理解奖励已显得力不从心了,这一学派本身的解释力的缺乏隐含着另一理论必将取而代之,这是学习理论也是所有其它理论发展的必然趋势。
格思里关于惩罚也提出了独到的,却又是十分有趣的见解,他说:“坐在钉子上并没有阻扰学习。它鼓励做出坐以外的其它的反应。由惩罚导致的特定反应决定了学习的内容,而不是由惩罚引起的不舒服的感觉来决定学习。训练狗跳过铁环时,有效的惩罚有赖于惩罚应用的部位是前面或背部。惩罚的目的是使狗做该事项,或要求人做所要做的,而不是要人有所感受。错误的观念是感觉决定了源自事实的学习,常忽略了我们所表现的才是惩罚的结果,只要求所表现的行为破除或抑制不想要的行为就可。”〔10〕。格思里有许多轶事性证据支持他的惩罚观。但直到1963年才由福勒(Fowler)和米勒(Miller)用严密的实验证实了他的惩罚观,实验发现在其它条件相同的条件下,电击白鼠的前爪或后爪对白鼠的奔跑速度有显著不同,电击后爪比电击前爪使白鼠跑得更快,因为白鼠对后爪电击的反应是向前奔跑。
由此可以看出,虽然格思里公开否认效果律,但从以上的分析中还是可以看出,他还是承认奖励与惩罚的效果的,只不过对赏罚产生作用的机制有不同的理解而已。但不管是哪一位联结派的学习理论家,他们承认和研究的仅仅是强化的一半——外部强化,注重的仅仅是强化对行为的修正价值。但一些心理学家发现仅用外部强化还不足以解释和控制所有的学习行为。因此,他们提出了与联结派完全不同的赏罚观,他们不仅注重强化对行为的修正价值,更注重的是强化的信息价值,这便是认知派学习理论家的观点。
二、认知派学习理论的赏罚观
现代认知派学习理论源于本世纪初产生于德国的格式塔心理学,格式塔心理学家认为学习就是知觉重组或认知重组,是通过顿悟而实现的,随着顿悟的出现,学习者常出现一种兴奋感,产生一种令人愉快的体验,他们认为这种体验是人类所具有的最积极的体验之一,它的功效是各种外部奖励望尘莫及的。虽然他们反对运用糖果、金钱等外部的奖励来驱动学习,注重学习者因顿悟而获得的内在体验(内部强化),但他们并不否认在没有其它诱因动机时,在不可能用顿悟的方式来理解学习时,给予外部奖励也是未尝不可的。这种注重内因而又不否认外因的赏罚观带有一定的辩证法,但并不彻底,而且没对内部强化做进一步的分析,它是如何影响学习的解释是笼统的,缺乏可靠的实验的支持。
现代认知心理学的鼻祖托尔曼对赏罚的观点类似于格思里的观点,是反对效果律的。他相信,事件之间的相互关系的学习是由于同时经历这些事件的结果,伴随的奖励和惩罚是不必要的。虽然如此,但在他的实验中却不时地运用各种奖励以促进动物的学习。这是否有矛盾呢?我们认为这并不矛盾,他反对的是奖励或惩罚对学习有直接的促进和抑制效果,但并不否认由奖惩提供行为的信息而产生的间接作用,因为奖励部分地决定了受试注意或强调什么刺激,它成了一种报告信息的符号,帮助受试选择特殊的事件予以注意、练习和学习。这种奖励导致被试注意变化的观点在1982年由认知心理学家埃森克(Eysenck )的研究中得到了证实。〔11〕
在托尔曼的文献中,他用了一个与联结派的“强化”有异曲同工之妙的“确认”或“证实”一词, 托尔曼的学生廷克尔波(Tinklepaugh)著名的奖励预期的实验和爱略特(Elliot)的实验发现。如果动物预期的特定食物得到证实,动物的学习发生更快、成绩更好。这实质上就是说特定的食物强化了某一预期,但与联结派的强化又不完全相同,联结派认为强化的是特定的行为或反应,而不是预期。托尔曼的赏罚观还有另一层含义,即奖励可使学习转化为操作,这在他著名的潜伏学习的实验中得以表现。没有奖励学习仍然可以进行,只不过没有表现出外显的实际操作,当给予奖励时,操作成绩得到明显的提高。因此,在托尔曼看来,奖励只是行为表现的变量而不是学习的变量。
现代认知派的学习理论家也是十分关心赏罚问题的。从总体上看,他们也是反对效果律的,认为效果律无法充分解释学习,它致命的弱点在于试图以简单描述有机体的反应及事件,来说明复杂的学习现象,没有考虑到在学习过程中必然会发生的内在的信息处理。结果是在解释复杂的有机体的真正行为时必然会遇到不可克服的困难。
我们知道,桑代克的效果律认为伴随的奖励和惩罚会自动地、无意识地加强或减弱反应,而认知派的理论家认为学习大多是一个有意识的认知过程,而不是一个径直的、无意识的过程,奖励和惩罚之所以影响学习,主要是由于它们“通知”了被试使他们懂得应当注意、复述学习过的东西,即提供了行为的有关信息,通过影响被试的心理过程而作用于学习结果的。用他们的话来说,就是赏罚具有信息反馈作用。现代认知派学习理论家诺尔曼(Donald A Norman )直截了当地把“信息反馈”做为他的三条学习律之一(另两条规律是因果关系律和因果学习律)。虽然认知派学习理论家视赏罚为一种反馈,但并没有把两者划上等号。赏罚必须是加强或削弱某些东西,而反馈在于进行比较和检验,这是区别之一;其二,赏罚是一种刺激,而反馈可能是刺激,也可能是信息;更主要的区别是以往的心理学家认为赏罚对有机体具有“驱力还原”的价值,而反馈主要是提供行为的信息价值。
因此,认知派学习理论家是以一种全新的方式理解赏罚的,从联结派关心赏罚对行为结果的影响转变到关心赏罚对行为过程的影响上,这与现代认知心理学对学习的理解是不谋而合的。既然认为学习是一个认知加工过程,那么赏罚做为影响学习的变量之一在对学习发生作用前必然要经过一个个体的认知加工过程。
另外,认知派强调学习的内在动机,在具体到赏罚效果问题时,实质上成了赏罚对内在动机是否有影响,是如何影响的。蒂西(Deci)无疑是这一领域的代言人。他于1971年以大学生为被试进行了一项经典性研究,结果发现进行一项本来很感兴起的活动而得奖的被试当失去了得奖机会后,从事该活动的动机水平显著降低,即是说外部的奖赏削弱了内部动机。蒂西对这一结果的解释是,外部的控制,产生了一种行为的他人决定感,因而降低自信感,或称行为的自我决定感,这正是与内部动机相联的一种内部奖励,从而导致了内部动机的降低。换言之,外部奖赏改变了行为的可见动因,从而削弱内部动机。但后来的一些研究发现外部奖励对内在动机的影响并非这么简单,它与被奖赏者的性别、人格特征(内控、外控)、环境因素、奖励给予者对奖励的某一作用的强调等因素有关。因此,要分析外部奖励究竟产生什么样的效果,须针对受奖的具体情况具体分析。现代认知派学习理论这方面的研究比较薄弱。
在现代著名的心理学家中,班都拉是一具颇有争议的人物,人们对他的社会学习理论态度不一。有人(L.A.Pervin,1975 )把它归入新行为主义行列;有人(邵瑞珍,1987)称之为认知行为主义,称班都拉为稳健派行为主义者,但更多的人(G.H.Bower,E.R.Hilgard,1987;B.R.Hergenhahn,1988)视之为认知理论。 笔者认为最后一种观点比较合理,因为班都拉特别重视观察学习、认知过程和自我调节所起的作用。而且,他对行为主义一直持高度批评的态度:“忽视了认知功能是引起人的行为的决定因素之一。人是有思想的有机体,具有给自己提供某种自我指导的潜能。”
在赏罚问题上,班都拉对传统的效果律是持批评意见的,至少,认为效果律是不完全的。他说:“假如行动全然由外在报酬和惩罚所决定的,那么人的行为将象墙头草,在不同的向度不断地改变,以顺应随时会侵犯到他们的影响力。他们将表现为没有原则个体的败坏举动或令人尊敬的正义者,以及大方地行动自由者或独断的权威者。”〔12〕。显然,在班都拉看来,人类的行为除了受到由他人对行为者的强化(外部强化)影响外,更主要地受到行为者本身对自己的强化(自我强化)的影响。自我强化的过程是根据自定的行为标准对自己的行为进行评价,其心理实质是自我效能感的变化。自我强化和自我效能感两者相互影响构成人的自我调节系统,该系统使人选择适合目标,根据自定的标准对自己的行为进行评价和强化。因此,自我强化涉及到行为标准的问题,这一标准不是个体凭空确定的,而是个体在长期的学习过程中通过内化获得的。
即使在外部强化方面,班都拉的理解也是独特的,除了一般所理解的含义外,还有另一层含义,即替代强化。它是指在通过观察习得的无数反应中,看到示范者获得积极效果的那些行为比看到示范者获得消极后果的那些行为更容易表现出来,这一观点在他的一系列“宝宝玩偶”的实验中得到了很好的证实。当然,替代强化的效果也受到示范者与学习者的相似性、示范者的特征等因素的影响。
可以说,到目前为止,班都拉关于强化的论述是最全面、最深刻的。他既承认外部强化,但更强调内部强化,把两者结合起来,突出行为变化的内因,闪烁着辩证法的火花。但它比格式塔理论隐含的辩证法更加彻底,而且,去掉了格式塔理论的神秘色彩。此外,他把蒂西的研究推向深入,蒂西的研究停留在外部强化对已有内在动机的影响上,而班都拉探讨了内在动机从无到有的过程,注重外部强化来提高内在动机具有深远的理论意义和现实意义。
三、一个简短的评论
上述分析表明联结派和认知派学习理论家对赏罚问题确实进行了卓有成效的研究,由此也可看出,效果律经历了一个长期的、多波折的过程,即使在30年代前,大多数心理学家视之为学习的基本规律,但仍有部分心理学家持否定的态度,就连首次提出这一规律的桑代克本人也是在不断修正自己的观点。随着认知派的出现与兴起,这一规律受到了更多的攻击,成了认知派学习理论家的众矢之敌。但是即使在认知派内部,不同心理学家的观点也是有分歧的,各研究者的侧重点也各不相同。班都拉的观点虽然得到很多人的赏识,但他的理论也不是无隙可击的,比如说奖励与惩罚发生作用的中介机制——自我效能感的含义还须进一步澄清,它与行为结果的关系尚待进一步检验。由此看来,想用一个简单的规律来概括赏与罚的效果似乎是不可能的,或者说还为时尚早。以赏罚为形式的动机影响对行为发生的作用是多种形式的,迄今为止,对这些作用的形式还缺乏足够的了解。因此,不应简单地问“奖励或惩罚会提高成绩或操作吗”?这样的问题是毫无意义的,但我们必须认识到奖励或惩罚在信息加工的本质上产生了质的变化,这些变化的一些方面会促进任务操作,而另一些方面则会削弱任务操作。因此,把握赏罚导致操作变化的方式和条件是未来这一领域研究的重点和方向,也是建立新的效果律的基础,如果有人有意建立什么规律的话。
虽然,关于赏罚的效果在理论上远没有达成共识,但这并没有妨碍人们在实践中把赏罚做为控制行为的手段而加以应用。事实上,从家庭到学校,从厂矿到企业,我们社会的各个阶层都在广泛地应用着这一手段,以激励或控制人们的各种行为。但这些手段是否都达到了预期的效果是大为值得怀凝的。我们的观点是,在没有透切把握赏罚产生作用的方式前,我们对此应持十分谨慎的态度,必须认真分析受奖(罚)者的特征,对赏罚的认知,对赏罚给予者的态度以及赏罚的具体环境等。
收稿日期:1997年4月7日
注释:
〔1〕E.L.Thorndike,Animal Intelligence;New York,Macmillan,1911,第244页。
〔2〕〔5〕转引自施良方著《学习论:学习心理学的理论与原理》,人民教育出版社,1996,第35页、124页。
〔3〕E.L.Thorndike,Educational Psychology,Vol.1, The Original Nature of Man,New York,Teachers College,1913, 第127—128页。
〔4〕转引自宋占营著《学习理论的新设想——认知联结说》, 天中学刊,1995年增刊,第66—70页。
〔6〕B.F.Skiner,Science and Human Behavior, New York,Macmillan,1953,第99页。
〔7〕〔9〕〔10〕〔12〕王文科等译,B.R.Hergenhahn著《学习心理学:学习理论导论》。五南图书出版公司印行,民国七十八年, 第116页、118页、261页、404页。
〔8〕邵瑞珍等译,G.H.Bower,E.R.Hilgard著《学习论:学习活动的规律探索》,上海教育出版社,1987,第301页。
〔11〕刘春著,“现代认知心理学关于动机与奖励的研究”,心理科学通讯,1988,6(56)第56—60页。
标签:心理学论文; 桑代克论文; 斯金纳论文; 认知学习理论论文; 动机理论论文; 社会学习理论论文; 认知过程论文; 强化学习论文;