基于强化学习视角的情绪调节研究及展望

于腾旭刘文刘方

(辽宁师范大学心理学院，大连 116029)

摘要情绪调节在强化学习视角下可以被视为旨在达到预期情绪状态的一系列行为决策过程。为进一步探究强化学习视角下的情绪调节内在过程和计算机制，首先要理解评价在情绪产生和调节过程中的重要作用，一些研究者基于此构建了与评价相关的情绪及情绪调节过程模型。此外，强化学习视角下的情绪调节过程和机制的未来研究应考虑如下方向：(1)基于强化学习视角进一步探究情绪调节分类及动态变化; (2)探究强化学习视角下情绪调节过程的脑网络整合(而非单一脑结构或回路)机制; (3)人工智能研发采用去模块化理念处理情绪与认知等其他成分的关系。

关键词情绪调节; 强化学习; 展望

1 引言

情绪调节是个体通过改变自身情绪体验的强度、持续时间和品质等来改变情绪反应的过程(Gross, 1998)。自这一概念提出以来，越来越多的行为以及神经科学研究将情绪调节作为核心问题来探讨，有证据显示，在2002至2012年这段时间，有关“情绪调节”的研究数量有了近40倍的增长(Gross, 2013)。当前对情绪调节的研究有两大趋势，一是由有意情绪调节转向自动情绪调节(高伟, 陈圣栋, 龙泉杉, 杨洁敏, 袁加锦, 2018)，并且通过各种内隐情绪任务探究其特征及神经机制(Gallo, Keil, McCulloch, Rockstroh, & Gollwitzer, 2009; Yuan, Ding, Liu, & Yang, 2015; Yang, Tang, Gu, Luo, & Luo, 2015; Urbain, Sato, Pang, & Taylor, 2017); 二是深入探讨情绪调节与各类精神病理问题的关联(Aldao, Nolenhoeksema, & Schweizer, 2010)，一些研究者甚至将情绪调节障碍列为多种精神病症的共性风险因素(Fernandez, Jazaieri, & Gross, 2016)。但一直以来，对情绪调节内在决策过程及计算机制的研究还相对较少，而强化学习这一视角为我们进一步理解情绪调节的内在过程及机制提供了一种可能性。

基于强化学习理论，个体要根据刺激对自己有利还是有害而持续不断地做出选择，并且因预测偏差而不断修正各个选择的效价估计进而影响其后续行为。在这一视角下，情绪调节同样可以看作一系列行为决策过程(Etkin, Büchel, & Gross, 2015)。要进一步解释情绪调节的决策计算过程，首先要理解评价在情绪产生及调节过程中的作用。在Gross等人先前提出的情绪产生模型中，评价处于情绪线性过程的第三阶段; 而在其情绪调节过程模型中，有情境选择、情境修正、注意分配、认知改变以及反应调整五种调节方式，评价过程对应于认知改变(Sheppes,Suri, & Gross, 2015)。之后他们又在评价理论视角下进一步提出情绪调节的扩展过程模型-WPVA模型，这一模型更加强调评价在情绪以及情绪调节过程中的核心作用并且将情绪调节过程模型整合进来(Gross, 2015)。在此基础上，Etkin等人在强化学习视角下深入分析了情绪调节过程，并探究了其计算实现机制并将情绪调节视为一个决策过程模型(Etkin et al., 2015)。理清强化学习视角下的情绪调节过程对我们深入分析情绪调节分类及动态变化性有着积极意义，当前研究已经逐渐从单维度模式(如内隐/外显)转向多维度模式(如内隐/外显以及自动/控制)(Braunstein, Gross, & Ochsner, 2017)。此外，如何从神经层面为强化学习视角下的情绪调节模型提供支持是未来研究需要解决的，基于Pessoa提出的脑网络整合系统理论(Pessoa, 2017a)，应从脑全局网络而非单一结构或回路的角度对其进行解释。进一步地，情绪调节过程同样对人工智能设计有着一定启发作用，模块化思路或更具体来说，将情绪与认知分离的做法已经越来越不能满足人们对人工智能的需求，去模块化设计(情绪-认知整合)是未来人工智能的新方向(Pessoa, 2017b)。

2 评价与情绪调节

评价与强化学习理论有着密切关联：个体需要对行为决策价值进行评价并通过预测偏差来加以修正。但在以往很长一段时间中，对评价和情绪调节两个主题的研究处于相对分离的状态，少有学者对评价在情绪调节中的作用进行探究(Smith & Kirby, 2011)。因此探究强化学习视角下的情绪调节，可先从理论上整合评价与情绪调节，而情绪产生与情绪调节又是不可分割的统一整体，因此，需要对评价与情绪产生以及评价与情绪调节的关系作分别探讨。

2.1 情绪产生评价模型

评价理论关注某一情境对个体的意义所在。例如，阿诺德的情绪认知评价理论认为，外界刺激唯有经过个体评价才能诱发情绪(Arnold, 1960)。而拉扎勒斯进一步将阿诺德的评价扩展为评价以及再评价过程，认为每种情绪都包含有生理、行为以及认知三种成分，并且必须通过个体对情绪刺激的评价以及引发的身体反应而得到(Lazarus, 1993)。而在这些评价模型的基础上，Moors (2013)加入了情绪的五种评价维度，如图1所示：情绪评价包含相关性、效价、可能性、代理性以及应对潜力五种维度。

1971年，Cattrall[2]首次直接将含有难溶盐的聚合物涂覆于铂丝表面，取消内充液制备了全固态离子选择性电极(ASS-ISEs)。1997年，Pretsch等[3]进一步提出了离子通量的问题，推动了全固态电位传感技术的研究。全固态离子选择性电极不含内充液，有效避免了离子通量对电极膜层的影响，具有检测限低，易于微型化设计等优点。在最近十余年中，全固态电位传感技术得到快速的发展，目前已在环境现场检测[4]、农药残留快速检测[5]、疾病自诊断[6]和可穿戴设备[7]等方面已展示了它的优越性。因此，本文对近十余年中全固态电位传感技术的发展状况做一简单介绍。

图1 情绪产生评价模型
(改编自Yih, Uusberg, Taxer, & Gross, 2018)

其中，相关性指某一情境对个体当下目标的重要性程度(Smith & Lazarus, 1990); 效价指某一情境对个体的积极或消极程度，基于的是该情境的相对(非)愉悦性和动机一致性程度(Smith & Ellsworth, 1985); 可能性包含对当下情境的确认性、未来期望以及该情境在未来的可变性(Roseman, 2013); 代理性包含问责、责任心以及因果归因(Smith & Ellsworth, 1985; Smith & Lazarus, 1990); 最后应对潜力指个体已有的应对方式，不管是改变还是适应当下情境(Smith & Lazarus, 1990)。基于这五个维度，个体对每种刺激进行评价进而做出相应的情绪反应。结合强化学习理论，可以认为个体通过这五个维度对每种情绪反应的奖惩效价进行评估，并通过实际结果与预期结果间的预测偏差来调整该情绪反应的决策价值进而对接下来的评价过程产生影响。

3.1.1 无模式情绪调节

评价模型为进一步从强化学习的视角解释情绪调节奠定了基础。从强化学习的角度来看，情绪调节可以被认为是旨在达到预期情绪状态的一系列行为决策。每种情绪调节行为均有其决策价值并且可以通过一些预测偏差(预期情绪状态和实际情绪状态之差)来得到修正。每种调节行为还存在其执行代价。这意味着其决策价值不仅包含结果效价还有执行代价。此外，强化学习算法还包含两类决策控制：无模式控制和基于模式的控制，接下来我们从这个分类角度具体加以探讨。

2.2 情绪调节评价和过程模型

3.1.2 基于模式情绪调节

WPVA过程模型能够帮助我们更好地理解情绪与情绪调节的连续性和整体性：情绪WPVA过程先于情绪调节WPVA过程而产生，其结果-情绪反应(A)决定了是否以及需要用何种方式进行情绪调节; 而情绪调节WPVA过程最终又会反过来作用于情绪产生WPVA过程，从而实现了情绪产生与情绪调节的循环。具体来说，当个体因为背景或个人目标等因素想要做出不同的情绪反应行为时，情绪反应本身即作为新的外界刺激(W)被个体感知(P)、评价(V)并产生相应行为结果(A)，这一新的WPVA循环过程就是情绪调节。当外界环境中刺激被评价为与个体目标或动机相关时即会引发情绪反应，而当情绪反应被评价为与个体当下目标相偏离时又会进一步引发情绪调节行为。因此，这一模型通过评价机制将情绪反应和情绪调节整合为一个连续动态过程(图2b)(Etkin et al., 2015)。此外，由评价(V)而诱发出的行为(A)更应该看作是多成分反应(如生理、认知、动机以及主观行为反应)。因此，这一模型也很好地解释了情绪与生理、认知、动机以及行为的广泛关联效应。

图2 整合的评价和过程模型：
(a)情绪产生评价和过程模型; (b)情绪产生及调节连续过程模型
(改编自Gross, 2015)

3 强化学习视角下的情绪调节

野葡萄树长在右边园里。树干比大拇指粗点不多，又黑又干又硬，看上去一点生机都没有，春天的到来，他却来了精神，没几天长出新枝叶。新发出的枝叶向旁边的樟松树，没皮没脸地攀援着，青青的黄豆大的果实不知道啥时候长了出来，偶尔看到喜鹊在叶子里偷吃果子，当人接近时，发出嘎嘎叫声，似乎在向人们说：这是我的领地，不许靠近。

3.1 无模式情绪调节和基于模式情绪调节

这一五维度模型帮助我们理解了评价在情绪产生中的作用，而进一步从情绪动态变化的视角来看(即产生-调节、再产生-再调节……)，我们需要理清评价在情绪调节动态过程中的重要作用。在这一问题上，情绪调节评价和过程模型为我们提供了一种合理解释。

一个多小时后，我们就到了市里。对于我，这里既繁华，又陌生，甚至分不清东西南北。好在有表哥带着，我可以尽心地玩。

无模式情绪调节是完全基于预测偏差的反馈而完成的，这种调节模式对应的环境事件包含有限类型的刺激和反应，因此可以在没有相应先验知识的条件下实现。这一类型情绪调节的特点是效率高但不太灵活。从定义上来看，无模式情绪调节与内隐情绪调节在很大程度上是一致的，但两者侧重点不同，前者强调无模式控制机制而后者侧重于不需要意识参与。

崔：既然提到了“拉三”，那么这几个经典版本的“拉三”，哪个是您的最爱？是拉赫玛尼诺夫本人的经典演绎？是霍洛维兹的传承和创新？是阿格里奇的极致炫技？还是范·克莱本在“柴科夫斯基国际钢琴比赛”中对此曲的解构与重塑？

无模式情绪调节可以在情绪冲突任务中发生(Etkin, Egner, Peraza, Kandel, & Hirsch, 2006)。例如，在涉及情绪评定的经典情绪Stroop任务中(Stroop, 1935)，给被试呈现写有“恐惧”或“高兴”字样的恐惧以及高兴面孔图片，要求被试判断面孔表情是恐惧还是高兴。文字与面孔表情或者是一致的(一致试次)或者是不一致的(不一致试次)。而不一致试次中的情绪冲突会导致明显的反应时间延长以及情绪反应脑区的激活，例如杏仁核、背侧前扣带回(dACC)以及脑岛(Etkin, Prater, Hoeft, Menon, & Schatzberg, 2010)。如果之前试次是不一致的，则当下不一致试次会对应于更少的反应时减少，这一结果证明了调节的发生。从强化学习的角度来看，之前不一致试次中的反应时延长结果被评价为“对我有害”，进而诱发出个体调节，其结果是当前不一致试次中反应时的减少。而这一调节过程并未涉及到先验知识(以往调节经验)的参与，属于无模式控制机制，因此可被视为无模式情绪调节。这一实验情形还被证明与vACC-vmPFC激活增强相关，还与杏仁核、dACC以及脑岛激活减弱相关(Etkin et al., 2006)，从神经层面证明了情绪调节的发生。此外，研究者还发现vACC-vmPFC受损的个体不能调节情绪冲突(Maier & Di, 2012)，进一步印证了上述结论。

Gross基于评价在情绪调节过程中的核心作用，提出了情绪调节的过程模型理论，其将情绪产生和情绪调节均视为以知觉输入和行为输出为基础的控制论过程(Gross, 2015; 图2a) 。这一过程通过个体与外界情境(W)互动来实现，具体过程如下：来自外部世界的刺激被个体所感知(P)、评价(V; 即于我而言是“好”还是“坏”)，并最终引发个体的趋利避害行为(A)。具体到情绪过程：个体对外界情境进行监控(W)，聚焦于那些潜在含情绪效价(于个体而言)刺激(P)并对其进行评价(V)，进而引发个体行为、生理以及认知系统的变化(A)。

与无模式情绪调节相对应的是基于模式情绪调节，即个体需要通过工作记忆来构建或运用内部模式。在无模式情绪调节效率较低或无法达到调节情绪目的的情况下，个体通常会采取基于模式情绪调节。基于模式情绪调节的特点是：在运用外在环境或内部状态中已有模式的条件下，个体能够根据环境或背景需求灵活调整其反应。

基于模式情绪调节的一个典型例子是重评，即通过在评价阶段改变刺激意义实现调节情绪的目的(Gross, 2015)。例如，个体可能会寻求刺激第二意义(如眼泪表示高兴而非悲伤)来降低或消除情绪反应。当个体被外在指导如何进行重评时，其内在已有情绪调节模式被激活(Mcrae, Ciesielski, & Gross, 2012; Mcrae, Hughes, Chopra, Gabrieli, Gross, & Ochsner, 2010)。从这个角度来看，外显情绪调节在一定程度上均会涉及到内在模式的运用(如远离和分心)。重评能力与个体工作记忆的相关从一定程度上证实，这一调节方式属于基于模式情绪调节(Gyurak, Gross, & Etkin, 2011)。例如，研究者发现通过经颅直流刺激提高背外侧前额叶皮层(dlPFC)兴奋性能提高个体通过重评来下行和上行调节负性情绪的能力(Feeser, Prehn, Kazzer, Mungee, & Bajbouj, 2014)。而另一项研究也显示，实验诱发压力事件不仅会对个体dlPFC功能以及运用重评调节情绪的能力产生负性影响，还会破坏个体的工作记忆能力(Raio, Orederu, Palazzolo, Shurick, & Phelps, 2013)。尽管对重评外基于模式情绪调节(如分心和表达抑制)的研究还相对较少，基于模式情绪调节以及认知控制能力在相应脑区结构上的大范围重叠，如dlPFC、vlPFC(腹外侧前额叶皮层)以及dACC已经被诸多研究证实(Mcrae et al., 2010)。未来可采用如多体素模式的分析方法进一步加以验证。

按照不同标准，情绪调节策略可以作不同的分类(Gross, 2015; Gyurak et al., 2011; Ochsner, Silvers, & Buhle, 2012)。其中比较常见的一种是将情绪调节分为内隐和外显两种类型。基于这种方式，内隐情绪调节通常被认为是缺乏意识控制、无外显目标且是自动发生的，而外显情绪调节则是受意识控制、有明确调节目标且非自动发生的。但这种分类方式存在两个问题：一是难以将所有情绪调节策略划分进去，有些调节方式可能兼有内隐和外显情绪调节的某些特征; 二是分类太机械化，不能从动态发展的角度解释特定情绪调节策略的变化。之后Braunstein提出了一个更高层次的分类框架(Braunstein et al., 2017)，这一框架有两个独立的分类维度: 目标维度和过程维度，目标维度描述的是情绪调节目标的性质，其可以从内隐的变为外显的; 而过程维度描述的是情绪变化过程的性质，其可以从更加自动化变得更加受控制。以过程维度为x轴，目标维度为y轴作图(图4)，可以将情绪调节分为四类：外显自动情绪调节、外显控制情绪调节、内隐自动情绪调节以及内隐控制情绪调节。在这一框架中，特定情绪调节策略并非一成不变的，而是可能沿纵向或横向维度发生变化。例如，重评通常被认为是典型的外显控制情绪调节策略，但一些研究证明，经过一定程度的重评训练或练习，重评策略可以在内隐调节目标下发生或者是其过程的受控制程度降低 (Denny, Inhoff, Zerubavel, Davachi, & Ochsner, 2015; Denny & Ochsner, 2014)。

3.2 情绪调节决策过程模型及计算实现

在强化学习视角下，情绪调节可以被看作个体连续作出行为决策的过程(Sheppes et al., 2015)。这些决策包括：(1)是否需要进行情绪调节(确认); (2)总体上需要选择何种情绪调节类型(选择); (3)具体使用何种策略能更好地完成情绪调节(实施); (4)是否需要停止调节或选择换一种情绪调节类型(监控)。在此基础上，Etkin及同事以愤怒情绪调节为例提出了情绪调节决策过程模型(图3，以愤怒情绪调节为例)并基于Rescorla和Wagner (1972)的强化学习公式进一步提出了情绪调节行为决策的计算公式(Etkin et al., 2015)。

V(n)_t=V(n)_t-1+αδ-C(n)

这一公式中，V(n)_t和C(n)分别代表第n次情绪调节行为的决策价值和代价，其中V(n)_t能够反映时刻t的预期情绪状态，V(n)_t-1代表同一调节行为在t-1时刻(之前)的价值，α代表学习率而δ表示预测偏差。预测偏差δ是实际测得的情绪反应与预期情绪状态间的差值，情绪反应的测量需要同时考虑个体对情绪刺激的认知、主观、生理以及动机等多角度的反应。从公式可以看出，第n次情绪调节行为的决策价值V(n)_t是在V(n)_t-1的基础上通过加上学习率α与预测偏差δ的乘积，再减去行为代价C(n)来得到。从这一角度来看，每一种情绪调节行为均处于不断的升级变化中，时刻t-1(以前)选择的特定情绪调节行为会影响个体时刻t(当下)对该行为的预测偏差，进而影响其时刻t的决策价值V(n)_t-1。不同的情绪调节行为在t时刻会对应不同的决策价值V(n)_t，而个体每次的情绪调节过程都需要在不同的V(n)_t间作出决策，包括是否进行情绪调节以及采用何种情绪调节策略(具有最大决策价值的策略)进行调节，而不断的情绪调节决策也可以看成是个体对情绪调节的强化学习过程。

在充电时间受限的情况下，假设给定小车充电总时间的初值T，首先根据式(4)求解得到t0,t1,…,tL的初值，然后从第1层开始由内向外逐层比较判断

已经有证据表明，强化学习过程中的情绪调节会对某些计算参数产生影响。例如，Watanabe等人在基于奖赏的强化学习任务中发现，在预测线索出现前呈现愤怒面孔会使个体更快地掌握规则、有更高的学习率以及更强的杏仁核-纹状体连接(Watanabe, Sakagami, & Haruno, 2013)。此外，其他学者还发现，认知重评和其他认知情绪调节策略会改变预测偏差以及预期价值在纹状体上的信号表征(Staudinger, Erk, Abler, & Walter, 2009)以及反事实预测偏差(未预期结果)在脑岛上的信号表征(Gu, Kirk, Lohrenz, & Montague, 2014) 。Rutledge进一步在研究中发现，个体在强化学习任务中的情绪反应并非由结果所预测，更准确来说是由期待价值和预期偏差的计算而预测(Rutledge, Skandali, Dayan, & Dolan, 2014)。这些研究在一定程度上支持了上述情绪调节决策计算公式，未来可进一步加以探讨。

图3 情绪调节决策过程模型(改编自Etkin et al., 2015)，其中每一决策选项均对应有其效应值(如调节的4和不调节的2，下同)
注：MF(Model-free regulation)指无模式情绪调节，是个体默认的情绪调节方式; MB(Model-based regulation)指基于模式情绪调节，是利用个体内部已有模式调节情绪的方式

4 未来研究展望

4.1 情绪调节分类及动态变化

日渐增加的维和行动为中国提供了一个重要而广阔的机会使其更密切地参与到全球安全问题上来。[3]这同时也开启了中国与国际社会交往的新途径，促进了我国在国际体制中的参与度。在联合国维和行动中日益扩大的参与度有助于中国参与打造联合国维和行动的规范，使之符合中国的外交原则和国家发展，并进一步使中国与国际体制结合在一起。毋庸置疑，参与维和行动有利于中国参与各种国际规则的制订，并可通过主动承担相应的国际义务，以负责任的大国身份参与改革和完善现行国际制度和各种运行机制的工作，推动地区和全球的和平、合作与发展，推动构建和谐世界，[4]同时也为中国自身的未来发展创造更为有利的条件。

图4 情绪调节整合分类框架
(改编自Braunstein et al., 2017)

强化学习视角进一步支持了情绪调节过程的多重复杂性和动态变化性。首先，虽然在强化学习视角下，情绪调节被分为无模式和基于模式两种，真实情绪调节过程可能同时涉及无模式和基于模式两种控制过程。一些研究者认为，一个情绪调节过程应该具体区分MF(无模式)和MB(基于模式)两类成分所占的比重大小(Raio, Goldfarb, Lempert, & Sokol-Hessner, 2016)。Etkin等人在同意这一观点的同时进一步提出了情绪调节的最佳定义：包含MF和MB的混合过程(Etkin, Büchel, & Gross, 2016)，即不再将MF和MB单纯割裂开来，而是将情绪调节视为同时包含不同比重MF和MB的混合过程。其次，情绪调节是动态变化的，某一调节策略甚至可能转化为另一种形式。个体在持续不断地构建外部环境的内在模式，因此存在这种情况：即以往完全无模式的过程可能转变为相对基于模式的过程。例如，Dayan和Berridge等人(2014)反对将巴甫洛夫学习和预测视为完全无模式的传统观点，提供证据支持了巴甫洛夫预测涉及基于模式评价过程这一相反观点。从这一角度来看，无模式情绪调节和基于模式情绪调节两者间是动态变化的。因此，未来可以从强化学习的视角对情绪调节分类及动态变化过程做进一步研究。例如，上述两维度分类框架中，每种情绪调节方式涉及MF和MB的比重大小; 其在两个维度上变化的内在计算机制又是怎样的。

4.2 整合脑网络机制与人工智能研发新方向

4.2.1 整合脑网络机制

强化学习视角下的情绪调节很好地将情绪与感知觉、认知、动机、生理以及行为整合起来(Etkin et al., 2015)。以情绪调节过程模型为例，P涉及个体对外界刺激(W)的感知，V涉及对刺激的认知加工而A则包括一系列情绪反应，这些反应同样涉及认知、生理、动机以及主观行为。此外，情绪调节决策过程模型也说明了情绪调节过程的广泛关联特征，这一模型要涉及到个体对情绪刺激多成分反应(认知、主观、生理以及动机反应)的测量(Etkin et al., 2015)。具体到神经层面，以往研究表明，某些神经结构如纹状体、脑岛、丘脑、杏仁核以及背侧前扣带回(dACC)等与模式中具体参数如预测偏差有着密切关联(Li, Schiller, Schoenbaum, Phelps, & Daw, 2011; Silvetti, Alexander, Verguts, & Brown, 2014)。但尚未有研究从脑全局网络的角度对情绪调节的广泛关联特征以及决策计算过程进行探究，针对这一问题，Pessoa提出的脑网络整合模型有着极大的借鉴意义(Pessoa, 2017a)。

体验式教育实践模式，就是以师范生职业技能和职业品格培养为核心，以技能训练、教育见习、教育实践、顶岗实习等实训为生长点，形成校内和校外实训相结合，合作培养未来教师的有效机制，促进师范生一体化的培养。这种模式的构建，以学生体验为中心，校内实训和校外实习相配合，是知能一体化的开放式教育实践模式。

以往神经科学研究中，脑网络层级组织的观点占据绝对优势(Parvizi, 2009)。在这一观点下，皮层结构通过调节皮层下结构从而实现情绪调节的目的，确保个体表现出合适恰当的行为。诸多神经研究支持了这一论述，例如，Morgan在对恐惧消退的研究中发现了内侧前额叶(mPFC)对杏仁核反应的调节作用(Morgan, Romanski, & Ledoux, 1993)。但整合系统理论与之相悖，认为脑网络组织并非层级的而是分布式的。该理论将高级脑区支配低级脑区的问题转换为不同脑区间的协调动力学问题(Tognol & Kelso, 2014)，即不同脑区间协调互动导致外在行为产出。仍以恐惧消退为例，层级观点将mPFC视为“上”、杏仁核视为“下”，却忽视了该过程中多种脑区间的互动(Tovote, Fadok, & Lüthi, 2015)。研究表明，包括基底外侧杏仁核、腹侧海马在内的多重脑区均与mPFC间存在投射关联，并且可能在恐惧消退过程中起潜在作用(Do-Monte, Manzano-Nieves, Quiones-Laracuente, Ramos-Medina, & Quirk, 2015; Hugues & Garcia, 2007)。 Pessoa (2017a)以后一理论为基础进一步提出了情绪脑网络模型-功能整合模型，强调情绪调节并非大脑自上而下的过程，而是通过不同脑区间协调活动实现的。这一观点正好与强化学习视角下情绪调节过程中的多成分反应相呼应，因此，未来可进一步从脑网络整合模型(不同脑区间协调互动)的角度对情绪调节的强化学习过程及模型进行深入探究。

4.2.2 人工智能研发新方向-情绪认知整合

人工智能(Artificial Intelligence，AI)的概念最早由麦卡锡等学者提出，意指要使机器像人那样认知、思考和学习(陈凯泉, 沙俊宏, 何瑶, 王晓芳, 2017)。在人工智能不断发展的过程中，人们普遍认识到，没有感情计算能力的智能机器是不能充分实现人工智能的(许远理, 郭德俊, 2004)，因此，人工智能研发中的一个重要问题就是处理好认知和情绪的关系。以往处理方式是完全摒弃情绪或是将情绪置于认知控制之下，利用认知下行调节情绪，具体做法是在人工智能体中加入情绪模块，从而能对其他模块产生影响(Ziemke & Lowe, 2009)。但这一模块化理念将“情绪”和“认知”设置为两种独立活动类型，与人类“情绪”与“认知”相互交织，相互依存的特征相悖。此外，强化学习视角下的情绪调节被视为包含情绪以及其他多种成分的过程，模块化设计同样不能保证这一过程的实现。

在此基础上，去模块化设计即将情绪与认知整合的做法应是人工智能研发的新方向。如此设计出的智能机器有着这样的特点，即情绪、感知、认知、动机以及行为是互锁关联的(Pessoa, 2017b)。这一观点也得到人脑研究的支持。其结果显示，不同脑区间存在大量相互关联(Modha & Singh, 2010; Markov, Ercseyravasz, Essen, Knoblauch, & Kennedy, 2013)。具体到情绪脑区，其涉及大规模的皮层-皮层下网络结构(Pessoa, 2017a)。由此来看，人脑通过整合模式下的脑网络系统实现情绪与其他成分的相互关联，具体可以反映在强化学习视角下的情绪调节过程之中。因此，未来人工智能体同样应该是系统结构化的(整合各个组块)，其实现类似于人的情绪调节过程，这种智能机器不仅能拥有和表达情绪，而且能将情绪与知觉、行为等置于统一计算之下。在这一层面上，理清强化学习视角下的情绪调节过程及内在机制有着极大现实意义。

参考文献

陈凯泉, 沙俊宏, 何瑶, 王晓芳 (2017). 人工智能2. 0重塑学习的技术路径与实践探索——兼论智能教学系统的功能升级. 远程教育杂志, 35 (5), 40-53.

高伟, 陈圣栋, 龙泉杉, 杨洁敏, 袁加锦(2018). 情绪调节研究方法的蜕变:从有意情绪调节到自动化情绪调节. 科学通报, 63 (4), 415-424.

许远理, 郭德俊 (2004). 浅谈情绪智力与人工智能中的感情计算. 心理科学进展, 12 (2), 209-214.

Aldao, A., Nolenhoeksema, S., & Schweizer, S. (2010). Emotion-regulation strategies across psychopathology: a meta-analytic review. Clinical Psychology Review, 30 (2), 217-237.

Arnold, M. B. (1960). Emotion and personality . New York:Columbia University Press.

Braunstein, L. M., Gross, J. J., & Ochsner, K. N. (2017). Explicit and implicit emotion regulation: a multi-level framework. Social Cognitive & Affective Neuroscience, 12 (10), 1545-1557.

Dayan, P., Berridge, K. C., Dayan, P., & Berridge, K. C. . (2014). Model-based and model-free pavlovian reward learning: revaluation, revision, and revelation. Cognitive Affective & Behavioral Neuroscience, 14 (2), 473-492.

Denny, B. T., & Ochsner, K. N. (2014). Behavioral effects of longitudinal training in cognitive reappraisal. Emotion, 14 (2), 425-433.

Denny, B. T., Inhoff, M. C., Zerubavel, N., Davachi, L., & Ochsner, K. N. (2015). Getting over it: long-lasting effects of emotion regulation on amygdala response. Psychological Science, 26 (9), 1377-1388.

Do-Monte, F. H., Manzano-Nieves, G., Quiones-Laracuente, K., Ramos-Medina, L., & Quirk, G. J. (2015). Revisiting the role of infralimbic cortex in fear extinction with optogenetics. Journal of Neuroscience, 35 (8), 3607-3615.

Etkin, A., Büchel, C., & Gross, J. J. (2015). The neural bases of emotion regulation. Nature Reviews Neuroscience, 16 (11), 693-700.

Etkin, A., Büchel, C., & Gross, J. J. (2016). Emotion regulation involves both model-based and model-free processes. Nature Reviews Neuroscience, 17 (8), 532-532.

Etkin, A., Egner, T., Peraza, D. M., Kandel, E. R., & Hirsch, J. (2006). Resolving emotional conflict: a role for the rostral anterior cingulate cortex in modulating activity in the amygdala. Neuron, 51 (6), 871-882.

Etkin, A., Prater, K. E., Hoeft, F., Menon, V., & Schatzberg, A. F. (2010). Failure of anterior cingulate activation and connectivity with the amygdala during implicit regulation of emotional processing in generalized anxiety disorder. American Journal of Psychiatry, 167 (5), 545-554.

Feeser, M., Prehn, K., Kazzer, P., Mungee, A., & Bajbouj, M. (2014). Transcranial direct current stimulation enhances cognitive control during emotion regulation. Brain Stimulation, 7 (1), 105-112.

Fernandez, K. C., Jazaieri, H., & Gross, J. J. (2016). Emotion regulation: a transdiagnostic perspective on a new rdoc domain. Cognitive Therapy & Research, 40 (3), 426-440.

Gallo, I. S., Keil, A., Mcculloch, K. C., Rockstroh, B., & Gollwitzer, P. M. (2009). Strategic automation of emotion regulation. Journal of Personality & Social Psychology, 96 (1), 11-31.

Gross, J. J. (1998). The emerging field of emotion regulation: an integrative review. Review of General Psychology, 2 (3), 271-299.

Gross, J. J. (2013). Emotion regulation: taking stock and moving forward. Emotion, 13 (3), 359-365.

Gross, J. J. (2015). Emotion regulation: current status and future prospects. Psychological Inquiry, 26 (1), 1-26.

Gyurak, A., Gross, J. J., & Etkin, A. (2011). Explicit and implicit emotion regulation: a dual-process framework. Cognition & Emotion, 25 (3), 400-412.

Gu, X., Kirk, U., Lohrenz, T. M., & Montague, P. R. (2014). Cognitive strategies regulate fictive, but not reward prediction error signals in a sequential investment task. Human Brain Mapping, 35 (8), 3738-3749.

Hugues, S., & Garcia, R. (2007). Reorganization of learning-associated prefrontal synaptic plasticity between the recall of recent and remote fear extinction memory. Learning &Memory, 14 (8), 520-524.

Lazarus, R. S. (1993). From psychological stress to the emotions: A history of changing outlooks. Annual Review of Psychology, 44 (1), 1-22.

Li, J., Schiller, D., Schoenbaum, G., Phelps, E. A., & Daw, N. D. (2011). Differential roles of human striatum and amygdala in associative learning. Nature Neuroscience, 14 (10), 1250-1252.

Maier, M. E., & Di, P. G. (2012). Impaired conflict adaptation in an emotional task context following rostral anterior cingulate cortex lesions in humans. Journal of Cognitive Neuroscience, 24 (10), 2070-2079.

Markov, N. T., Ercseyravasz, M., Essen, D. C. V., Knoblauch, K., Toroczkai, Z., & Kennedy, H. (2013). Cortical high-density counterstream architectures. Science, 342 (6158), 1238406-1238406.

Mcrae, K., Ciesielski, B., & Gross, J. J. (2012). Unpacking cognitive reappraisal: goals, tactics, and outcomes. Emotion, 12 (2), 250-255.

Mcrae, K., Hughes, B., Chopra, S., Gabrieli, J. D. E., Gross, J. J., & Ochsner, K. N. (2010). The neural bases of distraction and reappraisal. Journal of Cognitive Neuroscience, 22 (2), 248-262.

Modha, D. S., & Singh, R. (2010). Network architecture of the long-distance pathways in the macaque brain. Proceedings of the National Academy of Sciences of the United States of America, 107 (30), 13485-13490.

Moors, A. (2013). On the causal role of appraisal in emotion. EmotionReview, 5 (2), 132-140.

Morgan, M. A., Romanski, L. M., & Ledoux, J. E. (1993). Extinction of emotional learning: contribution of medial prefrontal cortex. Neuroscience Letters, 163 (1), 109-113.

Ochsner, K. N., Silvers, J. A., & Buhle, J. T. (2012). Functional imaging studies of emotion regulation: a synthetic review and evolving model of the cognitive control of emotion. Annals of the New York Academy of Sciences, 1251 (1), E1-E24.

Parvizi, J. (2009). Corticocentric myopia: old bias in new cognitive sciences. Trends in Cognitive Sciences, 13 (8), 354-359.

Palazzolo, D. L., Shurick, A. A., Raio, C. M., Phelps, C. E., & Orederu, T. A. (2013). Cognitive emotion regulation fails the stress test. Proceedings of the National Academy of Sciences of the United States of America, 110 (37), 15139-15144.

Pessoa, L. (2017a). A network model of the emotional brain. Trends in cognitive sciences, 21 (5), 357-371.

Pessoa, L. (2017b). Do intelligent robots need emotion? Trends in cognitive sciences, 21 (11), 817-819.

Raio, C. M., Orederu, T. A., Palazzolo, L., Shurick, A. A., & Phelps, E. A. (2013). Cognitive emotion regulation fails the stress test. Proceedings of the National Academy of Sciences, 110 (37), 15139-15144.

Raio, C. M., Goldfarb, E. V., Lempert, K. M., & Sokol-Hessner, P. (2016). Classifying emotion regulation strategies. Nature Reviews Neuroscience, 17 (8), 532.

Rescorla, R. A, & Wagner, AR. (1972). A theory of Pavlovian conditioning:variations in the effectiveness of reinforcement and non reinforcement. In Black, A. H. & Prokasy, W. F (Eds.), Classical conditioning II: current researchand theory (pp. 64-99) New York: Appleton-Century-C.

Roseman, I. J. (2013). Appraisal in the emotion system: Coherencein strategies for coping. Emotion Review, 5 (2), 141-149.

Rutledge, R. B., Skandali, N., Dayan, P., & Dolan, R. J. (2014). A computational and neural model of momentary subjective well-being. Proceedings of the National Academy of Sciences of the United States of America, 111 (33), 12252-12257.

Sheppes, G., Suri, G., & Gross, J. J. (2015). Emotion regulation and psychopathology. Annual Review of Clinical Psychology, 11 (1), 379-405.

Silvetti, M., Alexander, W., Verguts, T., & Brown, J. W. (2014). From conflict management to reward-based decision making: actors and critics in primate medial frontal cortex. Neuroscience & Biobehavioral Reviews, 46 , 44-57.

Smith, C. A., & Ellsworth, P. C. (1985). Patterns of cognitive appraisal in emotion. Journal of Personality and Social Psychology, 48 (4), 813-838.

Smith, C. A., & Kirby, L. D. (2011). The role of appraisal andemotion in coping and adaptation. In R. J. Contrada, & A. Baum (Eds. ), The handbook of stress science: Biology, psychology, and health (pp. 195-208). New York, NY: Guilford Press.

Smith, C. A., & Lazarus, R. S. (1990). Emotion and adaptation. InL. A. Pervin (Ed. ), Handbook of personality: Theory and research(pp. 609-637). New York, NJ: Guilford Press.

Staudinger, M. R., Erk, S., Abler, B., & Walter, H. (2009). Cognitive reappraisal modulates expected value and prediction error encoding in the ventral striatum. Neuroimage, 47 (2), 713-721.

Stroop, J. R. (1935). Studies of interference in serial verbal reactions. Journal of Experimental Psychology General, 121 (1), 15-23.

Tognoli, E., & Kelso, J. S. (2014). The metastable brain. Neuron, 81 (1), 35-48.

Tovote, P., Fadok, J. P., & Lüthi, A. (2015). Neuronal circuits for fear and anxiety. Nature Reviews Neuroscience, 16 (6), 317-331.

Urbain, C., Sato, J., Pang, E. W., & Taylor, M. J. (2017). The temporal and spatial brain dynamics of automatic emotion regulation in children. Developmental Cognitive Neuroscience, 26 (C), 62-68.

Watanabe, N., Sakagami, M., & Haruno, M. (2013). Reward prediction error signal enhanced by striatum-amygdala interaction explains the acceleration of probabilistic reward learning by emotion. Journal of Neuroscience, 33 (10), 4487-4493.

Yang, Q., Tang, P., Gu, R., Luo, W., & Luo, Y. J. (2015). Implicit emotion regulation affects outcome evaluation. Social Cognitive Affective Neuroscience, 10 (6), 824-831.

Yih, J., Uusberg, A., Taxer, J. L., & Gross, J. J. (2018). Better together: a unified perspective on appraisal and emotion regulation. Cognition and Emotion , 1-7.

Yuan, J., Ding, N., Liu, Y., & Yang, J. (2015). Unconscious emotion regulation: nonconscious reappraisal decreases emotion-related physiological reactivity during frustration. Cognition and Emotion, 29 (6), 1042-1053.

Ziemke, T., & Lowe, R. (2009). On the role of emotion in embodied cognitive architectures: From organisms to robots. Cognitive Computation, 1 (1), 104-117.

Emotion Regulation Based on the Perspective of Reinforcement Learning and Future Prospects

YU Tengxu; LIU Wen; LIU Fang

(College of Psychology ,Liaoning Normal University ,Dalian 116029,China )

Abstract From the perspective of reinforcement learning, emotion regulation can be seen as a series of behavioral decisions aimed at achieving the desired emotional state. In order to investigate the internal process and computation mechanism of emotion regulation, we need to understand the important role of appraisal in the process of emotion generation and regulation. Some researchers even constructed models of emotion generation and regulation related to appraisal. Moreover, directions of future researches are prospected: (1) Investigate the classification and dynamic changes of emotion regulation from the perspective of reinforcement learning; (2) Explore the brain network integration mechanism (rather than single regions or circuits) of emotion regulation processunder the perspective of reinforcement learning; (3) The artificial intelligence researches adopt the non-modular concept to deal with the relationship between emotion and cognition and other components.

Key words : emotion regulation; reinforcement learning; prospects

分类号 B842.6

基金项目: 教育部人文社会科学研究规划基金一般项目：儿童公平发展特征及干预研究(15YJA190004); 辽宁省社会科学规划基金项目：流动背景下辽宁省处境不利儿童青少年积极发展体系的建构(L17DSH002)。

通讯作者: 刘文,E-mail: wenliu703@126.com

DOI :10.16842/j.cnki.issn2095-5588.2019.03.007

标签：情绪调节论文; 强化学习论文; 展望论文; 辽宁师范大学心理学院论文;

基于强化学习视角的情绪调节研究及展望论文