自然场景的识别及其理论模型论文

自然场景的识别及其理论模型 *

张序堃 孙雨生 张智君 **

(浙江大学心理与行为科学系,杭州 310028)

摘 要 人类能快速而高效地处理自然场景图片中的背景和客体信息。认知神经科学研究发现,大脑的旁海马位置区、枕叶位置区和扣带回的压后皮层等区域与场景识别息息相关。本文系统地总结和分析了场景识别领域的上述成果,并进一步介绍了其认知模型和计算模型。其中,前者阐述了前馈加工和反馈加工在场景识别过程中的作用和关系,而后者则总结了旨在理解场景识别过程的“算法”及其发展,并解释这些计算模型仍不能真正地“理解”场景的原因。

关键词 自然场景识别 前馈模型 预期 计算模型

1 前 言

自然场景(nature scene)是指由空间分布合理的背景和离散的客体构成的真实环境的连贯图像(Henderson & Hollingworth,1999)。以往研究发现,人类对场景图片的信息提取和处理能力非常出色。我们既能够对快速呈现的自然场景图片中的客体信息进行辨认和命名(Potter,1976;Thorpe,Fize,& Marlot,1996;LoBue & Deloache,2008),也能够对快速呈现的不同类别的自然场景图片进行分类(Torralbo et al.,2013),还能够快速探测自然场景中的深度信息、场景功能等社会信息(Gajewski,Philbeck,Pothier,& Chichka,2010;Greene & Oliva,2009)。人类视觉系统如此高效快速的自然场景识别能力引起了相关领域研究学者们的广泛兴趣。

本文首先总结并详细地阐述了人类视觉系统在处理自然场景时的主要特征,然后结合新近的认知神经科学研究,系统地介绍关于自然场景识别的特异性脑区及其简要关系。在此基础上,文章进一步整理了以往研究者针对自然场景识别所提出的认知模型和计算模型,论述各个模型对自然场景识别领域的贡献和不足,以助于未来自然场景识别领域的相关研究。

2 自然场景识别的主要特征

2.1 自然场景识别的快速性

人们能够从复杂的自然场景中准确快速地提取场景的主题(gist)信息。

有关资料显示,我国公众急救知识普及率不超过1%,其中,大学生接受急救培训的大多数为医学类的学生。欧美、日韩等国家大力推行应急救护培训,其中,美国公众基本急救技术普及率达89.95%,新加坡卫生救护知识培训普及率达20%。我国开展公众急救知识培训起步较晚,存在着实施及资金双重困难。在我国人口基数大、幅员辽阔的国情下,在不同区域和不同居民群体中进行急救知识的普及,也存在着许多不同的特性,我国居民急救能力的培养仍然面临着较大的挑战。

一方面,人类可以迅速准确地从众多干扰刺激中识别目标刺激。早期研究发现,当场景图像以每秒8张的速度进行快速序列呈现(rapid serial visual presentation,RSVP)时,即使在序列开始呈现之前只给被试有关目标场景主题的简单文字描述,他们也能准确地识别出目标刺激(Potter,1975)。Potter等人(2014)将RSVP的实验条件设置为每张场景图像呈现13~80ms,连续呈现6或12张,然后要求被试判断描述的目标场景是否出现在呈现序列中。结果发现,即使在呈现时间最短的13ms条件下,无论关于目标场景的描述是出现在序列呈现之前还是全部呈现完成之后给出,被试对目标检测的准确率都显著高于随机水平,说明即使刺激只呈现13ms,被试也能够对序列中的所有刺激进行快速加工。

张秀蓉等[4]采用改进Hummers法合成氧化石墨烯材料(GO),采用GO为载体的情况下运用化学共沉淀法,成功合成磁性氧化石墨烯复合材料(MGO)。作者采用MGO复合材料用作吸附剂,探究该材料对水中阴离子染料,以刚果红为例的吸附作用。研究发现,MGO复合材料对水中刚果红具有很强的吸附作用,吸附容量可达287.6 mg/g。

另一方面,人类能够快速地提取自然场景中的有效信息,并做出正确选择。Thorpe等人(1996)采用经典的go/no-go动物分类范式,在场景图像快速闪现20ms的条件下,让被试判断所呈现场景中是否包含动物,同时记录被试的脑电活动。对有动物出现的场景,观察者可能只需对动物出现的区域或动物的一些显著特征进行检测,但对没有动物出现的试次,观察者必须加工整个场景之后才能做出正确的判断。因此,相较于没有动物出现的情况,没有动物的目标场景在150ms左右仍有剧烈的脑电活动,主要表现为额叶区域的负差异波(frontal negativity)。而Kirchner和Thorp(2006)则采用眼动追踪的方法探究这一问题。他们要求被试完成扫视迫选任务(forced-choice saccade task),判断并列呈现的两个场景图像中哪一个有动物出现,眼动数据的结果显示被试可以在刺激呈现后120ms内做出正确的选择。

除了人类,狒狒、恒河猴甚至是绒猴等灵长类也可以快速完成自然场景的分类任务(Roberts & Mazmanian,1988;Fabre-Thorpe,Richard,& and Thorpe,1998;Martin-Malivel & Fagot,2001;Minamimoto,Saunders,& and Richmond,2010)。在go/no-go动物分类任务条件下,猴子被试的准确率虽然稍微低于人类被试,但反应速度比人类更快。从生物进化的角度来看,人类快速场景识别的能力可能是由于长期处理复杂多变的自然场景而慢慢演化来的。

2.2 自然场景识别的低耗能性

人类的注意资源是有限的(Chun,Golomb,& Turk-Browne,2011)。日常生活经验显示,当将注意资源集中在其它位置时,即使是场景中非常明显的信息或变化,个体也会对其“视而不见”,而只有那些已经达到自动化加工水平的信息才能在注意资源匮乏的条件下被注意到。Greene和Fei-Fei(2014)采用Stroop范式的变式,将文字呈现在场景图片或物体图片之上,文字所描述的含义可能与图片内容相同或相反,要求被试忽略背景图片的内容,判断文字的含义所描述的是场景还是物体。结果发现,当图片内容与文字的含义类别不一致时,文字含义的分类任务受到干扰,从而推断场景识别是自动化加工完成的。这也印证了之前的一些研究结果(Grill-Spector & Kanwisher,2005;Thorpe et al.,1996)。此外,Fei-Fei、VanRullen、Koch和Perona(2002)采用双任务研究范式,要求被试在完成中央视觉的字符分类任务的同时,完成呈现在外周视觉的自然场景分类任务。实验结果表明,自然场景图像的快速视觉分类在双任务条件下与单任务条件下相比并没有显著差异。因此,研究者推断,完成场景识别的过程只需要很少甚至不需要中央视觉注意。然而,对于这一结果,Cohen、Alvarez和Nakayama(2011)认为,在前述研究中,干扰任务(字符分类任务)过于简单,因此仍然有足够的注意资源分配到场景识别任务,因此后者的绩效与单独任务条件相似。他们结合多物体追踪任务(multiple-object tracking,MOT)与RSVP范式,发现双任务条件显著影响了场景识别任务的绩效,从而推断快速场景识别过程仍然依赖于注意参与。为了进一步探讨这一问题,Sun等人(2017)也采用了双任务范式,要求被试首先判断左右呈现的一组词汇是否为同一类别(词汇判断),然后判断随后出现在同一位置的一组图片中哪张图片中包含动物(快速场景识别)。结果发现,相较于仅需要快速场景识别的情况(单任务),双任务情况下被试对场景图片的辨别力(d’)显著降低,说明干扰任务对注意资源的占用还是会一定程度上影响场景识别。

总的来说,当场景图片刺激作为干扰刺激时,场景识别能够自动化发生,从而影响实验任务的绩效。研究者通过双任务范式进一步发现,当高难度的干扰任务占用大量注意资源后,场景识别任务的绩效也会受到影响,说明场景识别还是需要一定的注意资源的参与。

3 场景识别的特异性 脑区及其神经机制

其中,P(D)是当前场景图像(视觉输入数据)出现的概率,通常为标准化常量;P(H)称为先验概率(prior probability),代表个体根据以往的知识经验对假设H出现可能性做出的估计;P(D|H)称为相似度(likelihood),指假设H成立的条件下出现场景图像D的概率。贝叶斯模型指出,个体对当前场景的认知是由以往知识经验和当前场景信息共同决定的。

在场景识别过程中,特别是针对场景中主要客体的识别,对于两张同时出现的物体图片(如茶壶),我们能够快速准确地判断它们是否为同一物体。即使两张图片是同一物体的镜像图像,我们也能轻松地判断它们两张图片呈现的是同一物体。研究发现,RSC和OPA两个区域对场景图片的镜像关系非常敏感,而PPA则对这样的场景结构信息并不敏感(Dilks,Julian,Kubilius,Spelke,& Kanwisher,2011)。而且,OPA对于场景信息中的客体信息加工还有更加独特的作用。OPA主要负责某一客体是否存在,以及有多少客体出现在当前场景中,而RSC和OPA则对场景图片中的这些客体信息并不敏感,它们对整个场景的整体布局的敏感性更高(Kamps,Julian,Kubilius,Kanwisher,& Dilks,2016)

我们在现实生活中一直会利用周边的环境信息提取有效的导航线索,从而指导自己的行动。研究表明,PPA、OPA以及RSC一起承担了场景中导航信息的提取和加工(Epstein,2008;Marchette,Vass,Ryan,& Epstein,2014)。为了进一步理清三个区域在导航信息加工过程中的相互关系,Persichetti和Dilks(2016)发现RSC和OPA能够很好地帮助我们处理以自我为中心的距离信息(egocentric distance information)的处理,使得我们对其他物体之间的距离有一个较好的心理预估,而PPA则并不负责这方面的信息加工。PPA更多地与导航信息的动态处理有关系(Kamps,Lall,& Dilks,2016)。研究发现,相较于一组随机排列的场景信息图片,一组按事件发生顺序呈现的图片会使得被试的PPA区域的活动更加强烈,说明PPA区域对场景信息的实时加工有着重要作用。

4 自然场景识别的理论模型

为了更好地理解自然场景识别的机制,加深对自然场景识别的理解,本节分别从认知模型与计算模型两个层面总结了当前场景识别的一些理论和模型。

4.在配制五水硫酸铜水溶液的过程中,不宜用金属容器,最好用塑料盆或塑料桶,在偏碱性饮水的地区,需要往配制出的五水硫酸铜水溶液中缓慢滴入食用醋,并充分搅拌,直到溶液变为澄清为止(防止絮状沉淀)。

4.1 自然场景识别的认知模型:前馈模型与反馈模型

由于完成场景识别加工过程中所需的时间非常短,因此很多研究者认为在对自然场景的快速加工时,人类的视觉系统依赖由刺激驱动的前馈加工(feed-forward processing)。为了进一步理清自然场景识别过程中各阶段的加工差异,国内外学者针对自然场景识别的不同阶段进行了一系列研究(Wyatte,Jilk,& O’Reilly,2014)。

紫杉醇在临床应用1月之内,可以发现明显的对支架内新生内膜形成起抑制作用,但是临床远期效果研究则并未一致。经临床多项研究结果证实,通过将紫杉醇药物支架植入之后,紫杉醇对支架内新生内膜增生的抑制作用,密切相关于具体应用剂量。在起临床一直新生内膜增生的具体有效时间,也会受支架涂层药物的剂量不断增加而逐渐延长,并且局部动脉出现的不良反应严重程度,同样会随紫杉醇的用药剂量增加而有所改变。

支持早期场景识别前馈模型的研究者认为,在快速视觉分类任务中存在一个最小反应时(minimal reaction time,MinRT),即个体刚好能做出正确反应所需要的最短时间(Fabre-Thorpe,2011)。如果早期场景识别受到自上而下的经验和预期等因素的影响,那么通过学习和训练等操作来增加观察者对场景刺激的熟悉度,应该能够缩短MinRT。而实验结果显示,MinRT在不同的刺激类型和不同任务条件下表现非常稳定,即使被试经过反复训练,对刺激材料非常熟悉的情况下,MinRT也没显著减小(Fabre-Thorpe,Delorme,Marlot,& Thorpe,2001)。因此,这一结果支持早期场景识别的前馈模型。

根据贝叶斯理论,后验概率(posterior probability,P(H|D))是在当前视觉输入数据为D的情况下对场景做出假设H的概率。后验概率的大小是个体对场景做出决策的依据。

图1 前馈与反馈过程中视觉信息传递的时间进程(Wyatte,Jilk,& O’Reilly,2014)

场景识别的前馈模型也得到了来自神经生理学、计算视觉与行为认知实验等许多研究的支持。相关研究认为,注意和策略等反馈(feedback)信息是从较高级的前额叶(prefrontal cortex,PFC)区域自上而下地影响较低级视觉区域的加工过程的。但是,这一自上而下的信号最早需要在刺激呈现后150~170ms才能传回早期视觉区域(如图1中的f所示)。一些研究甚至认为这一时间需要200~300ms(Wyatte,Jilk,& O’Reilly,2014)。因此,这些研究均表明,自上而下的反馈信息在传递回较低视觉区域之前,被试可能已经完成了早期的场景识别过程,如场景的特征整合。

然而,除了从高级区域发起的反馈传递之外,Dehaene、Changeux、Naccache、Sackur和Sergent(2006)以及Lamme(2006)的研究均发现,在腹侧通路中存在一些局部范围内、距离较短的往复循环加工过程(local recurrent processing,如图1中的d~e所示),这些局部反馈加工过程无论是在出现的时间还是在功能上,都与后期反馈信号不同(Wyatte et al.,2014)。虽然有许多研究认为快速场景识别可能仅通过刺激驱动的前馈过程就足以完成,但是并不能完全排除局部反馈过程在早期场景识别中的作用。Camprodon、Zohary、Brodbeck和Pascual-Leone(2010)采用TMS技术在不同的时间点干扰枕叶部位(V1)的活动,同时要求被试完成视觉分类任务,结果分别在100ms和220ms两个时间点上对被试产生了显著的影响,研究者当时认为100ms时干扰的是前馈加工过程,而220ms时干扰的是局部反馈过程。随着对局部反馈过程研究的深入,以及结合以往研究者的成果(Corthout,Uttl,Walsh,Hallett,& Cowey,1999;Corthout,Uttl,Ziemann,Cowey,& Hallett,1999),Wyatte等人(2013)认为,100ms左右刚好是IT加工完成的时间点,这时干扰的可能是自然场景分类的局部反馈过程,而220ms时的反馈干扰则来自于高级皮层。Koivisto、Railo、Revonsuo、Vanni和Salminen-Vaparanta(2011)采用fMRI与TMS相结合的方法,发现在较高层视觉区域被激活之后,V1/V2等较低级视觉区域的活动仍然会对场景分类产生影响,因此V1/V2在完成视觉信号的前馈传递之后,可能还承担了接收反馈信号的功能。另外,在功能上,视觉初级皮层只能完成朝向、颜色等简单特征的处理,而下颞叶皮质能够完成初步的特征整合(Serre,Oliva,& Poggio,2007)。

至于与后期反馈密切相关的前额叶皮质,则还会牵涉到更高级的记忆、经验、期望等自上而下的因素。人类的视觉预期分为两类:结构性预期(structural expectation)和上下文预期(contextual expectation)(Seriès & Seitz,2013)。结构性预期主要反映个体长期处在真实自然场景中所积累下来的知识经验,或者是天生具备的某些倾向性的特质。例如,当观察一幅场景图片时,个体会默认图片中的光线是来自位于上方的光源(Kerrigan & Adams,2013)。上下文预期则反映空间或时间上相邻近的环境信息使个体对其他刺激产生预期。经验与预期对知觉过程主要会影响影响知觉加工的绩效和视觉刺激的主观感知。在非最佳观察条件下,如目标刺激被遮挡(Wyatte,Curran,& O’Reilly,2012),或目标与观察者之间的距离太远(Serre et al.,2007),此时对目标场景的快速知觉则需要借助于反馈信息。研究发现,由词汇传递的类别信息能够提升个体对快速呈现的原始自然场景图片的辨别(Stein & Peelen,2015,2017)。进一步的研究发现,即使目标场景图片的低空间频率信息或者高空间频率信息被删除,这一启动效应依然存在(Sun,Zhang,& Wu,2017)。Greene、Botros、Beck和Fei-Fei(2015)让被试主观描述的方法,比较了对“不可能”场景(如一场水底的记者发布会)与正常场景之间主观描述的差异。结果发现,两组图片尽管从低水平的视觉特征上无法被区分,但“不可能”场景图片更难被描述出来,也更难将其分类,同时在有噪音存在的条件下更难被觉察到。这些结果说明,人类快速知觉场景的能力存在一定的限制,早期知觉过程会受先前视觉经验的影响。除此之外,研究还发现,自上而下的反馈信息会导致个体在场景识别过程中由于任务不同产生不同的知觉加工方式(Wu,Wick,& Pomplun,2014),而那些与任务无关的区域,即使拥有更多突显的特征,也很少受到关注(Borji & Itti,2013)。

腔内电生理研究表明,左前分支室速的电生理基质是室间隔局部存在缓慢传导区及左前分支参与构成折返环[5-6],室速可通过心房或心室起搏诱发。本例患者通过心房早搏刺激成功诱发心动过速。如图5所示,当S2刺激明显提前,激动心房后下传至左前分支时,左前分支处于不应期,激动沿缓慢传导区下传,成功夺获心室形成一次QRS波,QRS波形态不同于窦律QRS波,呈不完全性右束支阻滞图形,S2-V间期稍长于S1-V间期,当激动下传至缓慢传导区与左前分支交汇处时,左前分支经历不应期后恢复传导性,激动便可沿左前分支逆向传导,并再次激动缓慢传导区,构成折返环,如此反复引发心动过速。

4.2 自然场景识别的计算模型

除了从认知和生理学的角度探究场景识别的机制外,以往研究者也提出了许多计算模型(computational model),试图解释场景识别这一信息加工过程背后的算法(DiCarlo et al.,2012)。

场景识别的计算模型从应用的角度大致可以分为两类:一类用于辅助场景识别的认知与生理学研究,拟合和验证认知模型或者生理学研究的结果,从而模拟人类大脑对场景识别的加工方式和过程;另一类主要是从计算视觉(computational vision)以及实际应用的角度出发,试图用计算的方法理解自然场景,并最终让场景识别的计算模型通过图灵测试(Turing test for scene understanding)。场景识别的图灵测试是指:针对一张描绘自然场景的图片,人类测试者提出关于这一场景的若干问题,由机器(场景识别的计算模型)作出回答,如果测试者无法根据回答的内容区分出回答者是机器还是人类,则认为该机器通过图灵测试(Xiao et al.,2013)。虽然研究者提出各种计算模型的出发点不同,但最终的目的都是为了更好地理解场景识别的原理及机制,而本文则主要阐述自然场景识别的计算模型是如何处理认知模型中所涉及的自上而下和自下而上的信息加工过程。

与自然场景识别的早期认知研究领域类似,研究者最初常根据底层的物理属性和特征来描述视觉过程,并据此建立对视觉场景的表征,然后将其运用到复杂的决策判断(Marr,1982)。因此,一直以来很多研究者提出的计算模型,其本质都是从场景图像中提取有用的特征或属性(描述符,descriptors),然后据此构建场景识别的计算模型(表征),后者经过机器学习(machine learning)等训练,最终达到对陌生场景图像识别和分类的目的。

Oliva与Torralba(2001)提出了空间包络模型(spatial envelope),认为场景图像由五种感知属性构成:自然度(naturalness)、开放度(openness)、粗糙度(roughness)、扩展度(expansion)与平整度(ruggedness)。他们通过对这些全局结构属性(global configuration)的提取与应用,可在不识别场景局部特征及所包含物体的含义的条件下,直接完成对场景的识别。Fei-Fei和Perona(2005)借鉴了自然语言处理(natural language processing,NLP)中用于提取文档主题的词袋模型(bag-of-words model,BoW),提出了另外一种特征描述符。这种词袋模型将自然场景图像看作是“文档(document)”,而将组成图像的局部色块(local patches)看作是文档中的“词汇(words)”。在进行场景识别时,通过提取场景的“特征词汇(feature words)”,就可以得出场景所描述的内容或主题信息。Walther和Shen(2014)也试图考察人类为何能高效地完成对自然场景的知觉加工,即究竟依赖于场景中的哪些特征信息?他们采用行为实验与计算模型相结合的方法进行研究,提出对自然场景的识别依赖于边缘曲度(curvature)和非偶然结点(nonaccidental junction)等特征属性。通过将计算模型与行为实验的结果相对比,他们发现,当场景图像中的这些属性受到干扰时,人类被试的行为与计算模型表现出相似的错误模式(error pattern)。

此外,在当时的河南还发现了其他宗教中隐藏着的一些不法分子披着“信仰”外衣传播迷信的现象。如安阳县柴某以宗教为名,“赶鬼”治病,骗取群众钱财,1959年,当地公安机关查处了柴某,这一案例不但教育了当地群众,也对当地基层干部有很大的教育作用,部分基层干部检讨自己过去片面地认为其做法也是宗教信仰自由的一部分,对其非法活动未给予及时制止和打击。同时,这一案件也教育了当地基督教会的一部分教徒,他们认识到自己的教内也存在有披着宗教外衣的不法分子,必须继续接受爱国守法教育,打击坏人坏事。

场景识别的概率推断模型其理论基础可追溯到赫尔姆霍兹所提出视知觉的“无意识推断(unconscious inference)”理论。后者认为,视知觉过程是个体根据过往经验对视网膜传来的信息进行补充,从而做出无意识推断的过程(Westheimer,2008)。许多数学心理学家和计算机科学家都支持这一观点,认为对复杂自然场景图像的理解就是一个基于贝叶斯概率模型进行概率推断的过程(Purves,Monson,Sundararajan,& Wojtach,2014)。

四、署名格式:文题下方只排列作者姓名,并在首页下方注明“作者单位(应是提供资料的单位),邮编,单位名称(包括所在省、市或县),科室(第一作者姓名及其同科室的其他作者姓名)”。其他作者的署名格式为:与第一作者在同一单位不同科室者,只注明科室和姓名;不在同一单位者,只注明单位名称,科室(作者姓名)。另须附第一作者简介:出生年月、性别,毕业年限及学校名称,职称及行政职务,联系电话、E-mail地址。论文如属国家科学基金项目或省部级以上重点攻关课题请在文稿首页下方脚注,注明基金号,并附基金证书复印件。

根据贝叶斯公式,后验概率为:

基于致病因素的刺激,羊的胃肠道会产生程度不同的病变,例如化脓、充血、深处以及坏死等。个别阶段内羊胃肠岛内出现炎症的严重程度高低,和致病刺激物的浓度、有毒物质的溶解度以及个别病原体与组织间存在的某种亲嗜性存在较大的关联性。例如,胃肠壁中的上皮细胞脱落、损伤等,都会导致胃肠道的对食物的吸收以及消化效果受到影响;基于消化道中容物的非正常分解而产生的物质将会对胃肠壁造成二次刺激,这也是导致患病羊粪便恶臭明显的主要原因。

P(H│D)

为了进一步理清人类的大脑是如何如此快速且低能耗地完成自然场景识别,相关领域的学者们展开了一系列认知神经科学研究,以此来了解场景识别的神经基础。研究发现,人类大脑中与自然场景识别有关的特定脑区主要包括旁海马位置区(parahippocampal place area,PPA)、枕叶位置区(occipital place area)和扣带回的压后皮层(retrosplenial complex,RSC)。fMRI研究显示,位于旁海马皮层(parahippocampal cortex,PHC)中的旁海马位置区(PPA)是大脑皮层中对视觉场景信息反应最强烈的区域(Epstein & Ward,2010),在场景识别过程中有着不可缺少的作用。这一区域的脑区受损,将会干扰病人对简单场景的辨认(Mendez & Cherrier,2003)。Dilks等人(2013)也发现枕叶位置区(occipital place area,OPA)也与场景识别有关(Dilks,Julian,Paunov,& Kanwisher,2013)。他们采用TMS技术分别干扰了被试右侧OPA(rOPA)和负责面孔知觉的右侧枕叶区(right occipital face area,rOFA),然后要求被试完成场景和面孔图像的分类任务。结果发现,对rOPA进行干扰只会影响场景辨别任务而不会影响面孔识别任务,说明rOPA仅与场景识别过程有关。

该模型认为,场景信息的加工存在两条信息加工通道,分别加工局部特征和整体特征。其中,局部特征加工通道主要处理颜色和运动方向等容易凸显的视觉优势信息;整体特征加工通路主要提取场景的整体特征以激活已有的知识经验,并由此调节注意与视觉搜索的方向。该模型假设,个体在搜索场景中的目标时,会根据概率P(O,X│I)推断目标是否出现。其中,O=1表示有目标出现,O=0表示目标刺激没有出现;X表示目标刺激出现的位置;I代表场景特征,它由局部特征(L)和整体特征(G)所组成的。因此,目标检测的概率可通过P(O,X|L,G)进行推导。

图2 背景引导模型示意图

以往行为研究显示,个体在自然场景中搜索物体时会尽量使用上下文信息,同时场景的语义内容、场景中物体同时出现的统计规律以及任务限制等都会影响个体对自然场景识别和加工的方式。Torralba、Oliva、Castelhano和Henderson(2006)将场景整体特征(global features)与局部特征(local features)纳入到同一个贝叶斯框架,并由此提出了背景引导模型(contextual guidance model),具体见图2。

视觉场景信息需要经过多层次神经元的加工,每一阶段都需要一定的时间(Serre,Oliva,& Poggio,2007)。生理学研究显示,在场景识别的早期阶段,视觉信号从刺激呈现并投射到视网膜开始,经过40~60ms的时间到达初级视觉区域(V1区)(DiCarlo,Zoccolan,& Rust,2012;Tapia & Beck,2014),再经由腹侧通路分别通过V2、V4区,在刺激呈现后100ms左右的时间到达下颞叶皮层(inferior temporal cortex,IT)区域(如图1中a~c所示)。研究表明,下颞叶皮质能够完成初步的特征整合(Serre,Oliva,& Poggio,2007)。上文提到的眼动研究显示,在刺激呈现后120ms内,观察者已经可以完成对快速场景的分类(Kirchner & Thorpe,2006)。脑电研究结果也显示,快速的场景识别与判断最早可在刺激呈现后150ms内完成(Thorpe,Fize,& Marlot,1996)。因此,很多研究者认为,在这么短的时间内,自上而下的反馈信息应该还未形成,即刺激呈现之后的最早一波进入视觉系统的前馈(feedforward sweep)信息已经足以完成对场景的快速识别(Fabre-Thorpe,2011;Romeo & Supèr,2014)。Serre、Oliva和Poggio(2007)据此提出前馈模型(feedforward architecture)来解释快速场景识别,该模型认为视觉信号通过腹侧通路中自下而上的前馈过程已足以完成对场景的快速识别。

然而这些模型主要反映场景信息的物理特征,并没有对自然场景识别过程中一些自上而下的反馈信息进行研究。因此,另一些研究者还从场景的语义(semantic)角度进行考察,认为场景的主题或类别信息是由组成场景的物体所决定的。例如,当场景中同时出现桌子、椅子和黑板时,则该场景属于教室场景的概率就很高。

根据贝叶斯定律,可以将目标检测概率分解为:

P(O=1,X│L,G)

Stansbury、Naselaris和Gallant(2013)认为,在场景识别过程中,大脑所加工的是自然场景中所出现物体的统计概率,个体通过场景中同时出现物体的知识对自然场景进行分类。例如,当同时看到水、沙子和晒日光浴的游客时,个体会将其分类为“沙滩”,而这一类别标签又会激活对遮阳伞和沙滩城堡等物体的预期。Stansbury等人首先对场景材料中所有出现的物体进行标注和统计,把这些统计数据应用到一个三层贝叶斯概率模型中(Blei,Ng,& Jordan,2003),并将所得到的不同类别的概率分布与fMRI所记录的前部视觉区域(anterior visual cortex)的活动水平进行拟合;然后,将这一过程反过来,根据fMRI记录的活动水平推断场景类别。结果发现,大脑确实可以通过捕捉自然场景中物体同时出现的概率信息来对场景进行表征。

5 总 结

本文基于以往的行为研究和认知神经科学研究,详细阐述了自然场景识别的主要特征、神经基础及其认知模型和计算模型。其中,认知理论模型方面,本文详细阐述了自下而上的前馈加工和自上而下的反馈加工两种认知加工方式在自然场景识别过程中的作用及其关系,而在计算模型方面,本文则着重阐述了计算模型如何处理人类自上而下和自下而上的信息加工过程,从而更好地与认知模型相比较。然而,虽然目前自然场景识别领域的学者们达成了不少共识,但仍旧存在着很多不足和争议的地方。

首先,由于自然场景所涵盖的范围非常广,研究者所采用的范式也各不相同(王福兴,田宏杰,申继亮,2009),导致不同研究得到了不同甚至相反的结果。例如,Fei-Fei等人(2002)和Sun等人(2017)都是使用双任务范式,但是在自然场景的快速视觉分类是否需注意参与的问题中出现了分歧。虽然两者都是要求被试对出现在外周视野的自然场景图片做出判断(是否有动物),但是两者的另一个任务(控制任务)不同。一方面,控制任务的呈现方式不一样,前者的任务刺激呈现在中央,而后者控制任务的刺激则出现在与场景图片一样的位置。另一方面,前者要求被试判断中央呈现的五个字母是否相同,而后者则要求被试判断出现在注视点左右的两个词汇是否为同一类别,两者涉及的认知加工程度、难度均不一样。因此,在未来的研究中,我们要理清在当前实验条件下是否需要消耗注意资源,避免忽视由于不同实验设计带来的差异。

随着我国现代医学不断进步,人们对护理要求也不断提高,传统的护理模式已无法满足患者护理需求,而在围术期护理过程中融入多种护理形式,比如舒适护理、人性化护理以及综合护理,能够使患者在灵感、心理、社会和生理等方面达到愉悦的状态,同时能够提高患者舒适度[4-5]。该文研究数据显示,观察组急性阑尾炎合并糖尿病患者并发症发生率2.22%较对照组低,差异有统计学意义(P<0.05)。观察组急性阑尾炎合并糖尿病患者排气时间(2.34±1.02)d、住院时间(7.52±1.04)d 均短于对照组,差异有统计学意义(P<0.05)。

其次,未来的研究仍需要进一步探究自然场景识别过程中自下而上的前馈信息加工方式与各种自上而下的反馈信息加工之间的关系。在场景识别早期,研究者尝试用自上而下和自下而上两种加工方式去解释整个场景识别过程。但随着研究的不断深入,越来越多研究者意识到,场景识别过程包含了多个加工阶段,而多个加工阶段中还会包含多种加工方式。因此很难用单一的理论模型解释场景识别的整个过程,而更应该探究在不同加工阶段中哪种加工方式占有主导地位(王福兴,田宏杰,申继亮,2009)。后续的研究应对不同加工阶段中主导的加工方式与视觉系统整体的加工过程加以兼顾,从而更好地理解场景识别过程中不同加工方式的交互关系。另一方面,如图1中所展示的,按照视觉加工或神经传导的时间进程,可将场景知觉分为早期场景识别和后期的调控(Wyatte et al.,2014),后者属于由注意、经验以及策略等参与的自上而下加工。另一方面,从发展的角度来看,个体在日常生活中对自然场景进行加工识别的过程同时也是一个不断学习、不断积累经验的过程。根据Seriès和Seitz(2013)对预期的分类,教育文化经验及个体长期积累起来对周围世界的规则性经验,更多属于与长时记忆有关的结构性预期;即使早期的前馈加工过程也会在长期适应和学习种不断发展。在知觉与学习同时进行的过程中,哪些经验知识会保留下来变成个体的结构性预期,而哪些又被当作无关信息遗忘掉;这种外显或内隐的知觉学习过程,是与自下而上反馈加工有关,还是与前馈、反馈之间的交互作用有关;这种调节作用是否影响知觉学习的进程,等等。这些问题仍然需要进一步深入探究。

“西方人的权力一直通过暴力和贸易来攫取资源……并且遮掩了非正式的市场与在一个全球经济中国家的地位所形塑脉络下的政治权力施展之间长期的关系。”[3]140有学者把这些国家权力的转型过程视为影子政府,一种权力的另类的制度化,其中私人的以及积累的政治循环在相互得到强化。利比里亚这样的例子告诉人们,不要期望朝向西方“善治”的理想迈进,表面上一种“民主”框架的“再制度化”可能就是一种虚构,而根基于阴影权力关系之上的体制可能会持续相当长的一段时间。

最后,在本文的计算模型介绍中,虽然心理学家与计算机科学家提出了许多关于场景识别的计算模型,某些模型与算法在特定的任务场景中甚至可能达到比人类被试更高的准确率(Walther & Shen,2014),但仍然没有哪种计算模型能够真正“理解”场景的含义。一方面,有些模型更多关注将场景描述符应用到分类器中能否得到更高的分类准确率,将其作为判断模型或描述符好坏的重要指标。但是,这类模型的问题往往在于,不够重视或忽略场景识别中自上而下和自下而上两种加工过程的生理机制,同时过度追求分类器的准确率又容易产生过度拟合(over fit)的现象,导致生态效度太低,无法推广到更大的图片库或复杂的现实环境中。另一方面,虽然贝叶斯概率推断模型除了在自然场景识别领域之外,在听觉(Elhilali,2013)、规则学习(Endress,2013)、语法学习(Perfors,Tenenbaum,& Regier,2011)、概念学习与分类(Goodman,Tenenbaum,Feldman,& Griffiths,2008)等许多领域都取得了显著的成果,但是它仍然受到多方面的质疑。例如,概率推断模型认为,个体最终做出的认知决策反映了其对最大概率的理性(rational)或最优(optimal)选择,而对此目前仍然存在较多的质疑(Marcus & Davis,2013)。另外,也有研究者提出,贝叶斯概率模型本身太过灵活,似乎可以解释所有可能出现的不同实验结果(Bowers & Davis,2012)。除此之外,人类除了能够快速识别场景的主题内容和类别信息之外,还可以快速理解场景中的人物关系与情绪状态,推断场景中正在发生的事件,判断场景中物体位置排列的合理性甚至做出审美判断,甚至还能由场景触发情绪和记忆等。对这些复杂的相互关联信息的处理,对于当前的计算模型来说,都还是遥不可及的。当然,这些复杂功能的认知及生理机制大多也都还没有明确的定论,因此未来场景识别研究中无论是认知与生理学研究还是计算视觉模型的发展,都应该更多综合考虑这些方面的因素,而不应该仅仅关注自然场景视觉分类这一简单的结果。

参考文献

王福兴,田宏杰,申继亮.(2009).场景识别及其研究范式.心理科学进展 ,17 (2),268-277.

Blei,D.M.,Ng,A.Y.,& Jordan,M.I.(2003).Latent dirichlet allocation.The Journal of Machine Learning Research ,3 ,993-1022.

Borji,A.,& Itti,L.(2013).State-of-the-art in visual attention modeling.IEEE Transactions on Pattern Analysis and Machine Intelligence ,35 (1),185-207.

Bowers,J.S.,& Davis,C.J.(2012).Bayesian just-so stories in psychology and neuroscience.Psychological Bulletin ,138 (3),389-414.

Camprodon,J.A.,Zohary,E.,Brodbeck,V.,& Pascual-Leone,A.(2010).Two phases of V1 activity for visual recognition of natural images.Journal of Cognitive Neuroscience ,22 (6),1262-1269.

Chun,Marvin M,Golomb,Julie D,& Turk-Browne,Nicholas B.(2011).A taxonomy of external and internal attention.Annual Review of Psychology ,62 (1),73-101.

Cohen,M.A.,Alvarez,G.A.,& Nakayama,K.(2011).Natural-scene perception requires attention.Psychological Science ,22 (9),1165-1172.

Corthout,E.,Uttl,B.,Walsh,V.,Hallett,M.,& Cowey,A.(1999).Timing of activity in early visual cortex as revealed by transcranial magnetic stimulation.Neuroreport ,10 (12),2631-2634.

Corthout,E.,Uttl,B.,Ziemann,U.,Cowey,A.,& Hallett,M.(1999).Two periods of processing in the (circum)striate visual cortex as revealed by transcranial magnetic stimulation.Neuropsychologia ,37 (2),137-145.

Dehaene,S.,Changeux,J.P.,Naccache,L.,Sackur,J.,& Sergent,C.(2006).Conscious,preconscious,and subliminal processing:A testable taxonomy.Trends in Cognitive Sciences ,10 (5),204-211.

DiCarlo,J.J.,Zoccolan,D.,& Rust,N.C.(2012).How does the brain solve visual object recognition? Neuron ,73 (3),415-434.

Dilks,D.D.,Julian,J.B.,Kubilius,J.,Spelke,E.S.,& Kanwisher,N.(2011).Mirror-image sensitivity and invariance in object and scene processing pathways.Journal of Neuroscience ,31 (31),11305-11312.

Dilks,D.D.,Julian,J.B.,Paunov,A.M.,& Kanwisher,N.(2013).The occipital place area is causally and selectively involved in scene perception.The Journal of Neuroscience ,33 (4),1331-1336.

Elhilali,M.(2013).Bayesian inference in auditory scenes.In Engineering in Medicine and Biology Society (Vol.2013,pp.2792-2795),IEEE.

Endress,A.D.(2013).Bayesian learning and the psychology of rule induction.Cognition ,127 (2),159-176.

Epstein,R.A.(2008).Parahippocampal and retrosplenial contributions to human spatial navigation.Trends in Cognitive Sciences ,12 (10),388-396.

Epstein,R.A.,& Ward,E.J.(2010).How reliable are visual context effects in the parahippocampal place area?.Cerebral Cortex ,20 (2),294-303.

Fabre-Thorpe,M.(2011).The characteristics and limits of rapid visual categorization.Frontiers in Psychology ,2 (6),243-243.

Fabre-Thorpe,M.,Delorme,A.,Marlot,C.,& Thorpe,S.(2001).A limit to the speed of processing in ultra-rapid visual categorization of novel natural scenes.Journal of Cognitive Neuroscience ,13 (2),171-180.

Fabre-Thorpe,M.,Richard,G.,and Thorpe,S.J.(1998).Rapid categorization of natural images by rhesus monkeys.Neuroreport ,9 ,303-308.

Fei-Fei.,Li,VanRullen,R.,Koch,C.,& Perona,P.(2002).Rapid natural scene categorization in the near absence of attention.Proceedings of the National Academy of Sciences of the United States of America ,99 (14),9596-9601.

Fei-Fei.,Li,& Perona,P.(2005).A bayesian hierarchical model for learning natural scene categories.In Computer Vision and Pattern Recognition ,2 ,524-531.

Gajewski,D.A.,Philbeck,J.W.,Pothier,S.,& Chichka,D.(2010).From the most fleeting of glimpses on the time course for the extraction of distance information.Psychological Science ,21 (10),1446-1453.

Goodman,N.D.,Tenenbaum,J.B.,Feldman,J.,& Griffiths,T.L.(2008).A rational analysis of rule-based concept learning.Cognitive Science ,32 (1),108-154.

Greene,M.R.,Botros,A.P.,Beck,D.M.,& Fei-Fei,Li.(2015).What you see is what you expect:rapid scene understanding benefits from prior experience.Attention ,Perception ,&Psychophysics ,1-13.

Greene,M.R.,& Fei-Fei,Li.(2014).Visual categorization is automatic and obligatory:Evidence from Stroop-like paradigm.Journal of Vision ,14 (1),14-14.

Greene,M.R.,& Oliva,A.(2009).The briefest of glances:The time course of natural scene understanding.Psychological Science ,20 (4),464-472.

Grill-Spector,K.& Kaniwisher,N.(2005) Visual recognition:As soon as you know it is there,you know what it is.Psychological Science ,16 ,152-160.

Henderson,J.M.,& Hollingworth,A.(1999).High-level scene perception.Annual Review of Psychology ,50 (1),243-271.

Kamps,F.,Julian,J.,Kubilius,J.,Kanwisher,N.,& Dilks,D.(2016).The occipital place area represents the local elements of scenes.Neuroimage ,15 (12),417-424.

Kamps,F.S.,Lall,V.,& Dilks,D.D.(2016).The occipital place area represents first-person perspective motion information through scenes.Cortex ,83 ,17-26.

Kerrigan,I.S.,& Adams,W.J.(2013).Learning different light prior distributions for different contexts.Cognition ,127 (1),99-104.

Kirchner,H.,& Thorpe,S.J.(2006).Ultra-rapid object detection with saccadic eye movements:Visual processing speed revisited.Vision Research ,46 (11),1762-1776.

Koivisto,M.,Railo,H.,Revonsuo,A.,Vanni,S.,& Salminen-Vaparanta,N.(2011).Recurrent processing in V1/V2 contributes to categorization of natural scenes.The Journal of Neuroscience ,31 (7),2488-2492.

Lamme,V.A.(2006).Towards a true neural stance on consciousness.Trends in Cognitive Sciences ,10 (11),494-501.

LoBue,V.,& DeLoache,J.(2008).Detecting the snake in the grass:Attention to fear-relevant stimuli by adults and young children.Psychological Science ,19 (3),284-289.

Marchette,S.A.,Vass,L.K.,Ryan,J.,& Epstein,R.A.(2014).Anchoring the neural compass:coding of local spatial reference frames in human medial parietal lobe.Nature Neuroscience ,17 (11),1598-1606.

Marcus,G.F.,& Davis,E.(2013).How robust are probabilistic models of higher-level cognition? Psychological Science ,24 (12),2351-2360.

Marr,D.(Eds.) (1982).Vision .WH Freeman:San Francisco,CA.

Martin-Malivel,J.,Fagot,J.(2001).Cross-modal integration and conceptual categorization in baboons.Behavioural Brain Research.122 ,209-213.

Mendez,M.F.,& Cherrier,M.M.(2003).Agnosia for scenes in topographagnosia.Neuropsychologia ,41 (10),1387-1395.

Minamimoto,T.,Saunders,R.C.,and Richmond,B.J.(2010).Monkeys quickly learn and generalize visual categories without lateral prefrontal cortex.Neuron ,66 (4),501-507.

Oliva,A.,& Torralba,A.(2001).Modeling the shape of the scene:A holistic representation of the spatial envelope.International Journal of Computer Vision ,42 (3),145-175.

Perfors,A.,Tenenbaum,J.B.,& Regier,T.(2011).The learnability of abstract syntactic principles.Cognition ,118 (3),306-338.

Persichetti,A.S.,& Dilks,D.D.(2016).Perceived egocentric distance sensitivity and invariance across scene-selective cortex.Cortex ,77 (1),155-163.

Potter,M.C.(1975).Meaning in visual search.Science ,187 (4180),965-966.

Potter,M.C.(1976).Short-term conceptual memory for pictures.Journal of Experimental Psychology :Human Learning and Memory ,2 (5),509-522.

Potter,M.C.,Wyble,B.,Hagmann,C.E.,& McCourt,E.S.(2014).Detecting meaning in RSVP at 13ms per picture.Attention ,Perception ,&Psychophysics ,76 (2),270-279.

Purves,D.,Monson,B.B.,Sundararajan,J.,& Wojtach,W.T.(2014).How biological vision succeeds in the physical world.Proceedings of the National Academy of Sciences ,111 (13),4750-4755.

Roberts,W.A.,& Mazmanian,D.S.(1988).Concept learning at different levels of abstraction by pigeons,monkeys,and people.Journal of Experimental Psychology :Animal Behavior Processes ,14 (3),247-260.

Romeo,A.,& Supèr,H.(2014).A feed-forward spiking model of shape-coding by IT cells.Frontiers in Psychology ,5 (5),481-481.

Seriès,P.,& Seitz,A.R.(2013).Learning what to expect (in visual perception).Frontiers in Human Neuroscience ,7 (7),668-668.

Serre,T.,Oliva,A.,& Poggio,T.(2007).A feedforward architecture accounts for rapid categorization.Proceedings of the National Academy of Sciences ,104 (15),6424-6429.

Stein,T.,& Peelen,M.V.(2015) Content-specific expectations enhance stimulus detectability by increasing perceptual sensitivity.Journal of Experimental Psychology :General ,144 (6),1089-1104.

Stein,T.,& Peelen,M.V.(2017).Object detection in natural scenes:Independent effects of spatial and category-based attention.Attention ,Perception ,&Psychophysics ,79 (3),738-752.

Sun,Y.S.,Zhang,Z.J.,& Wu,B.X.(2017).The impact of contextual expectation on rapid natural scene recognition.Acta Psychologica Sinica ,49 (5),577-589.

Stansbury,D.E.,Naselaris,T.,& Gallant,J.L.(2013).Natural scene statistics account for the representation of scene categories in human visual cortex.Neuron ,79 (5),1025-1034.

Tapia,E.,& Beck,D.M.(2014).Probing feedforward and feedback contributions to awareness with visual masking and transcranial magnetic stimulation.Frontiers in Psychology ,5 (5),1173-1173.

Thorpe,S.,Fize,D.,& Marlot,C.(1996).Speed of processing in the human visual system.Nature ,381 (6582),520-522.

Torralba,A.,Oliva,A.,Castelhano,M.S.,& Henderson,J.M.(2006).Contextual guidance of eye movements and attention in real-world scenes:the role of global features in object search.Psychological Review ,113 (4),766-786.

Torralbo,A.,Walther,D.B.,Chai,B.,Caddigan,E.,Fei-Fei,Li,& Beck,D.M.(2013).Good exemplars of natural scene categories elicit clearer patterns than bad exemplars but not greater BOLD activity.PloS One ,8 (3),2474-2484.

Walther,D.B.,& Shen,D.(2014).Nonaccidental properties underlie human categorization of complex natural scenes.Psychological Science ,25 (4),851-860.

Westheimer,G.(2008).Was Helmholtz a Bayesian? a review.Perception ,37 (5),642-650.

Wu,C.C.,Wick,F.A.,& Pomplun,M.(2014).Guidance of visual attention by semantic information in real-world scenes.Frontiers in Psychology ,5 (2),54-54.

Wyatte,D.,Curran,T.,& O’Reilly,R.(2012).The limits of feedforward vision:Recurrent processing promotes robust object recognition when objects are degraded.Journal of Cognitive Neuroscience ,24 (11),2248-2261.

Wyatte,D.,Jilk,D.J.,& O’Reilly,R.C.(2014).Early recurrent feedback facilitates visual object recognition under challenging conditions.Frontiers in Psychology ,5 (2),674-674.

Xiao,J.,Hays,J.,Russell,B.C.,Patterson,G.,Ehinger,K.A.,Torralba,A.,& Oliva,A.(2013).Basic level scene understanding:categories,attributes and structures.Frontiers in Psychology ,4 (8),506-506.

The Recognition of Nature Scene and Its Models

ZHANG Xu -kun SUN Yu -sheng ZHANG Zhi -jun

(Department of Psychology and Behavioral Science,Zhejiang University,Hangzhou 310028,China)

Abstract

Human beings can rapidly and accurately process the object information,as well as the context information,of the nature scene image.Numerous cognitive neuroscience studies have demonstrated that the parahippocampal place area (PPA),occipital place area (OPA) and the retrosplenial complex (RSC) play an important role in nature scene recognition.Based on these findings,we introduced a few models of nature scene recognition.Firstly,we summarized the cognitive models of nature scene recognition in which we illustrated the role of feedforward processing and feedback processing,as well as their interaction,during scene recognition.Secondly,we summarized the algorithm development of scene recognition and we also proposed some prospects to enrich the computational models so that these models could truly understand nature scene.

Key words :nature-scene recognition,feed-forward model,expectation,computational model

中图分类号: B842

文献标识码: A

文章编号: 1006-6020( 2019) -03-0205-13

*基金项目: 国家自然科学基金(31371039)。

**通信作者: 张智君教授,e-mail:zjzhang@zju.edu.cn。

标签:;  ;  ;  ;  ;  

自然场景的识别及其理论模型论文
下载Doc文档

猜你喜欢