中国不同民族对核心词语认知的实验研究_炎黄文化论文

中国不同族群对核心词认知的实验，本文主要内容关键词为：族群论文,中国论文,认知论文,核心论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

一、缘起和目的

近些年来，陈保亚（1996、1998、2006）利用Swadesh（1952、1955）两度研制的词表提出了一个同源词判定的阶曲线理论，走出一条完善历史比较法的新路子。由于该项研究或其他原因，人们把Swadesh制定的200词表和修订的100词表理解成两个等级，似乎词库的词汇是可以分层的。

所谓词库，特指人类大脑（心理词库）存储词汇的空间和总藏。目前，心理学界对词汇存储和组织的方式虽然已经提出一些思路，但尚未取得决定性进展。另一方面，包括历史语言学在内的有关研究或多或少都涉及心理词汇的应用问题，诸如词汇形式、编码方式、词汇层级、词汇排序等等。历史语言学最关注的是词汇的演变和替代（汪维辉，2002），这就必然涉及词汇演变孰先孰后的顺序以及词汇在演变中的层级地位。演变和替代早的词跟晚的词在性质和特征上有哪些差别？这些差别只是不同应用角度呈现的，还是不同应用层面因素导致的？

Swadesh并未有意区分词汇层级，但他的研究却留下了这样的遗产。我们简单观察一下Swadesh（1952、1955）词表产生的过程和后人分层的依据。Swadesh词表是为推算语言分化时间深度设计的，从多语言同源词历史保留的角度确定了严格的择词标准。在两次制表中，尽管Swadesh宣称新词表中没有一个词是因为在老词表中的稳定性百分比而被删除，但是，新词表基本还是由老词表精简而来，保留了92项，补充了8个新词项。在第二表的设计中，Swadesh就两个词表的年代学统计应用结果指出：“根据新词表计算出的同源词保留率比老词表的高。”正是这个原因，后人自觉或不自觉地对Swadesh词表加以分层（Campbell，1998），尽管这样的分层并没有词汇学上的理据。

由于无法从词汇的本体性质或特征（概念、语义和形式等）上给词汇分层级，出现了借助应用层面语用要素的探索研究，例如词频特征（杨蓓，2003；江荻，2011）。可是词频特征局限性很大，在多数没有文字的语言中难以实施，对有文字的语言，其中的时代特征词、多形同义词等干扰因素也难以排除。

汉藏语言的发生学研究很大程度上依赖同源词的判定，历史久远导致的语音差异和文化交融造成的借词都无法单纯借助比较法解决（陈保亚、汪锋，2006；汪锋、王士元，2006）。这也是人们把Swadesh词表称为核心词表的原因，期望通过词汇的分层来探索识别同源词的方法。我们相信，人们直觉上感觉到的个体词汇之间的差异必定会影响词汇的演变和替代，因此深入探索词汇的分层仍然是必要的。

本研究受到心理语言学言语产生实验的启发（张积家、张凤玲，2010；张清芳、杨玉芳，2003；周晓林等，2001；庄捷、周晓林，2001），希望从一个不同的角度来讨论面向历史语言学的词汇分层问题。①目前，言语产生实验集中在说话产生过程，包括组织交流意图、激活概念、提取词义句法和语音信息，然后通过控制发音器官而发出话语声音。我们的实验虽然包含了言语产生过程，但重点关注输入变量和输出结果，涉及三类参项：第一是实验对象的语言身份性质，即母语族群或双语族群；第二是测试材料的分类，即主观上设置三组词项（包括Swadesh两次词表），希望从结果上观察是否存在词汇分级现象；第三是实验的反应时间。实验目的是通过记录不同语言族群对不同刺激的反应时来判断是否可以区分词汇层级，如果确有分层，是何种因素导致，这样的分层对词汇及其形式的历史比较和同源词判定是否有价值。另一方面，该项试验的结果对语言词汇教学和教材的设计、编写也具有参考作用。

二、实验一

实验一的目的是测试单语种被试命名图片的反应时间和对词汇的熟悉度。解答该问题有助于我们了解词汇是否存在认知上或语用上的层次差别。

实验一的被试是中央民族大学预科教育学院的维吾尔族和哈萨克族学生，汉语水平处于起步阶段，日常生活中主要用母语交际。这些被试归为北单组（北方单语组）。另外选择部分不会其他语言的汉族学生，归为汉单组（汉语单语组）。这两组人数均为20人，共40人，年龄在18～22岁左右，均为智商正常的大学生。

本实验从Swadesh第二次制定的100词表（陈保亚高阶词）中抽取部分词，配以图片，称为核心词。从第一次制定的词表减去第二次制定的词表剩余词（陈保亚低阶词）中抽取部分词，配以图片，作为次核心词。实验词汇所对应的图片主要来自中国常模图片库（舒华等，1989）。②操作上，我们把Swadesh词表与常模库配对，过滤掉不配对的，同时增加有图片但词表没有的词，这部分词作为实验参照组，称为非核心词。选择非核心词还采用了与Swadesh词项平衡配对的原则，例如家禽“鸡”对“狗”，数词“六、十、百”对“一、二、三”，颜色“蓝、灰、黄”对“黑、白、红”，自然现象“彩虹”对“雨”等，基本都是人们经验中常用性很高的词项。具体词表见附录。

实验软件是委托中科院软件所自行开发的。采用VC2008集成环境开发，调用Microsoft Speak标准差K处理以声控方式与被试交互。软件未命名。实验时，软件从预先设定的图库中随机地无重复地选择一幅图片展示给被试，考察被试的反应时间。从图片出现在屏幕上开始计时，在听到被试的声音时自动记录下被试对该图片的反应时间。如果因为种种原因（如被试走神或受到干扰等），对某幅图片未能记录下合适的反应时间，则可以将本次对图片的实验设置为“作废”，软件将重新随机选择一张图片继续本次实验。为了让被试熟悉实验过程，软件还提供了“练习”的功能。在图片熟悉度实验部分，所用软件开发环境、实验的练习、过程、数据的收集等各方面与图片命名反应时间的实验都是一致的，不同的是，图片下方给出熟悉度的评判标准供被试选择。

测试在实验室内完成。刺激呈现、反应时数据收集、熟悉度的选择均由计算机自动完成。整个实验分为两部分：

第一部分，测试图片命名的反应时间。首先在屏幕中央呈现注视点600ms，然后空屏300ms，接着图画出现在屏幕中间。被试的任务是在图画呈现后尽可能又正确又快地用母语大声说出图画名称，被试发声后图片消失，接着进入下一次测试，两次测试之间的间隔为2000ms。任务启动前，有5组图片作为预实验。计算机记录被试的反应时间，主试录音并记录被试说出的图画名称，以便后期命名概念一致性的统计。

第二部分，测图片的熟悉度。在屏幕上同时呈现图片和评判标准。被试做出判断后呈现下一幅。评判标准在5点量表上完成：（1）非常生疏，（2）比较生疏，（3）不确定，（4）比较熟悉，（5）非常熟悉。有5组图片作为预实验，再进入正式实验。计算机记录被试的反应时或评判结果，主试录音并记录被试说出的熟悉度级别，便于后期命名正确与否以及熟悉度的核对。

实验图片呈现的顺序是随机的。为了避免重复刺激给被试带来影响，我们把110幅图片平均分成A、B两组，每组都包括同等范畴和同等数量的图片。在测试被试对图片命名反应和熟悉度的实验时，我们要求一半被试用A组图片来测命名反应时间，用B组图片来测熟悉度；另一半被试用B组图片来测命名反应时间，用A组图片来测熟悉度。每个被试要完成A、B两组图片的相应任务，每组任务完成后休息5分钟，整个实验需要25～30分钟左右。

本实验删除反应时间错误数据的标准是：第一，图片命名的名称可能有多种词形，只要命名所反映的概念相近，我们就算是正确的命名，例如“鸡”“小鸡”“公鸡”“母鸡”等。第二，如果被试的命名错误率高于25%，该被试的数据就被删除。本次实验部分没有删除被试。第三，多数被试不认识或是命名混淆的图片，如将“痒”的图片命名为“挠背”“搓背”“抓背”等，就删除这幅图片。本次实验A、B两组各删除了4幅图片。第四，统计反应时的结果，删除了一些极端数值点。实验一删除极端数据标准是：反应时在（500，5000）之外的，Z值在（-3，3）之外的数值。根据以上四点，实验一删除了反应时错误的数据所占的比率是8.43%，极端值被删除的比率2.9%，总共删除数据所占的比率11.37%。因为熟悉度不存在错误值和极端值的问题，所以不需要删除数据。

图片命名反应时间的结果见图1。从图1可知，用母语命名图片时，北单组表现为2级的反应时间最大，与最稳定的1级和常用的3级之间的差异并不大。同样，汉单组也是2级的反应时间最大，不同的是，2级与3级之间的反应时差异比较大。

以上测量涉及多个内部交叉相关性数据，单纯利用方差等一般线性模型不易准确评估，为此，我们采用心理学界常用的混合线性模型对数据进行分析。本研究利用混合线性模型时，把反应时作为固定效应项操控，同时也能把被试差异和项目造成的变异作为随机效应纳入模型，使数据结果真正体现出操控变量的效应。表1数据是利用R混合线性模型（Linear Mixed Model）统计软件获取的，t值是运算数据，p表示显著度。

统计结果表明：第一，北单组用母语命名图片的反应时间，在1、2、3级词汇之间都没有显著差异。第二，汉单被试组用汉语命名图片的反应时间，在2级与3级之间有显著差异（t=-2.875，p＜0.05），2级核心词的反应时间要明显长于3级非核心词。

图片命名熟悉度记录的结果按被试人数平均，结果见图2。从图2可以看出，无论是北单组还是汉单组，用母语命名实验词汇所反映概念的图片时，他们对这些词汇的熟悉度都大于4，也就是说，对这些图片所反映概念的词汇都是比较熟悉或非常熟悉的，是他们日常生活中比较常见的词汇。其中1级词对于两组不同语言被试几乎没有差别，正说明Swadesh的1级词表具有相当的稳定性。

三、实验二

实验二是测试双语被试分别用母语和汉语命名图片时，不同词级之间反应时间的差异结果，或者考察被试组在不同词级下，汉语与母语之间反应时间的差异结果。

北双组是维吾尔族、哈萨克族既懂母语又懂汉语的学生，此组被试日常生活中使用汉语和母语双语交流，汉语水平比较高（我们检查了中央民族大学预科班量化的汉语水平考试等级分数，北双组与北单组有较大差别）。南双组指壮族、傣族、彝族等既懂母语又懂汉语的南方少数民族学生。北双组20人，南双组18人，年龄在18～22岁左右，均为智商正常的大学生。

实验二的材料与实验一相同。实验二的实验设备与实验一相同。实验二的实验程序，与实验一第一部分任务的程序基本一致。略有不同的是，每组一半被试用母语命名A组图片，用民族语命名B组图片，另一半被试与之相反。

实验二删除反应时间错误数据的方法与实验一基本相同。实验二删除极端数据的标准是：反应时在（500，7000）之外的，Z值在（-3，3）之外的数值。实验二反应时错误被删除的数据所占的比率16.39%，极端值被删除的比率2.5%，总共删除数据所占的比率18.8%。

南双组分别用汉语和母语命名图片的反应时间，平均结果见图3。从图3可知，南双组用母语命名图片时，1、2、3级词反应时之间没有显著差异。用汉语命名时，1级与2级、2级与3级词之间的反应时都有显著差异，而1级与3级词之间几乎没有差异。

用R混合线性模型的方法统计，观察每两级词之间的差异数据，见表2和下页表3。

表2统计结果表明：第一，南双组用母语命名图片的反应时间，在1、2、3级词之间都没有显著差异。第二，用汉语命名图片时，1级与3级之间没有显著差异，1级与2级之间呈边缘化差异（t=1.722，p=0.0858），其主要的显著差异表现在2级与3级之间（t=-2.779，p＜0.05），也就是说，南双组用汉语命名图片时，2级的反应时间要明显长于3级，这与汉单组用汉语命名图片时的结果一致（见表1）。

再从不同词级角度观察南双组用母语和汉语命名的反应时间差异，表3统计结果表明：南双组用汉语和母语命名1、2、3级词汇的时候，其反应时间差异都是相当显著的，即用母语命名图片的反应时间都长于用汉语命名，这表示南双组被汉化的程度很深，用汉语的熟练度明显要好于母语。

北双组分别用汉语和母语命名图片的反应时间，平均结果见图4。

从图4可知，北双被试组用母语命名图片时，其心理词库的反应时间在1、2、3级词之间都没有显著差异。但用汉语命名时，1、2、3级词之间的反应时间差异很大。

表4和表5是R混合线性模型的统计数据。

表4统计结果表明：北双组用母语命名图片的反应时间，1、2、3级词之间的反应时间没有显著差异，与北单组、南双组用母语命名的结果一致（见表1和表2）。不同的是，用汉语命名时，1、2、3级词之间都有显著差异，结合图4的数据可知，北双组用汉语命名图片的反应时间在词级之间有层级性：1级核心词＜3级非核心词＜2级核心词，其实这也反映了北方民族习得汉语词汇的顺序。

从词级角度观察北双组用母语和汉语命名的反应时间差异，表5统计结果表明：北双组用汉语和母语分别命名1级核心词时，差异并不显著，但命名2、3级词汇时，差异显著，即用汉语命名明显慢于用母语命名。

四、总结与讨论

用历史语言学的眼光来看待以上实验，有很多方面结论值得深究。

汉单组、北单组以及南双组和北双组用母语给1级和2级词汇命名未呈现显著性差异，这似乎与当前人们对Swadesh词表分级的理解相矛盾，也就是说，所谓最核心词和次核心词在母语人心理词库的存储没有特定的层级和秩序。不过，这个结果符合心理学界的实验，1969-1972年，Collins等人（1969、1972）提出过心理词汇的“层级网络模型”（Hierarchical Network Model），1975年，他又提出一个心理词典构造的修正方案，即“扩散激活模型”（Spreading Activation Modal），认为心理词典的词项是通过类似网络的关联被表征，而不是严格的层级组织结构（Collins、Elizabeth，1975）。

我们知道，Swadesh词表并非为构建核心词准备的，他设立一定标准构建了第一个200词表，然后用更严格的标准从第二个词表中再次筛选出100词表。无论词库词项的异同客观上是否存在层级差别，理论上这类主观择词操作有可能造成1级和2级词之间的差别，并可能造成词级的层次。至于造成差别的原因或性质应该检视他的择词标准。我们检查了Swadesh筛选100词的8项标准：普适性、避免文化词、避免专门概念、避免歧义词、避免潜在的重复词项、避免同根词、避免拟声词、避免形态特征词，发现这些标准按性质可分为两类，“普适性”和“避免文化词”意指选择最基本属性词汇，有跨越时间、地域、族群、文化的性质，反映人类语言的共性；“避免潜在的重复词项”和“避免同根词”具有分类作用，容纳更多概念词项，保证了词汇的多样性性质；“避免歧义词”指避免指称泛化或空洞化，符合语义清晰性特征。以上可称为词汇集的本体属性或内在属性，特指词汇的概念和语义类别，揭示出构成一个有限数量且具备某些特质的词表所必要的要素。其他标准则可归A语用或语法因素，称为词汇集的外在属性（江荻，2009）。

根据以上分析，我们发现北单组（母语）、汉单组（母语）、南双组的汉语命名时，1级和2级词数据的差异各组都趋近显著性（p=0.0714，p=0.1221，p=0.0858），而北双组用汉语测试的两级数据直接呈现显著性（＜0.01）。即Swadesh的1级词表只是部分地实现了择词的本体属性标准，揭示出词汇的非层次结构。但是，Swadesh择词标准不是为了探索词库的组织结构，因而在本体属性方面是不充分的。例如没有考虑词汇集整体的关联性质和程度：怎么聚类（同义、反义等）、怎么划界（经典范畴论、原型范畴论），没有考虑词项可能同时具有的本体性质和应用价值等。以词库结构角度看，正是择词标准的不完善，一定会出现一些其他因素的干扰，这些因素是外在的，跟不同族群对世界的认识有关。于是，现实世界各种时间性、层级性、秩序性结构可能映射到人对词汇的分类。例如“避免文化词”标准，Swadesh提出，“盐、花、冰”本是自然物，但因为与人的生存和文化相关，同时又是贸易商品或人工制品，于是不选。可是“鱼、鸟、狗、果”难道不是因为跟人的紧密关系（动物、食物、商品）而选择的吗？怎么摆脱文化性？显然，这样的标准不完善，至少应该增加其他标准加以调节，例如原初性、紧密性等（江荻，2011）。

由此可见，人们心理词库结构的层次性来源于词汇的外在（应用）属性，或者说受外在属性的影响，使得原本在本体属性上不分层级的1级和2级词之间呈现出近似的层级性。这也是我们说北单、汉单、南双汉语测试组1级和2级数据差异未达却又趋近显著性的原因。

关于南双组和北双组为什么用汉语命名1级和2级词会呈现趋近或达成显著性差异，而用母语则不出现显著性差异的原因，此处略作解释。根据我们的调查，由于中国目前教育体制现状，南双组被试从小都是在汉语学校成长的，同时在大社会环境完全使用汉语，仅幼儿时期和就学回家（小社会环境）使用母语，他们的人生中，使用汉语（包括书面语）的机会和时间远远超过他们使用母语的时间，汉语水平实际远远超过他们的母语水平。数据显示，在这项测试上他们跟汉单组基本没有什么区别。北双组被试也从小在汉语学校就读，但是居住环境和家庭主要还是使用母语，他们虽然是双语人，但母语水平高于汉语水平。

最令人意外的数据出现在2级和3级词数据的差异上，汉单、南双和北双组的汉语测试反应时间出现显著性差异（t=-2.875，p=0.0042；t=-2.779，p=0.0056；t=-2.951，p=0.0033），t值的负数形式告诉我们，2级词的反应时间明显长于3级词。这个现象不符合Swadesh的本意。我们推测，即使Swadesh第一次设立的简单标准不足以把200词在本体属性上与其他词汇（3级）明显区分开来，但是方向上的倒置和数据的较大差率意味着有其他要素施加了重大影响。在词项数增大的情况下，外在因素的文化、语用影响很可能起到主宰作用。对比起来，南双组母语水平低于汉语水平，测试母语的数据不显著，显示他们对生疏的母语词汇外在因素差别不敏感（表3）。北双组汉语水平也较高，一定程度上影响了他们对母语外在因素的敏感性。至于北单组测试母语的不显著性（正向），是因为他们使用汉语的熟练度仍差子母语（表5）。显然，2级和3级词汇之间反向的显著性差异证明，文化、语用等外在因素会造成词库的分层。

综合以上讨论，从人类心理词库的词汇本体（语义，概念）角度和词汇集的内部组织角度考察，词项之间很可能不是层次关系，也就难以形成层级结构。任何具体词集的构建，都是从心理词库整体词汇中择词和分割，都带有明确的应用目的，Swadesh词表也不例外，也就不可避免地带来人类认知世界的文化、语用等层次性特征和其他特征。这样的词集性质有可能给历史比较研究带来机遇和挑战。

中央民族大学预科教育学院胡英、陈晓云和董颖红老师为本实验组织被试对象提供很多帮助；中科院软件所刘汇丹博士协助开发实验软件，中科院心理所张清芳研究员和王成博士给予了专业上的指导；在此一并致谢。

①面向历史语言学的词汇分层仅仅是本文研究的直接目的，实际上词汇的分层是当代语言学和心理语言学的重要理论目标。

②据张清芳（2003），中国国内仅有一套“中国常模标准图片”，是舒华等人依据Snodgrass和Vandervart图片修订的。图片选择原则是表象一致性高、视觉复杂性低的图片，尽量排除图片对于概念认知的影响。

③1、2、3级词汇分别指斯氏核心词集1-100内的核心词、100-200内的次核心词、与1、2级核心词的范畴对等、人们常见的非核心词。

标签：炎黄文化论文; 文化属性论文;

中国不同民族对核心词语认知的实验研究_炎黄文化论文

猜你喜欢