汉语“字/词”公众语感的测量,本文主要内容关键词为:汉语论文,语感论文,测量论文,公众论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]H0 [文献标识码]A [文章编号]1003-5397(2002)03-0053-07
一 语感及语感测量
1.语感与公众语感 语感即人们对于本人所使用的那种语言的感知、理解和运用,是言语社团成员普遍具有的一种语言直觉。同时,语感又是使用语言的人们普遍具有的一种语言能力,一个人不论是否接受过学校教育,是否接受过语言学训练,都具有这种能力。这种能力是语言单位、语言规则在人脑中积淀的结果。人们使用语言的过程,实际上就是从人脑的语言知识库中提取最基本的语言单位,运用规则组成较大的言语片段进行信息交流的过程,只不过它是一种不自觉的下意识的行为罢了。
语感有个人语感和公众语感之别。语言社团中每个独立的个体对语言现象的感知是为个人语感;由这些个体结合而成的语言社团全体成员的语感即为公众语感。个人语感反映个体间语感的差异,公众语感揭示语言社团共同的语感倾向。就语言研究而言,公众语感提供的信息更具研究价值,因为语言现象存在于公众的使用之中,具有一致性倾向的语言事实常常为语言研究提供客观的量化的初始信息,而这些初始信息是可以通过一定的社会语言学的研究方法获取的,社会测量技术即是获得公众语感信息的一个途径。
2.语感测量及其基本原则 本文把运用社会测量技术所进行的公众语感研究称之为“语感测量”。具体地说,就是利用那些从对人们不自觉的言语行为的量化分析中获得的相关数据,推论出存在于人脑认知系统中的语言知识,进而为计算机模拟人脑的言语认知系统提供客观参数。
语感测量是我们观察公众语感的一个窗口,是语感量化分析的一项专门技术。它使抽象的概念具体化,使之具有操作性。语感测量包括设计测量指标、建立研究假设、确定调查方法、制作调查问卷、收集资料、统计分析、结果推论等一系列操作程序,测量技术的运用使语感不再是可感不可及的抽象概念,而是能够观察到的具体指标。
语感的测量应当建立在可观察的语言事实基础之上,这是进行语感测量须遵循的基本原则。社会现象往往是一些抽象的概念,难以直接测量,对社会现象的测量往往是通过对经验层次上的具体指标的观察统计来实现的,语感测量也不例外。
对语言的感知是一种社会心理现象,“语感”即是一个高度概括的、不便直接观察的抽象概念。进行语感测量,也必须从抽象概念的具体化开始。首先要设法使“语感”这一概念具体化,即将它转变为能够直接观察、统计的经验指标。
“语感”是与“语言”直接发生联系的概念,语言又是一个包括构成成分、结构关系、语义搭配、语用修辞等多方面多层级内容的复杂系统,对语言的感知实际上是对语言系统各部分内容的感知。这样,我们便可以通过语言系统的逐项分解,让语感的内涵和外延逐渐具体化。根据研究目的,本文首先将语感界定在“对语言构成成分的感知”这一平面上,然后再分解成“对语素/字/词/短语/句子的识别”等具体观测指标。因为只有处在这一平面上的字/词/句等具体单位才是语言感知的实体,才是能够直接观察、测量的对象,只有在这一平面上才能获取观测数据,语感测量的结果便是依据这些数据推论出来的。本文将结合汉语“字/词”公众语感倾向研究的实例对语感测量作一简要叙述。
二 汉语“字/词”公众语感测量的工作方法
1.研究目的 汉语的基本结构单位是“字”还是“词”,这是汉语学界一个有争议的问题,也是汉语研究需要弄清的一个语言事实。为了弄清这一事实,本研究拟采用社会测量技术进行语感的量化分析,即采取让公众从一个相对完整的言语片段(句子)中切分出最小构成单位(字/词)的方式获取相关数据,经过统计分析得出汉语社团成员对汉语句子的基本构成单位的认知倾向,据此推论出存在于公众心理上的汉语基本结构单位。
2.确定测量指标及建立研究假设 本次语感测量旨在弄清汉语社团关于字/词认知倾向的基本语言事实,但是汉语中与字/词相关的语言单位还有语素,这样一来,可能出现的测量指标就会有3个:语素、 字、词。根据日常观察,汉语社团一般成员不太明了“语素”这一语言学术语,需要先在小范围内进行一次调查,结果表明调查对象对“语素”十分陌生,致使“语素”的测量无法进行,故测量指标确定为“字”与“词”。据此建立假设:如果同一句子划分出来的字数与词数不同,则汉语社团的语言直觉中存在“字”“词”两个不同单位;如果同一句子划分出来的字数与词数相同,则“字/词”为同一单位。
3.资料的收集与处理 本次测量为语感的定量研究,采用问卷调查方式收集资料。根据研究目的,问卷设计为13个句子,共计300 个音节(含儿化音节),304个书写符号(汉字)。问卷分为3类,以便从不同的角度获取观测资料,但问卷的构成完全相同(均为13个句子,见附录)。第1类问卷(卷1)请调查对象指出各句所含的字数,以测量调查对象直觉中的“字”是怎样的单位;第2类问卷(卷2)请调查对象将各句的词逐一切分开来,以测量调查对象直觉中有无“词”的概念以及切分出来的“词”的具体形式;第3类问卷(卷3)请调查对象既指出各句的字数,同时也将词切分开来,以测量同一调查对象直觉中的“字”和“词”是否为同一单位。为避免导向性,问卷未对“字/词”的概念加以任何说明,完全由调查对象根据自己的经验或直觉对“字/词”进行判断,因此,测量结果应能比较客观地反映汉语社团一般成员对于“字/词”的认知倾向。
根据现有条件,问卷调查选用大样本整群抽样方式进行。调查单位为武汉市的12所学校,其中大学2所、中专2所、高中4所、初中4所。2所大学的调查对象是1—4年级的文理科学生,其他均为初中、高中和中专的1—2年级学生。3种问卷大体按照1∶2∶1的比例在同一样本单位同时发放。这是考虑到同一样本单位的人员素质基本相同,可以避免因人员结构层次的差异影响测量结果的效度与信度。此次调查计划发放问卷1200份,实际发放问卷1150份,回收问卷1081份,回收率94.0%,有效问卷908份,有效率84.0%。
需要说明的是,此次调查的对象全部为在校学生,这是在前两次所做调查的基础上经过比较后确定的。第1次调查(1997年10 月)是在大中小学生中进行的[2],第2次调查(1998年10月)的对象为不同年龄、不同职业、不同文化程度、不同工作单位的社会公众[3]。 相关分析显示,年龄、职业、文化程度等因素与切词结果无显著相关。陈松岑1998年在北大所作切词调查也显示大学生所学专业与汉语切词结果无显著相关(注:见陈松岑教授根据1998年12月在北大所作切词调查撰写的《词与非词的界限——语法专家与群众语感的异同》一文,未刊。)。为便于操作,此次调查特选择以在校生为对象。据以往经验,调查结果理论上应能客观地反映出汉语社团公众语感的基本倾向。
资料的处理分为两步:首先对回收的问卷进行人工整理,然后利用SPSS10.0统计分析软件对有效问卷进行统计分析。分析类型主要为单变量描述统计分析和推论统计分析。
三 汉语“字/词”公众语感测量的统计分析
本节拟采用集中趋势测量法和离散趋势测量法对所获调查资料进行单变量描述统计分析。首先运用集中趋势测量法找出一个典型数值来代表变量的分布,以反映资料的集结情况,然后运用离散趋势测量法求出典型值的离散程度,以了解资料的差异情况。两法并用,可尽量减少估计或预测的错误。下面从3个方面进行叙述。
1.不同调查对象分字结果的统计分析 表1是卷1加卷3 指认字数统计,计算结果中位值和众值均为304(字),四分位差为0,异众比率仅为11.74%,表明数据的集结非常密集,因而这一数值具有代表性,以304字为典型值估计能被绝大多数人接受。
表1 指认字数统计(n=460)
字数卷1(n=236) 卷3(n=224) 合计(n=460)
f %f %f
% 统计数据
30420988.5619787.95406 88.26均值 303.40
3033 1.27 4 1.79 71.52 标 准 差 1.97
3023 1.27 2 0.89 51.09 标准误差 0.09
3013 1.27 3 1.33 61.30
3003 1.27 2 0.89 51.09 中 位 值 304.00
2993 1.27 5 2.23 81.74 四分位差 0.00
2982 0.85 1 0.45 30.65 众值 304.00
2974 1.70 5 2.23 91.95 异众比率 11.74%
296/ /1 0.45 10.22
2952 0.85 1 0.45 30.65 最 高 值 304.00
2944 1.69 1 0.45 51.09 最 低 值 293.00
293/ /2 0.89 20.44 极差 11.00
注:本文所列各表中n表示总数,f表示频数,%表示频率。
2.不同调查对象切词结果的统计分析 卷2加卷3的切词结果远比字数判断复杂,划分出来的词数上限多达231个,下限只有117个,趋向于集中在152—170之间。(注:这里词的总数包括一些重复出现的单音节词,如“的”(除去“似的”)共出现14次,计作14个词。类似情况约有“的、地、得、着、了、过、里、上、下、一、我、几”等十多个字。)仅以第(4)和(13)两个各由29字组成的句子为例做一统计叙述。
表2(见下页)的20个观测值代表第(4)句切词的20种结果,表明切分出的词数从8至27个不等。均值(15.70)(注:涉及到字数、词数的统计数值均以整数计,如“15.70”即为16个词“13.80”即为14个词。)与中位值(16.00)非常接近,趋于正态分布。根据四分位差(3.00)该句的数据分布集结在14—17个词之间,众值(17.00)也在这一区间。这种趋势反映了调查对象对该句中“了、的、里”等3 个单音节是否独立成词存在一定的认知差异。根据汉语基本常识,这3 个音节一般是可以独立成词的,因此我们趋向于取众值为典型值,这样,该句大体上可以切分成“我/看清/了/那棵/大树,数不清/的/枝上/有/许多/根/一直/垂到/地下,伸进/泥土/里。”等17个词。
表2 第4句切分词数统计(n=672)
词数 卷2(n=448) 卷3(n=224) 合计(n=672)
f
%
f
% f
%统计分析
86 1.34 5 2.23 11 1.64
99 2.00 6 2.67 15 2.23
10
9 2.00 2 0.90 11 1.64
11
17 3.79 6 2.67 23 3.42 均值 15.70
12
14 3.12 6 2.67 20 2.98 标 准 差 2.92
13
19 4.24 11 4.91 30 4.46 标准误差 0.11
14
41 9.15 27 12.05 68 10.12
15
64 14.2926 11.61 90 13.40中 位 值 16.00
16
98 21.8836 16.07 13419.94四分位差 3.00
17
11726.1755 24.55 17225.60
18
15 3.35 8 3.57 23 3.42 众值 17.00
19
13 2.90 16 7.14 29 4.31 异众比率 74.40%
20
8 1.78 3 1.34 11 1.63
21
5 1.11 4 1.78 9 1.34 最 高 值 27.00
22
6 1.34 2 0.90 8 1.19 最 低 值 8.00
23
4 0.88 4 1.78 8 1.19 极差 19.00
24
2 0.44 3 1.34 5 0.74
25
----
---- 2 0.90 2 0.30
26
----
---- 1 0.46 1 0.15
27
1 0.22 1 0.46 2 0.30
第13句的16个观测值代表了该句16种切词结果(限于篇幅,统计表从略),表明切分出来的词数从8至25个不等。均值(13.80)和中位值(14.00)基本一致,呈正态分布,根据该句的实际情况, 取中位值(14.00)为典型值。这样,该句便切分为“微风/吹来, 水面/泛起/鱼鳞/似的/波纹。几只/鸭子/跳进/水里,快活/地/游来游去。”等14个词。四分位差(2.00)显示该句的数据分布集中在13—15个词之间,这是因为,如果调查对象将“快活地”看作1个词, 该句的词数就减少为13个;如果把“游来/游去”切分为2个词, 该句的词数就增加到15个。这样,第(4)和(13)两句(58 个汉字)中划分出来的词数大致为31个,其中单音节7个,双音节22个,三音节1个,四音节1个,双音节词占绝对优势(约70%)。由此可见测量结果字数与词数不一致,研究假设成立。据此推论,全部13个句子(304个汉字)划分出来的词约在149—175个之间,其中双音节词大约在104—122区域内。
3.同一调查对象分字与切词结果的统计叙述 卷3 重在考察同一调查对象对于同一句子中的字/词认知情况,全部调查对象中,只有14位(3.12%)分字与切词结果相同,说明汉语社团极少数成员的观念中字/词是同一概念;绝大多数调查对象(96.88 %)划分出来的字数与词数不一致。简便起见,下面仅以字串“小女儿”为例对问卷3 的划分字/词的结果做一分析说明。字串“小女儿”的统计结果,划分为3 个字的调查对象有95.54%,无一人将其认作为1个字;而切分为3 个词的调查对象仅有0.89%,认作为1个词的高达82.14%,显然,同一调查对象划分同一句子的字/词结果是不一致的,由此证实,普通人眼中的“字”和“词”确实是两个不同单位。
四 汉语“字/词”公众语感测量的结果推论
1.研究假设成立 据分字结果分析,估计将典型值304 视为调查对象普遍认可的总字数是可以被接受的。据表2和表3统计分析,典型值17与14也能分别看作第4句和第13句的词数,两句的词数均与字数29个不一致;字串“小女儿”的分析已显示同一调查对象划分同一句子字/词的结果不一致。据此研究假设成立,即汉语社团的语言直觉中存在“字”“词”两个不同单位。
2.字是文字单位 表1的典型值304与问卷中给出304 个作为书写符号的汉字正好吻合,可以推论调查对象直觉中的“字”是一个文字单位,“字”与语音上的“音节”基本对应,一个字代表一个音节。至于9.56%的调查对象认为字数在296—303个之间的事实,主要是由5个带“儿”的字串和3个联绵字串“参差、斑驳、蜻蜓”引起的。 调查结果中不按书写符号记“字”的情况反映的只是少数成员认知上的差异,因而还是可以推论,存在于调查对象头脑中的“字”主要是“音节”的书写符号。下面通过统计假设检验(大样本总体均值检验)进行验证。
现代汉语中“参差、斑驳、蜻蜓”这样的两音节字串一般称作“联绵词”,汉语社团基本倾向于将其看作语言单位。如果“字”是语言单位,那么联绵字串应该被大多数调查对象指认作一个“字”。问卷给出了3 个联绵字串,假设字是语言单位,那么调查对象指认字数的均值应为301个,据此建立原假设H0∶μ=301,研究假设H1∶μ>301。 根据大样本Z检验法,计算结果:检验统计量Z-拒绝域临界值丨Za丨=301,则原假设成立;否则,拒绝原假设。根据检验统计量计算公式,Z =(总体均值-假设均值)/标准误差,将表1中的数据代入该公式,Z=(303.4-301)/0.09=2.67。当概率P<0.01时,丨Za丨=2.33,而计算结果2.67>2.33,因此,原假设遭到拒绝,接受研究假设。由此可知小概率事件没有出现,这样,我们就有99%的把握认为“字”是文字单位而不是语言单位。具体地说,公众语感中的字既不是“最小的自由运用的造句单位”,也不是构词单位语素,否则的话,调查对象会倾向于将联绵字串、音译字串(不论是几个音节)也都划分为一个“字”。
3.词是语言单位 据表2的统计数据, 切分出来的词数大大少于音节数,即说明词是大于音节的单位。比音节大一级的单位在语音上称为“音步”,是一级韵律单位。调查对象切分出来的词双音节占绝对优势,表明公众直觉中的词与韵律单位“音步”基本对应。
词作为汉语基本的造句单位已普遍为人们接受,不过在许多情况下,公众认可的词并不完全等同于学界从语法上定义的词,也不限于一般词典中的词条,倒与韵律单位音步比较接近。但是公众直觉中的词又不仅仅是韵律词,作为言语交际中负载信息的基本单位,它必须得到句法和语义的默认,如果没有这种限制,汉语词的界限倒也就十分简单了。
4.汉语基本事实——“字”与“词”共存且“字”与“词”有别 由以上分析大致可以推导出汉语社团一般成员观念中“字”与“词”共存且“字”与“词”有别的基本语言事实。此问卷调查得以进行本身就意味着汉语社团绝大多数成员在观念上已经接受了“字”和“词”的现成概念,尽管目前学界对汉语中是否存在“词”这级结构单位尚存异议。但显而易见,汉语社团成员的认知系统中普遍存在着“词”这一级通过音步实现的语言直觉单位,它与“字”是不同的结构单位。作为最基本的一级语言单位,词除了与字有本质的区别外,还与字有着密切的联系。篇幅所限,我们将另文探讨汉语社团的字/词观。