方言的关联、相似与交际索引_方言论文

论方言相关度、相似度、沟通度指标问题,本文主要内容关键词为:方言论文,指标论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

汉语方言间关系的统计研究,是当今汉语方言研究的一个重大课题。甚至可以这样说,汉语方言关系研究的最终结论,将有待于方言关系计量研究全部问题的最终解决。而方言关系的统计研究中,能否确定好的统计指标,对研究结论的价值关系重大。为此,本文拟在对郑锦全等人研究工作中存在问题进行分析的基础上,对方言相关度、相似度、沟通度等几个指标的含义和数值确定问题进行讨论,希望能对这项研究有所推进。

一 方言系统的相关度与相似度问题

首先是相似度与相关度是否应作区分和怎样来区分的问题。我们认为,尽管两者密切联系,相似度的测量有时离不开相关分析的帮助,相关度的计算有时也不能完全不考虑相似度的问题,但相似度与相关度所反映的是现象的不同的特征,它们的测量方法也不尽相同,因此区分为两个不同的统计指标应更有利上于在统计研究中分析说明问题。我们可以把相关度确定为是从数量上来反映不同总体的相互关联的程度的,它要通过不同总体中共有的构成要素与两总体所有构成要素总和的比值来进行测量。比如狗有脊椎,鱼也有脊椎;狗有毛,有脚,有肺,鱼没有;鱼有鳞,有鳍,有鳃,狗没有。等等。我们就可以根据这些构成要素的总量及共有量的多少来测量它们的相关程度。而相似度则可以确定为是从数量上来反映不同总体的相像程度的,它要设法通过对不同总体中对应要素的差别进行量化,求出能反映各对应要素之间的接近程度的不同数值,再根据各对应要素在总体中所占的比重赋予一定的权重,然后把各对应要素的相似度的值乘上其权重值后求和来进行测量。比如张三和李四都是有鼻子眼睛嘴巴的四肢齐全的人,从构成要素来说两者完全相同,相关度就是1。然而我们却不能说张三李四长得一模一样,可能张三矮点,李四高点,张三胖点,李四瘦点,张三鼻子扁点、嘴巴大点,李四鼻子高点、嘴巴尖点,等等。这时候我们就不能根据共有要素的有无来测量他们的不同,而是要根据他们的高矮、胖瘦等对应要素在数值上的关系来测定他们的相似程度了。

其次我们再来分别设定相关度和相似度指标。先看相关度。设R(I,J)为甲乙两总体的相关度,i为甲方独有的某一构成要素,j为乙方独有的某一构成要素,k为双方共有的某一要素,那么相关度就可以定义为:

也就是相关度等于双方共有要素的和与双方所有共有要素及所有各具要素的和的比值。

这里我们看看郑锦全关于汉语方言相关程度的计量研究。郑锦全提出根据方言中某些词汇形式和音韵形式的有无,运用统计学里的皮尔逊相关系数公式,来计算方言间的相关系数值,并把它作为衡量方言亲疏程度的指标(郑锦全,1988)。这里且不说他的研究中没有将相似度和相关度两个概念进行必要界划,以致统计研究中常常相混,特别是抛开相似度而以相关度为衡量方言亲疏程度的唯一指标,可能会导致统计分析结论上的误差;单从统计指标的设置上看,把皮尔逊相关系数式套用到方言关系上是否合适就值得考虑。就语言系统关系来说,相关程度的高低,应取决于相互间构成要素中相同项总量的多少。没有相同项,我们就说它们没有关系;相同项多些,我们就说它们相关程度高些,反之就低些。因此语言系统之间应该只有完全不相关和正相关两种关系,不应存在负相关关系,其相关系数值都应在0—1之间,不允许出现负值。而皮尔逊相关系数式是用以计算两变量的线性关系的密切程度的,其计算结果可在-1到+1之间,允许出现负值。如果用皮尔逊相关为语言相关程度的测量指标,就意味着语言之间可能会出现负相关的情况,这不合于语言实际。再者,皮尔逊相关系数的正负值反映的是相关的不同方向或性质,其绝对值的大小才显示相关程度的高低。这样的话,如果同为负值,绝对值大我们就要说它相关程度高,绝对值小我们就要说它相关程度低,而事实上是负值的绝对值越大,语言间的差异量就越多而共有量就越少。如果把差异量大共有量小的情况看为相关程度高,反之看为相关程度低,这在观念上也是不好接受的。所以,把皮尔逊相关系数当作测量语言系统相关程度的指标,未必是一个最好的选择。我们认为,如用方言间相同因子的和与相同因子及不同因子之和的比值,来作为衡量相关程度的指标,可能才会更简捷而客观。王士元、沈钟伟曾提出,采用分类学中普遍使用的Jaccard的相关系数计算法才更为合理(王士元、沈钟伟,1992)。Jaccard计算法实际就是计算双方共有量与共有量及差别量之和的比值,其计算结果数值范围也都在0—1之间。他们的意见应该是对的。

确定方言相关度统计指标有两点要注意。第一点,相关度指标应包含两总体所有构成要素,而不应只局限于对应要素上。不同方言中可能都存在一些独特的构成要素,这些要素无法与别的方言形成对应。仅以对应要素进行测量,就会因缺漏这方面的数据而使相关统计出现误差。这也是我们强调相似度与相关度指标需要区分的原因之一:相似度只能在对应要素之间进行测量,而相关度则可以而且应该顾及所有构成要素。第二点,统计指标所用的单位要放到能反映相关程度差别的层面上去。比如进行词汇相关度统计时若只以词汇形式为单位,并依其有无进行计算,会忽视语素、构词方式等在相关程度上所起的作用,使相关度本当大小有别的变得没有差别了,因而导致统计误差。这一点王士元、沈钟伟已给予指出(王士元、沈钟伟,1992)。另一方面,也可能会把本当没有差别误作差别看待,这同样会导致统计上的误差。例如“蝉”这样的词,如果不考虑词尾的差别,在《汉语方言词汇》中就有“截溜”(济南)、“蝉溜”(合肥)、“虮溜子”(扬州)、“知了”(苏州)、“知龙”(温州)、“蝉了子”(长沙)、[tζia[55]·lu·子](南昌)等词形,古语词中还有“蜩”、“是劳”、“帝劳”、“是乐”、“刀劳”、“召僚”、“蜘僚”(上诸字本都从虫)等词形,若以词汇形式为单位进行统计,它们都将互不相关。实际上这些方言词形都不过是“知了”一词的方言音转,古语词除“蜩”当即“是劳”等的合音外,余也当为“知了”的古今音转。这些词形虽个个不同,但应仍然是同一个词(是只有同一个词素的单纯词),差别只在古今方音音转,但那是音韵的问题,不是词汇的问题。比如“猫”,此地念miao[55],彼地念mao[55],你能说它们是毫不相关的两个词么?语音相关度统计也是如此,若以语音形式为单位就会忽视音素特征在语音相关度上所起的作用,导致统计误差。比如中古匣母字在现代17个主要方言中有[x]、[u]、[k]、[i]、[v]、[k]、[s]、[y]、[f]、[h]、[g]、[ng]、[j]、[t]、[w]、[l]等等共31种不同形式,如果以语音形式为统计单位,那么它们都将互不相关。但我们凭语言直觉和语言知识就能判断它们之间在相关程度上应有大小之差。所以要精确测定语音系统相关程度的话,不能不考虑把统计单位“下放”到语音构成的更小的因子上去。

关于相似度,我们可以这样来确定。设S(I,J)为两总体的相似度,n为两总体的所有对应项,(i,j)为其中某一对应项,X(i,j)为该对应项要素的相似度,Q(i,j)为该对应项在总体中的权重值,那么两总体相似度就可定义为:

也就是总体相似度等于所有对应项相似度与其在总体中的权重值之积的总和。其中对应项的相似度及其权重如何确定是个关键问题。对于不同的统计对象来说,对应项相似度及权重的求取可以通过不同的方法解决。在语言或方言的相似度统计研究中,对应项相似度的量化是个困难的课题,但这个课题不解决,系统相似度的研究就无从谈起,系统间关系的历史、系属、分类等重大问题的研究也都要受到严重影响。郑锦全在他的汉语方言亲疏程度及方言沟通度的计量研究中,没有着手去研究解决这个问题,而是把这个问题暂时挂起来了,这就大大降低了他的研究结果的精确程度。陆致极注意到了这个问题,他通过利用张家禄等人的汉语辅音知觉实验结果及谢泼德的心理相似度概念来解决汉语方言声母相似度问题(陆致极,1992)。虽然这是一个很好的尝试,但还不能说已完全解决了这个问题,不仅方言间韵母、声调相似度的问题还没解决,声母间相似度问题也还有待深入探讨。一方面是张家禄等人的实验还没有涉及到所有汉语方言的声母,因此缺乏这方面的完备材料;另一方面他们的语言听觉实验以音节为单位,在辅音听觉的测度中是否受韵母的干扰也让人怀疑。比如,根据他们的测量结果,p--t、m--n都有极高的相似度,然而在汉语音韵中,唇音声母与舌尖声母向来都被认为是语音相关较大的。从汉语音近通转的情况看,除充当韵尾的情况,两者之间发生相互演变的情况也是极为罕见的。据我们对新编《汉语方音字汇》的统计,中古帮非组字共460个,在现代18个方言中共8280个,但演变为今舌尖前音的只有明母字的7个(m→n),只占0.085%。而端组字(不计来母)312个,在现代方言中合共5616个,也只有2个变为唇音字(n→m),只占0.035%。两种结论差别这样大,这就使我们不得不仔细考虑其研究方法的合理性了。为了解决语音相似度的问题,笔者1988年在《广韵》韵母构拟系统与现代八大方言韵母系统相似程度研究的硕士论文中,曾试图通过将语言的发音学特征的差别量化,来对语音相似度进行测量。主要依据是汉语音转的难易程度往往与语音的发音学特征含量上差别个数多少有关,并且发音学特征也是对语音差别进行大量的听觉实验后分析归纳得出的。对发音学特征所体现出来的差别进行测量,应可以大致判定语音间的相似程度。具体做法是:对韵腹、韵头来说,先以八个标准元音为建立特征数据的基准,根据不同元音的具体情况,再作适当调整,然后建立类似如下的表格文件,参看下页表1。

表1中特征说明上,为了能显示元音音素在高低特征向量上的差别程度,我们不用传统的“最高”、“半高”等名称,而改用“最高”、“非最高”等作标示。对于韵尾,我们则另设计了表格文件,参看下页表2。

设计表2的时候出于几点考虑:1.辅音尾唇舌牙喉在发音部位上排成前后序列,为了反映它们在部位上的差别量,我们不用原来的名称而改用“最前”、“非最后”等作标示。2.元音尾u、i的发音特征不好与辅音作详细比较,我们就以半元音w、j来比较。同样部位的元音与半元音发音状况基本相同,因此表中u、i的特征实际就是w、j的特征。3.表中元音只列u、i两个,遇到需计算别的元音与上述辅音尾的相似度,凡开口元音就取表中u的特征量计算,齐撮口元音则取i的特征量计算。因为阴阳入三声相配中,开合口都配给舌根辅音,齐撮口都配给舌尖辅音,并且一般都认为它们部位分别相同。

有了上面两个表,我们就可以进行韵母相似度的测度了。

第一步,先将所有音素之间的相似度求出来。办法是韵头韵腹按表1的数据,韵尾按表2的数据,将两音素相同项除以项目总数(如考虑区别特征是二元对立的话还可以先各除以2)再乘以100%。然后制成一个音素相似度二维表以备查。

第二步,按韵头与韵头、韵腹与韵腹、韵尾与韵尾相比的原则,把被比较的两韵母的韵头、韵尾、韵腹的语言相似度求和再除以3,就得到韵母的相似度。如遇韵头韵尾不全的,就以空格的形式以韵腹音素予以补齐,即把它看作是头尾俱全只是缺乏屈折变化的韵母。韵尾都是元音的话,就按表1的数据计算相似度;韵尾一为元音一为辅音、或者都为辅音就按表2的数据计算。

第三步,把各对应类型的韵母相似度值乘上各自包含的字数与总字数的比值(就是乘上对应类型的权重),然后求和,就可得到韵母系统的相似程度值了。

以上办法虽还不能说已完满解决语音相似度问题,但其可操作性强,也比不作相似度测量来谈方言语音关系在结论上逼近了许多。

二 方言沟通度问题

第一个问题,沟通度究竟指的是什么,是交际中交际双方能听懂对方全部话语的比率,还是听懂对方话语中单个字词的比率?这涉及到指标数据值设定的问题。如果是前者。就要考虑单个字词的现次率,因为字词频次在话话中覆盖率对沟通程度会造成影响。如果是后者,就应以单个字词为统计对象,而无须考虑现次率问题。以现次率还是以单字词的数目进行统计,统计的结果是不一样的。我们认为,与相似度、相关度不同,相似度、相关度应是静态的测度,而沟通度则是通过交际中交际双方的理解程度来对系统关系进行测度的,它就是动态的测度。既是动态的测度,就应是能听懂对方全部话语的比率,就应把字词的现次率考虑进去。

第二个问题,是沟通度的测量应是在怎样的状况下进行。我们认为,尽管已有的方言认知程度对交际沟通程度有影响,却不能说明方言关系问题,因此我们必须把方言沟通度划为在毫无对方方言知识准备的情况下,交际双方在第一次交际中仅凭本方言知识就能听懂对方方言的程度。这一点很重要,这一前提不确定下来,就给具体研究工作的开展造成观念上的混乱。

第三个问题是方言间的沟通程度与哪些因素有关。在我们看来,交际中能听懂、理解对方所说方言的程度至少要受八个因素的影响:

一是话语中提供的信息量。比如“书”字西安念[fu[21]],单念时在北京人听来容易与“斧”相混,但如果是在“图书馆里有很多书”这样的话语里,由于上下语境提供了结构的和语义的信息,能听懂这是“书”字的程度就要提高很多。

二是交际者对方对方言知识的积累程度。积累的知识越多,对对方话语的理解程度就越高。

三是系统中对应语音的相似程度。对应语音越是相似,就越容易听得懂,也就越利于沟通。

四是各语音对应类型在总体中所占的比重。比重大的在交际话语中所占的分量就重,对沟通程度的影响也就相对较大。

五是各语音成分对应规律的强弱。规律性越强,越不容易造成混乱,也就越容易沟通。

六是词汇共有量。共有词汇量越大,也就越容易沟通。

七是词的现次率。现次率高的词在交际中占的分量就重,对沟通度的影响就大。

八是语法一致性的程度。一致性越高,也就越容易沟通。

上述八个因素中,第一、二个因素在沟通度指标的设定中可以排除,因为同样的话语所提供的信息对任何方言都是一样的,话语信息并不能说明系统关系远近问题,同样,方言知识多少也不能说明方言关系远近问题。汉语方言的语法差异远不如语音和词汇显著,对沟通构成的影响微乎其微,因此因素七在沟通度指标设定中也许也可忽略不计。但除此之外的其余五个因素则都是沟通度指标设定中必须要考虑的。其中因素三、四、五决定了方言语音的可沟通程度,因素六、七则决定了方言词汇的可沟通程度。由于因素三、四、五都与语音可沟通度成正比关系,所以,在假定方言语音沟通度为各语音对应类型的可沟通度值的累计和的前提下,方言语音单向沟通度可通过下式求得:

Y(I,J)=∑X(i,j)×P(i,j)×R(i,j)(3)

其中Y(I,J)为甲方言对乙方言的语音单向可沟通度,X(i,j)为甲方言对乙方言某一对应类型的语音相似度,P(i,j)为该类型在总体中的比重,R(i,j)为该类型对语音对应规律的影响。方言词汇单向可沟通度则可通过下式求得:

C(i,j)=∑Kv/∑Kv+∑jv(4)

其中C(I,J)为方言词汇单向可沟通度,Kv为某一双方共有的词的现次率,∑Kv为双方共有的所有词的现次率之和,jv为某一方言独有的某个词的现次率,∑jv为该方言独有的所有词的现次率之和。式子表示的就是共有词汇量的总现次率与共有词汇量总现次率加上一方言独有词汇的总现次率的和的比值,也就是交际中在词汇方面一方能听懂另一方的话语的覆盖率。这里有两点应注意,一是我们并不把双方独有的词汇量都计算进去,因为对任何一方来说自己方言的独有词汇是“自家有病自家知”,不知的只是对方的独有词汇。二是∑Kv+∑jv实际就是某方言全部词汇的总现次率,其数值就是1,因此上式又可化简为:

C(i,j)=∑kv(5)

也就是方言词汇的单向可沟通度就等于共有词汇现次率之和。由于方言的单向沟通度与方言语音单向沟通度及方言词汇的单向沟通度都成正比,所以方言单向沟通度可以用下式表示:

G(i,j)=Y(i,j)×C(i,j)(6)

其中G(i,j)是总的单向沟通度,Y(i,j)为语音单向沟通度,C(i,j)为词汇单向沟通度。如果把式(3)和式(5)代入,式(6)就可变为:

G(i,j)=[∑X(i,j)×P(i,j)×R(i,j)]×∑Kv(7)

总之上述三、四、五、六、七共五个因素都应是方言沟通度指标设置中必不可少的要素。五个要素中,词汇共有量问题及词汇现次率问题郑锦全都未涉及,语音相似度的问题在郑锦全的研究中是暂时挂起来了(郑锦全,1994)。语音对应类型在总体中的比重问题,由于郑锦全不是从动态测度考虑,所以取值时是直接从DOC中统计对应类型包含的字数。如果从动态测度考虑的话,就要把对应类型包含的所有单字的概率和统计出来。这个问题好解决,只要从《现代汉语频率词典》中查出各单字的频率并求和就行了(词汇现次率也一样)。至于据对应规律的强弱给类型加权的问题,郑锦全采取的办法基本上是一种硬性的摊派,因此合理性差。下面就着重谈谈他的处理方法中存在的问题及我们的看法。

在郑锦全的研究中,一个语音成分的各对应类型包含的字数大于平均数的,就一概给予正值加权:小于平均数的,就给予负值加权,这是否合理值得考虑。举个例子,中古定母字今南昌音中念[t']的字有113个(这里为方便说明问题暂不计透母字的情况),这113个字与济南音形成两种对应类型。

再举一个极端的例子。设某方言有甲乙两个语音成分,字数都是100个。甲语音成分与另一方言形成20种对应类型,平均字数为5个;20种类型中有5种各包括2个字,其余15种各包括6个字。乙语音成分却只形成2种对应类型,平均字数为50个;其中一个包括51个字,另一个包括49个字。假定每种类型权重值的绝对值都是0.5,那么按郑锦全的算法,甲乙两语音成分各自合计数值就分别为

甲:2×(-0.5)×5×0.2+6×0.5×15×0.2=8

乙:51×0.5×0.2+49×(-0.5)×0.2=0.2

按理甲语音成分有那么多的对应类型,同时各类型包括的字数也都不多,语音对应的规律性一定是很低的,沟通起来也一定不容易;而乙语音成分只形成2种对应类型,对应相对单纯,语音对应的规律性一定强得多,造成混乱的可能性也会小得多。但从上面计算的结果看,甲语音的情况远比乙语音更有利沟通了,这显然也是不合理的。其原因,就在于以平均数来给类型正负加权。如果对应类型多,平均字数就会下降,使得字数不多的类型也能参与正值加权,从而加大总 值亦即提高了沟通度;如果对应类型少,平均字数就会升高,使得字数较多的类型也不得不负值加权,从而减少总值亦即降低了沟通度。以上这些都是由硬性规定造成的。此外郑锦全在设定具体权值的时候,给各种情况的对应类型分别规定为1、-1、0.5、-0.5、0.25、-0.25等六种权值。我们要问:为什么是0.5而不是0.4或0.6呢?为什么是0.25而不是0.24或0.26呢?显然这些都缺乏客观依据的支持,所以郑锦全在这个问题上的处理方法并不可取。

那么怎样才能比较合理地解决对应类型的加权问题呢?我们认为,语音对应的规律性受两方面因素影响,其一是各语音成分对应类型数目的多少。对应类型越少,对应就越单纯,对应的规律性就越强;对应类型越多,对应情况就越复杂,对应规律性就相对减弱。其二是同一语音形成的各对应类型在分量上的差别。我们想,为什么一个语音是形成这种对应规律而不是那种规律呢?原因就在于各类型占有的分量。“多数意见形成决议”,那么多数是多少呢?这多少反映的就是规律性程度的差别,也反映类型对规律形成的影响力的差别。“少数意见不能形成决议”,但却代表着一种趋势,一旦少数变成多数,它就会形成另一种规律。比如音变初始可能只有少数几个字,一旦涉及大量字,就会形成音变规律。所以,少数类型对规律性形成也有影响,其影响力的大小,就在于它们所占的分量。这样看来,无论分量轻重,对造成语音规律趋势都有影响,只是影响力大小不同,于是对应规律的强弱就由各类型的分量大小决定。例如一个语音成分只形成一种对应,其规律性就是100%,这个对应类型占的分量是100%,对规律 趋势的影响力也是100%。若形成两个对应类型,其中一个占的分量是99%,另一个占1%,其形成某种对应规律的趋势就有99%,形成另一种规律的趋势只有1%。占99%的类型在各类型中对形成一种规律趋势就有99%的影响力,占1%的类型对形成另一种规律趋势的影响力只有1%。这样的话,如果我们以各类型包含的字数,与同一语音构成的所有对应类型包含的字数的和的比值来给对应类型加权,就既能从数值上反映类型数目多少对规律性的影响,又能反映类型对造成规律趋势的影响力。公式表示就是:

Liq=Liz/L1z+L2z+L3z+……+Lnz(8)式中Liq为对应类型权重,Liz为某一对应类型包含的字数,L1z+L2z+L3z……+Lnz则表示甲方言某语音与乙方言语音构成的各对应类型包含的字数的总和。

现在我们试来检验一下这样给对应类型加权是否合理。假设甲方言有一语音成分,包含100个字,这一语音成分与不同的方言形成的对应类型及各类型包含的字数如下:

类型1类型2

类型3

……

类型100

乙方言:

100 0

0 ……

0

丙方言:99 1

0 ……

0

丁方言:98 2

0 ……

0

戊方言:98 1

1 ……

0

己方言: 1 1

1 ……

1

由于我们假定这一语音包含100个字,所以以上各种类型的权重值就是类型包含的字数除以100。再假设以上各类型与这一语音的语音相似度都是0.5,同时各对应类型在总体中的比重也暂不考虑单字出现概率,比如占98%分量的就是98个字等等,根据以上各类型的权重值,我们试对这一语音的上述各种对应情况的数值进行计算:

甲方言对乙方言(一种对应):0.5×100×1=50

甲方言对丙方言(两种对应):0.5×99×0.99+0.5×1×0.01=49.01

甲方言对丁方言(两种对应):0.5×98×0.98+0.5×2×0.02=48.04

甲方言对戊方言(三种对应):0.5×98×0.98+0.5×1×0.01×2=48.03

甲方言对乙方言(100种对应):0.5×1×0.01×100=0.5

可以看出对己方言的沟通度最高,因为其对应规律性最强;对丙方言又高于对丁方言,因为对前者呈现的规律性较强;对丁方言又高于对戊方言,因为对前者的对应类型少于后者;对己方言的沟通度最低,因为它对应复杂,各类型所占分量又均衡,显示不出一种较强的规律性来。所以总的看,这样给对应类型加权就应该是较合理的。如果把声母、韵头、韵腹、韵尾、声调所占分量考虑进去,将各权重值再乘上0.2就可以了。

标签:;  ;  

方言的关联、相似与交际索引_方言论文
下载Doc文档

猜你喜欢