苗族方言与瑶语关系的计量分析_方言论文

苗瑶语方言亲疏关系的计量分析,本文主要内容关键词为:亲疏论文,方言论文,关系论文,苗瑶语论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一 苗瑶语方言计量比较研究的原则

苗瑶语言及其方言具有明显的发生学关系和语族结构特点。苗瑶语比较研究的任务,一是证明这些语言或方言是否有亲属关系,二是判断亲属语言或方言之间亲疏的程度和层次。传统研究主要是通过已发现的相当多的同源词来证明这个语族具有亲属关系,这个结论是没有争议的;至于语言方言之间亲疏层次的划分或系属分类则主要运用定性的特征判断方法,这种方法本身是有局限性的,所以目前学术界没有形成完全一致的看法。郑锦教授曾用计量研究方法对汉语方言做过多项成功的研究,运用计量研究的方法,不仅可以通过程序建立必要的语音对应规律从而确定同源词系统,还可以进一步根据语音对应规律的数量分布特征来判断语言方言之间的亲疏程度。由于定量特征包含定性特征,定性特征未必包含定量特征,因此通过计量分析得出的结论应该比传统定性分析更准确。

王辅世、毛宗武先生的苗瑶语的比较研究是根据苗瑶语有代表性的23个方言点800多单音节词或词根的对比,分别归纳声母、 韵母和声调的语音对应规律,并规定一条音类对应规律应该有两个以上的例证,一个同源词声韵调三个音类至少有两个音类符合语音对应规律。(注:见王辅世、毛宗武《苗瑶语古音构拟》,中国社会科学出版社,1995年,第20页。)下表是任意5个同源词在23 个苗瑶语方言中的读音和音类对应情况。(表1.1见下页)(注:词例引自《苗瑶语古音构拟》。)

通过上述方法的对比,可以分别归纳这几个词的声韵调的对应规律,并将它们的古音构拟为*

运用手工的方法得出这样的结果是相当费工夫的。如果用程序来自动实现同样的比较工作,得到同样的比较结果要容易得多,并且还可以免去以下人为手工操作的烦琐工作:

表1.1 苗瑶语同源词例表

(注:“!”表示该词在这个方言点的声母、韵母或声调不符合语音对应规律。)

1.人为地选词。王、毛所列举的800多同源词, 是经过多年手工识别从数千词中挑选出来的。而计量比较研究可以直接从任何已给定的词库中自动识别同源信息和非同源信息,从而比较可靠地确定同源词。

2.人为地规定对应规律的数量标准。手工比较硬性规定两个以上词的对应可以成立,两个以下为孤证,显得比较勉强。计量比较研究对应规律的概念是建立在概率的基础之上的,充分地利用了词语同源特征和非同源特征数量分布的差异。

3.人为地构拟古音的音值。我们认为这种做法是没有意义的,简单地靠诸多现行方言的语音一般不可能叠加为共同的古音,因为语音的古今演变是一种非线性的动态过程。

苗瑶语的计量比较研究基于以下主要原则:

1.计量比较研究虽然仍是从语言方言系属关系和系属分类的定性目的出发,并试图得到相应的结论,但是研究的基础是建立在语言系属特征概率分布的观念上的。即亲属语言或方言由于具有共同的来源,因此这些语言的词因同源的缘故而在形式和意义上应具有某种规则的、有序的对应关系;但是由于语言演变过程中各种难于把握的随机因素的干扰作用,这种规则性并非表现为非此即彼的逻辑关系,而是非等概率的统计学关系。因此定量研究方法之于表现为概率现象的语言系属问题研究显然是必要的。

2.尽管我们强调了语言演变的随机性所引起的概率现象而必须通过定量或统计的方法来研究语言的系属问题,但是同时也不能忽略语言定性特征的重要性。因为对应规律发生在性质相同或相近的语言单位之间的可能性往往要高于性质相异的单位之间,所以假定定性特征有助于判断语言对应规律也是必要的。所谓定性特征是指语言相同或相异的构成特征,例如语音单位相同或相异的发音部位特征或发音方法特征。

3.当测定某语言单位的概率分布值时,需要区分该单位自身在文本中固有的出现概率和因系属关系造成的出现概率。前者对断定对应关系有干扰作用,因此必须通过加权处理来抵消干扰,从而突出系属关系作用,否则会因单位分布的不平衡而使系属关系被遮掩。

二 苗瑶语方言亲疏关系的相关分析

语音对应规律反映的是语言(方言)之间定性的同源关系,然而,它们的同源程度却不能用定性的方法,甚至不能用简单的定量方法(如统计同源词的百分比)确定。所谓亲疏关系指的就是语言(方言)之间的联系(亲)和差别(疏)关系,由于语言计量研究运用相关、聚类分析等比较复杂的统计方法,因此可以深入地揭示方言的亲疏关系,并且可以做到比较科学的系属分类。

相关分析是反映变量之间相关程度的描述统计方法。

设不同方言为不同的变量,每个方言变量都有一组词义相同的词项,不同方言词项的语音音类(声韵调)根据已经确定的语音对应规律(注:通过计量方法建立方言之间语音对应规律的方法将另文讨论。)而具有同源或非同源(即符合对应规律的同源,不符合对应规律的不同源)的属性,如果用代码1/0标记同源或非同源音类,就得到用以进行相关分析的变量数据。

表2.1是一个10个词项的小样本的举例:

表2.1 苗语词同源属性代码表(标音用苗文)

词表中3 个方言词项的声韵调根据是否符合语音对应规律标注同源属性代码。如:词项“肺”养蒿苗语的语音属性代码为010, 表示韵母和其他苗瑶语同源,声母、声调不同源; 吉卫苗语的语音属性代码为111,表示声韵调都同源;先进苗语的语音属性代码为110,表示声韵同源,声调不同源。余类推。对上述3个方言小样本数据进行相关分析,(注:相关系数的统计方法可见于各种统计学书,这里从略。)可得以下相关系数:

表2.2 3个方言之间小样本声母相关系数值

养蒿声母吉卫声母先进声母

养蒿声母1.000

吉卫声母-0.250 1.000

先进声母-0.167 0.667* 1.000

表2.3 3个方言之间小样本韵母相关系数值

养蒿声母吉卫声母先进声母

养蒿韵母1.000

吉卫韵母0.524 1.000

先进韵母0.218 0.218

1.000

表2.4 3个方言之间小样本声调相关系数值

养蒿声母吉卫声母先进声母

养蒿声调1.000

吉卫声调-0.272 1.000

先进声调0.408 -0.111

1.000

表2.5 3个方言之间小样本声韵调平均相关系数值

养蒿声韵调吉卫声韵调先进声韵调

养蒿声韵调 1.000

吉卫声韵调 0.0361.000

先进声韵调 0.1710.294

1.000

说明:相关系数的数值表示两个方言之间音类的相关程度,正负号表示相关的方向,带*的相关系数表示相关的显著度(带*表示在0.01水平上的显著相关,带**表示在0.001水平上的显著相关,不带*表示相关程度没有达到一定的临界值,因而相关不显著或不相关)。就上述小样本例而言,养蒿苗语声母自身的相关系数为1.000,即表示完全相关;养蒿苗语和吉卫苗语声母的相关系数为-0.250, 表示二者是负向的程度不显著的相关;先进苗语和吉卫苗语声母的相关系数为0.667*,表示二者是正向的显著相关。余类推。

如果把上述相关分析算法用于苗瑶语标记了同源词语音对应规律属性的语料库,就可以分别统计出苗瑶语方言声韵调及平均的相关系数。(因篇幅所限,仅列出本语料库所收13个方言之间声韵调平均相关系数)。

表2.6

苗瑶语方言之间声韵调平均的相关系数(注:由于表格空间所限,表中相关系数值未加相关显著度标记,但因样本数量颇大,相关系数大于0.100的方言之间均为显著相关。)

吉卫先进石门青岩高坡宗地

养蒿 .535.619.574.588.653.611

吉卫 .527.517.487.511.511

先进 .868.752.744.778

石门 .689.691.737

青岩 .822.798

高坡 .802

复员枫香大化多祝 罗香东山

养蒿 .621.669.560.451-.186 .052

吉卫 .530.483.503.438-.108 .012

先进 .709.690.547.360 .296 .155

石门 .655.630.524.352-.266 .167

青岩 .646.717.493.374-.232-.095

高坡 .694.772.544.367-.265-.134

宗地 .703.711.520.358-.280-.157

复员 .696.528.382-.231-.099

枫香 .524.390-.221-.099

大化 .484-.099 .001

多祝

.807 .160

罗香.553

以上4个相关系数表反映的是任意两个苗瑶语方言之间声母、 韵母、声调和声韵调平均的相关程度或亲疏程度。例如,从声母同源分布看,养蒿苗语与吉卫苗语的相关系数是0.539,与先进苗语是0.618,与石门苗语是0.586,余类推。从韵母同源分布看, 养蒿苗语与吉卫苗语的相关系数是0.531,与先进苗语是0.635,与石门苗语是0.570, 余类推。从声调同源分布看,养蒿苗语与吉卫苗语的相关系数是0.535, 与先进苗语是0.605,与石门苗语是0.566,余类推。从声韵调综合同源分布看,养蒿苗语与吉卫苗语的相关系数是0.535,与先进苗语是0.619,与石门苗语是0.574,余类推。

三 苗瑶语方言亲疏关系的聚类分析

依据相关系数值,可以给每个方言按亲疏程度排列出以下大致的方言簇。

表3.1 苗瑶语方言亲疏程度等级排序

方言方言亲疏程度等级排序

1

2 3

养蒿苗语 枫香(.669) 高坡(.653) 复员(.621)

吉卫苗语 复员(.530) 先进(.527) 石门(.517)

先进苗语 石门(.868) 宗地(.778) 青岩(.752)

石门苗语 先进(.868) 宗地(.737) 高坡(.691)

青岩苗语 高坡(.822) 宗地(.798) 先进(.752)

高坡苗语 青岩(.822) 宗地(.802) 枫香(.772)

宗地苗语 高坡(.802) 青岩(.798) 先进(.778)

复员苗语 先进(.709) 宗地(.703) 枫香(.696)

枫香苗语 高坡(.772) 青岩(.717) 宗地(.711)

大化布努语养蒿(.560) 先进(.547) 高坡(.544)

多祝畲语 布努(.484) 养蒿(.451) 吉卫(.438)

罗香勉语 东山(.553)

东山勉语 罗香(.553)

方言方言亲疏程度等级排序

4

5

养蒿苗语 先进(.619) 宗地(.611)

吉卫苗语 高坡(.511) 宗地(.511)

先进苗语 高坡(.744) 复员(.709)

石门苗语 青岩(.689) 复员(.655)

青岩苗语 枫香(.717) 石门(.689)

高坡苗语 先进(.744) 复员(.694)

宗地苗语 石门(.737) 枫香(.711)

复员苗语 高坡(.694) 石门(.655)

枫香苗语 复员(.696) 先进(.690)

大化布努语复员(.528) 石门(.524)

多祝畲语 枫香(.390) 复员(.382)

虽然这种方言亲疏等级分簇是很粗略的,但是仍可以给人大致的印象:所有苗语方言一律只跟其他苗语方言相近,勉语方言也只跟勉语方言相近,因此苗语支和瑶语支之间是界线分明的;和布努语最近的5 个方言都是苗语方言,故将布努语归入苗语支是有道理的;系属分类分歧最大的畲语与布努语和养蒿等苗语方言接近,因此畲语应该归入苗语支。聚类分析是一种很实用的统计方法,(注:方言聚类统计方法详见陆致极《计算语言学导论》,上海教育出版社,1990年。)它根据变量数据的相似性将统计对象按接近程度依次排列,并可以按照给定的接近程度等级对象加以不同层次的分类。

如果设上述苗瑶语方言之间的语音相关系数为变量数据,用平均连结的方法进行聚类分析,即可得到方言亲疏程度的聚类树形图。下面我们仍用一个小样本举例说明聚类分析方法,试统计养蒿苗语、吉卫苗语、先进苗语、大化布努语、多祝畲语声韵调平均相关程度的聚类。从表2.6已知这5个方言声韵调平均相关系数如表3.2:

表3.2 苗瑶语小样本方言之间声韵调平均的相关系数

吉卫苗语先进苗语大化布努语多祝畲语

养蒿苗语 .535.619 .560 .451

吉卫苗语 .527 .530 .438

先进苗语 .547 .360

大化布努语 .484

根据表中相关系数值,可按各方言相关最大数值连结成方言小簇:养蒿苗语—先进苗语(0.619),吉卫苗语-养蒿苗语(0.535),先进苗语-养蒿苗语(0.619),大化布努语-养蒿苗语(0.560),多祝畲语-大化布努语(0.484)。因为养蒿苗语与先进苗语最近, 故不再和吉卫苗语、大化布努语连结,吉卫苗语、大化布努语只能分别按养蒿苗语-先进苗语的平均相关数值和养蒿苗语-先进苗语小簇连结。吉卫苗语与养蒿苗语-先进苗语的平均相关数值为(0.535+0.527)/2 =0.531,大化布努语与先进苗语-养蒿苗语的平均相关数值为(0.547+0.560) /2=0.554,大化布努语与先进苗语-养蒿苗语的平均相关数值高于吉卫苗语与养蒿苗语-先进苗语的平均相关数值,所以大化布努语应先与先进苗语-养蒿苗语小簇连结,吉卫苗语再与先进苗语-养蒿苗语-大化布努语小簇连接。多祝畲语-大化布努语小簇的相关数值(0.484)小于吉卫苗语与先进苗语-养蒿苗语-大化布努语小簇的平均相关数值((0.527+0.535+0.503)/3=0.522), 最后与先进苗语-养蒿苗语-大化布努语-吉卫苗语小簇连结。聚类分析结果可形成如下聚类树形图:

图3.1 5种苗瑶语方言亲疏程度聚类树形图

13种苗瑶语方言不同层次水平方言簇连结点声韵调平均相关系数值的统计结果降阶排序为:

先进苗-石门苗簇=0.868

青岩苗-高坡苗簇=0.822

青岩苗-高坡苗-宗地苗簇=0.800

先进苗-石门苗-青岩苗-高坡苗-宗地苗簇=0.732

先进苗-石门苗-青岩苗-高坡苗-宗地苗-枫香苗簇=0.704

先进苗-石门苗-青岩苗-高坡苗-宗地苗-枫香苗-复员苗簇=0.681

先进苗-石门苗-青岩苗-高坡苗-宗地苗-枫苗香-复员苗-养蒿苗簇=0.619

罗香瑶-东山瑶簇=0.553

先进苗-石门苗-青岩苗-高坡苗-宗地苗-枫苗香-复员苗-养蒿苗-大化布努簇=0.530

先进苗-石门苗-青岩苗-高坡苗-宗地苗-枫苗香-复员苗-养蒿苗-大化布努-吉卫苗簇=0.512

先进苗-石门苗-青岩苗-高坡苗-宗地苗-枫苗香-复员苗-养蒿苗-大化布努-吉卫苗-多祝畲簇=0.396

先进苗-石门苗-青岩苗-高坡苗-宗地苗-枫香苗-复员苗-养蒿苗-大化布努-吉卫苗-多祝畲-罗香瑶-东山簇瑶=-0.131

对这13种苗瑶语方言声韵调平均相关系数进行聚类分析,可得下列聚类树形图:

图3.2 苗瑶语方言亲疏程度聚类树形图

聚类分析可以相当直观地反映苗瑶语方言的亲疏关系和系属分类关系。比如根据图3.2聚类树形图,如果在相关系数0.390的水平上竖切,可以分出(1)从先进苗语到多祝畲语和(2)罗香瑶语、东山瑶语两个大簇,也即苗语支和瑶语支,据此应将畲语划归苗语支;如果在相关系数0.400的水平上竖切,可以分出:(1)先进苗语到吉卫苗语、(2)多祝畲语、(3)罗香瑶语和东山瑶语三个方言簇,分别代表了苗语、 畲语和瑶语,因布努语实际上比吉卫苗语还更接近其他苗语方言,所以从结构的亲疏上可以看作苗语的一个方言;如果在相关系数0.540 的水平上竖切,可以分出:(1)从先进苗语到养蒿苗语、(2)布努语、(3)吉卫苗语、(4)畲语、(5)罗香瑶语和东山瑶语5个方言簇,代表了苗语、布努语、吉卫苗语(吉卫苗语从结构亲疏上可以视为一平行的语言)、畲语、瑶语4种语言;如果在相关系数0.620的水平上竖切,可以分出:(1)从先进苗语到复员苗语、(2)养蒿苗语、(3)布努语、(4)吉卫苗语、(5)畲语、(6)罗香瑶语、(7)东山瑶语7个方言簇,分别代表苗语的川黔滇方言(先进、石门、青岩、高坡、宗地、枫香、复员等7种苗语次方言)、黔东方言(养蒿苗语)、 湘西方言(吉卫苗语)、布努语、畲语、瑶语勉方言、瑶语标敏方言,这是和传统苗瑶语方言分类研究完全一致的结果。

计量研究的聚类分析不仅可以得到和传统研究相同的科学结论,还可以描述语言之间或方言之间亲疏程度的规定性。比如虽同属三大苗语方言,湘西苗语要较黔东苗语和川黔滇苗语更疏远一些;在川黔滇苗语方言内部,先进苗语和石门苗语、青岩苗语和高坡苗语关系相当密切,而复员苗语在方言内部相距最远;瑶语支不但和苗语支关系相对比较疏远,其内部的勉方言(罗香瑶语)和标敏方言(东山瑶语)结构也较疏远。关于学术界意见分歧的畲语系属问题,计量研究也能得出较合理的实证性结论。

在分析描述方言亲疏关系方面,计量方法和传统方法的根本区别在于,计量方法依据同源特征数量上的相关程度,而传统方法主要依据同源定性特征的是非关系。在统计学中,代表是非(或类别)关系的定性特征是水平较低的定类变量,代表数量关系的定量特征是层次较高的定距变量,定距变量含有定类变量的信息,而定类变量不含定距变量的信息,因此根据相关统计得到的方言间的亲疏关系结论要比根据特征判断得到的结论精确度高。但是任何方法都有不利的一面,相关统计反映语言亲疏关系的方法是把所有同源特征放在平等的位置上,即假设所有同源特征对于确定语言亲疏关系的作用是均等的,但是实际语言诸多的同源特征之于亲疏关系的作用或权重可能是不一样的。例如声母清浊的分与合,韵母塞音尾的去与留可能比其他特征对支系划分有更重要的作用,但是相关分析对此不平衡的作用没有鉴别能力,只能对它们作非加权的平衡处理。若要消除这种不真实的影响,就需要根据专家经验给不同的特征以不同的权重,当然此类修正工作计量研究仍然是可以实现的。

语言亲疏程度的聚类分析,根据不同的亲疏水平可以对分析对象从每一个个体自成一类到所有对象只分两大簇群之间进行任何一个层次上的分类,因此可以满足亲属语言语族、语支、语言、方言、次方言、土语等不同层次和目的的系属分类。聚类分析方法论上的这些优势仍是基于方言亲疏关系的数量特征而实现的,而传统研究运用定性特征判断方法难以获得同样合理的结论。

标签:;  ;  ;  

苗族方言与瑶语关系的计量分析_方言论文
下载Doc文档

猜你喜欢