语音对应规律的计量研究方法——苗瑶语方言语音对应规律示例,本文主要内容关键词为:语音论文,规律论文,示例论文,方言论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一 计量生成语音对应规律的原理
语音对应规律是断定语言系属关系的基础,所以是语言比较研究首先需要得到的数据。汉语有超方言的汉字的关联,如果可以认为汉语方言之间相同的汉字音义对应,词(语素)同源,那么方言之间的语音对应规律就可以比较容易地通过汉字字音的关联确定。对于像苗瑶语那样没有超语言(方言)文字的语言,不能利用文字的关联确定语音对应规律,因此只能从词的其他同源信息发现和建立这类语言的语音对应规律。
语音对应规律作为一种词(语素)隐性的语音特征是具有概率依据的。(注:语音对应规律的概率基础可参见陈保亚的《语言接触与语言联盟》(下篇第五章),语文出版社,1996年。)通过概率分布确定语音对应规律是基于这样的假设:语言(方言)之间有对应关系的音类应该呈非等概率的分布,而没有对应关系的音类则应表现为随机的等概率的分布。因此可以通过对当音类的概率统计确定语言(方言)之间的语音对应规律。
具体来说,甲方言(为了方便,这里把任何语言或方言都视为方言)某音类(声、韵、调)在已确定的词表中会出现在一批词中,这批词在另一个乙方言中对当(注:“对当”是指方言之间词的语音的随机对应,而“对应”特指方言之间词的语音的同源对应。)着一些不同的音类。音类在词表中的出现次数/ 音系全部音类次数的比率即为这一音类的随机分布概率。如果甲方言某音类与乙方言某(些)音类对当的比率不显著(注:这里所说的“显著”是有统计学操作定义的。)高于随机分布概率,即可认为它们之间没有同源的对应关系;反之,如果甲方言某音类与乙方言某(些)音类对当的比率显著高于随机分布概率,即可把这种非等概率的分布解释为主要是因同源关系造成的,因此就可以认为它们之间具有语音对应关系。计量研究可以通过以下程序方法自动地建立语言或方言之间的语音对应规律。
1.首先在多方言词汇语料库中确定任一方言为主位方言,(注:主位方言和客位方言沿用郑锦全教授的用法,参见郑锦全《汉语方言沟通度的计算》,载《中国语文》1994年第1期。 )确定另一个或若干个方言为客位方言,并要求主位方言和客位方言之间有一种唯一码在语料库中相系联,这种唯一码通常是各方言共同的词义字段中的数据。
2.用主位方言的第一个语音单位逐词地在客位方言中检索,得到主位方言这个语音单位和客位方言所对当的一些语音单位的集合。之后用同样的方法对主位方言的第二个、第三个、……直至最后一个语音单位重复相同的检索工作,得到主位方言全部语音单位和客位方言之间的语音单位对当的总集合。
3.统计客位方言每个语音单位和主位方言所对当的语音单位的次数和加权比率(加权比率的统计方法见本文第二部分),加权比率显著高于随机分布概率的语音单位可能是有对应关系的;如果该语音单位并未显著高于随机分布概率,则不存在对应关系。加权比率与随机分布概率的差异是否显著可以通过Z检验(Z test)的统计方法确定。
在我们的研究中,语音对应规律主要是靠方言间语音的分布概率确定,而不是根据直观的音值相似性判断。例如主位方言(先进苗语)的[nts]和客位方言(复员苗语)的
对当,并且加权比率显著高于随机分布概率,所以这条语音对应规律能够成立;而主位方言的[nts]也和客位方言同音值的[nts]对当,但是客位方言[nts ]的加权比率并未显著高于其随机分布概率,虽然两个对当音类音值相同,我们也没有理由认为这是一条语音对应规律。
二 计量生成语音对应规律在苗瑶语方言比较研究中的应用
设先进苗语(川黔滇苗语的代表)为主位方言,养蒿苗语(黔东苗语的代表)为客位方言,主位方言某音类和客位方言某些音类在同一批词中有一定次数的对当,但是主位方言和客位方言音类对当的绝对次数尚不能证明是否为同源对应的概率,因为每个音类在词汇中先验的次数分布是不平衡的。例如:如果仅根据对当的绝对次数,养蒿苗语声母[p]对当先进苗语声母[p]为88次,养蒿苗语[ph ]对当先进苗语[p]为6次,并不能因此断定养蒿苗语[p]与先进苗语[p ]的对当更为必然,养蒿苗语[ph]与先进苗语[p]的对当更为随机, 因为养蒿苗语[p]在词库中的绝对出现比率本来就比[ph ]的出现比率高(养蒿苗语声母[p]在词库中共出现410次,声母[ph]在词库中共出现87次)。只有通过加权才可以抵消这种因语音在词汇中随机分布不平衡引起的比率差异,从而反映对应规律的比率差异。
加权统计的方法为:相对出现次数(客位方言与主位方言某音类的对当次数)/ 绝对出现次数(客位方言某音类在音系中的出现次数)=加权出现比率。如:养蒿苗语[p]与先进苗语[p]的加权对当比率为:88(养蒿苗语[p]与先进苗语[p]的对当次数)/410([p ]在养蒿苗语词库中的出现次数)=21.46%;养蒿苗语[p]的随机分布概率为:410(声母[p]在词库中的出现次数)/7049 (养蒿苗语全部声母的出现次数)=5.82%。
通过Z检验,得知养蒿苗语[p]与先进苗语[p ]的加权对当比率21.46%显著高于养蒿苗语[p]的随机分布概率5.82%,因此可以认为[p](养蒿苗语):[p](先进苗语)是一条同源关系的语音对应规律。
而养蒿苗语[ph]与先进苗语[p]的加权对当比率为:6(养蒿苗语[ph]与先进苗语[p]的对当次数)/87([ph]在养蒿苗语词库中的出现次数)=6.90%;养蒿苗语[ph]的随机分布概率为:87 ([ph]在词库中的出现次数)/7049 (养蒿苗语全部声母的出现次数)=1.23%。
尽管养蒿苗语[ph]与先进苗语[p]的加权对当比率6.90 %也高于[ph]的随机分布概率1.23%,但是通过Z检验, 得知养蒿苗语[ph]与先进苗语[p]的加权对当比率并不显著高于养蒿苗语[p]的随机分布概率,因此[ph](养蒿苗语):[p ](先进苗语)不是一条同源关系的语音对应规律。
所谓假设检验的原理是, 首先提出研究假设(H[,1])和虚无假设(H[,0])两种假设:(1)研究假设(H[,1]):P≠Q,表示2个样本的数值(P和Q)在总体中确实有差异;(2)虚无假设(H[,0]):P= Q,表示2个样本数值的差异是因为抽样误差造成的,在总体中并没有差异。再设一个否定虚无假设(P=Q)的显著度值, 该值表示否定虚无假设的概率,如虚无假设正确的可能性不大于5%时,显著度值p≤0.05,虚无假设正确的可能性不大于1%时,显著度值p≤0.01,虚无假设正确的可能性不大于1‰时,显著度值p≤0.001。可见显著度设的越小, 虚无假设被否定的可能性越小;反之,如果在显著度值很小的情况下,虚无假设还是被否定了,则意味着否定虚无假设,接受研究假设的可能性是很大的。
Z检验是计算2个样本数值在总体中是否有差异的假设检验统计方法,(注:Z检验详细的原理和方法在任何统计学著作中都有介绍, 具体计算公式这里从略。)Z 的统计值表示在某预先设定的显著度前提下否定虚无假设的临界值。如设显著度值p≤0.05,Z≥1.96;显著度值p≤0.01,Z≥2.58;显著度值p≤0.001,Z≥3.30(已经计算好的Z值可从任何统计学著作的附录中查得)。
这里我们设否定虚无假设(客位方言与主位方言音类的加权对当比率和客位方言该音类的随机分布概率没有差异)的显著度p≤0.001,否定虚无假设的临界值则为Z≥3.30。从实际数据统计可以得出,占410个声母样本21.46%的养蒿苗语[p]与先进苗语[p ]的加权对当比率(0.2146)和占7049声母个样本5.82%的养蒿苗语[p ]的随机分布概率(0.0582)的差异的Z=7.64,超过了否定虚无假设的临界值Z≥3.30,所以可以否定养蒿苗语[p]与先进苗语[p]的加权对当比率和养蒿苗语[p]的随机分布概率没有差异的虚无假设(H[,0]),而接受二者有显著差异的研究假设(H[,1]);而占87个声母样本6.90%的养蒿苗语[ph]与先进苗语[p]的加权对当比率(0.0690)和占7049 声母个样本1.23%的养蒿苗语[ph]的随机分布概率(0.0123)的差异的Z=2.08,没有超过否定虚无假设的临界值Z≥3.30,所以可以接受养蒿苗语[ph]与先进苗语[p]的加权对当比率和养蒿苗语[ph]的随机分布概率没有差异的虚无假设,而否定二者有显著差异的研究假设。
根据上述生成语音对应规律原理, 我们只要通过程序统计出以下4组数据,就可以满足自动生成语音对应规律的条件。即:
1.客位方言与主位方言对当的音类次数(通过两种方言在语料库中列联统计得出);
2.客位方言音类的随机分布概率(拟比较音类/ 全部音类的比率);
3.客位方言与主位方言音类的加权对当比率(客位方言某音类与主位方言对当的次数/客位方言该音类的出现次数);
4.客位方言某音类与主位方言的加权对当比率与该音类随机分布概率差异的显著度检验值。
三 计量生成苗瑶语方言声韵调对应规律示例
下面用苗瑶语方言的声调、声母、韵母各举一个例子说明计量生成音类语音对应规律的方法。
表1 先进苗语43 调与养蒿苗语声调(调值)对应关系分析示例
主位方言客位方言养蒿苗语声调( 注:此栏下"对
当声调" 表示主位方言先进苗语43调的
1059个语素在客位方言养蒿苗语相同词
义语素中分别对当着33调、55调、35调
、11 调、 44调、13调、53调、31调、
和24调( 24调是养蒿苗语专用于汉语借
词的声调)等声调.)
先进苗语声调 对当声调 对当声调次数 随机分布概率 加权对当
比率
43调1059(注:
33 861 29.3741.59*
先进苗语"43 55 190 11.7622.92
调1059"表示 35 206 14.8819.64
43 调在先进 11 166
9.7624.13
苗语4000 多 44 202 14.1320.28
词词表文本 13 136
8.7422.08
中的5299语 53 70
5.3118.72
素(音节)总 31 101
5.5026.03
共出现了10 24
6
0.5515.38
59次.)
“对当声调次数”表示养蒿苗语各声调和先进苗语43调所对当的次数。如养蒿33调:先进43调861次,养蒿55调:先进43调190次,等等。
“随机分布概率”表示养蒿苗语各声调的随机分布概率(养蒿苗语某声调出现次数/全部声调出现次数的比率)。如养蒿苗语33 调共出现2070次,全部声调共出现7049次, 33调的随机分布概率即为2070/7049=29.37%;55调的随机分布概率为11.76%;等等。
“加权对当比率”表示养蒿苗语各声调的加权对当比率(养蒿苗语某声调与先进苗语43调对当的次数/养蒿苗语该声调的出现次数)。 如养蒿苗语33调:先进苗语43调861次,养蒿苗语33调共出现2070次, 33调(对当先进苗语43调)的加权对当比率即为861/2070=41.59%; 55调的加权对当比率为22.92%;等等。经显著度检验,养蒿苗语33 调的加权对当比率(41.59%)显著高于33调的随机分布概率(29.37 %), 33调加权对当比率后加“*”表示它具有显著的分布差异。 而养蒿苗语55调的加权对当比率(22.92%)并不显著高于55 调的随机分布概率(11.76%),55 调(以及养蒿苗语的其他各调)加权对当比率后则不加“*”表示它(们)的分布差异不显著。
我们认为,如果没有同源关系,方言之间任何音类的加权对当比率和随机分布概率都具有随机性,所以不应该有显著差别;而实际上如果客位方言某音类和主位方言的加权对当比率显著高于其随机分布概率,这种差别可以解释为是因为两种方言的同源关系造成的,所以可以把客位方言的加权对当比率显著高于其随机分布概率的某音类和主位方言对当的某音类定为一条语音对应规律。
就上例而言,尽管主位方言先进苗语43调与客位方言养蒿苗语众多的声调对当,但是它仅和养蒿苗语33调有显著高的加权对当比率,所以,先进苗语43调:养蒿苗语33调,为一条两个方言之间声调的语音对应规律。(注:因为比较检索对象为词,而音类则分布在语素(音节)中,主客位方言多音节词中既有拟比较的音类,也有非拟比较的音类,任何音类对应都可能有较高的概率, 所以音类较少的声调的对应规律的Z检验设了较严格的否定域。)
以上(先进苗语)声母[p]和客位方言(养蒿苗语)声母[p]语音对应规律是一对一的关系,并且刚好音值相同。下面举一个一对多的、并且音类音值差异较大的语音对应规律的例子, 先进苗语声母[nts]和复员苗语声母的对应规律。
表2 先进苗语声母[nts]与复员苗语声母对应关系分析示例
仅从定性特征直观地看,先进苗语声母[nts ]和复员苗语声母的对应规律很难看出,依据音类对应的概率分布,可以得到两个方言之间先进苗语nts:复员苗语
/ mpz这样1比4的、 且音值差别相迥的语音对应规律。这条语音对应规律的建立表明,期望语音对应规律为一对一的关系,或者有语音对应规律的音类应该音值相似是靠不住的。
韵母的差别相对声母来说,更主要是连续感知,而声母主要是范畴(离散)感知。例如韵母[i]到[e]到[a]的感知差别是连续的,而声母[p]到[t]到[k]的感知差别是离散的。 因此生成韵母语音对应规律更需要靠数量分布特征,而不是类别分布特征。
表3 先进苗语韵母[i]与养蒿和吉卫苗语韵母对应关系分析示例
根据表3的分析可知,先进苗语i:养蒿苗语
,为一条各方言之间韵母的语音对应规律。
以先进苗语为主位方言,养蒿苗语、吉卫苗语、大化布努语、多祝畲语、江底勉语(分别代表苗瑶语族的苗语方言、布努语、畲语、勉语)为客位方言的部分声韵调的语音对应规律列举如表4(见下一页)。 (注:我们用计量方法建立的苗瑶语语音对应规律和王辅世、毛宗武先生手工分析的结果大致接近,但也有少数音类对应关系不同。)
四 语言计量研究的语言观和方法论意义
语言的计量研究作为一种和语料库语言学相结合的新兴语言研究方法,曾成功地在汉语方言研究中开辟了许多新的领域。(注:郑锦全教授的汉语方言计量研究方面所取得的成就对于语言计量研究具有开创性。)根据我们的体会,语言的计量研究和传统的语言定性研究相比,研究的方向和目的有很大的一致性,但是研究的过程和结论却有较大的不同。其原因在于计量研究和传统研究的语言观和方法论的差异。
计量研究不仅注重语言单位范畴和形式的类别分布,同时也注重它们的数量分布,所以采用了相当不同的分析方法。例如,语言定性研究通常需要了解,一种语言的音系有哪些基本的音位,它们如何在音节内相互组合;在词汇语法层面,定性研究需要分析语素的音义构成,语素如何构成词,词的形态如何变化,词如何构成句法结构等。概括地说,定性研究根据语言各级单位的分布发现它们最小的对立关系,但是无法充分说明同一级单位之间既对立又包孕的关系,因此只能将同级单位处理成一个平面。囿于手工操作,传统研究只能观察和描述语言单位有限的典型分布。定性研究的这些目的,计量研究均可以通过更加形式化的方法达到,同时还可以通过各层级语言单位的数量分布特征,进一步揭示它们诸如蕴含、中和等非平面的深层结构分布,从而更为深入地描述语言单位隐性的结构关系。例如,苗瑶语计量研究不仅用语料库的方法穷尽地归纳出各方言音类、音节和语素的类别,同时还通过语言单位在词库中的组合分布和词频统计,证实凡在形式上比较复杂的音类、音节模式和语素,其分布总是要受到更多的限制,构词频度也不会高于相应的形式比较简单的单位;当二者在特定的分布中不再对立时,一般要中和于形式简单的单位。因此我们可以断定在同一层级的语言单位之间,存在着无标记项和有标记项的区别,它们通常以有标记项蕴含无标记项,但无标记项未必蕴含有标记项相互关联和制约。这种语言单位重要的隐性结构关系只有通过数量特征分析才可能被证实。例如本文讨论了两种音类在文本中的非等概率分布现象,一种可以归结为同源的语音对应关系引起的非等概率分布,另一种是先验随机的非等概率分布,如任何方言声母[p]的出现概率都毫无例外地高于[ph]。 这种所谓先验随机的非等概率分布实际反映的是语言普遍的标记性现象,即在标记性对立的音类(以及其他层面语言单位)中,无标记项(如不送气的[p ])的出现概率不会低于有标记项(如送气的[ph])的出现概率。(注:通过出现概率证明语音的标记性现象参见Greenberg,J.H.:LanguageUniversals,Hague,1966。)
语言历史比较研究旨在说明语言的历史演变过程以及现行语言之间的发生学关系。计量研究和传统历史比较法在语言观方法论上也有重要的区别。在经典历史比较法看来,亲属语言的同源词、同源形态的语音对应规律是决定语言发生学关系的依据和标准,通过对应规律可以向前推导语言系统的历时状态,也可以横向预测不同语言系统的共时关系,因此语言比较研究既可以构拟古代音系,又可以对现行语言进行系属分类。这种典型的哲学上的决定论的规律观在现实语言面前是有明显局限性的。我们知道,语言系统的历史演变,同源因素的作用肯定是约束语言各层面结构演变的重要力量,因此亲属语言之间可以表现出明显的相似性和相关性;但是,语言系统演变同时还会受到许多与发生学无关的随机因素的影响和干扰,这些随机因素在特定情况下可能是影响巨大的,以致很难简单地通过对应规律精确地拟测系统过去的状态和预测以后的发展。我们认为这是导致传统语言历史比较法在构拟研究和系属分类研究方面遇到不可克服的困难的主要原因。在现代哲学和现代科学中,概率论的规律观已经全面取代了经典的决定论的规律观。(注:参见柳延延《概率与决定论》,上海社会科学院出版社,1996年。)系统众多的初始条件(必然的和偶然的条件,或者同源的和非同源的条件)的微小差别都可能造成系统唯一的终结状态的巨大误差。既然人们不可能完全地控制和把握系统全部的初始条件,那么对系统的测量、认识和预测就可能是不完备的,因此从认识主体的尺度就只能通过事件发生的非等概率或等概率去把握系统的规律性和非规律性(或必然性和偶然性)。正如爱因斯坦所言“理论的原则上的统计性,肯定不过是描述不完备的后果”。(注:引自颜泽贤、张立洪《上帝掷不掷骰子》,《自然辩证法》1996年第2期。)如此推论, 如果我们不能把握语言历史发展的所有初始条件,精确地描述和预测语言的系统演变就是不可能的。从这个意义上说,概率论的语音对应规律观显然要比决定论的观念更接近语言演变的实际。语言学史上新语法学派关于规律和例外的说法,强调音变或然性的词汇扩散理论都是典型的从决定论向概率论的规律观的哲学反思,而语言计量研究则是基于概率论语言演变观的重要实践。
表4 苗瑶语方言声母韵母声调对应关系系统
计量生成苗瑶语的语音对应规律,在方法论上突破或忽略苗瑶语传统研究所要求的同源词在声韵调三者中必须有两个音类对应、一条语音对应规律至少覆盖两个词的简单数量规定,而是根据词的语音对当频率,以及严格地依据音类对当概率与随机分布概率差异的显著度检验来确定方言之间的语音对应规律,尽量避免了主观臆断的干扰,在方法论上应该说是更精确的。当然需要指出,这种比较复杂的统计方法要求分析的样本必须足够大,如果现实语言中确有少数语音对应规律仅出现在极少的词中,这种情况下大数定律是不起作用的,因此专家依据经验的决策在特定情况下是必不可少的。