音韵学中统计方法的比较_音韵学论文

音韵学中统计法的比较，本文主要内容关键词为：统计法论文,音韵论文,学中论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

中图分类号：H11

文献标识码：A

文章编号：1000-1263(2004)03-0018-05

一　引言

现代语言学的研究比较注重信度和效度，信度主要是指研究的稳定性和可重复性，效度主要是指研究的解释性和可推广性，运用统计学方法可以使音韵学的研究更有信度和效度。有人认为统计法是一种数学方法，而音韵学属于社会科学，受到许多人为因素的影响，用数学来规范语言学所得结论未必正确。其实，结论正确与否不取决于统计结果，统计作为一种手段，只是对收集到的材料进行计算，提供分析的依据，重要的是收集整理语音材料以及分析结论的过程中必须正确地运用音韵学的原理和方法，比如反切比较、韵字系联等。

统计法是使音韵研究更加科学化、现代化的一种有力工具，它利用精确的数字使研究资料量化，与音韵学的各种方法结合，可以使音韵研究更加准确、可靠。现在音韵学界广泛使用的算术统计，从统计学的角度分析还只是一种不完整的统计活动，不足以帮助我们完成通过量的分析以认识语言本质和规律的任务；真正统计学意义的完整的统计活动，在音韵学中的应用还不是很多，从方法论的角度对它进行分析介绍的文章则更少，它需要具有数理统计学的基础。数理统计学是数学的一个分支，由一系列的公理、定理以及严格证明来组成。它还涉及到数学的其它领域，例如微积分、概率论和高等代数等等。为了使这些理论也适用于一般研究者，人们将其简化，变得非数学化，由此产生了一般统计学。不同的专业领域（如建筑学、人类学、生物学等）与一般统计学结合，就产生了相应的专业统计学[1]p20。

统计法在应用于音韵学时，由于处理数据的方法不同，音韵学者多将它分为：算术统计法、概率统计法、数理统计法三种。这些都是依据所用的计算方法和公式来区分的，是一般统计学在音韵学中的具体运用，而不是严格地统计学意义上的分类和命名。然而这种三分法和命名在音韵学界已经普遍应用，我们不想做较大的改动，仍是分为算术统计法、概率统计法和数理统计法三种进行比较。

二　从统计学原理来分析

算术统计法就是利用初等数学中的一些简单算法，计算出统计对象在各种情况下出现的次数、频率。算术统计法分为两类：数据罗列法和比例（频率）统计法。所谓数据罗列法就是直接罗列出搜集到的数据（点数），通过简单、直观的数字比较寻求研究对象的数量特征的方法。这种方法的罗列并不是将所有的数字不加分析地列出，用统计的术语来说，实际上是进行了统计描述的部分步骤，即：登记、审核、整理、分类，是不完整的统计活动，只是一种简单的分组法。最早使用数据罗列法的，是白涤洲先生的《广韵声组韵类之统计》一文，比例又叫频率，其统计学定义为：设事件A在n次重复进行的试验中发简之，频率便是部分在总体中所占的比值。在音韵研究中，常用百分数来表示。这种方法在当代音韵研究中运用最普遍，例如罗常培先生的《切韵鱼虞之音值及其所据方音考》、邵荣芬先生的《切韵研究》等。

概率统计法，就是先假设某语音材料在音理上是何种情况，再利用概率论的一些基本原理和公式，计算出该语音材料各个类别在理论上的数值，然后再用实际数值与之比较，以确定前面的假设是否成立，得出正确的结论，而音韵学中的概率统计法实际就是几遇数统计在音韵学中的具体运用。

数理统计法是以概率论为基础，有效地整理和分析带有随机性质的数据，对所观察的问题做出推断和预测，然后再用假设检验来最终判断语音的发展趋势和推测当时的实际情况。

依据统计学的原理来分析，一个完整的统计过程可分为四个阶段：统计设计、统计调查、统计整理、统计分析。音韵学中的“算术统计法”只是数据分类和简单运算，只进行到统计整理阶段，为统计分析做准备，应属于未完成的统计工作。而“概率统计法”和“数理统计法”实际上都是以概率论为理论基础，之所以分为两种，只是依据其是否利用了假设检验，这由韵文材料的性质决定。

三　从方法的引入来分析

这三种方法引入音韵学研究中，目的都是为了避免随机误差。为了在研究反切材料时避免随机误差，引入了数据罗列法和几遇数统计法。为了在研究韵文材料时避免随机误差，引入了数理统计法。而比例统计法被认为是可应用于任何材料的方法。

白涤洲先生认为，古人做反切会有两个毛病：一是“同类的字太少，随便假借相近的别类字作切”，再就是“用字时偶然忽略，误用近似而非同类的字作切”，“我们若不把有这种毛病的字视为例外，严格的依据他考订，态度虽是十分谨严，而实际上反失之呆板[2]。陆志韦先生认为“系联之法，病在唐五代之治韵学者用字如或偶尔疏忽，则切上字之本不系联者或因而系联焉。其本当系联者或因而不系联焉。此则方法之弊。”另外，“陈澧之错失乃在据又切而合并声类”，因为“《广韵》又切之性质尚未有详细考核之者。”[3]白涤洲先生和陆志韦先生所说的毛病和弊端，用统计学的术语来说，就是古人在造反切时存在着随机误差，这有可能是作者偶误，也可能是后人传抄时的笔误，还有可能是后人的妄改。当然，随机误差还包括其它一些情况。这种误差若在研究中不能避免，所得结论难免失当，例如陈澧用反切系联法研究《广韵》的声类，尽管其基本条例、分析条例、补充条例使这种方法有一定的科学性，但实现这种科学性的前提有两点：一是古人的反切无误；二是要将条例贯彻到底，运用一致，否则，用基本条例不能系联的，有的用补充条例归并为一类，有的又不用补充条例把它们分为两类，从而又产生新的误差。例如，唇音“帮”与“非”、“滂”与“敷”、“併”与“奉”分为两类，是因为陈澧没有用补充条例，而“明”与“微”并为一类是因为他用了补充条例。这就说明，反切系联法本身不但无法消除随机误差，反而可能在实际运用中产生新的失误。

有鉴于此，白涤洲先生想到用数据罗列法，陆志韦先生想到了几遇数统计法，他们都用于研究反切材料。

后来的学者感到数据罗列法只是将一大堆数据罗列出来，还缺乏应有的百分比用以比较，于是将比例统计法引入音韵研究中。而且，学者们认为这种方法不仅可以用来研究反切材料，还可以用来研究韵文材料，在韵文材料中的研究单位是韵段。

然而韵文材料的性质决定了这些方法都还有不足之处。韵文材料是音韵学研究中一种重要资料，长期以来由于研究者对其统计单位和分韵标准持有异议，对相同材料在处理上的方法、原则不同，造成结论的差异。这是由于对韵文材料缺乏科学的定量分析，从而难以进行科学的定性分析。

学界多以“韵段”作为统计韵文的单位，然而当长短不同的两个韵段中有相同数量的混押时，这两种混押在音韵学上的意义是不同的，大多数学者也都意识到这一问题，如王力先生讨论脂微分部时说：“以上共一百一十个例子，可认为脂微分用者八十四个，约占全数四分之三，可认为脂微合韵者二十六个，不及全数四分之一。”“最可注意的，是长篇用韵不杂的例子。”他认为这种长篇用韵不杂的例子“都不能认为偶然的现象。”[4]p146李荣先生也明确指出：“无论一韵独用或者几韵合用，我们在考虑次数的时候，尤其是在次数不多的场合，还要同时考虑每一次用韵的字数，这样才能充分了解次数的意义。独用是每一次用韵字数越多，意义越大。合用是每一次用韵字数越少，意义越大。”[5]p234可见研究者对这一现象是有所考虑的，但是由于统计单位是“韵段”，即使大家都意识到这个情况，由于每个人认为的长短标准不同，多少韵字就可以认为是多，多少韵字就可以认为是少，没有统一的标准，而且也难以确定一个标准，因此无法把这种区别做定量的分析，从而在分韵时，还是会产生误差。

所谓分韵标准不同，则是指大家即便都用韵段作为统计单位，在分韵部时，仍凭个人的经验，面对相同的“独用”、“合用”，有的认为当分，有的认为当合，这就与前面讲的声母分合上标准不同一样，在分合上找不到一个明确的标准，达到多少就该分，达到多少就该合。

针对这些问题，一些学者，如朱晓农、白一平、麦耘等先生开始在研究方法上进行新的有意义的探索，将数理统计法引入音韵研究中，取得了令人满意的效果。

因此，任何一种统计法的引入，都是为了弥补现有音韵研究方法的不足。

四　从具体运用的注意事项来分析

数据罗列法详细罗列出所有的反切及其所切成的音，数出同一反切上字在全书中出现的次数及其所切的不同呼、等的被切字的次数[3]，数据精确，令人一目了然，能够反映材料的整体面貌，而且便于读者对其结论进行检验。与比例统计法相比，缺点在于无法直接看出相对数量。而在运用比例统计法时，必须做到：第一，必须假定类别是互相排斥且穷尽的，每个个案均属一个类别，且仅属于一个类别。如果满足了这个假定，则各类别的比例之和等于1。第二，如果样本（即每次计算比例时的总数）小于50，一般不宜使用百分比，以免误导读者。例如在一项诗文用韵的统计中，侵韵字共出现了10次，其中2次押入真韵，这时如果只说侵韵字押入真韵字的占其出现总数的20%，就会使人认为侵韵与真韵混押比例较高，而实际上混押只有2次。在这种情况下，一定要提供绝对次数。第三，在有些情况下，必须提供各类别的百分比，而不能只提供某一类别的百分比。例如：在诗韵统计中，某一韵的字用做韵脚的只有10个字，其中与A摄字相押的有4个，与B摄字相押的有4个，自身相押的有2个，则押入A摄的字占该韵字的40%，押入B摄的字占该韵字的40%，自身相押占该韵字的20%，若只说押入A摄的占40%，而不言其它则容易引起误解。第四，不能只选取有利于自己结论的数据。

几遇数统计法在运用时必须注意：第一，要正确理解统计公式的意义。“几遇数”就是一种理论频数，是假设两声母（或声类、韵部、韵类、声调等）就算没有任何关系，偶然相逢在理论上也可达到的次数。也就是说，我们用此法时，首先就假设所研究的两声母（或声类、韵部、韵类、声调等）是独立的，然后求出符合这种假设的理论频数。其公式为[6]p231：

在这个公式中，A、B分别代表两个音类，N代表总数；第二，要注意比较标准的选择。在目前的音韵学研究中，利用几遇数统计进行音类分合的判断标准主要有两种：一种是实际相逢数与几遇数的比值为1，一种是比值为2，在实际应用中应根据不同的研究材料和研究目的来选定不同的标准。如果我们研究的材料与相比较的材料在时间上相差较远，性质较复杂，在比较中我们认为不必考虑字形和字义方面的对应，只比较语音就行了，而且研究的目的是为了寻求语音演变的大势，不着力于音类的分合，那么就可以把标准定得宽一些，以1作为标准；如果我们在研究中不仅考虑到语音，还考虑到字形和字义的对应，而且研究的目的是考查音类的分合，那就要把标准定得严一些，以2作为标准。

数理统计法在运用时，必须注意：第一，确定并定义统计的单位是韵次（或叫韵对）和字次（或叫次数）；第二，数理统计法可以用于分辙和分韵，在分辙上其原理与几遇数统计法完全相同，其最大的优势在用假设检验来分韵，目前我们所能看到的有T检验法和卡方检验法两种[6,7]。

音韵学中的“概率统计法”和“数理统计法”实际上都是以概率论为理论基础，之所以分为两种，只是依据其是否利用了假设检验，可以说几遇数统计法实际上是数理统计法的一部分，因此运用它们具有相同的注意事项，即：研究材料的数量一定要大，如果数量小，所得结论的可靠性就要大打折扣。

五　统计方法在音韵学中运用的优势和不足

与传统的音韵学研究相比，算术统计法数据精确，计算简单，易于掌握，便于读者做量化比较，以检验结论的可靠性。其主要缺点在于：第一，没有达到引入此方法的目的——消除随机误差；第二，缺乏明确的标准。这主要因为算术统计法并不是完整的统计活动，缺乏对各种统计指标的计算和分析，无法为我们提供统计学上的科学标准。具体运用中多通过次数或百分数的比较，以个人或前辈学者的经验作为标准，决定声母或韵母、韵及韵辙的分合，读者在读过文章后，仍有疑虑，文中的标准自何而来？有何依据？

几遇数统计法的优势在于：

1.以概率论为基础，方法更为精密。在音韵研究中，很大程度上必需依靠历史音韵材料，包括韵文、反切、谐声、声训、直音等，进行音系研究。这些材料都数量庞大而又性质复杂，运用数理统计可以帮助我们更直观地看清其面貌，并接受读者的检验，以铲除不想接受检验且无法检验的所谓“一家之言”。

2.可以消除随机误差。几遇数统计法以概率论作为理论基础，用科学的计算作为标准，可以避免例证法中常常出现的“公说公有理，婆说婆有理”的现象，也可超脱版本的错误和传写讹误，同时也可以忽略我们在处理材料时的偶然失误。

3.标准明确。几遇数统计法通过对材料的充分统计，科学计算，可以得出一个准确、客观的比较标准——几遇数。

4.数据细腻全面，可以揭示一些被其它方法掩盖的问题。

在音韵研究中所暴露的问题：1.利用几遇数统计法进行讨论的前提条件是材料规模要大，当所讨论的数据本身就少时，运用概率统计法所得的结论准确性和科学性就差些，然而这种不足，运用其它方法也同样存在。因而，我们在利用几遇数统计的同时，也要结合音理对声母分合和演变进行考察。2.由于此法得到的数据细腻全面，也许有些数字使我们在分析时感到无所适从，造成这种情况有两种原因，一是看我们在运用反切比较法时，是否将所有的条例都贯彻到底了，如果是的话，就是因为我们对反切的语音学意义认识的还不够，从而使我们的比较原则还不够完善；另一个原因是我们对语音演变方式的认识还很不够，从而不能充分理解这些统计数据的物理意义（对于音韵学者而言，就是统计数据所反映的语音史上的事实），但是，在这种情况下，运用其它方法也同样存在这一问题，甚至会把问题掩盖起来。使用概率统计法至少可以使问题暴露出来，这对于我们今后的研究总是有利的。

数理统计法除了几遇数统计法的优势外，还有以下优势：

1.提高韵文的利用价值。用这种方法研究韵文材料，不仅可以分韵辙，而且对各韵的分合也可做出定量分析，从而为我们进一步进行定性的分析提供可靠的根据，使我们对韵文材料的利用更为充分。

2.可以解决因定韵脚的分歧造成的影响。数理统计法都是用字次、韵次作为统计单位，这可以使我们不再考虑是否换韵不好确定的困难，使我们的分析深入到韵段内部。

3.可以解决文人用韵宽严不一或遵守韵书的程度不同这两个研究韵文材料最令人头疼的问题。遵守韵书程度不同，表明实际语音有别而韵书无别；而用韵宽严不一则能反映实际语音的变化。用数理统计法，可以使这些现象随机地分布在各韵辙内，从而使我们的研究可以忽略那些少数的随机波动现象。

其在运用中所暴露的问题除了上文在几遇数统计法中提到的以外，还有：

1.用t检验法处理个别韵辙的内部差异时会遇到两难甚至三难困境，比如朱晓农先生的论文中，臻辙文欣组归甲组不好，归乙组也不好，独立仍有不妥[6]p66。这与其说是数理统计的不足，不如说是我们对语音演变方式的认识和表述上的不足，因而无法明了这些计算结果的物理意义（在音韵学上，就是它们所反映的语音史上的事实）。在这种情况下不用数理统计，分类并没因此变得容易起来，更有甚者，可能会把问题遮掩起来。使用数理统计至少可把问题暴露出来，这对于理性认识的进步当然是有利的。

2.在t检验中，检验前的数据分组分法不同，有可能影响最后的结果。

六　结束语

数理统计法需要一定的数学知识，检验运算繁琐而又复杂，可以使用SPSS、SAS、MATLAB等工具软件。另外，麦耘先生编写了用T检验法和卡方检验法进行统计的软件[8]，而笔者也利用几遇数统计法设计了用于声母统计的软件，这就可以大大节省我们的时间和精力，从而使我们可以全力进行音韵学上的分析和思考。

【附记】　本文是据我博士论文的第二章修改而成，初稿曾蒙陈小荷、麦耘、朱晓农三位先生赐阅，并对本文提出了宝贵的修改意见和建议，在此致以最衷心的谢意。

标签：音韵学论文; 数理统计法论文; 统计学论文;

音韵学中统计方法的比较_音韵学论文

猜你喜欢