宋词扬音系的数理统计分析_概率计算论文

宋词阳声韵的数理统计分析,本文主要内容关键词为:声韵论文,数理论文,统计分析论文,宋词论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:H113 文献标识码:A 文章编号:1000-1263(2005)01-0082-07

研究诗文用韵,判断通押和合韵时,通押比例是一个最重要的数据。在实际操作过程中,主要的问题是通押到何种程度算合韵?各家学者存在很大的分歧。朱晓农先生就此问题做过详细讨论[1]p10-20。

早在上世纪三十年代,陆志韦先生就开始使用几率相逢数来研究《广韵》的声母[2],自此数理统计法逐渐开始应用于音韵学研究,白一平先生使用卡方检验法考察了诗经幽部字*u,*iw两韵的合用问题[3],朱晓农先生使用t检验法讨论北宋中原地区词人的用韵[1],麦耘先生在朱晓农先生公式的基础上编制了电脑软件,检验分析了隋代的诗韵材料[4]。

1.1 判断合韵与否的主要依据是通押比例,根据比例来判断通押是一种随机现象,还是一种经常的行为。为了判断随机通押与经常通押的区别,我们需要建立一个这样的数学模型:假设有A、B两韵字,A、B两韵随机通押概率相当于从所有韵字中随机取两个字,恰好一个是A韵字、一个是B韵字的概率(记作1)。然后我们将韵段中A、B两韵实际通押次数与全部韵段的比率(记作R)计算出来,将R和I做一比较。如果R超过I较多,可以说两韵的通押是经常的;如果R比I小很多,那么两韵的通押是随机的;如果R和I差不多,则使用假设检验法来帮助我们判断。

在数理统计法使用以前,一般讨论通押比例皆以韵段为单位,只计算R的值,到百分比为止。韵段的单位过于粗疏,例如同是臻梗通押的两个韵段:王观《高阳台·红人桃腮》(一262):分臻孙臻闻臻人臻轮臻云臻名梗春臻(注:韵例说明:首列作者姓名,书名号内是词牌及首句,首句超过4字的只取前4字以节省篇幅,括号内大写数字是卷号,B表示补辑,阿拉伯数字为页码。版本用中华书局1980年《全宋词》繁体竖排本。)。杜安世《玉阑干·珠帘怕卷》(一172):景梗尽臻径梗信臻定梗趁臻。他们所表达的臻、梗合用的关系是不同的,后者更能反映出两摄的密切关系。如果以韵段为计量单位,他们都算1次,抹杀了后者所反映的意义。白一平先生用马尔柯夫链作为计算押韵的基本单位,朱晓农先生称之为“韵次”,初步解决了区分韵段中韵字多寡不同、位置各异的问题[1]p7-10。

 但是,这种方法只计算相邻韵脚押韵,而把非相邻韵脚之间的关系排除在研究视野之外,不能反映三韵以上同用的关系。例如,刘辰翁《清平乐·深红半面》(五3195)叶:唇英承。是二个谆庚蒸三韵同用的韵段(举平赅上去),韵次有两个:唇英(谆庚同用)、英承(庚蒸同用),而谆蒸同用没有体现出来,割裂了不相邻的韵脚“唇”和“承”之间的关系。因此,我们定义一个新的计算单位:韵段中每两个韵字两两组合称作为1韵组。用公式表示就是:

公式①计算两个韵部j、k之间关系的辙离合指数,公式②③计算两个韵a、b之间关系的韵离合指数。公式①除号以前的数值代表j、k韵部实际相押的比率,后面括号内的数值代表理论上随机相押的比率。这个随机相押的比率是通过排列组合原理得出来的,有个形象的比方,就是从总数为Z的球袋中摸球,第一个摸出是标签是j的球的概率为Zj/Z,第2个摸出标签是k的球的概率则是Zk/Z-1。这样两个球恰好前j后k的概率就是两者的乘积,同理再加上两个球前k后j的概率,就构成了i、k两辙随机相押的总概率。公式②③朱晓农先生未多加解释,但似乎和公式①略有不同,被除数仅是a、b两韵的总字次和总韵次,而把同一个韵段中a、b韵和其他韵组成的韵次置之不理,无形中可能放大了概率,不符合排列组合的精神。两个公式既然是从同一个原理推导而来,应该算法相同较为恰当。因此我们将韵离合指数的公式修改为:

这样,公式④和公式①的原理保持一致(因为韵组是组合而来的,这里我们也用组合,不用排列,所以不乘于2)。将所有含有a韵韵字或b韵韵字的韵段作为样本,Y指样本的总韵组,Z指样本的总字次。当I(ab)<50时,认为ab两韵应分开,当I(ab)>=90时,认为ab两韵应合并,当50<=I(ab)<90时,需要进行假设检验(注:I(ab)的两端是50和90,为什么是这两个数字,朱晓农先生没有详细讨论,看来是一个经验值。)。

1.3 使用假设检验的前提是首先要保证样本有足够的数量,宋词用韵样本数(韵段数)大多在几百以上,多的甚至达到上千,符合这一要求。有些学者在某个词人总的词作才几十首、全部韵段不过百多个的情况下使用数理统计法,其结论不能不让人感到怀疑。虽然t检验是适用于小样本分析的方法,但是对样本的数量仍有一定的要求,当原始数据量较小时,结果的可靠性就很差。麦韵先生特意强调,对于字次小于10的韵,即使它与别韵的离合指数在50到90之间,也不再进行t假设检验;两韵互押不到5次的,也不做检验[4]p115,这种做法是比较科学的。

其次,样本的分组影响数据的分布。诗文用韵研究中的样本是韵段中通押韵组与该韵段全部韵组的比率。比方说我们考察宋词韵里面侵韵跟真韵的关系,首先把含有侵韵或真韵的韵段搜集一起作为样本,一共有1930个。可以分为两类:一类是侵真合用的韵段,有211个,如苏轼《江城子·腻红匀脸》(一329):唇谆新真春谆颦真人真阴侵深侵心侵今侵,这个韵段中侵真合用韵组12个,全部韵组36个,那么比率就是0.3333;另一类是非侵真合用韵段,有1719个,如柳永《甘草子·秋尽》(一15):尽真粉信真紧真嫩顿恨,晏殊《浣溪沙·三月和风》(一88):林侵金侵阴侵心侵深侵。这类韵段侵真合用韵组为零,因此比率都是零。如果我们直接以每个韵段的比率作为样本,那么大部分样本都是零,这样的样本呈偏态分布。偏态分布可以利用box-cox公式模型化为正态分布,但是无疑影响统计的结果。

朱晓农先生曾举例说:“把宕摄全部统计材料任意分为大致均匀的的16组(多两组少两组没关系,Z大就多分两组,Z小就少分两组)。”[1]p40实际上这个“任意”并不好操作,如果不小心把江、阳、唐三韵通押的韵例都放到了一个或几个组里面去了(另几组的通押比率都是零),就会严重影响样本的分布。麦耘先生意识到了这一点,做法略有不同[4]p114:

视需要检验的两韵互押韵段的多少定所分组数,每韵段为一组(韵段数太多,譬如说超过100,就适当合并),然后把两韵各自独用的韵段的数据任意地、大致均匀地加上去(韵段内如有两韵以外的韵字,则只取这两韵独用、互押的韵次,涉及其他的韵次,置之可也)。尽量避免出现一组内互押韵次为零的情况,也尽量避免两个独用韵次都是零的情况。

麦耘先生的做法是比较科学的。但是,麦耘先生说将两韵与其他韵的韵次置之不理,我们在上文讨论朱晓农先生的公式时已有所批评。另外,麦耘先生虽然编制了软件来计算概率,但韵组还要靠人工来点算,现在我们把韵组的点算也一并写进程序之中。

我们的做法与麦耘先生较为相似。上文提到的211个侵真合用的韵段,以5个为一组,大概可以分作42组,再把1719个非合用的韵段随机均匀分配到这42组中,用程序可以算出这42组样本中的比率如下(小数点前的0省略):

.0136,.0105,.0115,.0151,.01,.0094,.0136,.0075,.0157,.0081,.0138,.0059,.0075,.0147,.0059,.007,.0195,.008,.0151,.0043,.0116,.0165,.011,.0141,.0047,.0222,.0066,.0091,.0094,.0069,.0037,.0031,.0033,.0053,.0041,.0095,.0091,.005,.0058,.0085,.0057,.0098

以上样本用X表示,首先找出X的最大值0.0222,最小值0.0031,分成20个区间,使用matlab数学软件画出X的频率分布图(见图1),然后对X的频率分布进行积分,得到图2。

对X做以下线性变换:

Yc(X-μ)/σ

X是样本,μ是样本X的平均值(0.0096),σ是样本X的标准差(0.0045)

同样得到Y的频率分布图(见图3)和相应的积分曲线(见图4)。其中折线是数据曲线,点线是标准正态分布的积分曲线。从图4可以看出,数据曲线和参照的标准正态分布曲线非常接近。使用KS-test检验(α=0.05),我们推断出Y呈标准正态分布(h=0)。因为,线性变化不改变正态分布的性质,所以,样本X也是正态分布。

图1

图2

图3

图4

其他一些韵的样本数量更大(例如寒山两韵合韵韵段有791个,分成160组)。在样本数量很大的情况下,样本的分布是服从正态分布的,这是使用t检验法的前提条件。麦耘先生还提出:在做t分布假设检验前的数据分组,分法不同,有可能影响最后的结果[4]p115。上文所说侵真合韵韵段,如果以10个为一组分成21组,或者以3个为一组分成70组,虽然样本数据有差异,但最后t检验的结果差别并不大。

1.4 t检验法有如下公式:

如果有(α=0.05(注:α指显著性水平,本文取0.05,意即这种假设错误的可能性是5%。朱晓农先生取的也是0.05,麦耘先生取0.025,一般社会科学统计中取0.05的精度就可以了。本文样本数(n)很大,可以近似看作正态分布,因此的值可以直接查正态分布表而得,即有。查正态分布表可知。)),根据小概率事件原理,的概率只有5%,在一次抽样中几乎不能发生,但现在确实发生了,因此我们有理由认为原假设不能成立,即ab两韵实际相押的概率比随机相押的概率要大,两韵应合并。

我们考察了宋词用韵的全部阳声韵段10347个,将7个阳声韵摄的独用和通押情况列成两个表。表中反映出梗、曾摄阳声合用无别、江、宕摄阳声合用无别,本文不再赘述。我们要讨论的主要问题是:

1、m韵尾阳声摄咸、深。咸摄与山摄通押有395个韵段,远超过自押的125个韵段,是否要将山、咸合为一部?深摄和主元音相近的臻、梗、曾摄合用也有335个韵段,超过了自押的270个韵段,是否也应合并?

2、ng尾阳声摄梗、曾和n尾的臻摄合用也有980个韵段,表明ng尾向n尾的转变已经到了相当深入的程度,是否也应将三摄合为一部?

阳声韵摄独用 表1

独用韵段个数

3014  125  1002 1007  13

270  1512  15

1306

阳声韵摄间的主要通押

表2

2.1 表3是山摄、咸摄15韵的互押韵次及离合指数图。我们用朱晓农先生的韵次概念和公式计算寒覃两韵的离合指数为28,和本文所用方法的结果238差异很大。按朱晓农先生的算法两韵当分,按我们的算法两韵当合。

首先讨论山摄7韵的内部关系,山摄按介音分作两组:一、二等韵寒桓删山为一组,三、四等韵元先仙为一组。诗词押韵的一般要求是韵腹或韵尾相同、相近即可,不涉及到介音,所以从表中来看,两组韵字的互押都比较频繁,离合指数支持七韵合并。只有删韵比较例外,删韵与细音元、先、仙的离台指数说明他们之间存在较大差距。咸摄字按介音也可分为两组:一、二等韵覃谈咸衔和三、四等韵盐添严凡。宋词用韵中已经初步呈现了两组分用的趋势,第一组覃谈咸衔间互押较多,第二组盐添之间互押较多,两组之间的互押比较少。这里有两个例外,二等咸韵与覃韵合用12韵次,离合指数为89,经t检验他们当分开,与盐韵合用22韵次,离合指数为94,应当合并。原因可能是咸韵大部分字已经产生了i介音,因而与三等韵相押更为和谐。凡韵虽然入韵次数少,但韵次分布呈现明显特点,几乎不与细音盐添合用。凡韵与山摄寒桓删山的指数都大于100,而和细音先仙的指数是74,应当分开。似乎暗示凡韵此时已经丢失了介音,故常与洪音合用。

山摄、咸摄各韵韵离合指数

表3

说明:第2列韵名后面的数字是该韵的总字次;表格数字按中间梯形黑线可以分为两部分,黑线以上部分是每两韵间通押韵次数目,以下部分是两韵的离合指数,在50至90间进行t检验,数字后字母“H”表示离合指数支持两韵合并,字母“F”表示两韵应分开。韵次在十次以下者不进行离合指数的计算。

我们依次观察山摄诸韵与咸摄诸韵的指数分布(一列一列看韵离合指数)。寒、山韵与覃谈衔凡的指数支持合并,与盐添严的指数支持分开;桓韵与覃谈衔凡盐添凡的指数都支持合并;元先仙与覃谈衔凡的指数支持分开,与盐添严的指数支持合并;删韵比较独特,与覃谈咸盐的指数都支持分开,只与衔韵的指数支持合并,原因为何我们一时还无法解释;咸韵与山摄的洪、细音指数都支持合并,原因我们上文已做阐述,很可能是咸韵部分字有i介音,另外部分字无介音。综合来说,宋词山咸二摄的合用呈现以介音分组的趋势:寒山覃谈衔凡为一组,元先仙盐添严为一组;咸韵游离于二组之间;桓韵比较独特,到《中原音韵》时与山摄其余韵分开,独立为桓欢组。

2.2 表4是四摄14韵的离合指数分布,表中各数字的含义与表3说明相同。首先看侵韵与臻梗曾各韵的离合指数,都不支持合并。从韵次的角度来说,与侵合用较多的韵是清、青、庚、真,韵次分别是646、397、530、632,他们的离合指数分别是72、59、60、70,都介于50和90之间。这些数字表达了两层意义:一是侵韵的确与清、青、庚、真经常合用,韵尾-m有向-n转变的趋势,或者可以说部分韵尾已经转变了;二是离合指数说明侵韵与臻梗曾各韵的合用大部分是属于韵尾相近而通押的类型,大多可以看作是本文开头所提的音近通押,并未超过随机而达到合部的程度。

再来看臻摄与梗曾摄的合用关系。真、谆、臻、文、欣、魂、痕与梗曾摄各韵的指数都支持分开,只有真庚指数例外。从韵次来看,真韵、文韵和庚清青合用最多,他们的指数分别是96、88、86、59、59、53,也是在判断的临界点50~90之间。梗曾摄和臻摄的关系与上一段我们讨论的深摄与臻梗曾的关系很相似,这些数据同样也反映两层含义:一是梗曾摄因韵尾相近,常和臻摄通押,韵尾-ng有变成-n的倾向;二是他们的合用仍然在正常的随机通押的范围内,尚未达到合并的程度。

深臻梗曾四摄14韵离合指数图

表4

综上所述,宋词山、咸二摄阳声韵按介音有否,可以分成洪细两组,寒桓删山覃谈衔凡和元仙先咸盐添严,总体上来说分别合用,两组之间的牵连也有。这种情况可以分成两部,寒谈部和元盐部,也可以合并为一部,即寒覃部。鲁国尧先生在《论宋词韵及其与金元词韵的比较》中认为,“监廉部入韵字少,故监廉部自押韵段较少”,反对将咸摄和山摄并作一部[5]。我们用数理统计的方法来看,离合指数的设计排除了入韵字多寡的影响。比如真清合用的韵次高达1328次,但他们的离合指数仍然是64F,仍然支持分;真臻合用的韵次虽然只有52,但离合指数是320,支持合。这样某个摄字数的多少不再是影响结论的客观因素。从统计结果上来看,咸摄与山摄的合并是明显的,因此将其合并为一部更切合实际。还有其他方面的数据也支持这个观点,笔者将另文讨论。

深摄侵韵不和臻梗曾摄阳声韵合部,他们的关系可以处理成通押。宋词用韵中梗曾摄和臻摄虽然频繁通押,但仍然在我们认可的“随机”的范围内,并未达到合部的程度。这种语音现象应该看做方音现象,在现代许多南方方言中,梗曾摄的韵尾-ng和臻摄韵尾-n依然混淆不清,而在现代北方官话中梗曾摄和臻摄字的韵尾还是有区别的,因此梗曾摄阳声韵也不宜和臻摄阳声韵合并。

【附注】朱晓农先生对本文赐教良多,并赠与大作;本校数学系杨华博士和材料学院万虎博士提供了不少帮助,在此一并致谢。

标签:;  ;  

宋词扬音系的数理统计分析_概率计算论文
下载Doc文档

猜你喜欢