连江市广东客人词汇相似性的计量分析_廉江论文

廉江市粤客词汇相似度的计量分析，本文主要内容关键词为：廉江市论文,词汇论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

一廉江方言分布和概况

广东省廉江市位于雷州半岛北部，粤桂两省交界处，西北与广西壮族自治区的博白、陆川等县接壤，东北是广东化州市（属茂名市），南界广东遂溪县（属湛江市），西南濒临北部湾。廉江在秦朝属象郡；汉代属合浦郡；唐高祖年间一度改名为“罗州”，故亦有“古罗州”之称；宋太祖废罗州归入化州，孝宗年间置石城县（仍属化州府），以后直至明清皆以石城名之；明洪武年间化州撤府划属高州府，石城亦随之；民国初改石城名为廉江县，属高雷道；新中国成立后属广东省湛江专区。

廉江市境内主要有三种汉语方言：白话、话、黎话。据民国时期所修的《重修石城县志》上记载：“县之语言有三种：一曰客话……多与广州城相类；二曰哎话……与嘉应州相类……；三曰黎话……与雷州相类”。其中所谓“客话”即今“白话”，属粤方言，主要分布于廉城、安铺、石城、平坦4个镇及良垌、新华、新民、吉水、营仔各镇的大部分地区，多集中在廉城的南部和东部，使用人口据《廉江县志》(1994)的统计有约30万。廉江客家话（本地称“哎话”，或写作“话”）聚集在北部和西部的山区地带，如塘蓬、石颈、和寮、石角、长山等5个镇，以及河唇、石岭、青平、高桥、雅塘、营仔、吉水的部分村庄，使用人口约50万；廉江的黎话（旧志作“雷话”）主要分布于西南与遂溪接壤的横山、河堤、龙湾3个镇，及新民、新华、良垌、石城、营仔等地的少数乡村，使用人口约20万。

廉江方言的分布在粤西高雷地区具有一定的代表性：闽、粤、客三大方言并驾齐驱，其中闽方言相对较少受其他方言影响（粤西闽语多集中在沿海一带），粤、客方言则因地缘上比邻而居、语言沟通较易等原因而接触较深，比粤语代表广州话和客话代表梅州话之间有更多的相通相近之处。一般而言，在方言接触过程中，强势方言对弱势方言具有明显的影响作用，廉江以粤方言为强势方言，廉江客话中有相当一批词汇已偏离典型客话，而与粤语相同。例如，对于“猴子”、“蜈蚣”、“茄子”、“隔壁”、“围嘴儿”等词项，廉江客话使用的是典型的粤方言词语——“马骝”、“百足”、“矮瓜”、“隔篱”、“口水枷”，而不是像梅州客话用“猴哥”、“蜈蚣虫”、“吊菜”、“侧角”、“澜丫”。不过我们同时发现，廉江粤语中有一些词项也受当地客话的影响，如水果类词项在典型粤语中一般不带后缀，采用单纯词形式，而廉江（包括粤西其他地方）粤语却常常加后缀“子”——“桃子”、“李子”、“柿子”，与客家方言的构词形式相似。

为了更细致、更精确地研究方言之间的接触，本文以廉江为研究个例，对廉江廉城白话（下文称之为廉江粤语）和廉江石角客话（下文称之为廉江客话）的900多个日常所用词项做了计量分析。本文采用SPSS11.0统计软件计算廉江粤语和廉江客话的相关系数，并以广州粤语和梅州客话的相关系数作为参照，对比分析廉江市粤、客方言的相关性及其与典型粤、客方言的差异。

二计量分析的方法

2.1 计量方法的回顾

运用计量手段来分析汉语方言间亲疏关系的方法，始于上个世纪80年代。郑锦全、马希文等学者最早开始了这方面的研究工作。1992年，王士元和沈钟伟合作研究出了计量方言关系的方法（简称王沈计量法，下文同），给人们提供了一种切实可行的计量方言词汇相关系数的途径。2003年陈朝珠应用王沈计量法，以北海市区方言词汇为对象，从定量的角度研究北海市与周边方言之间的关系（陈朝珠，2003）。

2.2 计量的基本方法

本文在计量廉江粤、客两方言间的相关系数时，主要采用王沈计量方法和原则，同时从词汇计量的具体情况出发，对以上方法和原则进行一些相应的补充。

王沈计量方法和原则概括如下：

1)特征选择

选择语素作为体现方言关系在词汇形式上的研究对象，以语素和词语的构成方法作为计量的要素。通过这种方法，在分析同一个词项在两种方言中的词汇表现形式时，需要分析两者的语素和构词方法来表明它们相互之间相关的程度。

2)计量公式

依照通用的Jaccard分类学的方法，方言间语素和构词法出现的情况有“双有”、“有无”、“无有”、“双无”四种，分别用：a、b、c、d代表。其中d“双无”的情况对于分析两方言间关系没有实际意义。所以得出计算词汇相关系数的公式：

a/(a+b+c)——表示两种方言词汇语素和构词法的“双有”关系和所有关系②的比值。

3)计量原则

n——两个方言中用于比较的词项的总数。

2.3 方言词汇计量细节补充说明

计算廉江粤语客话词项的相关系数时，存在一些王沈计量法中没有详细说明的问题，下面就这些问题分别讨论：

问题1 语素与构词法在计算相关系数时其关系如何？

将语素和构词法作为分析方言词汇关系的对象进行计算时，有以下五种情况出现：

情况一：比较对象的语素部分相同，构词法不同。它们相关关系的区分主要体现在构词法的不同。构词法差别越大，则相关系数越小。

情况二：比较对象的语素部分相同，构词法相同。此时比较对象的关系由语素相似比例决定。相同的语素越多，相关系数越大。

情况三：比较对象的语素和构词法完全不同，这时的相关系数等于0。k情况四：比较对象的构词法与语素完全相同，这时的相关系数等于1。k情况五：比较对象的构词法与语素皆部分相同，相关系数取决于两者的相同程度。k在这五种情况当中，情况三和情况四最为简单，情况一和情况二稍微复杂，情况五是情况一和情况二的综合，是方言词汇中占比例较多的情况。具体语素的比较过程如下：

(1)分别找出所比较的方言某个词项反映形式i和j的所有语素。

(2)如果某个语素在i和j中都有，属于2.2节提到的“双有”情况a。将此语素作为比较项，同时标记为“1”（“1”表示特征存在；“0”表示特征不存在。“特征”包括语素、构词法两方面的内容）。如果某个语素只是出现在i或j中，属于“有无”或者“无有”情况b、c，将两者所属的这些不同的语素作为比较项，对具有某语素的一方标记为“1”，不具有此语素的一方标记为“0”。

(3)按照公式1计算语素项的相关系数。

问题2 以语素为单位计算相关系数时，是否需要考虑音节？

汉语中大多数是单音节语素，此外，还有双音节语素和多音节语素，因此在计算相关系数时，理论上存在语素数目可能相同而音节数目可能不同的情况。但在邻近汉语方言的词汇计量过程中这样的情况比较少见，分析语素项的多少实际上也体现了音节数量的不同。如果将音节数作为一个独立关系来进行统计，那么将会产生重复比较的效果，使得词汇比较结果没有较好的区分度。所以在计量时不必考虑音节。具体实例分析请看本文2.4节。

问题3 同一词项的反映形式如果分别是词与词组，它们可否比较？

汉语方言中的一个词项，就是一个概念意义，词和词组都可能作为反映形式。汉语中的词和词组（又叫做“短语”）虽然有区别，但是两者界限不甚明确（袁毓林，1998:132），具有非常紧密的联系。例如，它们之间经常可以相互转化，而且合成词的构造与词组的构造类型相似。因此可以将词和词组放在一起比较。

词和词组比较时，语素之间的比较按照词与词的比较方式计算。构词法上，只统计构词法种类而不考虑构词法层次。本文不采取将词组排除在统计对象之外的方法，因为词组形式的词项，在方言词汇中占有很大的比例，地位重要，如果将这部分删去，会对计量结果的准确性产生影响。而且用以上方法能够在做方言词汇计量统计的时候分析词和词组。

问题4 如何确定构词法分析的层次？

在汉语中，词的构成形式可以分成以下几个层次：

图1 词构成的层次结构图

说明：派生中的“其他”项包括中缀、叠缀等形式

以构词法计量k词项的相关系数S[k,ij]。具体的比较过程如下：

(1)在比较词的层次结构时，由低层次开始往高层次方向进行比较。比较的次序为层次3、层次2、层次1。分析时以最小区分特征为区分点。采用这种比较方式的原因，请看2.4节第(2)部分的分析。

(2)如果在某一层次上反映形式i和j都具有某种结构，则将此结构作为比较项，双方标记都为“1”。属于2.2节中提到的“双有”情况a。

(3)如果在某一层次上反映形式i或j有某种结构，也将此结构作为比较项，具有此结构的一方标记为“1”；不具有此结构的一方标记为“0”。属于2.2节中提到的“有无”或者“无有”情况。

问题5 两种方言中同一词项的多种反映形式如何相互比较？

根据方言词汇的调查结果，一个词项在一种方言中往往有好几个反映形式。这时，计算这个词项的相关系数就不是简单的A方言的一个反映形式对应B方言的一个反映形式的比较分析。

王沈计量法中提到，由于每个词项是相对独立的，因此每个词项的相关系数应该单独求出。根据这种方法，在同一词项有多种反映形式的情况下，可以按照以下方法单独求得此词项在两种方言中的相关系数。王士元和沈钟伟文章中的1.3章提到一个假设的例子。这个例子的表述方式如下：

表1 词项和反映形式关系

词项反映形式方言A 方言B

k一1 1

二0 1

说明：1表示这个反映形式存在；0表示这个反映形式不存在，下同。

方言A中有反映形式一，而方言B中也有，得a=1。方言A中有反映形式二，而方言B无，故b=1。根据公式1可以计算得出=1/2=0.5。k当两种方言中同一词项有多种反映形式时，先找两种方言中所有的反映形式，综合考察它们的词素和构词法在两种方言中的“双有”、“有无”、“无有”的情况，然后确定a、b、c三个系数的值，最后根据公式=a/(a+b+c)，从而求得这个词项中两种方言的相关系数。

问题6 方言俗字与有音无字的情况如何处理？

有些词项的反映形式是有音无字或用方言俗字来表达的。俗字是某种方言的特有用字，是某方言区的人造字。有音无字的情况可能是本字不可考，或有待考证。这时，不能从字型上来确定它们的语素是否相同，而要从音义两方面进行综合考虑。如果相比较的语素读音存在对应关系，并且意义相同或相近，那么就可以将它们作为共同语素的情况对待。例如，词项“没有”，在广州话中是“冇”，在梅州话中是“无”。从字型上看，它们是不同的语素，但是从音义对应上判断，它们应为相同的语素。

问题7 相关系数的类型有哪些？

单词项相关系数——指某个词项k中表现形式i和j的语素、构词各个比较项的相关系数总和的平均值。所比较方言的词项有多少条，就有多少个单词项相关系数。

相关系数总和——所比较方言所有单词项相关系数的总和。

平均相关系数——所比较方言中所有单词项相关系数的平均值。等于相关系数总和与总词项数的商。它体现了方言之间相似度的大小。

2.4汉语方言词汇计量举例

例一：“父亲”这个词项在廉江粤语中有“阿爸”、“老豆”、“家父”三种反映形式，而在廉江客话中只有“阿爸”一种反映形式。处理时，先将这三个形式的所有语素和构词法找出，然后看它们在两种方言中的分布情况：

表2 计量例表一

反映形式廉江粤语廉江客话

语素阿 1

爸 1

老 1

豆 1

家 1

父 1

音节双音节 1

构词法1 前缀1

偏正1

10 构词法2 合成词 1

11 复合词 1

12 派生词 1

13 偏正1

14 前缀1

例二：“雾”这个词项广州话有“雾”、“雾水”两个反映形式，而梅州话则有“蒙纱”、“蒙雾”两种反映形式。

表3 计量例表二

反映形式广州粤语梅州客话

1 语素雾

2 水

3 蒙

4 纱

5 音节单音节

6 双音节

7 构词法1 偏正 1

8 动宾 0

9 单音节单纯词 1

反映形式广州粤语梅州客话

10构词法2 单纯词

11合成词

12复合词

13偏正 1

14动宾 0

“双有”即“1——1”的情况为a。“有无”即“1——0”的情况为b。“无有”即“0——1”的情况为c。

根据分析结果确定a、b、c的值后，由公式1计算相关系数值。

1)构词法分析比较

构词法分析方式有两种（见上述例一、例二中的构词法1和构词法2）：分析方法一，是2.3节当中问题4所列的比较方式，由低层次向高层次的顺序进行比较分析；分析方法二，按照层次1、2、3的顺序依次对反映形式进行逐层比较、分析。不同分析方法得出的数据不同，见表4：

由此可见，如果使用分析方法二，从层次1往层次3进行分析，平均相关系数的值会增大，但是这种方法区分方言词汇之间差别的能力反而减小（注：由的差值对比可以知，差值大小与相关系数区别方言词汇能力大小有关。），所以我们认为采用分析方法一较为合理。

2)音节分析比较

音节的比较在2.3节问题2中进行了阐述，在以语素为单位计算相关系数时，考虑音节与否其具体区别如表5（计量时采用构词法1的比较项）：

可见，如果考虑音节因素，相关系数的值会增大，但是相关系数区分方言词汇之间差别的能力并没有得到显著提高。因此在方言词汇计量中可以省略音节因素。

三粤客词汇相关系数的计量分析

3.1 粤客词汇相关系数的计量分析材料

所用方言词汇材料来源：

廉江粤语词汇——邵慧君田野调查所得。

石角客话词汇——李如龙等(1999)《粤西客家方言调查报告》，暨南大学出版社。

广州粤语词汇——白宛如(1998)《广州方言词典（现代汉语方言大词典·分卷）》，江苏教育出版社。

梅州客话词汇——黄雪贞(1998)《梅县方言词典（现代汉语方言大词典·分卷）》，江苏教育出版社。

文中用语解释：

广粤—梅客：指广州粤语和梅州客话的对比计量。

廉粤—廉客：指廉江粤语和廉江客话的对比计量。

廉粤客—广粤：指廉江粤语和廉江客话中完全相同的词项与广州粤语的对比计量。

廉粤客—梅客：指廉江粤语和廉江客话中完全相同的词项与梅州客话的对比计量。

计量所用词项的类别分布如表6：

表6 分类号和分类项目对应表

分类号和分类项目对应表

1 2 3 4 5 6 7 8 9 101112131415

天文地理时间农事家务动物植物房屋器具衣饰饮食身体人品称谓婚丧

161718192021222324252627282930

疾病起居教育娱乐交际商业交通动作感知形容数量指代副词连介助词

“广粤—梅客”和“廉粤—廉客”使用的词项调查表词类分布见图2；“廉粤客—广粤”和

“廉粤客—梅客”词项调查表词类分布见图3。

图2 “广粤—梅客”和“廉粤—廉客”词项调查表词类分布图

图3 “廉粤客—广粤”和“廉粤客—梅客”词项调查表词类分布图

说明：横坐标数值为分类号，纵坐标为某词类占词表总词项数值百分比。

3.2 粤客词汇相关系数的计量分析步骤

1)“广粤—梅客”计量：将广州粤语与梅州客话按照词项一一对应，以Excel表的形式列出。首先以公式1计算单个词项的相关系数；最后以公式2得出所有词项的平均相关系数。

2)“廉粤—廉客”计量：将廉江石角客话与廉江粤语照词项一一对应，用Excel表式列出。首先以公式1计算单个词项的相关系数；最后以公式2得出所有词项的平均相关系数。

3)“廉粤客—广粤”和“廉粤客—梅客”计量：将“廉粤—廉客”计量结果中=100%(为某个特定的相关系数值，下文同）的词项表现形式挑选出来，分别计算这些词项与广州粤语和梅州客家话的相关系数。

3.3 计量结果比较分析

3.3.1 相关系数值的比较

1)“广粤—梅客”与“廉粤—廉客”相关系数值的比较

广州粤语与梅州客话的词汇平均相关系数是0.480；廉江粤语和客话的平均相关系数是0.557。廉江地区粤客方言的平均相关系数高于广梅的粤客方言平均相关系数，说明廉江地区粤、客方言由于接触频繁，使得其词汇的融合程度加深，它们的相关系数也因此增大。

表7 “广粤—梅客”词汇相关系数表

总词项数936

连江市广东客人词汇相似性的计量分析_廉江论文

猜你喜欢