从核心词分布看汉语与侗族、台湾语的词源关系_西南官话论文

从核心词分布看汉语和侗台语的语源关系,本文主要内容关键词为:语源论文,台语论文,汉语论文,核心论文,关系论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[提要]作者通过对语言接触进行追踪分析发现深刻接触也可以在基本词汇甚至核心词中形成有严格语音对应的关系词,因此仅靠关系词还不能确定同源关系。我们还发现语言的接触是有阶的,越是核心的词汇受到冲击的量越小,时间越晚,于是我们根据接触的有阶性把核心词分成前100词集和后100词集两个不同的阶。在语言接触中,前100 词集的关系词低于后100词集的关系词,在语言分化中情况正好相反。 汉语和侗台语古代关系词的分布属于前一种情况,由此我们认为侗台语和汉语没有同源关系。由于侗台语和汉语之间有大量古代关系词,用语言联盟解释这种密切接触关系比较合理。

汉台(侗台)语源关系是汉藏语系乃至南岛语系发生学问题的焦点。目前确定汉台有无同源关系的难点在于汉台之间有语音对应的早期关系词到底是同源词还是古借词。区分古借词和同源词很困难,因为借词并不是没有规律的,仅仅靠语音对应还难以把古借词和同源词区分开来。国外学者本尼迪克特(1972)等认为汉台之间没有同源关系,理由是汉台之间有音义联系的早期关系词不是基本词汇,尤其不是核心词。

问题在于什么是基本词汇和核心词。李方桂、邢公畹、罗美珍、郑张尚芳等找到的有语音对应的汉台关系词有不少是最基本的生活词汇,还有不少包括在斯瓦迪士(Swadesh,M.)50年代提出的200核心词中。由于目前国内外还没有人拿出更合理的核心词体系(这本身是一项非常困难的工作),斯瓦迪士的200 核心词一直是多数国内外学者在调查研究中共同默认的一项重要参考标准。既然我国学者找到的汉台关系词有不少属于斯瓦迪士的200核心词, 本尼迪克特等说它们是借词的理由并不充分。

基本词汇和核心词可不可以借用,有无语音对应规律?笔者用几年时间对傣语和汉语西南官话的接触作了追踪调查,发现基本词汇和核心词也可以借用,而且符合严格的语音对应规律,因此部分基本词汇和核心词的对应还不是确定同源关系的充分条件。

本文是我在徐通锵先生指导下写出的博士论文的一部分,论文题目是《论语言接触与语言联盟—汉越(侗台)语源关系的解释》。

一 亲属语言之间关系词的分布

根据我们对傣语和汉语西南官话的追踪分析,我们发现尽管核心词也可以相互借用,但越是核心的词借用越少。相反,傣语各方言之间越是核心的词同源词越多,这说明关系词的分布在语言的分化和语言的接触中并不相同。我们正好可以由此入手来区分同源关系和接触关系。于是区分核心词的等级就成了关键的问题。

在没有人提出更好的核心词以前,为了排除研究者个人意向对选择核心词的干扰,我们仍选择斯瓦迪士200核心词作为分析的前提, 因为这200核心词实际上是斯瓦迪士、R.B.Less、J.H.Greenberg等许多学者在分析欧洲、美洲、非洲和澳洲语言的基础上提出和完善的,尽管我们现在仍然可以对这200词中某些词的选择提出异议,但该200词中绝大多数词的选择在世界上其他语言中有普遍性,其他少数学者根据自己所研究的少数几种语言而提出的核心词和斯瓦迪士200词相比普遍性更低, 在下面的研究中我们还会看到,区分同源和接触关系时更重要的问题不在于核心词本身,而在于不同等级的核心词的分布差异。

我们将把核心词分成不同的阶,并用大量材料来证论这种分阶对区分同源和接触关系的可行性。让我们先把200核心词分成两组, 分组的要求是其中第一组的词从概率上看应该比第二组的词更稳定,为了达到这种目的,我们先回顾一下斯瓦迪士200核心词的实质。 斯瓦迪士提出200词是为了通过词汇变化率的统计来确定语言分化的年代。 最初他认为200词可以作为人类语言最稳定的核心词(Swadesh,1952), 但在实际工作中他发现200核心词也可以借用,他又重新确定了一个100核心词(Swadesh,1955),认为这100核心词是人类语言最稳定的核心词, 斯瓦迪士的语言接触观念是有界的,他想在借用和不借用之间划出绝对的界线,但在我们后面的分析中会看到,100核心词也可以借用。 与斯瓦迪士的有界观不同,我们把斯瓦迪士的100词称为前100词集或一阶核心词,然后从斯瓦迪士的200词中减去属于100词的词,得到107词, 再去掉一些词义重复不便比较的词,得到另一个100词,我们称为后100词集或二阶核心词。在下面的大量统计材料中我们会发现尽管前100 词集中的词也可以借用,但比起后100词集的借用率要小得多, 从概率统计上讲要比后100词集相对稳定。 我们区分同源和接触关系就是要根据这种相对稳定性。〔1〕

现在我们来看世界上一些已知有亲属关系的重要语群两阶关系的分布。先看印欧语言古代和现代同源词在第一阶和第二阶中的分布。斯瓦迪士1952 年给出了这些语言古代和现代同源词在200 词中的百分比, 1955年又给出了这些语言古代和现代同源词在100词中的百分比, 我们现在需要确定后100词集的百分比。我们设X为200词中的同源百分比, X[,1]为前100词(第一阶)中的同源百分比,根据公式X[,2]=2X -X[,1]就可算出后100词集中同源百分比(X[,2])。现将计算结果和前100词集比较列入表:

几种印欧语言古代和现代两阶核心关系词比例

200词 前100词集 后100词集

古英语(十世纪)~现代英语0.77 0.86

0.68

古代德语(九世纪)~现代德语 0.84 0.89

0.79

古瑞典语(800~1050)~现代瑞典语 0.85 0.94

0.76

古拉丁语(前200年)~现代罗马尼亚语 0.56 0.71

0.41

古拉丁语(前200年)~法语0.62 0.74

0.50

古希腊(前250年)~雅典希腊语0.69 0.71

0.67

上面每一种语言从古代到现代的亲属关系没有疑问,并且有文献记载这种时间上的承传性。可以看出前100词集(第一阶)比后100词集(第二阶)的同源比例都要高。

从史料和考古资料看,日耳曼语诸语言间的亲属关系没有疑问。我们选出几种典型的日耳曼语来作比较, 确定同源词的标准根据R.K.Barnhart所编的The Barnhart Dictionary of Etynology(1988)。所得结果如表:

日耳曼诸语言两阶核心词分布

OEG F D OIGO

第一阶(前100词集) E876472717658

第二阶(后100词集) E714651545739

(E:英语 OE:古英语 G:德语 F:古弗里西亚语 D:现代荷兰语 OI:古冰岛语 GO:哥特语)

这里的第一阶同源词都高于第二阶同源词。从印欧语的角度看,第一阶比第二阶稳定。

根据文献和考古资料,汉语方言之间的同源关系一般没有疑问。下面列出了笔者调查的几种方言前100词集和后100词集中关系词的比例(前项为前100词集、后项为后100词集)。〔2〕可以看出每两种汉语大方言都是第一阶核心词高于第二阶核心关系词。

汉语几大方言前100词集和后100词集中核心关系词的比例

其他学者所调查的材料也反映了这种情况。王育德(1960)曾按斯瓦迪士的200词做过汉语方言同源词保留率的比较, 徐通锵先生(1991)曾按斯瓦迪士100词做过汉语方言同源词保留率的比较。 尽管两人的选点和我们不同,我们经过计算得出下表(前项为前100 词集同源保留率,后项为后100词集同源保留率),仍然是第一阶高于第二阶。

汉语方言间前100词集和后100词集同源保留率比较

广州梅县

厦门北京

苏州(吴) 77/63.5473/53.259/43.8 73/72.46

广州(粤) 79/60.463/47.6274/66.32

梅县(客) 68/49.1269/58.56

厦门(闽) 56/41.76

根据我们的调查,傣语至少可分为西双版纳傣语、德宏傣语、临沧傣语、元江流域傣语和金沙江流域傣语五个方言区,这些方言区的两阶关系词如下表,明显可以看出傣语方言间第一阶同源词比例比第二阶同源词比例都高。

无论从汉语方言间的同源词分布还是傣语诸方言的同源词分布,都可以看出两百词中第一阶同源词比第二阶同源词比例高,联系到前面印欧同源语言两阶核心词的类似分布,说明有亲属关系的语言之间一阶核心词通常高于二阶核心词,同时也证实了两阶核心词的划分用以说明亚洲语言的同源关系也具有一定的普遍性。

傣语方言前100词集和后100词集中关系词比例

德傣 傣雅 临傣 金沙傣

西傣 0.88/0.710.91/0.680.85/0.710.84/0.66

德傣

0.92/0.720.94/0.850.91/0.69

傣雅0.91/0.680.88/0.68

临傣(双江)

0.88/0.68

二 语言接触中核心关系词的分布

再观察因接触产生的借词在两阶核心词集中的分布。德宏傣语、金沙江傣语和红河元江傣语由于和西南官话接触很深,核心词中出现了一定数量的西南官话借词,下面按两阶核心词集把这些借词排列如下(西南官话原词在前,德宏傣语西南官话借词在后):

德宏傣语前100词集中的西南官话借词

德傣后100词集的西南官话借词远远多于前100词集的西南官话借词。即使前100词集中的两个借词(或借贷语素), 也受到语境条件限制,而后100词集中有的借词已不受语境限制,成为自由语素。 再看金沙江傣语的情况(金沙江傣语前100词集尚未发现借词)。

金沙江傣语后100 词集中的西南官话借词(西南官话原词在前):

这些借贷实例在金沙江傣语中都是自由语素,可以看出金沙江傣语受西南官话词汇影响已经很深。在金沙江傣语200 核心词中还有大量不自由语素借贷,从谈话录音和词汇记录看,基本上是属于后100 词集的词。

邢公畹先生的《红河上游傣雅语》(1989)比较详细地记录了云南新平县漠沙地区的傣语,该地傣语代表了元江流域傣族所说的傣语,既不同于西双版纳傣语、德宏傣语,也不同于临沧傣语、金沙江傣语,该地傣语中也有大量汉语西南官话借词,下面是我们录出的两阶核心词中西南官话的借词(根据邢公畹(1989)的词典部分整理):

红河傣雅语前100词集中西南官话借词(西南官话原词在前)

傣雅语中后100词集中的西南官话借词明显比前100词集中的西南官话借词多。从比较材料中还可以看出,第100 词集的借贷实例中只有“杀”一项成为自由语素,而后100词集中“想、和、年、少、推、压、爹、笨”八项都成为自由语素。

德宏傣语、 金沙江傣语和元江傣语是西南官话借词已经渗透到200核心词的三种傣语方言,这三种傣语方言和西南官话的接触都反映出第二阶借词高于第一阶借词。

到此我们发现,我们划分出的前100词集和后100词集不仅在印欧语言中有普遍性,在汉藏语言中也有普遍性,它们反映出人类语言核心词的演化在一定程度上的共性,即在有亲属关系的语言中,前100 词集中的关系词比例高于后100词集中的关系词比例;而在语言接触中,前100词集中的关系词比例低于后100词集中的关系词比例。

三 从核心词的分布差异看侗台诸语言的发生关系

我们选择了侗台语群中的11种语言(王均等1984),按照严格的语音对应和概率算法分别找出每两种语言在前100词集、后100词集中的关系词,〔4〕算出百分比,结果如下表

两阶词集中壮侗诸语言关系词的比例

数据结果表明,每一对语言前100词集的关系词比例总是高于后100词集的关系词比例,这和前面曾讨论过的亲属关系语言间关系词的分布方式一致,因此可以肯定侗台语群诸语言确实存在亲属关系。近年来考古、民俗等领域的研究也证实现代侗台诸民族同源于古代百越,这更进一步印证了同源语言的一阶核心关系词多于二阶核心关系词。

四 从核心关系词的分布看汉台语源关系

现在考虑汉藏语群研究中最有争议的问题:侗台语和汉语有没有同源关系。我们来考察汉台古代关系词在前100词集和后100词集中的分布。

前100 词集中汉台关系词的分布(后加分号的实例表示该词项在该语言中还有另一个没有语音对应的同义或近义词)

后100词集中汉台关系词分布:

这些古代关系词在侗台语内部都符合严格的声、韵、调对应规律,同时又和切韵音系有严格的对应,有个别实例甚至反映了上古汉语的读音。由于笔者对汉语闽南方言没有研究,无法区分黎语和汉语的关系词是古代关系词还是从闽南方言借入的关系词,所以汉台古代核心关系词表中没有给出黎语的材料。还有一些我们收集到的古汉语和侗台语有语音联系的核心词,由于对应规律并不严格,可能正好反映了它们是不同时间的借词,我们没有把它们列入核心关系词。近年来,邢公畹、罗美珍、郑张尚芳等学者找到的汉台同源词有一部分也属于这种对应关系不严格的情况,对于这部分词我们也没有动用。

汉台古代200核心词对应实例有几个特殊情况。 有个别实例在侗台诸语言中是阴阳互相对应,即源于清声母的奇数调类和源于浊声母的偶数调类互相对应。如“五”,台语群的3调对应侗语群4调。还有个别实例调类尽管不一致,但保持阴对阳,阳对阴,如“父”,台语6 调对侗语群4调。 由于这两种情况在台语群内部诸语言的关系词中有规则的存在,仍算作和汉语在同一个时空层的关系词。另有“皓、听、旧、股”四个词和切韵音系在声调上不对应,但由于在声类、韵类上和切韵音系对应得较整齐,且台语群内部声调对应很严整,仍作为切韵时空层的关系词。这些特殊情况都下加了横线。下面是汉语和侗台语诸语言关系词在两阶等级中的比例:

这里每一种侗台语言和汉语的关系词都是前100词集低于后100词集,也就是说关系词曲线呈上升分布,这和侗台语群内部诸语言两阶关系词的分布完全相反,而和我们讨论过的借词在200词中的分布一致。 这么多语言的关系词呈现出上升分布,我们应当承认汉语和侗台语的密切关系是接触关系。

李方桂先生(1976)列出了汉语和泰语的关系词100多个, 倾向于把它们作为汉台同源词,这些关系词属于两百核心词的有28个,我们把它们按前100词集和后100词集排列如下:

李方桂汉语和泰语关系词在前100词集中的分布

李方桂汉语和泰语关系词在后100集中的分布

李氏找到的汉台关系词在前100词集中有10例,后100词集中有18例,一阶核心词少于二阶核心词,仍然说明汉台关系是接触关系而不是李氏倾向于的同源关系。

五 余论

我们对语言接触的追踪研究证明要在语言成份的可借用和不可借用之间划出一条绝对的界限是不太可能的,因此仅仅通过语音对应来断定两个语言中的某个关系词是同源词而不是借词并不具有充分性,语音对应仅仅是一个必要条件。

根据我们的比较,在已知有历史、考古和文化证据支持的有亲属关系的语言或方言之间,核心词中关系词的分布总是前100 词集的比例高于后100词集的比例,只有极少数情况是相等的,而且关系词都在80 %以上,而在已知为接触关系的语言之间,关系词的分布总是前100 词集的比例低于后100词集的比例, 这说明核心关系词的分布在同源关系和接触关系中是不同的。侗台语内部诸语言之间都是前100 词集的比例高于后100词集的比例,而在侗台语诸语言和汉语之间,都是前100词集低于后100词集,这种现象可能不是偶然的。 说汉台语源关系是接触关系而不是同源关系更2容易解释汉台之间的语源关系。当然汉台之间的这种接触关系决不是通常意义上的接触关系,因为在核心词中汉台之间有这么多的关系词, 而且基本词汇中有那么多深层对应实例(邢公畹,1995.1)和同族对应实例(董为光等1984,郑张尚芳1981), 这在世界上其他语言接触的情况中比较少见,我们不妨把汉台之间的深刻接触关系称之为汉台语言联盟关系。

我们比较的核心词是很有限的,在可能的情况下应该扩大核心词的数量。但在扩大核心词数量以前首先要解决核心词的选词标准问题,以避免研究者先入为主的意向。这就是本文以200核心词分阶的理由。 笔者目前已经作了一个500核心词分阶的初步比较研究, 结果仍然证明汉台语源关系是接触关系。待严格的选词标准确定下来以后再公布调查结果。至少在目前看来,200 核心词的二阶划分用于说明汉台语源关系是有参考价值的。问题不在于200核心词本身, 而在于两个不同的核心词集中关系词的分布反映出的同源关系和接触关系的对立,汉台古代关系词的分布恰恰和接触关系的分布相同,不仅笔者的比较结果是如此,用李方桂先生的材料进行比较也是如此。

罗美珍先生在《三论台语的系属问题》一文中参考了我们核心词二阶分析法,认为前100词集和后100词集(文中为“斯瓦迪士的第200 个基本词”)台语和汉藏语分别有50个对应词,〔8〕因此, 侗台语和汉语有同源关系。由于这个问题涉及到确定关系词的标准和计算词的聚合指数,笔者将另文作出解释。

附录

前100核心词(第一阶)

后100核心词(第二阶)

从斯瓦迪士的200词中减去100词中出现过的词后还剩107词, 这里我们除去了at(和in语义有重复)、other(不便比较)、some (不便比较)、when(和what部分语义重复)、wipe (和rub 语义交叉)、 with(和and语义交叉)、ye (和you 重复)等不便于比较的词,得到后100词。

注释:

〔1〕为了使两组核心关系词的分布计算尽可能精确, 同时也是为了排除斯瓦迪士200 词中少数词选词不周以致在有些语言中没有可比性的缺点,我们在比较中遵守下面一些概率统计中普遍遵守的原则:

(1)有些语言没有相应的词可资比较,如西双版纳傣语后100词集中,没有“结(冰)”一词,这时比较的样本(n)就变为n-1, 即后100词集变为99例。

(2)有个别词没有调查出来,比如金沙傣(皎平)的第200词集中没有调查到“动物”一词,我们还不敢断定是否真的没有这个词,这时比较的样本由n变为n-1。

(3)侗台语前100词集中“虱子”一词普遍分为“衣虱”和“头虱”两词,这时的样本变为n+1。

(4)英语的sharp有“尖”、“锋利”两个义项,只要两个语言在其中一个义项上是可比的,比如德傣的1εm[1](尖)和毛南语的1εm[1](尖)能够对应起来,就算在sharp这个词上是可比的,这时样本数n不变。

〔2〕确定关系词的标准是严格的语音对应。 汉语各大方言的选点情况如下:北方方言;北京市冯世澄,男,70岁。客家话:连城新泉项梦冰,男,29岁。闽南话:龙海蓝霖,男,24岁。湘方言:邵阳李国华,男,47岁。吴方言:宁波陈小兰,女,26岁。赣方言:南昌陶艳瑰,女,20岁。粤方言:广西百色黄正崖,男,25岁。王福堂先生《汉语方言词汇》中属于200核心词的实例是主要参考证据。

〔3〕其中“草、老、三、四、五、海”的分布是不自由的。

〔4〕有关确定语音对应的概率方法的详细讨论请参考我的博士论文2.5。

〔5〕《正字通》古困切。

〔6〕又:心陌开二入梗。

〔7〕“擦”见于书面语较晚,在《红楼梦》中可以找到例子。 书面语中出现的较晚的词并不等于口语中一定很晚,同时还要考虑到汉台双向借用的情况。总之我们确定汉台古代关系词的严格标准是切韵或切韵以上时间层面语音的严格对应。

〔8〕见《民族语文》1994年第6期。

标签:;  ;  ;  

从核心词分布看汉语与侗族、台湾语的词源关系_西南官话论文
下载Doc文档

猜你喜欢