壮侗语族语言的数理分类及其时间深度,本文主要内容关键词为:语族论文,数理论文,深度论文,语言论文,时间论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一 壮侗语族语言的传统分类
1.1 诸家的分类
1937年,李方桂(Li,1973)分侗台语族(壮侗语族Kam-Tai(注:中国境内的壮侗语族语言的分布:主要分布在广西、贵州、云南、湖南、广东、海南等地区。其中临高话、村话和拉珈语集中分布在海南。必须指出的是这些语言在地理上的表现,只是现在的共时的分布,不代表历史上的历时的状态。由于历史上的不断的移民潮以及更重要的因素—“汉化”的影响,历史上的“真实”的语言与民族的分布的版图发生了很大的变化。据研究,战国、秦汉时代的“闽越”为福建,“骆越”为两广,“瓯越”为江浙,这些都是属于百越即古壮侗民族居住的区域(陈国强等《百越民族史》中国社会科学出版社1988年版),而六朝、唐宋以后,由于“北方化”的结果,则多发展成为“汉化”地区。))为两大语支。即台语支和侗水语支。
上个世纪50年代,罗常培、傅懋(1954)分中国境内的壮侗语族为3个语支(注:壮侗语族的民族的来源:民族学比较一致的观点,壮侗语族是古代百越民族的后裔,其谱系的历史演化过程:传说时代的“蛮”、“三苗”——商周时代的“瓯”、“越沤”——春秋战国汉时代的“百越”——晋唐时代的“俚”、“僚”民族集团——宋元时代的壮、侗、水、傣、毛南诸壮侗语族民族。百越是中国东南和南部地区古代民族的名称。新石器时代晚期是奠定民族形成的时期,南中国的人群已开始具有明显的区域特点。)。即壮傣语支、侗水语支、黎语支。罗、傅的分类近似李。
《中国语言地图集》(1988)(以下简称地图)则沿袭罗、傅的分类,分壮侗语族14种语言为3个语支: 壮傣语支:壮语,布依语,傣语,临高话。
侗水语支:侗语,水语,仫佬语,毛南语,佯璜语,莫语,拉珈语。
黎语支:黎语和村话。
此外仡佬语是否作为语支未定。。
梁敏、张均如(1996)的分类与《地图》相似,只是将仡佬语支作为独立语支单立。
本尼迪克特(Benedict,1990)有关壮侗语的分类跟别家不同处是:分别将仡佬、黎语、临高(Be)在三个不同的层次上独立,他运用的是树图的每个分叉点上的二分法,不同于李方桂等人的三分或四分法。本尼迪克特同时认为他的“澳台语系”跟“南亚语系”有一定的底层上的联系。
壮侗语专家W.J.Gedney(1993)将壮侗语族三分,即泰、侗水、黎和临高。其特点是将黎语、临高(Be)单立为一支。
1.2 分类的标准
历史语言学认为,语言的分类主要依据语言的相似性特征。语言的相似性特征可以有匹种解释:a.语言平行演变的结果,由于语言发展的普遍性特征导致不同语言的相似性特征。b.由于语言演变的偶然性造成语言之间的相似性特点。c.语言共同来源的保留。d.语言之间相互借用。
李方桂(1977)采用的是音韵学的标准,根据声母、韵母、声调在壮侗语中的不同反映模式来做壮侗的分类,语音的演变有严格的对应规律可循。他认为采取词汇的标准很危险,因为有大量的文化词不容易排除,而文化词是借用的结果。
但是,据最近罗永现(Luo,1997)对壮侗语族分类的研究,表明采用语音的分类标准与采用词汇的分类标准的结果是不同的。马提索夫(Matisoff,1985)认为语音的变化模式反映东南亚语言区域较晚期的面貌,例如声调的产生只在公元1500年代(中国的元、明时期),东南亚语言受到北方汉语的扩散,导致“北方化”的结果。他认同本尼迪克特依据基本词汇作为分类的标准的方法。
《地图》划分语支的依据主要是同源词的比率。各语支内部同源词约有45-75%,壮傣与侗水语的甲源词约为25-45%,壮傣语、侗水语与黎语的同源词约为22-27%。《地图》所依据的同源词的比率跟经典的语言分类的标准有一定的距离;传统的分类理论认为语言分类的标准有沟通度和基本词汇相似率两种。一些语言学家假定80%的基本词汇相似率,作为语言与方言的切分点。大于80%的基本词汇相似率的是方言,而小于80%的基本词汇相似率的则是不同的语言。但是,这也是个很任意的标准。
造成同源词比率统计差别的主要原因是用作统计的同源词的总数不同,例如梁敏、张均如(1996)用斯瓦迪什(Swadesh,1952、1955)提出200词作算术统计,就跟《地图》的算术统计结果不同。用作统计的词目越多,同源词比率就会越小。因为这存在词频和词的统计“权重”的问题。出现频率较多的词与出现频率较少的词放在一起统计,与完全统计出现频率高的词,其结果会不同。此外,统计的词目数量越大,就越难排除语言之间相互借用的成分。因为我们的目的是研究语言的发生学分类,并计算出语言的进化树分枝的时间深度,所以,应当尽量分清语言之间的同源和借用的关系。
1.3 各种分类的主要分歧
关于壮侗语族的系属问题,李方桂(1976)一直坚持将壮侗语族与苗瑶语族、藏缅语族一起组成汉藏语系。而本尼迪克特(1975、1990)则坚持壮侗语族与汉藏语系分离,两者之间没有发生学关系,只存在接触关系。壮侗语族与苗瑶语族和南岛语族组成澳泰语系。国内学者大多数支持李方桂的观点。但自沙加尔(Sagart,1993)发现南岛语跟古汉语有近60条的同源词,提出南岛—汉同源体系,近年来国内部分学者开始重视本尼迪克特和沙加尔提出的证据,在李方桂的基础上,又重新建立了一个更大范围的语系,即所谓的“华澳语系”。这些观点的核心仍然是强调汉—台同源。例如曾晓渝(2003)从借词的声调对应支持邢公畹的汉—台同源说。关于壮侗语族的内部分类,主要是临高话(Be)的分类不同。本尼迪克特、Gedney(1993)都将黎语和临高话(Be)单立出来,但《地图》和梁、张则将临高话(Be)归为壮傣语支,认为与壮语关系最近。桥本万太郎(Hashimoto,1980)认为临高话(Be)是“混合语”,临高话(Be)的语音特征受到汉语特别是闽语的影响,而基本词则与泰系语言关系很深。法国的萨维那(Savina,1965)认为它是黎语的一支。德国人类学家史图博(Stubel,H.)认为临高话(Be或 Ong Be)“可能是黎语和泰汉语的混合语”(注:参看Hashimoto(1980)文中的讨论。)。
二 壮侗语族语言的计量分类
2.1分类的标准和方法:100词及数量方法。
我们主要依据斯瓦迪什的100词表做同源词的数理分析,同时参考选择雅洪托夫(Yakhontov)的35词表(注:参看Starostin(1995),文中附录依据雅洪托夫的35个稳定词项的构拟形式比较统计表。)。具体统计方法说明:
斯瓦迪什的基本词汇表已成功适用于世界上的多种语言(例如“罗赛塔计划”Rosetta Project)。但是各语言不见得会有完全相对应的词汇语义范畴;极可能有找不到对应词汇,或对应词汇的意义有相当距离(王士元,1994)。运用于壮侗语族语言需经过一定的修订,例如壮侗语专家倪大白在确认笔者提供的同源词表时认为:斯瓦迪什的基本词汇表第9词“地”并不很适合于壮侗语言比较,所以我们换用词义确切的“水田”。类似的例子还有第66词“站”换用雅洪托夫35词表中的“盐”,第97词“全部”换用雅洪托夫35词表中的“风”;雅洪托夫35词表虽然在历史比较语言学有较大影响,但在我们前期的汉藏语关系计量研究中,发现此词表并不很适合,分析其原因在于词目太少;认为斯瓦迪什词表最具有词义稳定性,用于统计的词目太少,误差必大,难以反映语言间关系的讯息,但统计的词目太多,则难以排除语言间的借用。如果我们不能很好地排除借词,则画出来的树图会与事实相去甚远。
其次,词目与义项往往纠葛不清,同一个词目下,不同的语言会有不同义项的对应形式。我们采用的是“词根词源统计法”,采用较严格的语义对当原则。例如:“灰(草木灰)、叶(树叶)、根(树根)、虱(衣虱)、角(牛角)、乳(乳房)、肉(肌肉)、皮(皮肤)、名(名字)。”
我们具体分析了壮侗语族的12个语言,最后画出壮侗语族语言树形图。树形图包含两个重要的信息:1)语言集团的呈阶级式的聚合分类;2)树枝的长度可以反映语言从祖语分离的时间距离以及各语言间亲缘程度。
生物学家发明的一些研究生物种系发生分类的程序,对语言学家很有用。因为语言学与生物学有相似的生物遗传基因系统,生物学的分类与语言学分类很类似,而科学研究的一个重要特点,就是可用公式来反复验证和测量研究对象。生物学家为生物种系发生分类设计出很好的计算程序。最有影响的,是1967年由Fitch和Margoliash发明的以及1987年由Saitou和Nei发明的程序,1990年由Felsenstein将此两种合成为称PHYLIP的软件。有关的具体运算过程说明,请参看有关文章(注:参看Wang(1994)及邓晓华、王士元(2003a.b)文中的讨论。)。
历史语言学认为同源词的证据对于重建语言史,比起语音等其他语言特征来说,更为重要(注:参看Greenberg(2001)的论述。)。同源词的意义并不仅仅是原始祖语的“保留”(retention),它同时还具有“创新”或“突变”的意义,“创新”是语言再分类的极重要标志,它有一个重要特点:同源词的“创新”是一种单向的演变,不可逆向变化,例如,“腹”的原始词义,在语言中可能演变为“肚(dù)子”、“肠子”、“胃”等词义,但是,“肚子”、“肠子”、“胃”等词义不可能再演变回去“腹”的原始词义。我们则可根据词义的再分化或“突变”的程度,对语言重组做次生的分类。例如,我们可根据各语言对核心词义变化的特征“创新”的“共享”的差异,利用计算机生物学程序PENNY重新对中国的语言及方言做出发生学的分类。“创新”既可反映语言的同源关系,也可反映语言的接触关系。而许多学者却往往忽略了“创新”对重构的重要意义。
同源词数据显示:同一个大簇(语支)的同源词语音形式较接近,而又以同一个小簇的语音形式更为接近。
2.2 数理分类的主要步骤:
1)相似矩阵(Similarity Matrix)
首先优选出同源词(注:因限于篇幅,本文的词汇附录省略。),编制同源词表,然后计算出每对语言的同源百分比。
表1同源词数据说明:南岛与汉藏不是单一的语言,我们采用的是其早期形式与壮侗语早期形式进行比较来判断它们之间的同源关系,进而统计同源数目。这种方法广用于历史语言学。在具体计算时,先确立南岛与汉藏分别作为一个已知的较为疏远或最早分离出来的语言来作为树图的参照系数(outgroup),完全不会影响所比较的壮侗语12支语言的分类计算。我们采用经南岛语专家,例如:Dempwolff(1934、1937、1938),Dyen(1971),Dahl(1973、1976),Blust(1980、1989、1996)认可的原始南岛语的同源词构拟形式跟李方桂(1976)、梁敏和张均如(1996)、吴安其(2002)等构拟的原始壮侗语形式比较,以便发现和解释他们之间的同源关系。原始汉藏语的同源词构拟形式采用马提索夫(2003)、吴安其(2002)等的研究成果。(注:参看Dempwolff(1934、1937、1938),Dyen(1971),Dahl(1973/76),Blust(1980、1989、1996),Matisoff(2003),何大安(1999),吴安其(2002),梁敏和张均如(1996),Sagart(1999、2002)等关于同源词的讨论。)
由于数理树形图是通过分枝的长度来反映语言间的距离的,所以,我们必须把上面的相似矩阵转换为距离矩阵(distance matrix)。
3)从无根树到有根树
从距离矩阵转换成无根树有许多种方法,我们采用的计算程序,则是最有影响的,1967年由Fitch和Margoliash发明的以及1987年由Saitou和Nei发明的程序。虽然有的学者批评Saitou和Nei提出的毗邻连接法(Neighbor Joining)无法完全排除语言间的借用成分,但目前为止,学术界仍然公认毗邻连接法较为科学,可信度较高。
树图一 壮侗语族语言数理树形图,12种语言,采用毗邻连接法,黎语作为参照系数
图示说明:树图上的数字表示距离的长短,树枝的距离只计算每一树枝的端口到根部的横向距离,以及各个树枝横向距离的相加。而不管纵向的关系;属于同簇内的各语言比簇外的各语言关系更密切。
树图一显示壮侗语族12支语言,可分为4个较大的聚类,即黎、临高、壮傣(壮、布依、傣西、傣德、泰、老挝)、侗水(侗、仫佬、毛南、水)。其分级和层次可假设为:由于黎、临高的树根分离点的数字为零,所以可以认为树图的第一层为三分,即黎、临高和壮侗等;第二层次则为;壮傣与侗水;第三层次则为壮、布依与傣西、傣德和泰、老挝组成一个簇类;而侗与水(仫佬、毛南)组成一个簇类;第四层次则为傣西、傣德和泰、老挝组成一个小簇,显示平行关系。水与仫佬、毛南组成一个簇类;侗水的远近关系依次为侗、水、仫佬、毛南。树图的数字代表树枝的长短距离,反映语言之间的亲缘关系的远近,树枝长的表示两种语言亲缘距离远,树枝短的则表示两种语言亲缘距离近。而同一个小簇类里的语言关系则比外簇类的语言关系近。树图一显示在壮侗语族12支语言中,各个树枝的分离点到树根的距离长度能够反映语言分化的时间的先后和早晚,即树根与各层次的分离点的远近与分离时间一致,可表现从母语分离的时间深度。同时,其分类的结果以及各语言之间的亲缘关系的远近的描述则应是可信的。
从树图结构来看,如果各个语言的发展是均衡的,那么,代表各个语言的各个分枝的末端应显示出对齐均等;事实上,由于存在语言接触,必然导致大量语言成分的相互借用,因此语言变化速度的均衡发展是不可能的;树图充分反映出语言的发展速度是不均衡的。从树图发现,壮侗大簇中的壮—布依小簇分离点距离树根最近,这种结果可从两方面获得解释:
a.保守原则:壮-布依小簇语言比起其他各簇语言较多的保留了母语的成分,所以距离树根较近。
b.接触原则:这暗示中心语言与周边语言的关系,如果侗语保留母语的一个同源词,但壮语未保留,后来壮语向侗语借过来,则壮语会离根部近。这反映了语言间借用的方向。
黎与临高相比,黎的线条长,而临高的线条较短,这暗示临高与壮语簇接触多,黎与临高在地理上体现出南、北区别,北部更靠近大陆壮侗地区。这体现出树图结构的“俭省原则”。
树图二:增加南岛语的数据,变成13支语言,发现图一计算出来的12支壮侗语族语言各个小簇的分类格局仍然未变。只是,南岛语独立为一支,临高与黎合为一簇,与壮傣为一大簇。总分为三大簇:南岛、壮傣黎、侗水。
树图二 13种语言,采用毗邻连接法,南岛语作为参照系数
树图说明:
植根的位置:经验的做法是取树图中距离最长的两支语言的中点做根。但可根据实际更合理的情况植根点,只要在树图整体结构不改变的情况下,计算时,用来给树加根的最好办法,就是先确立一个已知的较为疏远或最早分离出来的语言来作为树图的参照系数,而树根一定是在与其他语言的线条之间的两分的位置上。例如我们把黎、南岛和汉藏作为参照系数的语言。必须说明的是,树根和分离点的概念所代表的意义不同,树根代表假设中的祖语,而分离点则代表各语言分枝。
树图三 14种语言,采用毗邻连接法,汉藏语作为参照系数
树形图说明:
我们分别使用了毗邻连接法和由Fitch、Maroliash发明的计算方法,结果都一样。各分级层次的类簇相同。增加南岛语和汉藏语数据,由12支语言变成13或14支语言后,分类的情况仍然相同。这就说明分类结果是可信的。
从几个不同的树图比较来看,我们有个重要的发现:随着语言数的增加和减少的数据的变化,树图的反映很敏感,都会体现在树图的不同变化上;而最重要的变化是临高这支语言在图中出现的位置,即摆放的位置,这就反映了临高这支语言在壮侗语言中的特殊地位,而传统的分类正是认为临高系属未定。数理分析的结果跟传统的定性分析相合。
2.3 结论
在壮侗语族12支语言中,可以分为4大聚类:黎、临高、壮傣、侗水。
如果增加南岛语,并以南岛语为参照系数,可分为4大聚类:南岛、黎语与临高、侗水、壮傣。
如果抽去黎的数据,则临高归入壮傣大簇,显示临高分别跟黎与壮语最为接近。
壮侗语族的阶级分层为:如果以黎为参照系数,则分三大聚类:临高、壮傣、侗水。如果以汉藏为参照系数,则第1层次为南岛与黎、临高、壮傣、侗水;而第2层次则为黎与临高、壮傣、侗水;第3层次则为临高与壮傣、侗水;第4层次则为壮傣和侗水。
2.4计量分类跟传统分类的比较
最重要的差别:
1)传统分类只重视语言差异的定性分类,而无法做语言间亲缘关系距离程度的量的分析。而计量分类可做亲缘关系程度的描述,并通过树枝长短来表示距离关系。
2)虽然两者使用的材料和方法不同,但分类的结果却大致一样。
3)计量分类可以显示语言的类簇和分级层次。
4)传统分类没有细分出壮侗语族各语言的较小的聚类和关系程度,《地图》和梁敏、张均如都认为临高话只跟壮语关系最近,而与黎关系最远,因系不同语支之间的差别。而我们的研究表明:各种的树图结构显示,临高分别跟黎和壮的亲缘关系最近。
我们认为语言学的数理分类确认临高分别与黎语和壮语的亲缘关系最为接近,这一结论是较科学的,其可信度较高。
三 壮侗语族与南岛语族的分离时代以及壮侗语族内部各语言的分离时代
已有的相关语族的语言年代学的结论:
南亚语6000B.P.,形成于中国西南地区。
南岛语6000B.P.,形成于台湾。
苗瑶语2500B.P.,形成于长江下游地区。
壮侗语2500B.P.,形成于中国东南部。
汉藏语6000B.P.-7000B.P.,形成于黄河中上游地区。
而较上位的语言集团的分裂时间深度则更长。
南岛南亚说(Austric)Schmidt,Reid,Blust:Austric 9000B.P.,形成于中南半岛(或云南西北部),南亚语族向中南半岛扩散;而南岛语族7000 B.P.,则经东南沿海,6000 B.P.,抵台湾,开始真正的南岛语向南太平洋岛屿扩散。
Sino-Austronesian说(沙加尔,1993、1999):8500B.P.-7500B.P.,形成于黄河中下游地区,一支往东,携带稻米耕作技术到达台湾的为今南岛民族,留在大陆的则为汉人;另一支往西南,成为今藏缅语族。
最近,沙加尔(2002)又提出了一个“扬子语族”(Yangzian,9000B.P.),形成于长江中游地区。主要包括南亚语和苗瑶语。
由于以上的语言年代学的年代顺序,主要是依据考古学的证据,并没有经过语言学数据的计算,而考古学的证据无法为历史上的族群断代编年,所以,各家的编年顺序有较大的分歧。
词源统计分析法可以帮助我们计算出语言分裂的时间的深度,虽然这种方法受到许多人的批评,认为语言学不同于生物学,用作测量单位的基本词汇受横向传播的干扰较大,不像生物学的基因单位那样稳定(注:参看Colin Renfrew,April McMahon,Larry Trask(eds.)(2000)Time Depth in Historical Linguistics(2000)的讨论。)。但是,任何科学的方法都有其局限性,如果这种计算方法的结果能够跟其他学科诸如考古学、民族学、人类学的研究结论一致,那么,就有相当高的可信度。
两种语言的核心词共享程度的比率不同,其分裂年代的时间深度是不一样的。我们采取一种较为合理的计算方法,即分别统计出每1000年的保留比率为75%-95%的结果,采取它的平均值,其公式:
其中r表示每千年的保留比率,t表示每千年分离的值。
最后认为采用每1000年的保留比率为85%的计算方法较合理,采用每1000年的保留比率为85%的计算结果较符合人文学科的研究结论。可比较下表:
以上只能计算出每对语言的分离时间,但是,我们的目的是需要在树图上反映出各个语言进化分枝的时间深度,而树图各个分离点的时间深度的表示也使我们对整个语言群的进化时间有个较为全面的整体理解,而不限于仅了解每对语言的时间深度。所以,我们采用一个公式来转换:
分离点时间=(最大值+最小值)/2
树图四
树图说明:数字为距今的相对年代。我们知道如果语言的演变是以均衡的速度发展的话,那么,从同一个祖语分裂出来的语言的进化结果是相同的,体现在树图上,代表各个语言的分枝的末端应等齐,即各个分枝的末端距离树根的距离是等同的。但事实上语言的演化速度不可能是均衡的,所以体现在树图上各个分枝的末端并不等齐,这主要是因为:1)各个语言从祖语分裂后,有不同的保留率;2)各个语言之间存在着程度不同的借用;所以各个语言的树枝长短不同,距离根部的距离亦不相同。采用词源统计法计算语言的分离时间,这只能计算出一个大致的时间范围,无法做精确的计算,所以,树图的分离点时间跟树形的不一致处,这是计算语言学家都已认识到的事实。
图中的年代序列与民族史的编年大体相当,即百越—南岛集团形成于约4000 B.P.,其主要地域为中国东南部。秦汉帝国统治后,南岛退出中国大陆。黎族在海南土著的基础上,约2700B.P.相对独立出来,而临高则在唐宋之前的汉人移民潮的影响下,约2000 B.P.逐步独立出来;魏晋时,在百越主体上,约1900 B.P.形成僚俚民族集团,最初独立出壮,约900 B.P.分离,至南宋,文献正式出现壮族的“僮丁”的族称。部分壮族亦被称为“狼人”、“侬人”。而各语支内部诸民族如壮与布依,傣、泰与老挝则为明清时代分离;壮侗水毛南仫佬诸族均是从魏晋时期的“僚”族发展而来。而水与侗、毛南、仫佬则为宋元时代分离,元明时期,侗族从一个地理行政单位的名词——垌转化为民族共同体的族称。宋代文献未见有侗的记载。文献记载茅难蛮(毛南族)与怃水蛮(水族)共同居住在一个地域,“明显是近亲的民族群体”(王文光,1999)。语言学的时间分离统计结果与民族史实相符。
必须特别说明的是,为了画树图植根的方便,我们采用了原始汉藏语的数据,因为几可确信,原始汉藏语跟我们所比较的13支语言来说,关系最为疏远,所以,可以作为植根的分离点。在比较的100词中,认为原始汉藏语有8个词跟南岛语有对应关系,即“火、角(牛角)、眼、骨、血、飞、盐、风”。还有一些借用可能性较大的核心词,例如“水田(低洼地)、弩(箭、射)、头、头发、肚子、蛇、路、巫、马。”事实上,原始汉藏语与原始南岛语互相对应的这批词是很难区分同源和借用的关系的。张光直(1989)和van Driem(2002)都认为北方强大的龙山期文化深刻地影响到东南中国的原南岛语文化,时间约在6000 B.P.,如果考古学的结论属实的话,这批词中的大部分词则是东南中国“北方化”的结果—借词。由于原始汉藏语与原始南岛语之间的亲缘关系还未确定,所以,我们在计算时只是将原始汉藏语的数据作为一个参照系数来处理,这样并不影响用其他语言数据得出的结果。
四 几种语言演变理论的假设
4.1语言扩散(Diffusion)的多向性。
传统认为南岛语的扩散是单向的观点应重新审视,从目前的发现看,至少应有两个方向:
a.大陆东南沿海4000B.P.→云南及东南亚岛屿→台湾。例如:“稻米、弩、萨满”等南岛南亚同源词。
b.大陆东南沿海→台湾。例如“狗、脚、穿山甲”等。
这说明不同的语言形态传播的方向可以不同,即语言漂流(drift)无定式。
壮侗语跟南岛语的分离,可以从Dixon(1997)“聚变—裂变语言演变模型”(punctuated equilibrium)和Bellwood(1996)“网状结构模型”(Reticulate models)的理论得到较合理的解释。秦汉帝国对中国东南百越-南岛区域的完全统治,导致大陆原南岛语的突变,打破了语言渐变的本来的平衡系统,而北方移民的大量涌入南方以及北方中原文化的优势地位的确立,加速百越—南岛语言的“汉化”速度,导致壮侗语跟南岛语的彻底分离,这就是南岛语在大陆“突然消失”的根本原因。这种现象也可以用物理学上的“复杂适应系统理论”(Complex Adaptive System)解释,如同水持续加温后,会突然非线性地从液体转变为气体,这种从量变到质变的非线性过程叫“相变”(phase transition)或“涌现”现象。
4.2语言同质成分具有多层次和多源性
东亚五个语言集团有一些不同层次上的同质性,其来源包括:
a.远古人类南北蒙古人种的共同来源,如“火、盐、猪、路、骨、鸟、头”等同源词。
b.南方蒙古种(马来人种)的同质性。如“狗、老虎、蛇、杀(死)、水田、村落(坂)、萨满(南方称“童”,与北方的称“巫”不同,这反映南北两个不同的文化系统)、手、五”等。
c.新石器时代以来北来文化的传播和扩散,如“马、犬、弩、稻米、针、铁”等同源词。
Pulleyblank(1996)等人认为汉语的“马”来源于印欧语的*marko-;比较英语mare;蒙古语morin;原始藏缅语*m-rang。
“犬”,来源于希腊语kuon。但是分子人类学的最近研究认为:世界范围的驯化“狗”起源于东亚。我们的最新研究则认为驯化“狗”起源于藏缅语族地区。
“车”,*k[w]la与北高加索语*k[w]olo-有同源关系。
“骨”,*kut与北高加索语,Basque语khotx有同源关系;Na-Dene语:s-kut。
“巫”,跟古波斯语magu对应。中国北方的萨满宗教的传播当来自西北亚地区。
Starostin(1995)和Bengtson(1999)曾经提出一批重要的核心词如“血、骨、死、火、角、风”等,论证汉语跟高加索及印欧语的同源关系。
如果这种同源关系确立的话,只能有两种解释:
1)人类13万年前走出非洲,6-4万年前到达亚洲南部及北部,这是远古人类语言底层的保留。
2)先汉民族与原藏缅民族的蒙古人种与高加索人种的早期经济文化接触的结果。
我们认为远古人类共同体的语言的保留率应是很少的。事实上,同源词证据表明蒙古人种与高加索人种的接触主要为文化上的接触。
d.不同语言集团的边缘的“文化交互作用圈”的影响。
但是应把握好语言同质性的“度”的问题。区别不同层次的“同”,对重建语言树的各个不同的阶级的原始母语至关重要;“汉-台”同源是较晚期层次上的“同”,有大量的北来移民和文化词的移借,而“Greater Austrie”则包括旧石器时代以前的人种的“同”,过分强调了史前的“同”。所以,应重新评估语言树的科学价值。
4.3充分注意到不同语言集团的区域性特征的异质性,即各个语言树的阶级(hierarchical structures)“创新”(innovations)。
例如在壮侗语族大区中各个较小的区域,其区域性特征明显。“侬(人)、骹、囝”等反映古闽越区域特征,而不同于两广的“骆越”区域系统。 五 结论
本文运用词源统计分析法的原则,对壮侗语族语言做出数理分类以及亲缘关系程度的描述,并通过树枝长短来表示距离关系。显示壮侗语族语言的类簇和分级层次。表明计量统计的结果跟传统的定性分类大致相同,但计量的方法更为科学,分类更为合理准确,提出了跟传统分类的不同看法:即临高分别跟黎和壮的亲缘关系最近。而传统的分类都认为临高话只跟壮语关系最近,而与黎关系最远,临高与黎体现为不同语支之间的关系。我们从壮侗语言进化树形图的结构变化,提出应当重新检讨传统的西方历史语言学的谱系分类框架,即仅仅只在一个语言的平面上,人为的划分语族、语支、语言、方言;这种方法太过于简单,并已过时,体现不出语言的分层和整体结构。从树图看,语支这一层次不是固定不变的,呈动态状态,而且是多层次的,即不止一个语支,树图的每个分离点都可等同于“语支”的位置。语言进化树形图能够改进传统的分类理论,更好的反映语言的分层和整体之间的相互关系。
我们采用每千年保留率的平均值的计算方法,不仅仅计算出每对语言的分离时间,而且计算出树图各个分离点的分离时间。其结论与考古学与人类学的最新研究成果一致。我们的计算结果不同于许多语言学家已有的看法。
我们讨论了壮侗语族的形成过程及其时间深度,认为南岛语族生活在以华南为中心的广大区域,约4000B.P.开始分离,并经东南沿海或西南—中南半岛向台湾及南洋群岛扩散。最后,我们试图采用几种不同的语言进化理论来解释东亚语言区域的形成过程,以便建立一种多学科的理论框架。