藏缅语族语言的数理分类及其分析,本文主要内容关键词为:语族论文,数理论文,语言论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
藏缅语族是汉藏语系中语种最多、分布最广、内部差异最大的一个语族。在中国,使用藏缅语族的民族有:藏、门巴、珞巴、景颇、独龙、怒、羌、普米、彝、哈尼、阿昌、拉祜、基诺、傈僳、纳西、白、土家等17个民族,据1987年《中国语言地图集》(以下简称《地图》)公布中国境内的藏缅语族语言共有23种。而据最近的研究(1997),中国境内的藏缅语族语言则已增加到36种,原因是发现了一些新的语种,例如,木雅、道孚、扎巴等。就国内外藏缅语族语言的数量来说,分歧较大,国内学者认为100余种,而马提索夫则认为至少有250种。主要原因是划分语言和方言的标准不统一。藏缅语族语言人口约1500万。
一 藏缅语族语言的传统分类
19世纪50年代开始认识藏语跟缅语有同源关系。最早英国学者Konow Sten《印度语言调查》(1903-1928)藏缅语分9个分支。1937李方桂《中国的语言和方言》采用谱系树分类,分藏缅语族为藏、景颇、缅、彝4个语群;分语群和语言2级。罗常培、傅懋績《国内少数民族语言文字概况》藏缅语族分类近似李,分4个语支。而《地图》则分藏缅语族23种语言为7类:藏、嘉戎、错那门巴、仓洛门巴;羌、普米;博戈尔珞巴、义都珞巴、格曼僜语、达曼僜语;独龙、景颇;载瓦、阿昌;彝、纳西、白、傈僳、怒、拉祜、哈尼、基诺;土家语。
戴庆厦(1989)分藏缅语族为南北两大语群。孙宏开分藏缅语族为5个语支,增设羌语支,即藏、羌、彝、缅,景颇。孙1994年又增加了中国境外藏缅语族语言,作全面的藏缅语族分类。此外,本尼迪克特和马提索夫也对藏缅语族进行了分类。
不难看出,上述分类的标准主要有:语音面貌,语法范畴,语汇系统即同源词的多寡和对应关系的远近。以上分类除了国外藏缅语,涉及国内藏缅语问题的主要分歧有:1.羌语是否单列一个语支,瞿蔼堂归藏语支,戴庆厦归嘉戎—独龙语支,孙宏开单列。2.白语的归属,两种意见:一是归汉语族。格林伯格1953《历史语言学和无文字语言》认为白、汉有发生学关系,主张白语归汉语族,本尼迪克特同意此观点,划归汉语族。郑张尚芳同此观点。二是归藏缅语族。或单列独立语支,或归入彝语支。戴庆厦单立、孙宏开、吴安其归入彝语支。他们都认为白、汉是接触关系,而非发生学关系。
二 藏缅语族语言的计量分类
1.分类的标准和方法
100词及数量方法。本文主要运用词源统计分析的理论和方法来作藏缅语族语言的亲缘关系分类。词源统计分析法的基本观念是两种具有亲缘关系的语言分离的时间深度,可以通过它们继承的词的共享程度来判断。词源统计分析法最初由Swadesh提出,近年来,由于理论的发展和计算机的巨大进步,词源统计分析法又受到历史语言学家的重视。王士元(1995)曾运用该方法作出壮侗语族的分类。
我们主要依据Swadesh的100词表作同源词的数理分析,同时参考选择雅洪拖夫的35词表,具体分析了藏缅语族的12种语言,(注:该文表中汉语缩写“拉”代表Lasa、“阿”代表Alike、“羌”代表Qiang、“普”代表Pumi、“嘉”代表Jiarong、“景”代表Jingpo、“缅”代表Yangguang、“彝”代表Sani、“哈”代表Mojiang、“纳”代表Naxi、“白”代表Bai、“土”代表Tujia,“OC”代表古汉语。文中不再作说明。)最后画出藏缅语族语言树形图。树形图包含两个重要的信息:(1)语言集团的呈阶级式的聚合分类;(2)树枝的长度可以反映语言从祖语分离的时间距离以及各语言间亲缘程度。
2.数理分类的主要步骤
(1)相似矩阵(Similarity Matrix)
首先优先出同源词,编制同源词表,然后计算出每对语言的同源百分比。
拉 阿 羌 普 嘉 景 缅 彝 哈 纳 白 土 OC
拉 92 54 49 53 44 52 51 55 54 33 35 31
阿 52 50 52 43 52 52 55 51 31 33 31
羌 79 73 56 60 58 60 65 40 40 34
普 74 46 65 63 66 64 34 32 34
嘉 49 63 60 60 59 34 37 33
景 54 43 48 50 34 33 28
缅 67 69 68 34 35 32
彝 72 61 31 37 30
哈 72 34 38 32
纳 32 33 31
白 23 33
土 20
(2)距离矩阵(Distance Matrix)
由于数理树形图是通过分枝的长度来反映语言间的距离的,所以,我们必须把上面的相似矩阵转换为距离矩阵(Distance Matrix)。
(3)从无根树到有根树
从距离矩阵转换成无根树有许多种方法,所有这些方法都需要大量的计算。生物学家为生物种系发生分类设计出很好的计算程序。我们采用的计算程序,则是最有影响的,1967年由Fitch和Margoliash发明的程序,以及1987年由Saitou和Nei发明的程序。
树图一(12 Languages:Neighbor joining:bai as an out-group):
藏缅语族语言数理树形图(树图一)显示的藏缅语族12支语言,可分为6个较大的聚类,即白、景颇、土家、藏(拉萨、阿力克)、彝缅(哈尼、彝、纳西、缅)、羌(嘉戎、普米、羌)。其分级和层次可假设为:因白、景颇树根分叉点的数字为零,可以认为树图有四个层次:白、景颇、土家等;土家与藏(拉萨、阿力克)等;藏与彝缅(哈尼、彝、纳西、缅)、羌(嘉戎、普米、羌);彝缅与羌,显示平行关系。彝缅的远近关系依次为哈尼、彝、纳西、缅;羌的远近关系依次为普米、羌、嘉戎。树图的数字代表树枝的长短距离,反映语言之间亲缘关系的远近,树枝长的表示两种语言亲缘距离远,树枝短的则表示亲缘距离近。而同一个小簇类里的语言关系则比外簇类的语言关系近。树图一显示在藏缅语族12支语言中,白与土家的线条特别长,这可理解为:如果我们假设语言分化后,各自演变的速度本来应是均等相同的,但是由于白与土家与其他语言接触多,借词成份特别多,所以其变化速度特别快,这就显示出白与土家与其他语言的不同的演变结果。
增加古汉语的数据,变成13支语言,发现图一计算出来的12支藏缅语族语言分类格局仍然未变,见下面的树图二(neighbor joining):
树图二显示13支语言,可分为7个较大的聚类,即古汉、白、景颇、土家、藏(拉萨、阿力克)、彝缅(哈尼、彝、纳西、缅)、羌(嘉戎、普米、羌)。由于景颇、土家的树根分叉点的数字近为零,所以不能认为土家跟藏(拉萨、阿力克)为一个小簇。可以假设认为树图的第一层为三分,即古汉、白与景颇等;第二层为四分,即景颇、土家、藏(拉萨、阿力克)、彝缅(哈尼、彝、纳西、缅)和羌(嘉戎、普米、羌)。第三层为二分,即彝缅(哈尼、彝、纳西、缅)和羌(嘉戎、普米、羌),其内部距离远近如图一所示。
Using Fitch OC as out-group
树形图说明:
我们使用Neighbor Joining和Fitch两种计算方法,结果都一样。各分级层次的类簇相同。
增加汉语数据,由12支语言变成13支语言后,分类的情况仍然相同。
我们曾经考虑过白与土家的线条特别长,是否因为白与土家这两支语言的借词成分特别多,我们采用了排除的方法,即先排除白与土家语,看看其他语言的分类结果是否跟未排除前一样,结果显示跟原先的分类基本一致,这就说明分类结果是可信的。
从三个不同的树图比较来看,我们有个重要的发现:随着语言数的增加和减少的数据的变化,树图的反映很敏感,都会体现在树图的不同变化上;而最重要的变化是白、景颇、土家这三支语言在图中出现的位置,即摆放的位置不同,这就反映了这三支语言在12支藏缅语言中的特殊地位不同,而传统的分类正是认为白、土家系属未定,而景颇地位特别,学术界为此常常引起争论。数理分析的结果跟传统的定性分析相合。
3.几点结论
(1)据树图藏缅语族语言可分为6个较大的聚类,即白、景颇、土家、藏(拉萨、阿力克)、彝缅(哈尼、彝、纳西、缅)、羌(嘉戎、普米、羌);这种分类结果与戴根据不同材料、不同的方法作出的分类完全一致。
(2)树图表示白、景颇、土家各自为独立的一个聚类,可视为单一语支;特别是白语,单一性特别明显,这个结论与《地图》将白语归入彝语支的观点有很大差异。但是白语虽然跟古汉语在假设的同一个分级层次上,两者关系特殊,但并没有跟古汉语形成同一个簇类。从亲缘关系的距离看,白语离树根最远,其次是景颇语和土家语。同其他藏缅语族语言比较,白语与彝缅语聚类最近,特别是跟哈尼语最近;这跟传统分类往往把白语划入彝语支相似。
(3)本尼迪克特认为白语归汉语,藏缅语族语言以景颇语为中心,向四周其他语言辐射。树图表明第一层次上的分类即景颇语、白语及其他藏缅语的三大聚类。这在一定程度上,跟本氏设想相合。
(4)藏缅语族语言有相当高的同质性,确实存在一个藏缅语族语言共同体。
(5)羌语支语言为独立的一个聚类,可视为独立于藏的另一语支。黄布凡认为羌语支保留古藏文已没有的小舌音和9个辅音韵尾及其他复辅音韵尾,保留古老面貌,独具特点。树图的结果支持把羌独立为一个语支的观点。
4.计量分类跟传统分类的比较
最重要的差别:(1)传统分类只重视语言差异的定性分类,而无法作语言间亲缘关系的距离的程度的最的分析。而计量分类可作亲缘关系程度的描述,并通过树枝长短来表示距离关系。(2)虽然使用的材料和方法不同,但分类的结果却大致一样。(3)可以显示语言的类簇和分级层次。(4)传统分类都没有细分出藏缅语族各语言的较小的聚类和关系程度,我们的树图显示,羌语支内部羌语跟普米的距离最近,其次是嘉戎;而彝缅语支内部哈尼与彝关系最近,其次是纳西,最远的是缅。
5.关于白语的系属问题
白族是整个西南民族汉化最早、最深刻的一个民族。白语是否属于古汉语的一支?虽然白语中的汉语借词高达百分之60以上,包含了古今汉语各个时期的新、老借词,但是我们仍然认为白语属于藏缅语族语言。主要证据有:(1)语言学内部证据,在106个核心同源词中,与羌语同源40个,与彝语同源34个,有些是与其他藏缅语族语言交叉同源,有些单读同汉字,但与藏缅语族同源部分,保留在合成词的语素中;如此统计则数量更多。有些同源词虽然可以追溯到与上古汉语同源,但同源词音韵变化形式与其他藏缅语族语言相同或相似,走的是同一条音变路子。例如:太阳、地、树、根、叶子、狗、鱼、虱、鸟、尾巴、羽毛、犄角、脖子、头、眼睛、鼻子、耳朵、嘴、脚、牙齿、乳房、胸、腹、舌头、肉、血、心脏、皮、名字、人、男人、妇女、说、吃、知道、死、杀、燃烧、给、飞、来、站、大、小、冷、满、新、好、干、白、黄、绿、你、我、我们、那(近)、那(远)、胖、肥、什么、一、二、没有”。统计结果表明白语在106词中有超过45个词与藏缅语族语言同源。据此,白语与藏缅语族语言是发生学关系。如果将白语与汉语一对一的单独进行比较,很可能会认为白语中许多词是古汉语借词,但经过多语言的全面比较后,则会有新的看法。例如“新”貌似借词,实际上来源于古汉藏语。(2)人文科学证据,即语言学外部证据。据多学科研究,云南的汉文化直到明代才占统治地位,成为“主流文化”,明代之前汉文化为“非主流文化”,即明之前以“土著文化”的“地方化”为主,明之后以“主流文化”的“汉化”为主,所以云南的少数民族包括白族操明清时形成的西南官话,而不同于闽、粤、客方言保留唐、宋时代的中原汉语音韵。白族自称“民家”,其认同形成于明代,明政府将云南居民划分为官户、民家、夷,其中官户、民家系汉族,民家为一般汉人,夷则为云南少数民族,虽然汉族仍称白族为“夷”,但白族精英坚持自称为“民家”,以示认同汉文化,以别于云南其他少数民族。白族汉化很早,白族政权南诏国与唐王朝关系极密切,但据日本发现的宋元写本《南诏图传》看,白族文化与汉文化仍有较大差异。元代白族模仿汉字创造白文。宋元时,白族地主经济以及科举文化水平已与汉族地主无异。白族是自新石器时代生活在甘、青地区的氐羌的后裔,春秋、秦汉称“滇僰”,三国时称“叟人”,南北朝时称“僰人”,唐代“白蛮”,宋元“白人”,明清“民家”。自称“爨子”,“白子”,“白尼”,“白伙”等。唐宋以前仍实行“石棺葬”和“火葬”,文化类型同彝缅民族,而异于汉族。
三 藏汉分离及藏缅语族内部各语言分离时代
计算出语言分裂的时间深度是历史语言学最具有挑战意义的工作之一。Swadesh受到化学上发明的碳-14年代测定法的启示,认为可用基本词汇作测量单位,他假设基本词在漫长的时间跨度上的取代比率,是相对稳定的,每1000年的保留比率为80%,即r=0.8。如果两种语言La和Lb分离的时间Td是在2000年前,那么,La和Lb所保留的比率为0.8×0.8,即最初词汇的0.64。如果我们用P(La、Lb)来代表两种语言中保留的基本词汇的比率,词源统计分析法的公式可写为:
P(La,Lb)=
t=1g(P(La,Lb))/(2lgr)
根据以上公式,如果t=2,那么P(La,Lb)的值接近41%。如果t=3,那么P(La,Lb)的值接近26%。如果已知P(La,Lb)的值,那么,就可计算出任何一对相关语言的t值,得出这两种语言分离的时间Td。比如说,如果两种语言保留有26%的共有基本词汇,它们分离的时间则在3000年前。
下面是我们根据12支藏缅语族语言的共享的基本词汇比率,运用词源统计分析法,计算出藏缅语族内部各语言分离以及藏汉分离的时代。表中数字代表距今的相对年代,例如古汉语与藏语分离距今约2755年左右,而羌与藏分离距今约1511年左右。这仅仅是个大致的推算,并非绝对年代。
Tibeto-Burman Timedistance Estimation(rention rate=80%)
假定两种语言失去联系后,在词的保留方面互不影响,那么,共享的基本词汇的比率必定是两种独立保留的基本词汇的产物。两种语言的核心词共享程度的比率不同,其分裂年代的时间深度是不一样的。学术界采用每1000年的保留比率为80%或85%这两种计算方法。我们认为采用每1000年的保留比率为80%的计算结果较符合人文学科的研究结论。当然,我们还要考虑到树图的每个分级层次的结合点,往往会因新的层次的接触产生新的词的共享度而跟上一层次的语言词的共享度有所差别,所以,注意排除各个层次的借词是很重要的。
人文学科表明,夏、商、周三代时期是前藏缅文化与前汉文化反复冲突接触的时期,以黄帝为代表的华夏集团以中原为中心建立夏王朝,这应是汉语族的直接先民;以炎帝为代表的东夷、“三苗”等南方民族取代夏,建立商王朝,但中心仍在中原。实现南方文化与北方文化的大融合。以西北地区甘、青文化圈为主的羌戎民族南下中原,建立周王朝,这是前藏缅文化与中原地区的华夏文化的大融合。所以,直至诗经时代,藏汉关系仍很密切。
藏汉分离年代与人文证据大致相同。而藏、羌分离时代跟唐代藏族“吐番”王国的建立的时代相合。
四 藏缅语族与其他语族的关系——区域文化共同体接触融合的结果
藏缅语族与汉语的关系
学术界一般公认藏缅语族与汉语之间存在着发生学关系。检查106核心词,藏缅语族与汉语的同源词远高于苗瑶语族与汉语同源词,以公分母算有38个,其中以与羌语同源最多,有34个。“我”藏缅语族与汉语古今音义几乎完全一样。
藏缅语族和苗瑶语族各自的区域特征明显,各自有一批不同的特征词。例如“我、牙齿、火、头、手、鸟、血、烟、死、杀、盐”等(因限于篇幅,相关词表省略)。
藏缅语族、苗瑶语族和汉语同源的,例如“月、干(干枯)、脖子、舌头、圆、满、来、角、眼睛、鼻子、耳朵、名字、路、给”等。
特别值得注意的是,有些词,南岛语跟藏缅语族、苗瑶语族、壮侗语族和汉语同源,例如“箭(射、弓、弩)、脚(骹)、风(飞廉)、舌头、月亮、米(稻)、路、豝(猪)、飞、树、皮肤、油脂、马”等。
而南岛语跟苗瑶语族、壮侗语族同源的核心词则更多,例如“死、杀、穿山甲、地(田)、盐(卤)、我、火(苗瑶外)”等。
五 关于东亚语言与民族演化进程的几点思考
1.文化和文明,多样性与同一性
文明的交流和传播。古藏缅语很可能与斯达罗斯廷(Sergai Starostin)主张的“汉语—高加索”语系有关。
M.Rulen将南亚语、苗瑶、台、南岛划归南方语系Austric,而将汉藏语归入德纳—高加索语系(Dene-Caucasian)。最近的考古研究证明小麦、青铜器、铁、车马、土坯建筑技术、先进的农耕灌溉技术为西方欧亚草原传入,经新疆—甘青—华北(龙山文化华夏区),铁是古藏缅人——周人(羌戎民族)用马车载到华夏族的中原地区的。家马、骑兵、驯马技术由乌克兰草原传入。青铜器、车等突然出现在晚商时期,并非中原地区新石器时期以来的延续性发展,而是欧亚北方草原文明传播的结果。例如,“马”在藏缅语语言中形式变异很大,但显示同质性,所以中国学者往往构拟了一个非常复杂的上古汉藏语形式,具有词头、词尾和复杂的复辅音形式。实际上,“马”应是西亚借词。考古学证明,中国北方地区龙山——夏商时期没有发现家马的证据,马骨很少,与人没有关系,但中、西亚马骨、马车大量出现,5000年前已有驯马文化。家马和成熟的马车突然出现在晚商殷墟墓地。“马”的大量出现和传播不超过4000年。所以,其形式应该并不复杂。
2.区域文化的交互作用圈理论
一方面,我们应认识到前汉藏语时期多种语言文化系统同时并存的格局,另一方面应认识到各系统间文化交流的重要性。例如,青铜器的制作中心在黄河中游地区,而矿产资源却来自长江中游地区,显示黄河文明与长江文明之间的交互作用。但最终黄河文明影响长江文明,藏缅语汉语影响苗谣语壮侗语。这就是我们对不同文化区域的共同性和特殊性的认识。语言的分化与融合是语言发展中的两种不同形态,龙山——夏商时期主要为语言的融合时期。语言形成因素的多源性和复杂性。一些语言主要受一个来源的语言因素的影响,形成单一构成语言形态长期稳定发展的局面。另一方面,还有一些语言则同时或先后接受了几个不同来源的语言因素的影响,形成完全变异的复合语言形态。所以,我们主张语言的演化为多线演进模式,而非单一的演进模式。著名的考古学“重瓣花朵”理论即强调区域文化的交互作用,也强调文化中心区域向周边地区的辐射作用。这个理论很值得语言学借鉴。
3.地域文化传统是语言分布格局的基础。环境对语言发展的限制、阻隔封闭作用和语言对环境的适应这是方言形成和变化的最主要因素。前藏缅民族——羌周原先是定居的农耕社会,但4000~5000年前气候突然变化,沙漠化,前藏缅民族——羌周由定居的农耕社会转变为牧业为主的狩猎游牧社会,因争夺生存资源,其与中原关系则更为密切,藏缅语和汉语发生大融合。
本文首次运用词源统计法作藏缅诸语言关系及其时间深度的研究,与传统分类相比较,虽然材料和方法不同,但分类的结果与传统分类大致相同,并能发现传统定性分类的缺陷,用数理方法则量出语言亲缘关系的相关“程度”。同时树图研究证明白语、羌语、土家应当分别独立为一个语支,这对解决长期以来的学术界因为传统的分类而产生的争论,提供一个数理分类的样品。以100核心词为对象,计算及分析汉藏诸语言的同质性和多样性、变异性,语言的同源和接触等各种复杂关系。计算出藏缅诸语言分裂的年代,其结果与人文科学研究结论大致相同。
说明:本课题得到香港政府“中国南方濒危语言研究”(项目批准号:9040237)和“汉语在亚洲语言中的地位”(CERG#9040781)及台湾中研院“中国各民族的起源及形成过程”的专项研究基金的资助。课题由王士元教授主持并指导。本文是本课题的阶段性成果之一。课题组成员南开大学石锋教授、北京大学陈保亚教授、香港城市大学向倩先后为本课题的资料收集整理做了大量的工作。课题组成员香港城市大学柯津云小组为本文的数据计算付出许多辛勤的劳动。藏缅语专家孙宏开教授、孙天心教授为本文的同源词识别提出很好的意见。在些一并致以深深的感谢。