语言学——结合人文关怀与科技应用的学科,本文主要内容关键词为:语言学论文,学科论文,人文论文,科技论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中央研究院语言学研究所过去是历史语言研究所的一部分,1997年独立出来,成立语言学研究所筹备处,2004年正式成所。在中研院的学术历史中,语言学占有重要地位。赵元任、李方桂等先生开中国语言学研究先河,现在所内研究同仁秉承过去优良传统,深入追问各种语言现象,从而结合现代理论,突显论点及理据验证,与传统的人文学科学风渐有不同。论文不是以语言的描写为最终目的,而是要建构有关人类语言系统和行为的认知理论。因此,本所容纳不同的领域,有神经心理语言处理、电脑语音分析、语言系属、语言类型、词语网络、地理信息系统的语言时空定位、语料计量等等。然而,我们的理据大部分取自本土语言,涵盖南岛语、闽南话、客家话、国语的语料。当然,人文的关怀不局限于本土,从本岛的语言到大漠蒙古到古代西夏,到全人类的语言,都是我们要开拓的视野。
本文针对人文关怀与科技应用,就语言学的前景提出两点思考。一是结合地理信息系统的方言研究,把方言调查深入到家户,从而建构族群杂居的语言地理分布微观。二是培养对语言计量的敏锐感,提出综合性的方言区分的计量指数,建立方言类聚宏观。最后列出有人文关怀,有科技应用的网站,让资源共享。
一、结合地理信息系统的方言研究
过去方言地图的绘制以一个彩色覆盖一整个区域,认定为一个方言区域或方言片。可是在中国南方许多地方都有不同方言家庭杂居的现象。例如五十年代在普查方言推广普通话的时候,提到福建省大田地区,就说那里“乡隔一丛草,讲话不知道”,可见一个区域内方言复杂。又例如在台湾,许多乡镇里,闽南和客家杂居在同一村庄,如果用代表单一方言的色彩来绘制这样的地区的方言地图,就不能表达语言的多样性。70年前,林语堂(1933)说素来中国研究古音的人最使人不满的三件事是没有精确的时代观念,没有地理观念,还有,不讲发音学。发音学我们已经讲了许多年,时代观念现在也很清楚,而地理观念不精确,自古已然。其实,语言学界对方言分布的处理一向是采取宏观的态度,就是从点到面,调查一两个地方的个别语言就算是大区域的方言。我们最近才以家户为单位,调查新竹县新丰乡闽南与客家杂居村落的家庭用语,用卫星定位系统量出各个家户的地理座标,在方言混合的聚落做家户语言的调查,以点代替面,画出不同语言点存在的情形,这就是我们在台湾新竹县新丰乡所做的闽南客家分布的微观工作。
这样的调查要在地图上显示出来,现代的科技是有绘制地图功能的地理信息系统。地理信息系统的两个主要功能是地图绘制和资料库管理,地图背后是一套资料库,让我们检索各种不同的资料在地图上显示出来,这类显示可以是同言线、语言的变异、地名、人口、方言等等,最关键的内容是地理位置的座标,有经纬度座标,语言的分布才能精确。我们利用内政单位所编制的电子底图,加上有关语言的内容,丰富了国家国土管理的工具与内涵。例如,新丰乡凤坑村和上坑村根据锐俤科技(1999)及内政部资讯中心(2001)的底图,经过郑锦全(2004)对‘厝’‘屋’地名的修正,该两村的居屋、公路、溪流的底图如图1:
附图
图1 台湾新竹县新丰乡凤坑村上坑村部分地图
最近乡村内新建的居屋还没有完全在电子地图上表现出来,不过,我们根据这样仔细的电子地图在凤坑和上坑两村查访了三四百户的家庭用语,每家调查了几十个语音、变调、用语等方言区分的关键词语,从而决定该户的方言。以地球定位仪找出各居屋的经纬地理位置,输入电脑建立资料库,用ESRI(1998)的ArcView 画出闽南、客家和其他方言的分布图如图2。
附图
图2 台湾新竹县新丰乡凤坑村上坑村方言分布部分地图
语言学文献上,钟荣富(2001)认为新丰乡是客家地区,洪惟仁(1992)的方言分布图把新丰乡滨海一带画为闽南,其他村落是客家。我们的调查及地图显示这里是闽客杂居的地区。这样,我们以家户为单位的语言分布地图改变了过去以一个颜色横扫方言族群杂居地区的缺点。今后方言研究的学生和学者,都应该有地理信息系统的课程或培训,语言分布的研究才能从粗略的状态进入微观的细致研究。即使只是画一般比较宏观的地图,也应该从电子地图着手,才不会失之豪厘,缪以千里。
中国语言多,方言错综复杂的地方尤其需要借助地理信息系统来为方言分布详细定位。中国社会科学院与澳大利亚人文科学院合编(1987)《中国语言地图集》如果再版,现在正是改为有地理信息的电子产品的时机。向量化,建成地理信息系统,重要语言资料都可以从其数据库顺手拈来,成为研究资源,而不仅仅是亮丽的纸本参考书。现在比较容易取得的中国大陆地理信息系统是中国国家测绘局(1996)百万分之一比例尺的《中国数字地图》,比起台湾五千分之一比例尺,精细度差很多,不过,有些机构也在制作电子地图,详细地图来日可期。
现在有地球卫星定位,有精密的地理资讯系统,但是,古人的地理资讯不精确,如何建立古代的精确边界与疆域?林语堂感叹古人地理观念有问题,是他在研究汉代方言时遇到困难。现在我们有谭其骧(1991)《中国历史地图集》的电子版,是中央研究院从纸本制作出来的地理信息系统。电子版可以在各个朝代的地名上叠加建置年代、户口人数、古籍中出现的方言词语、移民记载、现代方言等等,成为一套中国各语言与汉语方言传承的历史资料库,方言历史的研究应该会灿烂多彩。
二、培养对计量的敏锐感
多年来语言学的研究很多是靠研究者自身反省检验自己的语感或是询问说话人,找出语言结构类型和例外,类型成素如果是多数,就是普遍性,少数是特殊性,这样就有规则和例外。多数和少数是计量的问题,有计量才能讨论语言的多样性与人类语言认知的共同性。因此,研究语言,需要培养对计量的敏锐感。
过去对语言成素多寡的认识,是研究人员个人从语料的了解提升出来的,真正要验证的时候,却无法全盘显示。现在所需要的是建立对语言计量的可以验证的方法。多年来方言系属与区分,是以历史音变为基础,有共同音变的列为同一个方言,词汇的同言线也是划分的依据。但是音变规则的重要程度各有不同,所涵盖的语言成分,如字词等可能不同,因此,如何衡量规则作为方言区分的原则常常是见仁见智。同言线更是错综复杂,不能以一条线来划分方言,那么规则和同言线的权重应该如何处理?这里就需要综合性的计量的研究,以语言成素的多寡来决定权重。
我们的计量研究有方言相似性和方言沟通度的计算。这里讨论计量对沟通度理解的设想。社区的语言能否沟通也是划分方言的重要依据,可是以前沟通度没有一套可以验证的方法来计算,我们所研究的是以方言音韵作为沟通计算的条件,语法和词汇当然也是影响沟通的条件,不过,音韵的差别在汉语中最为突出,因此我们以音韵的考量出发(郑锦全1994,Cheng 1996)。
计算沟通度的基本概念是这样的,如果两个地点的语言,称为主位方言和客位方言,所有同源词的音韵成素完全一样,那就是同一个语言或方言;如果成素有所不同,那还要看这个不同有没有规则性的对应,也就是说有没有超过半数以上的大量对应。有规则性的对应就比没有规则性的对应容易沟通,因此把有规则性的对应当作一种帮助沟通的信息,非规则性的零碎例外是干扰沟通的杂讯。信息帮助沟通,权重应该加分;杂讯干扰沟通,权重是负数。这两类对应还有语音是否相同,如果相同,不需要学习,信息的权重最高,杂讯的减分最小。如果语音不同,就要看客位方言的语音是否出现在主位方言的非同源词里,如果是,误会的可能性最高,如果不出现在非同源词里,引起误会的可能性就少。根据这样的权重思考,我们列出下面的对应类别A、B、C、D、E、F并且标注量化的权重:
信息 杂讯
每一对应类型其客位方言的
a.语音和主位方言的语音相同 A(1.00) D(-0.25)
b.语音和主位方言的语音相异
i.但不出现于主位方言 B(0.50) E(-0.50)
ii.而且出现在主位方言的非同 C(0.25) F(-1.00)
源词中
加权数值是对人类语言沟通提出的理论假设,还需要从语音感知的理据来调整。过去我们计算了北京大学中国语言文学系语言学教研室(1962)的17个方言点,以后还会用2003年的重排本扩大所涵盖的方言范围来计算。我们的计算是把音节分为声母、介音、韵母、韵尾和声调五类,每类的权重是上面所列的五分之一,算出每两个方言之间三千多字的语音对应。先是以一个方言为主位方言来看另外一个客位方言,计算从主位方言看客位方言的单向沟通度,然后两个方言对调,以另外一个方言来作主位方言,看这一方言的单向沟通度。两个单向沟通度加起来除以2, 就是两个方言的相互沟通度。方言计算研究的目的,是要从音韵的对应关系中求出一个音韵上宏观的综合性的可以验证的指数。这17个方言点的相互沟通度如表1。
表1 汉语17方言相互沟通度
北京
济南
西安
太原
汉口
成都
扬州
苏州
温州
长沙
双峰
南昌
梅县
广州
厦门
潮州
济南 0.719
西安 0.685 0.768
太原 0.608 0.607 0.614
汉口 0.727 0.588 0.635 0.582
成都 0.726 0.657 0.693 0.616 0.795
扬州 0.541 0.568 0.641 0.631 0.578 0.610
苏州 0.499 0.511 0.548 0.558 0.549 0.545 0.608
温州 0.394 0.428 0.441 0.442 0.422 0.441 0.407 0.512
长沙 0.609 0.556 0.593 0.524 0.676 0.660 0.529 0.525 0.476
双峰 0.490 0.481 0.488 0.427 0.530 0.506 0.459 0.501 0.448 0.499
南昌 0.582 0.498 0.533 0.564 0.602 0.618 0.543 0.540 0.422 0.543 0.501
梅县 0.528 0.465 0.490 0.546 0.562 0.572 0.502 0.526 0.451 0.524 0.436 0.656
广州 0.475 0.454 0.455 0.446 0.470 0.454 0.467 0.483 0.471 0.433 0.371 0.495 0.547
厦门 0.480 0.439 0.471 0.472 0.507 0.477 0.459 0.493 0.398 0.418 0.424 0.513 0.523 0.474
潮州 0.443 0.415 0.465 0.516 0.468 0.499 0.475 0.469 0.445 0.445 0.353 0.495 0.497 0.435 0.504
福州 0.513 0.462 0.481 0.541 0.482 0.514 0.496 0.484 0.452 0.467 0.402 0.542 0.548 0.469 0.516 0.550
表一的数字还可以用统计上类聚或称聚类的方法表达方言的关系如图三。图三的涵义值得思考。第一,过去谈到沟通度,或是用个人的直觉,或是从受试者测量出的对别的语言的理解程度,都是主观的。我们提出的计算是语言系统的对比,建立系统上的沟通度,才能微调个人的经验、学识、宽容、语境等所形成的主观沟通度。第二,方言区分的目的不但要了解语言的分合,更要知道如何分,如何合,图三以类聚达到这样的需求。第三,方言关系的程度以前是说不清楚的;例如,以前只能回答某个方言有浊声母,某个没有。现在图三在标尺上刻画出方言分合的度数,从此可以说明关系的深浅。这才是方言区分的目的。
附图
图3 汉语17方言沟通度类聚
三、资源共享
近年来中央研究院语言与科技结合的研究成果逐渐在网上公布,让大家共享。下列网址是部分公开的成果:
数位典藏国家型科技计画
http://www.ndap.org.tw/
语言典藏
http://LanguageArchives.sinica.edu.tw/
语言座标
http://LingAnchor.sinica.edu.tw/
台湾南岛语数位典藏
http://www.ling.sinica.edu.tw/Formosan/
近代汉语标记语料库
http://www.sinica.edu.tw/Early_Mandarin/
先秦金文简牍词汇资料库
http://inscription.sinica.edu.tw/
现代汉语平衡语料库
http://www.sinica.edu.tw/SinicaCorpus/
中文句结构树资料库
http://TreeBank.sinica.edu.tw
新世纪语料库-多媒体的语言呈现与典藏
http://MMC.sinica.edu.tw
闽南语典藏
http://SouthernMin.sinica.edu.tw/
中央研究院中英双语知识本体词网
http://BOW.sinica.edu.tw/
荔镜姻,河洛缘:闽南语第一名著《荔镜记》
http://140.138.168.12/LM/