哲学思潮激荡下的语言研究-以语料库研究方法为中心论文

哲学思潮激荡下的语言研究-以语料库研究方法为中心论文

哲学思潮激荡下的语言研究
——以语料库研究方法为中心

吴尹清

(国防科技大学国际关系学院 江苏南京 210039)

【摘要】 语料库研究方法从上世纪50年代末作为一种处在边缘位置的新兴研究方法,到现今日趋成为语言研究方法的主流,这半个多世纪的发展反映了语言研究领域哲学思想的斗争——理性主义和经验主义两大阵营的较量,从历史的角度来看,主要分为三个阶段:(1)20世纪上半叶经验主义占主导的结构主义语言学时期;(2)20世纪50年代末至90年代理性主义占主导的时期——以生成语言学为代表;(3)20世纪90年代至今的经验主义回归时期——以语料库语言学为代表。当前的语料库研究方法体现了理性主义认识论和经验主义认识论的交融,其地位的凸显植根于当前学术界研究范式转换的大背景之下,是经验主义回归趋势在语言研究领域的体现。

【关键词】 语料库研究方法;认识论;理性主义;经验主义;大数据范式

一、引言

广义的语料库主要指“作为语言学研究资料的文本汇集”[1],即语言研究素材库。狭义的语料库指的是“作为语言学研究资料的电子文本汇集”[1]。现代语言学意义的语料库还有更加丰富的内涵:语料库应该是根据科学抽样原则选择的有限文本集合,以计算机可处理的形式存储,最大限度反映作为研究对象的语言的特点[2]。语料库的核心特征应包括:语料真实性;代表性;平衡性;可机读;有限规模[3]

前计算机时代的语料库以纸质的形式呈现,作为真实语言素材的集合,为语言研究提供服务,该时期语料库最典型的代表是Randolph Quirk于1959年建成的英语用法调查(Survey of English Usage)语料库,文本规模100万词,建库目的是为语法描写提供真实语言素材。电子语料库的发展是随着计算机的产生而起步的,50年代末60年代初出现的Brown语料库、LOB语料库、London-Lund语料库是第一代电子语料库的代表,受制于当时电子计算机的存储与计算能力,这些语料库都只有100万词的规模。对于语言研究来说,它们的规模显得不足,例如它们不能为词典编纂提供足够的义项和真实用例。随着计算机存储空间和计算能力的不断扩大,电子语料库的规模也迅速增长,如第二代电子语料库的代表——英国国家语料库(BNC)文本规模达到了一亿词级,大多数检索功能可以在数秒内完成,为词典编纂、语法描写等语言研究提供了丰富的真实语言素材。时至今日,各种类型、规模的语料库如雨后春笋般涌现,为语言研究提供了有力的支持。

语料库研究方法是指在语言研究中运用语料库,为验证现有理论、假设或归纳、抽象理论规则提供获得数据支持。目前,语料库在语言研究中得到广泛应用,这也标志着大数据范式在语言研究领域的拓展。实际上,语料库研究方法植根于深厚的哲学渊源之中。电子语料库的运用,从50年代末作为一种处在边缘位置的新兴研究方法,到现今日趋成为语言研究方法的主流,这半个多世纪的发展反映了语言研究领域哲学思想的斗争——理性主义和经验主义两大阵营的较量,甚至可以说“经验主义和唯理论的对立,以不同的形式,贯穿于整个语言学史”[4]

二、理性主义范式下的语言研究

西方近代理性主义作为一种哲学思潮和思维方式,从认识论的角度讲,一般被认为起源于17世纪笛卡尔的理论——其核心是普遍怀疑和“我思故我在”[5],理性主义的基础是承认人的理性可以作为知识来源,并且人的理性高于和独立于感官知识。理性是人类自明、无误的天赋观念,能够识别、判断、评估实际理由以及使人的行为符合特定目的,而理性主义哲学家认为理性才是人类知识的根本来源。理性主义认识论认可逻辑分析和推理的可靠性,认为通过演绎法能够更加有效地获取普遍必然的知识,但理性主义者也不完全否认经验作为知识来源的一种,他们通常认为除了能够实现纯形式推理的数学,其他知识的获得都不可能完全不借助经验。即理性主义认为人的知识除了经验成分之外还有先验成分[6],而先验成分就是人所独有的、天赋的、通过理性认识事物的能力,这种能力主要表现为逻辑分析推理、数学运算的能力。理性主义哲学思潮与近代自然科学有着密切联系,经典物理学理论体系的建立正是主要汲取了理性主义认识论的思想,主要通过演绎法先建立理论模型,随后再不断验证理论的可靠性,最终建立起解释力较强的理论体系。在这一认识论影响下的语言学理论大致属于形式语言学流派,其代表包括范畴语法、生成语法、蒙太古语法等,这一阵营的语言学家主张仿照数学公理系统构建语言学的公理,将语言学知识写成可供推导的表达式,并在此基础上通过演绎建立起语言的逻辑规则系统,实现对自然语言的形式化描写。生成语言学在验证语言学规则的真伪时普遍采用内省的方法,完全依靠人自身的语感作出判断,比如要判断以下两对汉语句子是否合乎语法(带*表示不合乎语法)[6]

(1)*他学了英语三年。

他学了三年

成熟的语料库技术在一定程度上解放了语言研究者,他们第一次发现自己的研究竟然可以得到如此丰富的真实语料的支持,由此可靠的语言实证研究便能广泛地开展,在此背景下,经验主义吹响了反攻的号角,在当前的语言研究领域,语料库方法接近或者已经成为主流,语料库所代表的大数据驱动的范式也俨然成为当前整个学术界的热点和潮流,实证研究变得不可或缺,这些都反映了当代语言研究乃至整个学术界哲学思潮的新变化——经验主义的回归,但正如事物的发展呈现“螺旋式上升”的特点,当前这股经验主义思潮的表现也与半个世纪前有所不同,它更多地呈现出与理性主义相融合的特点,这很好地体现在语料库研究方法当中。

*他回来今年

在语言研究领域,经验主义的范式由来已久,经验主义认为经验是一切知识和观念的根本来源,倾向于否认人的“天赋观念”以及理性认识的确定性。即人类的一切知识都来自外部的、感官的印象,以及对大脑对这些印象所进行的抽象和概括等活动,其极端形式表现为休谟的完全否定知识具有先验成分的观点[7],但近代经验主义者通常不认为经验是知识的唯一来源,即也给予了理性一定的地位。在20世纪50年代以前,语言学领域占主导地位的是经验主义,最具代表性的是在20世纪上半叶一统天下的结构主义语言学,它的哲学基础是逻辑实证主义(logical positivism),方法论上依靠归纳法,通常获取语料的方法是实地调查,将研究对象说的话记录下来,再从语言材料中总结出各种结构关系,这种方法被以Leonard Bloomfield为代表的美国描写语言学派用于描写美洲印第安人的语言。受到索绪尔对“语言”和“言语”区分的影响,结构主义语言学的研究对象是同一言语社区中人们所共同拥有的、同质的“语言”,使用语言素材的目的是为了归纳语言的共性。而且当时的技术状况还不能为语言学家观察和搜集大量的言语事实提供足够的方便,这注定言语事实只能摆在相对次要的位置[8]

三、经验主义范式下的语言研究

(一)传统经验主义范式

生成语言学者通常会依靠语感造句,会让几十个本族语者对这些句子进行判断,统计结果后得出结论。内省法依靠的是人的语感,然而人的语感并不总是可靠,造出来的句子可能不具有真实性,只是在研究者的意识操纵下造出来的句子,没有讨论的必要,另外本族语者的判断也未必客观,例如(2)中的“他回来今年”,许多汉语母语者会给出不一样的答案。内省法(introspection)的概念最早在公元四世纪由基督教哲学家奥古斯丁提出,主要在心理学研究中使用,主要是指通过自我观察揭示主体的心理活动,从而到达了解和研究人的内部心理的目的,在生成语言学的语境下,内省法的内涵与心理学些许不同,它主要指把人自身的语感作为验证语言知识的依据,其实际涵义更接近于“直觉”(intuition)的意思,即人的语言直觉。人的语言直觉具有不确定性,不同人对同一语法结构的判断可能不一致,甚至同一个人在不同时间对同一结构的判断都有可能完全相反,因此将人的语言直觉作为评判语言知识的标准显然不够可靠,依靠语言直觉编造研究语料更是不符合科学研究对数据客观性的要求,这也是该语言学流派屡遭诟病的原因:其理论的建立依靠理性的演绎推理,具有“纯科学”的色彩,但却选择把语言直觉作为理论的基础,导致其理论的可靠性遭受质疑。尽管如此,理性主义认识论影响下的形式语言学还是开创了语言学研究的先河——将公理系统演绎法引入语言学理论中,突破了以往语言研究中经验主义占主导的范式,使得语言学理论朝着自然科学的范式迈进了一大步——最具代表性的生成语法更是被誉为语言学理论中理性主义的巅峰,并且在自然语言的形式化描写方面取得了卓越的成就,为自然语言理解、心理学、认知科学等提供了一定的理论基础,不亚于语言学领域的一场“科学革命”。

(二)经验主义范式的回归

⑤“智能水网”技术。二元水循环理论为核心的水生态系统监测系统、云计算、无线移动传输技术、物联网技术与智能水网调度技术等。

(2)他今年回来。

语料库研究方法主要可分为两种:基于语料库的方法和语料库驱动的方法。基于语料库的方法“将语料库作为一个方法论,语料库用以阐释、验证语言理论”[9],即先有理论预设,再通过实证的数据分析和过滤的量化研究验证假设或现有理论是否可靠[10]。现有理论或者假设通常是通过演绎推理的方法确立的,而基于语料库对理论或假设进行实证则体现了经验主义的思想,因此基于语料库的方法体现了理性主义和经验主义的融合。而语料库驱动的方法则视语料库为一种理论研究,将语料库作为建立语言假设的唯一源泉,即语料库本身包含了自己的语言理论[10]。语料库驱动的方法先通过观察分析语料得出假设,再进一步归纳、概括以形成语言规则[9],这种方法以经验主义为基础,但同样包含了理性主义的成分,因为在分析语料基础上得出理论不可避免地要涉及一定的逻辑推理或者数学计算。因此无论是哪种方法,语料库的运用都体现了理性主义的、基于规则的分析方法和经验主义的、基于统计的分析方法的结合。从另一个角度上讲,语料库方法综合了定性研究和定量研究两种方法,过去语言研究中的理性主义范式轻视对语言事实的分析,注重对内省语料的深度分析,主要运用定性研究方法来推导出语言规则,缺乏定量研究的支持,理论的可靠性受到怀疑;而传统的经验主义范式——以结构主义语言学为代表则过于强调归纳,定性研究有所不足,建立的理论缺乏深度。而语料库研究方法则很好地结合了两者,既为演绎推理得出的理论提供了坚实的语料支持,又为统计归纳提供了便捷、广泛的数据基础。

问出这些问题的人必然非常关心你,可是他们很笨拙,不懂得怎样做才是真正关心。面对面却不能说点有趣或者真实的话,这是人际关系中的一大悲哀。更加悲哀的是,我也险些在这种氛围下变成了令人讨厌的自己。某天面对一位很久不见的已婚女同学,想表示友好,差点脱口而出:什么时候生二胎?

20世纪50年代以后,西方语言学研究占主导地位的是以生成语言学为代表的理性主义思潮,然而在此期间两大阵营的天平也在悄悄发生变化,处于弱势的经验主义逐渐抬头,其中重要的砝码就是电子语料库的诞生和迅猛发展,到了80、90年代的时候,随着计算机技术的飞跃,一批超大规模的电子语料库应运而生,为语言研究提供了大量的真实语言用例和“言语事实”依据,使语言学家在使用经验做出判断时经常能从语料库的真实语料中获得支持,相比之下,而以往的语言研究则经常面临语料极度匮乏的困境以及手工收集语料的低效和艰辛,虽然大型语料库的建设也要耗费大量人力物力,但在现代信息技术的辅助下,比传统的语料收集方式还是高效得多,而且借助互联网和计算机程序,它的传播范围更广,不像传统的语料库往往只局限于少数研究者使用。

尽管语料库研究方法目前趋于主流,但语言研究也不应因此而忽视或贬低基于理性主义的演绎推理和内省法的价值,对于整个学术界也是如此。目前相比于理性主义阵营的生成语言学,语料库语言学的理论呈现碎片化、抽象程度不足等薄弱点,这是今后语料库语言学研究需要加强和努力的方向。如何更好地将理性主义与经验主义相结合,服务于科学研究,也是语言研究乃至所有学科领域需要共同探索的方向。

四、结语

实际上,语料库方法的广泛运用是处于当前学术界研究范式转换的大背景之下的,随着信息科学、计算机技术、互联网的进一步发展,对于研究者来说,获得、存储和调用海量研究数据的成本和方式变得前所未有地经济和便捷,因此各学科的研究都纷纷开始重视对大数据的获取和挖掘,实证主义的研究也得到了前所未有的数据支持,到目前为止,大数据的范式已经充分显示出它的力量,许多学科领域藉此实现了重要的理论突破,最为突出的便是以语音识别和机器翻译为代表的、基于深度神经网络的自然语言处理技术。目前第四范式已经成为当前学术研究毋庸置疑的主流范式,这标志着经验主义哲学思潮在语言研究领域乃至整个学术研究领域的回归。

在生态保护和社会经济发展双重压力下,乌江风情廊道产业转型升级需以旅游产业为主导,以旅游主导资源配置方式,实现区域产业的生态化升级和集群式发展,实现在全国生态功能区优质生态产品与文化旅游产品的并行发展。

注释:

2.1 苹果虎皮病 苹果虎皮病发病初期,果皮呈淡黄褐色,表面平或略有起伏,或呈不规则块状,以后颜色逐渐变深,呈褐色至暗褐色,稍凹陷。病部果皮可成片撕下,皮下变为褐色。病果肉绵,略带酒味。病变多发生于果实阴面未着色部分,严重时才延及阳面着色部分。虎皮病虽然不影响果实风味,但严重影响果实外观,降低商品价值。

①关于定性研究和定量研究的区分,存在诸多争议,笔者认为它们并不是绝对的二元对立,从科学的角度讲,纯粹定性或者定量的研究是值得怀疑的,任何科学研究都应该是两种方法的综合,如果一定要区分二者,那么标准应该取决于定性为主还是定量为主。

②大数据范式。

当前我国信息技术已经大面积且深入地覆盖至各行各业,医院财务会计信息化建设也早已启动并不断深入实施。众所周知,财务会计信息化建设是财务管理工作必然的发展趋势,但目前还有一些医院的管理层没能对医院财务管理信息化产生足够的重视,导致医院财务内部控制信息化水平较低,在日常的运作中不但浪费了人力资源与财力资源,还会导致医院财务会计信息管理工作的失真与失准,常见原始文档丢失、财务管理欺诈、营业收入损失的现象,无法为医院发展的重要决策提供宝贵性的参考依据。

参考文献:

[1]许家金:语料库研究学术源流考[J].外语教学与研究,2017(1):51-63.

[2]McEnery T.& Wilson A.Corpus Linguistics [M].Edinburgh: Edinburgh University Press, 2001:32.

[3]Gatto, M.The Web as Corpus [M].London, New Delhi, New York and Sydney:Bloomsbury Academic,2014:9-15.

[4]罗宾斯:简明语言学史[M].北京:中国社会科学出版社,1997:145.

[5]陈宣良:理性主义[M].成都:四川人民出版社,1988:4.

[6]徐烈炯:生成语法理论:标准理论到最简方案[M].上海:上海教育出版社,2009:14,68.

[7]中国大百科全书[Z].中国百科大全书出版社,1987:373.

[8]梁茂成:理性主义、经验主义与语料库语言学[J].中国外语,2010(4):90-97.

[9]李德俊:语料库词典学:理论与方法探索[M].南京:译林出版社,2015:15,17.

[10]Tognini-Bonelli,E.Corpus Linguistics at Work [M].Amsterdam:John BenjaminsPublishing Company,2001:65-67,84-85.

作者简介: 吴尹清,汉族,籍贯广东湛江,国防科技大学国际关系学院,研究方向:语料库语言学。

责任编辑/周洁

标签:;  ;  ;  ;  ;  ;  

哲学思潮激荡下的语言研究-以语料库研究方法为中心论文
下载Doc文档

猜你喜欢