语料库简介及国内的语料库建设论文_冯婉莹

语料库简介及国内的语料库建设论文_冯婉莹

(黑龙江大学,黑龙江 哈尔滨 150000)

摘要:语料库作为一种随着计算机技术发展而广泛应用的新兴的语言研究工具,在语言的定量分析上有极大的作用。本文正是基于语料库的这种重要性,对国内外的语料库建设发展进行了简介,并且分析了国内语料库建设的不足。

关键词:语料库;国内语料库;语料库语言学

1、语料库发展综述

语料库通常指为一个或多个语言研究目标而专门收集的、有一定结构的、具有一定规模的、用电子形式保存的、可以被计算机程序检索的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。语料库已经成为语言学理论研究、应用研究和语言工程不可缺少的基础资源。

下面对语料库发展的四个时期进行分别介绍。

1.1手工语料库时期

18世纪开始到20世纪50年代,语料的研究都是手工进行的,由人工收集,将需要的词或句子写在纸条上,然后整理成卡片进行检索。涉及到了圣经与文学研究、词典编纂、语言教育研究、语法研究和方言研究、儿童语言习得和语言比较的研究中。他们使用大规模语言资料来进行语言研究的工作,是具有开创性的。但这些语料库都是手工建立的,研究者们假定自然语言的句子是有限的。这些有限的句子可以收藏和列举,语料库可以作为语言研究的唯一可靠的数据来源,这样的看法难免由片面的地方。他们使用的语言材料都不是机器可读的,所以还不能算成是真正意义上的语料库。代表人物是伦敦大学的奎克,他提出了英语用法调查语料库,代表了使用手工方法建立的语料库的最高水平。

1.2 第一代电子语料库时期

20世纪五十年代到80年代,出现了机器可读的语料库。语料库来到了电子或电脑化的时代。在这个时期建立了布朗语料库、LOB语料库、LLC语料库等影响十分大的语料库。语料均为书面语,缺乏口语和手稿。这些语料库的规模都比较小,布朗语料库和LOB语料库都只有100万词左右。这些小规模的语料库只能用来考察常用语言现象的频率,无法展示语言的全貌。

1.3 第二代电子语料库时期

由辛克莱教授领导建立的COBUILD语料库的问世,标志着语料库语言学进入了第三个时期。第二代语料库在规模上要大大超过了第一代语料库,同时在标注方面增加了词的语法属性标注,直到现在,人们越来越重视对语料库作不同层次的标注,比如语音、句法、语义、语用等层次。这个时期还建立了朗文语料库、BNC语料库等语料库。

1.4 商业化时期:

到了九十年代,语料库进入了商业化的时期。语料库在规模上都有几亿甚至数十亿词,在建设的过程中使用了先进的计算机处理技术。语料库可以直接用于词典的编纂,在商业上获得了成功,语料库语言学开始从纯学术走向实用。

2、知名语料库进行介绍

BNC(英国国家语料库):由牛津大学主持建立,1995年正式发布,它广泛地包含了来自口语、小说、杂志、报纸和学术报告中的一亿多个词。其中书面语9000万词次,口语1000万词次。

期刊文章分类查询,尽在期刊图书馆

ANC(美国国家语料库):是目前规模最大的关于美国英语使用现状的语料库,它包括从1990年起的各种书面材料、口语材料的文字记录,包含着2200万的词汇。

COCA(美国当代英语语料库):由美国杨伯翰大学的Mark Davies教授开发。语料库容量为3.6亿词汇,涵盖了美国1990年至2007年间的各种类型的语料库。是当今世界上最大的英语平衡语料库。

Brown Corpus(布朗语料库):由美国Brown大学创建,创建时间是20世纪60年代初,收集了500个2000词左右的文本语料,整个语料库约1014300个词。是第一个机读语料库,也是世界上第一个根据系统性原则采集样本的标准语料库。

LOB语料库:由英国Lancaster大学和挪威Oslo大学以及Bergen大学于1970年代创建,包含100万词次。它研究的是当代英国英语,与美国英语对比,以统计方式建立换算几率矩阵,提高标注正确率。

LLC(伦敦-隆德英语口语语料库):由瑞典德隆大学教授斯瓦尔特维克主持。他将英国奎克教授主持收集的2000个小时的谈话和广播等口语素材转写的书面材料录入计算机,于1975年建成。LLC语料库收篇目87篇,每篇5000词,共为43.4万词,并进行了详细的韵律标注。

COHA(美国近当代英语语料库):美国近当代语料库同样由美国杨伯翰大学的Mark Davies教授开发,是最大的近当代英语语料库,包含着从1810年代到2000年代的超过4亿字的文本。

3、国内语料库建设综述

我国的语料库建设始于80年代,当时的主要目的是汉语词汇的统计研究,进入九十年代以后,语料库方法在自然语言处理领域得到了广泛的应用,建立了各种类型的语料库,研究的问题设计语料库建设中的各个问题。90年代末到新世纪初,是我国语料库开发和应用的进一步发展时期。除语言信息处理和言语工程领域以外,语料库在言语教学、词典编纂、现代汉语和汉语史研究等方面也得到了越来越多的应用。

我国现在应用比较多、规模比较大的语料库是国家语委现代汉语通用平衡语料库(一亿字符)、北京大学CCL语料库(七亿字符)、北京语言大学BCC语料库(一百五十亿字)和台湾中研院现代汉语平衡语料库(一千八百万字)。

虽然,我国的语料库建设已经取得了很大的进展,但也要看到,我国语料库发展还存在着一些不足之处。

首先,缺少建立标准和统一管理,现在的国内语料库建设杂乱,大多是自建自用,缺乏共享,这使得语料库的使用效率不高,存在着重复性建设的问题。

其次,语料库在技术还有待进一步提高。语料库的建设离不开计算机统计分析技术的支持,如今我国的语料库还存在着偶尔崩溃的问题,亟待技术的提高与革新。

最后,语料库中收集的语料不够准确。语料库中收集的语料有时被印证是错误的,比如,原文是古代汉语却收录成了原文的现代汉语翻译版,这些错误给学术研究造成了干扰。

作者简介:冯婉莹(1996.09-),女,黑龙江省哈尔滨人,哈尔滨市南岗区黑龙江大学汉语言文字学专业2018级,研究生,研究方向:语言类型学。

论文作者:冯婉莹

论文发表刊物:《知识-力量》2019年11月52期

论文发表时间:2019/11/26

标签:;  ;  ;  ;  ;  ;  ;  ;  

语料库简介及国内的语料库建设论文_冯婉莹
下载Doc文档

猜你喜欢