语料库建设与词典编纂_自然语言处理论文

语料库建设与词典编纂,本文主要内容关键词为:语料库论文,词典论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

语料库(corpus)是语言研究和词典编纂的重要工具。许多现代语言研究中心和词典编纂中心都把语料库建设作为至关重要的基础工程来对待,利用丰富的语言资源,开发科学性更强的语言研究成果和词典新品。例如,英国伦敦大学的英语用法研究中心利用自己创建的“国际英语语料库”(International Corpus of English,简称ICE)编写了《牛津英语语法》(Oxford English Grammar,Sydney Greenbaum 著, 1997);英国伯明翰大学英语系与柯林斯出版公司合作建立了“英语语料库”(the Bank of English), 以此为基础编纂出版了颇具创新意义的《COBUILD英语词典》(COBUILD Dictionary of the English Language,1987);南京大学双语词典研究中心与商务印书馆合作,建立了CONULEXID语料库,并开发了有关应用软件, 作为《综合英汉大词典》的高效编纂工具。

一、语料先行与语料库建设

词典编纂是一个深入研究词汇诸多层面、展示各种语言信息的过程。这项工作必须以丰富、翔实的语言材料为基础。古往今来,词典编纂界的有识之士都高度重视语言材料的收集。各种词典类经典之作均以可靠的语言材料奠定基础。语料先行应该说是词典编纂工作的基本原则。

在早期词典编纂中,语言材料的准备主要通过人工阅读书籍摘录例句,做成卡片(slips)后用于分析词义和作为书证。 英国词典史上的经典之作——约翰逊博士编纂的《英语词典》就是这样做的。首先,这部词典的收词,原则上以收集到的书证为依据,一般不收录仅在某本词典中见到而别无佐证的词,剔除了以往词典中一些以讹传讹的“鬼词”(ghost words)。再者,这部词典援引了11.4万条书证来阐明词义、 说明用法、展现优雅文体,对英语语言规范的确立起到了很大的推动作用。 1879 年开始编纂、 1928 年全书才出齐的《牛津英语词典》(Oxford English Dictionary),则动员全社会力量, 不遗余力地搜集资料,历时近三十载,制作引文资料卡片500多万张, 为这部按历史主义原则编纂的大型语文词典奠定了坚实的基础。

我国辞书编纂很早就重视书证的使用。据有关学者统计,《说文解字》中引用儒家著作的词句就达1085条,《康熙字典》中的书证则更为丰富。20世纪出版的《辞源》、《汉语大词典》等严格遵循历史主义原则,在书证使用方面提出了更为严格的要求,对忠实记录祖国语言历史、展示词义演变过程起到了积极的作用。(关于书证的作用和选配,详见李开《现代词典学教程》第328-339页。)

进入计算机时代,词典编纂中语言材料的准备一般通过建立大型语料库来完成。早在20世纪60年代,英国伯明翰大学英语系就意识到计算机技术对语言研究的巨大辅助作用。他们首先建立OSTI项目,把13.5万单词的非正式会话语料整理成电脑数据,研究词汇搭配问题。70年代添进3.5万单词的课堂会话、100万单词的应用科学文字资料和75万单词的经济学文字资料。随后发现,百万单词量的语料对于句法研究来说可能足够了,但对于词汇分析和语义研究来说是远远不够的。进入80年代,他们与柯林斯出版公司合作,建立了“英语语料库”,逐步扩充到2 亿单词的规模。在此基础上开发了一系列英语学习词典、用法词典、语法书籍及其他英语学习书籍。

20世纪90年代初,牛津大学出版社、朗文出版公司、钱伯斯-哈勒普出版公司与牛津大学计算机中心、兰开斯特大学、英国图书馆通力合作,在英国工贸部以及工程与自然科学研究委员会的资助下,建成了“英国国家语料库”(British National Corpus,简称BNC),所收语料总量达1亿单词。1995年问世的新版《牛津高级学生词典》、 《朗文当代英语词典》、《钱伯斯基础英语词典》均使用了这个语料库的最新资料。 从1994 年开始, 该语料库及其检索软件SARA (SGML Aware Retrieval Application)就制成光盘,向欧洲发行;2000年开始, 这套软件的第二版已授权牛津大学人文学科计算机中心向全世界发行。

毫无疑问,在电脑设备大为普及、语料库技术比较成熟的今天,词典编者如果不重视语料库建设,收词释义仍因袭旧作,例句仍随意编造,那显然是不妥的,是与现代词典编纂的科学性要求相差甚远的。

二、语料采样与语料库分类

语言是一个无边的海洋,语料库即便达到上亿单词的规模,也只是语海之一粟。但如果要继续扩大语料库规模,并且要求检索速度足够快,普通电脑设备就不能胜任。在现阶段,就普通电脑的处理能力而言,语料库的规模以1~2亿单词为宜。如果规模再大,运行速度就会过于缓慢。

然而,要用有限的语料反映语言实际使用情况,就必须制定周密的采样计划,让所选材料具有一定的代表性。首先应当对语言材料进行系统的分类,例如划分出书面语和口语,普通语言与专业语言,标准语与地域变体(包括方言),成人语言与儿童语言,早期语言和当代语言等类别;然后根据各类语料在语言中所占的大体比重,确定合理的采样比例。例如:

口语 以往的语言研究大多局限于书面材料,忽视口语材料。如果研究古代语言,没有声音材料可供参考,只能根据古代文献,这是情有可原的。如果研究现当代语言,撇开口语,只使用书面语材料,那就不妥,因为就语言的本质而言,口语是第一性的,书面语是第二性的。“国际英语语料库”、“英语语料库”和“英国国家语料库”都有计划地采集了一定数量的口语语料(录音材料),并转写入库。例如,英国国家语料库的口语语料多达1000万单词。此外,口语材料的选择以各种场合的会话或口语交流为宜。电影脚本、话剧台词等“准口语”(quasi-speech)材料属于刻意思考出来的语言(“considered” language),是根据人为设置的场景编造的语言,在通用型语料库中使用价值不大。(注:Sinclair J M.(ed.).Corpus,Concordance,Collocation.Oxford:Oxford University Press,1991.)

书面语 这类语言材料包括各种各样的文本,如信函类、调查报告类、指南类、论说类、叙述类(包括游记、传记等)、幽默类、小说类(包括普通小说、历史小说、恐怖小说、校园小说、科幻小说等)、报刊类、宣传品类,等等。各种题材的书面语语料比例要注意平衡。为了再现语言使用的一般状况,要注意选用普通作家的作品。对那些走火入魔的“天才作家”或喜欢标新立异的记者的文章要慎收。

地域变体 包括各种地区变体和重要的方言,如英语中的英国英语、美国英语、澳大利亚英语、南非英语等,汉语中的港台地区用语等。这些变体在语料采样中需要妥善考虑。

专业语言 包括社会科学、自然科学、工程技术、医疗卫生、服务行业等各方面的专门语言。其语言材料又根据专业化程度高低而有所区别。这些材料在采样时既要考虑门类分布和比例,又要考虑难易程度。

语料采样计划很大程度上取决于语料库的用途。语料库根据用途可以分为通用语料库(general corpus )和专门语料库(specialized corpus)。前者旨在反映语言的基本面貌,供编纂普通语文词典使用,各类语料的比例应当保持平衡,不能偏重某一类别。后者用于反映某个专业、年代、地域、体裁、阶层或年龄组等的语言使用情况,供编纂各种专门词典使用。

语料库还可以分为主语料库(main corpus )和辅语料库(subcorpus)。 主语料库以普通语言材料为采集对象, 反映共核语言(core language)的使用情况; 辅语料库则以特殊语言材料为采集对象,反映各种语言变体(language variety)的使用特点。主语料库与辅语料库联合使用,则形成大型综合性语料库;各个辅语料库加以扩充便可成为较大规模的专业语料库。

各种语料的采样比例确定之后,大量的工作就是选取具体语言材料(即语篇),输入计算机。其中难度最大的是口语语料入库,需要把口语录音材料逐词转录成电脑文字材料。文字语料入库,早期使用键盘录入或光学字符识别(OCR),相当费时费力。现在电子书籍很多, 囊括古今中外各种题材,入库就方便多了。互联网的普及又给采集最新语言材料带来极大的便利。当然,在语料入库之前,必须慎重考虑版权问题。

三、语料分析与语言信息检索

语料入库仅仅是语料库建设的第一步。它只不过是把语言的口语形式和书面形式变成了机读形式——电子文本。只有使用计算机对入库的语料进行各种语言信息分析与处理,才能提供各种有用的参考数据和研究素材,很好地为语言研究和词典编纂工作服务。

语料分析与处理包括词频统计、索引生成、语法分析、语体分析、语义分析等项目。目前有些项目的自动化处理已经成熟,有些尚待继续发展。下面分别加以讨论。

词频统计 这是最基本的语料分析。其任务是指出每个单词在整个语料库中出现的次数是多少,并且生成词频表,作为词典收词立目的科学根据。现在有些词典还特别提供词频信息,为语言教学大纲词汇表制定者提供参考,同时为读者选择学习词汇提供便利。例如, 《COBUILD英语词典》(1995年版)在词条右方用黑菱形号标示词频,黑菱形号越多,表示使用频率越高(见图1)。

图1

《朗文当代英语词典》(1995年版)则在词条边上用符号和数字表示词目在书面语和口语中的使用频率。其中“S”表示“口语”,“W”表示“书面语”,“1”、“2”、“3 ”表示有关词项分别属于“1000”、“2000”、“3000”高频词(见图2)。

图2

索引生成 这也是语料分析处理的重要项目,目的在于生成很有参考价值的词项索引(concordance), 把整个语料库中含有某个单词或词组的句子集中展示出来(见图3),供词典编者选用。 以前通过人工阅读采集例证,往往数量有限,遗漏甚多。现在通过电脑检索,可以做到一览无余。如果能在索引栏提供左右项排序功能,使用者就可以很方便地了解有关词语的左右搭配情况。这不仅对编纂搭配词典十分有用,而且对普通词典编写过程中概括义项、考察用法、选择例证颇有益处。

图3

语法分析 其主要任务是给语料库中的所有单词确定词性,并逐一标注。我们知道,语言中一词多性的情况相当普遍。如果能对语料库中所有的词按词性检索,就可以让词典编者节省许多筛选的精力。现在国外已经开发成功自动标注词性的软件,使用一般检索软件能够识别的标准化通用标示语言SGML(Standardised Generalised Markup Language)给语料库中的所有单词自动标注词性。虽然自动操作之后需要进行核对,但已减少了大量的人工操作。这类软件还能同时提供详细的句法组合信息,可以让所有单词按用法检索。例如,“I was happy to knowmy classmates”这个句子的词性标注方式是:

I was happy to know my< PRON( poss,sing) > classmates.

该例取自国际英语语料库。英国国家语料库的语料也已进行类似的处理,只不过所设语法细类有所不同。

另外,经过如此标注的语料还可以使用有关软件自动进行语法切分(parsing),生成句子结构树形图,揭示短语结构关系。(图4为上一例句的横式树形图,系由伦敦大学的大学学院高级研究员Alex C.Fang先生研制的软件自动生成。)

图4

语体分析 最基本的方法是利用电脑的强大统计功能,提供有关词语在书面语材料和口语材料中出现的频率。至于词语的其他语体特征和修辞用法,机器是很难识别的,目前只能依靠人工分析。《朗文当代英语词典》(1995年版)已经将有关单词在口语和书面语中的使用频率在词典条目中加以图示(见图5), 能够指导读者从修辞的角度正确使用词语。

搭配分析 搭配信息也是非常重要的语言使用信息。对于学习外语的人来说,这方面的信息对于解决语言表达问题具有非常重要的指导意义。《朗文当代英语词典》(1995年版)已积极利用电脑的自动分析处理功能,采集有关数据,在词典中展示出来(见图6)。

语义分析 如果能按照词义检索例句,词典编纂则更加方便。然而词义自动分析目前尚无可操作性强的客观标准,没有取得突破。将来的解决方案可能是给语料库中的多义词标注义类(semantic categories),因为义类的概念在1995年出版的《朗文当代英语词典》和《剑桥国际英语词典》中已经积极应用。例如,《剑桥国际英语词典》把make分为如下义类:

毫无疑问,语料库的使用价值取决于语料分析的深度。因此,很有必要大力加强自动化语言分析研究,拓展语料库的服务功能,提高语料库的使用效率。

四、语料更新与词典修订

正如有关专家指出,语料库一旦建立,其中的材料就已成为语言历史资料。要想让所建语料库及时反映语言的最新变化,其内容就必须不断更新。目前国内许多词典内容比较陈旧,修订版也未见多大改观,其原因恐怕在于最新语料的采集与利用不足。

关于语料更新,COBUILD 项目主持人辛克莱尔教授提出设立“监控语料库”(monitor corpus)的主张,即建立一个专用语料库,不断采集最新语料,对语言的发展变化实施监控。词典编纂者如果需要了解新词新义及其他语言变化情况, 可以在这个语料库中检索。 (注:Sinclair J M.(ed.).Corpus,Concordance,Collocation.Oxford:Oxford University Press,1991.)

建立“监控语料库”的最大益处是既可以避免主语料库规模变得过于庞大,又能满足词典修订的实际需要,具有事半功倍之效。而且,监控语料库还可以通过划定最新语料年代范围(如从10年、5年或3年前至今),扩大到一定规模,作为编纂新词新义词典的语料库使用。

随着语料库建设的蓬勃发展, 语料库语言学(corpus linguistic)这门新兴学科应运而生。高度重视这方面的基础研究,积极建立科学、实用的语料库,对于促进辞书出版事业的繁荣,可谓功莫大焉。需要指出的是,在高度重视电脑语料库建设的同时,也不要忽视手工语料采集的工作,因为人工选录的例句针对性较强,占用电脑的系统资源又很少,可对主语料库起到重要的辅助作用。

南京大学张柏然教授主持的《综合英汉大词典》编纂项目在实施过程中制定了系统的阅读计划,课题组成员每周完成一定数量的例句摘录工作,日积月累,受益良多。复旦大学陆谷孙教授主编《英汉大词典·补编》,在编写过程中不仅通过阅读最新英美报刊搜集英语新词新义,而且通过互联网汲取有用的资料,实践证明非常成功。

“手工资料的优点在于精,而计算机语料库中可有可无的资料太多,很容易膨胀得无法驾驭。”(注:陆谷孙.词典的继承与创新.辞书研究,1998(1))我们在加强语料库建设时要适当注意这一点, 不要完全放弃手工资料采集。

标签:;  ;  ;  

语料库建设与词典编纂_自然语言处理论文
下载Doc文档

猜你喜欢