关于大规模真实语篇语料库的若干理论思考_自然语言处理论文

关于大规模真实文本语料库的几点理论思考，本文主要内容关键词为：语料库论文,几点论文,文本论文,理论论文,真实论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

一关于语料库建设

我国的语料库建设始于80年代初期。那时的语料库叫语言资料库，建设的主要目的是为了给字词典的编纂提供例句或者给语言学家研究语言提供第一手资料。而信息处理领域的专家由于信息处理的需要，也差不多同时开始建立语言资料库，对语言进行计量研究。这种建立在计算机中的语言资料库简称语料库（corpus），它是大规模真实文本的有序集合，是利用计算机对语言进行各种分类、统计、检索、综合、比较等研究的基础，而“文本”（text）则是语言的符号串，文字信息的处理对象，是依据语言学的原则和数理统计的方法从自然语言中抽取出来的（注：参见GB12000.1—90《汉语信息处理词汇01部分；基本术语》，中国标准出版社，1991。）。根据研究的需要，所抽取的文本的长度有时是其自然长度，有时是定长的。在从相对而言无限的自然语言材料中抽取有限文本时，有时是等密度的，有时是不等密度的。

从90年代开始，国际自然语言处理领域发生了一些重大变化，其特征之一就是转向对大规模真实文本的研究和处理，以大规模真实文本为基础的语料库及其语言研究和知识自动获取受到高度重视，并且越来越走向深入和实用。1993年清华大学黄昌宁发表《关于处理大规模真实文本的谈话》（注：黄昌宁《关于处理大规模真实文本的谈话》，载《语言文字应用》，1993年第2期。），指出国际计算语言学界已经把大规模真实文本的处理确定为未来一个时期的战略目标，给语言文字研究带来的巨大影响之一就是语料库语言学的崛起，该文引起语言学界的注意。1995年东北大学姚天顺主编的《自然语言理解》（注：姚天顺等著《自然语言理解》，清华大学出版社、广西科学技术出版社，1995。）一书出版，其中有专门一章讲述“语料库语言学”。1997年复旦大学出版吴立德主编的专著《大规模中文文本处理》（注：吴立德等著《大规模中文文本处理》，复旦大学出版社，1997。），该书在借鉴国外研究成果的基础上，以大规模中文文本为处理对象，系统地介绍了大规模真实中文文本信息计算机处理的理论和方法。

90年代，汉语语料库的建设和研究得到了蓬勃的发展。语料库的规模从百万级发展到千万级和上亿级，语料的加工深度从字一级发展到词法级、句法级、语义级和篇章级，不同级别的加工技术的成熟程度各不相同。据了解到目前为止，国内已经开发的不同加工深度的现代汉语熟语料库有20余个。仅就北京语言文化大学而言，近十余年开发的各种语料库就有“现代汉语词频统计语料库”（1985年），“当代北京口语语料库”（1992年），“现代汉语语法研究语料库”（1995年），“汉语中介语语料库”（1995年），“现代汉语句型语料库”（1995年），与香港理工大学中文及双语学系联合建设的“现代汉语语料库”（1998年），与清华大学联合承担国家自然科学基金重点项目“语料库语言学研究的理论、方法和工具”也建设了“现代汉语语料库”（1998年）。由于计算机硬软件环境的发展和中文文本的电子版（包括光盘版和网络版）越来越普及，语料库的建设和开发相对而言越来越容易，而语料迅速扩充和膨胀也带来了另外一些问题，例如：语料中的明显错误和不规范用法应否修正问题；统计中的数据稀疏问题；垃圾语料带来的统计垃圾问题；汉语语料统计中的随语料增长的垃圾泛滥问题等等（注：邱超捷宋柔欧阳龙根《大规模语料库中词语接续对的统计与分析》载《语言工程》，清华大学出版社，1997。）。

本文对于语料库的建设和建设中的相关问题进行了一些反思，从普通语言学、社会语言学的角度，零星思考了一些与句法、语义、语用相关的理论问题，提出来与同行进行讨论，希望对今后的语料库建设能有所裨益。

二关于交际

经典认为：语言是人类最重要的交际工具。现在应该再加上：也是人机之间最重要的交互工具。如果“对话”就是最重要的交互，那么，交互也就是人机之间的“交际”。

但是，什么是交际？交际具有什么性质？

交际总是双方的行为，交际首先分为语言交际和非语言交际。语言交际依靠语言作为载体来传递信息。我们仅探讨语言交际。语言交际本是一种人类传递信息的行为和过程。通俗一点说就是“一个人”要把他所知道的消息告诉“别人”，“别人”要懂得“这个人”所说的消息。所以，交际就是一方表达，另一方理解。以电脑为“一方”或“另一方”，研究电脑如何表达人的语言是“自然语言生成”，研究电脑如何理解人的语言就是“自然语言理解”。因此，研究“自然语言处理”（包括生成与理解），不可以不研究语言交际，不可以不研究人脑的语言机制和模拟人脑的语言机制。

从表达方和理解方来看，现在交际行为至少有以下四种类型：

人表达←──→ 人理解人表达←──→机器理解

机器表达←──→ 人理解机器表达←──→机器理解

“交际语言学”认为交际是个极其复杂的问题，同样的交际主题，交际主体之一换个角色，由于其知识、教养、性格、心理素质、临时心绪等的不同，都会给交际带来截然不同的结果（注：李岗《交际语言学引论》，中国铁道出版社，1998。）。徐通锵认为：“所谓‘交际’，其实质就是交流对现实的认知。”（注：徐通锵《语言论》，东北师范大学出版社，1997。）

我们认为：交际活动或者说交际行为具有两重性，它既是一种社会行为，也是一种个人行为。交际活动是两重性的统一体，社会行为要通过个人行为来体现，个人行为要融入社会行为之中。作为社会行为，表达者和理解者要遵从社会的习惯约定和为管理社会行为制定的规范，才能达到交际的目的；作为个人行为，表达者又是自由的和自主的，因此，既会出错，也会创新，理解者既要容错，也要学习。交际过程中通过“问答”和“讨论”，作出“纠错”和“解释”是不可避免的。这些认识是本文进行理论思考的最基本的也是最重要的出发点。

表达—理解，容错—纠错，解释—学习，对话—讨论，这些就是自然语言处理中计算机的最基本的也是最重要的智能活动或智能行为。

三关于文本

语言交际又可以按照信息载体的形式分为口头交际和书面交际。

信息的第一载体是语言，第二载体是文字，第三载体是电磁波。现在一切载体都可以用数字化方式表示，数字是第四载体，是载体的载体，信息最终转化为数字。

对于电脑而言，现在有广义的“文本”，比如声音文本、图象文本、文字文本等，我们所说的大规模真实文本中的“文本”，是狭义的文本。我们遵从GB12200.1—90对“文本”的定义：“语言的符号串，文字信息的处理对象。”（注：参见GB12000.1—90 《汉语信息处理词汇01部分；基本术语》，中国标准出版社，1991。）这个定义说明这里的“文本”指的是以文字形式记录的语言的文本，即书面语言。语料库通常就是指这种文本的有序集合。因此，口头交际是指利用有声语言的交际，书面交际就是利用文本进行交际。把口头和书面的方式带进来，前面说的交际行为的类型就从四种变成了八种：

（口头）（文本）A、人表达←───→人理解 a、人表达←───→人理解

（口头）（文本）B、机器表达←───→人理解 b、机器表达←───→人理解

（口头）（文本）C、人表达←───→机器理解c、人表达←───→机器理解

（口头）（文本）D、机器表达←───→机器理解d、机器表达←───→机器理解

文—语转换实际上是实现c+B，语音打字实际上是实现C+b，文本型的（书面）人机对话就是c+b或者b+c，口头型的人机对话就是C+B或者B+C，等等。

目前，自然语言处理的重点是放在文本方面，知识的获取、分析、表达、理解都是基于文本的，基于口头的处理也在进行，并且在逐步加大力度。

如果引入交际的空间概念，无论是口头交际还是文本交际，又都可以有面对面形式和非面对面形式，这样就有更多的交际类型分出来，例如：

人和人口头面对面：对话

人和人口头非面对面：打电话

人和人文本面对面：特殊环境下的笔谈

人和人文本非面对面：两地书、网上交谈

…………

写作和阅读是一种特殊形式的人和人的非面对面文本方式的交际。我们以上的交际类型分类只引入了空间概念，尚未引入时间概念。我们假定了任何一种交际，一定都是实时进行的，总是共时的交际。实际上交际并不总是共时的，写作与阅读这种特殊的交际方式就常常是非共时的。写作是一种特殊的表达：在没有电讯的时代，只有文本可以传到远方和留给后人，它的受讯者（实际是阅读人）一般不是一个特定人或者一小群特定人，而是非特定人，是某一个“言语社团”，阅读也是一种特殊的理解：即没有前面提到的交际过程中的“问答”和“讨论”，也就是没有“纠错”和“解释”环节的理解。“写作表达—阅读理解”形成了一种特殊的交际方式，这种交际方式常常是非实时的，即历时的交际。我们今天阅读的文本可能是你不认识的人写的、甚至可能是古人写的，这种交际是一种跨时空的交际。徐通锵说：“时间观是语言研究方法论的一个重要基础，要改进语言理论的研究，如仍旧保持索绪尔的时间观，那是不会有什么成效的。”“索绪尔的语言理论就是建立在他的共时时间观的基础上的。”（注：徐通锵《语言论》，东北师范大学出版社，1997。）实际上，不同类型的交际，其交际模式是有差别的，我们在这方面的研究还很不够。我们必须区分共时交际和历时交际，文本型交际通常是历时交际。我们必须区分对话交际和阅读交际，语料库中的文本通常是阅读交际的文本。我们也要区分口头对话和文本对话，目前的人机对话多数是文本型的对话。

四关于真实文本

黄昌宁认为：“最原始、最可靠的语言证据只能来自使用中的客观的语言材料。这就是语料库语言学的一个基本观点。”他还认为：“在一个专业领域中能否处理未经编辑或非受限的真实文本以及处理文本的数量之多少，本来就是衡量一个自然语言系统究竟是实用化系统还是实验性系统的准则。”（注：黄昌宁《关于处理大规模真实文本的谈话》，载《语言文字应用》，1993年第2期。）

黄昌宁为“真实”至少指出了三点：使用中的、未经编辑的和非受限的。我们认为“使用中的”“未经编辑的”“非受限的”文本有一个基本共同点，就是这些文本一般来说是含有一定错误的文本，或者说是含有非规范用法的文本，这样的文本才是真实文本。

我们以往的研究不仅假定了语言是共时的，还假定了文本都是规范的，这恰恰是不真实的。我们一般研究“典范的白话文著作”，收集经典作家的经典语料和例句，然后研究“语法规范”，这本没有错。但语言信息处理的对象并不仅仅是经典的规范文本。一切“真实文本”即使经过了编辑部的编辑加工，也仍然还有大量的非规范现象。

语言不是静止的，语言在运用中不断地产生变化，语言的生命力就在于这种稳定中的变化。这些变化的端倪就隐藏在大规模的真实文本（无论他们是经典的还是非经典的文本）之中，甚至就隐藏在那些非规范现象里。一切新词、新义、新用法一开始总是不在约定和规范之中的，不过一旦被大家接受并广为传播，最终将进入约定或规范，这就是语言发展的辩证法和规律。

我认为一方面语言需要社会规范，一方面个人使用语言时又含有不规范现象，这并不矛盾。规范与发展应该是统一的。我曾经在另一篇谈规范的文章中说：“我个人认为语言文字是在社会中流通的信息载体，是人类进行社会交际的重要工具。它的使用具有个人行为和社会行为的两重性，也具有相对稳定和永远变化的两重性。了解了语言的这一特性，你就会明白语言既需要规范，也不可能有一个客观上绝对合理的规范，更不可能推出一个人人都认可的规范。”（注：张普《规范化——98汉字编码键盘输入方法新动向》，载1998年5月4日《中国计算机报》。）

有序异质语言理论认为：“变异在其产生之初，在社会人群中呈无序的、随机的分布，如果变异成分的某一变异形式在言语社团中被某一社会人群接受并开始传播，那么无序的变异就进入有序的行列，意味着演变的开始。如果使用这种变异形式的社会人群在言语社团中具有某种特殊的地位，那么这种变异形式就可能会成为其他社会人群的仿效对象。”（注：徐通锵《语言论》，东北师范大学出版社，1997。）

变异是如此重要，而没有那些真实文本中的创新就没有变异。更重要的是创新就隐匿在非规范非约定的现象之中（这一点我们后面还要细说）。因此，在这个意义上的“真实”就显得更加突出。这表现在两点：1.不了解这种真实，自然语言理解就只能生存在理想的“无菌环境”，无法进入“真实世界”去理解那些含有非规范现象的真实文本。2.没有这种真实的应用，自然语言理解就没有了生命力，失去了学习新知识的历时环境。

网络电子版的出现使出版行为正在发生质的变化，出版从一件很困难的周期很长的事变得如此容易，甚至自己可以设立一个个人主页，发表自己的作品。出版行为从单一社团行为演变为社团行为和个人行为的两重性行为，出版可以变成一种自主的甚至是自由的活动，当然阅读也有了更多的自主与自由。如果说出版社的文本还经过了训练有素的职业编辑加工的话，那么网上自主或自由出版的文本就是真正的“未编辑的”“真实文本”了。

这种网上的真正的“真实文本”正在日益增加，自然语言理解下一个世纪将要面对的正是这种潮涌而来的由社团和个人出版的编辑的或未编辑的大规模真实文本。

对此，我们务必要有清醒的认识。

五关于大规模真实文本及统计“垃圾”

大规模真实文本的规模要大到什么程度？

“大规模”是指文本和语料要达到一定的数量和覆盖较广泛的领域，所谓覆盖是指语料和文本在各个不同领域的分布或散布。这些不同领域通常是指由时间轴（反映时代特征）、空间轴（反映地域特征）、学科轴（反映知识特征）、风格轴（反映语体特征）构成的四维模型，语料库中的任何一个文本都可以标记出这四方面的特征。文本也还有其他方面的特征，例如：作者、版本、出版者等等，国家语委正在建立的“现代汉语语料库”的样本总共有20个描述属性。

黄昌宁认为：“语料库的功能依赖于库存语料的分布和规模，这一点是显而易见的，因为语料的分布直接影响到统计结果的适用范围，而库容量的大小则决定了统计数据的可信程度。”他又说：“‘大规模’这个术语其实也包含了广泛的领域覆盖面这层意思。”（注：黄昌宁《关于处理大规模真实文本的谈话》，载《语言文字应用》， 1993年第2期。）

但是语料迅速扩充和膨胀也带来了另外一些问题。随着语料规模的不断扩大，统计中的数据稀疏问题、垃圾语料带来的统计垃圾问题、汉语语料统计中的随语料增长的垃圾泛滥问题等等也越来越严重。

这个利害同步增长的矛盾如何解决？这是目前所谓语料库语言学所面临的一个十分棘手的问题。邱超捷、宋柔等在《大规模语料库中词语接续对的统计与分析》（注：邱超捷宋柔欧阳龙根《大规模语料库中词语接续对的统计与分析》载《语言工程》，清华大学出版社，1997。）一文中认为在统计到的接续对中有许多的接续对是不可靠的，他们把这些不可靠的接续对叫做“接续对垃圾”，而把产生接续对垃圾的语料称为“语料垃圾”。他们指出：“随着语料库规模的增大，新增加的接续对中的垃圾逐渐会占大部分甚至绝大部分。垃圾主要分布在统计到的低频度接续对中，主要来源是分词中专名识别错误。”他们认为为了建立一个比较准确的接续对库，应使用100 兆字节以上的大规模语料库进行统计分析。但是他们同时又发现“在统计到50兆（字节的语料）时，垃圾已占50%以上；在统计到100兆时，垃圾约占68%；在统计到150兆时，垃圾约占80%；在统计到200兆时，垃圾约占90%。”为了获得 10%的有用的接续对，你得同时接收90%的接续对垃圾，实在得不偿失。

实际上，这也可以看成是大规模真实文本语料库的“环境污染”，对于统计中的垃圾也应该可以像治理生活中的垃圾一样寻找治理办法：首先是“垃圾分类”。我们在前述已经说到正是在这样的“垃圾”之中隐藏着语言的发展的生机，一切新词、新义、新用法在一开始都是非约定和非规范的，都可能被视为“垃圾”。其次，是如何在分类之后“变废为宝”，即把被人们认可的语言的新的发展转化为新的知识，这就是“学习”和“反馈”。在这个意义上说，出现“垃圾”之于语言信息处理，不但不是坏事，反而是好事。特别是对于智能化，简直就是至关重要的决定性因素。这里的关键在于什么叫“被人们认可”，即前面说的“在言语社团中被某一社会人群接受并开始传播”，怎样判定是“被认可”“被接受”乃至“开始传播”。第三，把真正的垃圾抛弃掉。

宋柔等在另外一篇报告中说明，他们对1 亿字的语料进行自动分词，得到接续对61万对，利用辅助工具人工甄别后，将接续对分为3类，其中2字词组近8万条，有接续关系的接续对30余万对，没有接续关系的20余万对。在2字词组的处理中，他们已经将“喷塑”“蒜农”“危改”“市话”“高检”等新词新语作为“被人们认可”的新知纳入2 字结构库了。他们说明第3 类没有接续关系的接续对的出现原因是“由于分词错误、原文错误、作者自造生僻词而造成的接续”（注：宋柔、戴伟长等《现代汉语二字结构工程》，参见ICCIP98 中文信息处理国际会议论文集，清华大学出版社，1998。）。这种错误如：“扎加洛到北京”中的“扎加”“加洛”“洛到”，“新药癌康宝”中的“癌康”“康宝”，“用固体物质”错成“用因体物质”中的“因体”，“集千家微财”中的“微财”等，这里边的“微财”也还不一定就是该抛弃的垃圾。

我们必须寻找既能分析、驾驭大规模真实文本，又能有效地加工、扬弃垃圾的语料库建设理论和处理方法。

六关于使用度与散布系数

“使用度”（usage）是自外语中引进的概念，是按一定计算公式得出的压缩了的词次。这个压缩了的词次是综合词次以及该词语在不同的语料类和不同的篇章中的分布三方面因素而计算出来的。这个类、篇、次三者相综合的概念，虽与词的出现次数密切相关，但并不等同。以使用度做标准来衡量词的常用程度，比单纯以出现频次多少为标准更合理。这是因为一些词只看频次可能较高，但是在语料中的分布不均匀，可能只集中出现在一两类语料中，或者只出现在某一篇文章里，那么它的使用度就低于同样频次但是却分布均匀的词语，也就是说不如分布均匀的词语更常用（注：常宝儒《现代汉语频率词典的研制》，载陈原主编《现代汉语定量分析》，上海教育出版社，1989。）。例如：在北京语言学院王还、常宝儒的词频统计中，“提纲”和“哨棒”都出现了13次，但是“提纲”出现在3类8篇中，分布均匀，使用度高，“哨棒”只出现在《武松打虎》1篇文章里，分布集中，使用度低。其常用程度也是很清楚的。

使用度与“散布系数”密切相关。散布系数是为了使统计结果更科学、更真实而根据类、篇、次对词频的一种修正，目的是把分布面小的词的词次向下压低。这种压缩与词的分布面成反比，即散布系数越大的词，被压缩掉的词次越少，散布系数越小的词，被压缩掉的词次越多。

根据1964年A.Juilland（尤兰德）等在统计西班牙语词频时曾利用的一个计算公式，常宝儒等推导出一个由词语分布类数和篇数构成的新的散布系数公式：

P[,K]+L[,K]×C[,1]+C[,2]

DI[,K]＝──────────────DI[,K]为计算词表低

P+n×C[,1]+C[,2]频段散布系数

DE[,K]＝──－DI[,K]+──D[,K]（当词的相对频率≥0.0001时）

2 2

DE[,K]为计算词表高频段散布系数

具体的使用度公式为：词的使用度＝DE[,K]（或DI[,K]）×词的统计频次（取整数值）

语料库的建设和使用考虑到语言的“使用度”，使得科学性和真实性都大大向前推进了一步。所以一般的通用语料库都考虑了语料的分布，例如：由北京航空学院主持的“现代汉语词频统计工程”语料选择社会科学和自然科学各5类共10个大类，语料选取时间为1919年—1982 年，分为4个时期，样本总字数2500万字，社会科学占70%，自然科学占30%（注：刘源等《现代汉语词频测定及分析》，载陈原主编《现代汉语定量分析》，上海教育出版社，1989。）。国家语委现代汉语语料库选材年限划分为5个时期，语料由人文与社会科学类、自然科学类和综合类三大部分组成，人文与社会科学类划分为8大类29小类，自然科学类划分为6大类，综合类划分为2大类（注：刘连元《现代汉语语料库选材设计》，载罗振声、袁毓林主编《计算机时代的汉语和汉字研究》，清华大学出版社，1996。）。北京语言文化大学与香港理工大学合建的现代汉语语料库取材范围4大类，题材分布9大类，体裁分布4大类等等。

虽然散布和分布的考虑使得语料库的建立进一步科学化，但也仍然存在值得推敲的问题，主要的问题是：

1.各个分布点所选取的语料量的科学依据是什么？

例如：北航的现代汉语词频统计语料库中“新闻报道”占16·2 %，国家语委的语料库中“报纸语料”占13·79%，国家“八五”汉语语料库“报刊语料（含新闻报道和社论述评）”占14·3%，北京语言学院现代汉语语料库（1985）中“报刊政论语料”占24·39%，著名的布朗语料库和LOB 语料库中的“报刊语料（含新闻报道和社论述评）”分别各占17·6 %（注：黄昌宁《关于“八五”汉语语料库选材原则和语料分布的初步考虑》，载陈力为、袁琦主编《中文信息处理应用平台工程》，电子工业出版社，1995。）。

2.使用度是否已经完全真实地反映了语言的使用情况？

例如：前些年使用度较高的“粮票”“万元户”“大哥大”，现在已经用得不多了，前些年使用度不高的“证券”“股票”“保险”“互联网”“光盘”“手机”“锔油”现在用得正火，而现在用得正热的“房改”“下岗”“分流”“克林顿”“回归”过两年使用度又会如何？现在使用度还不高的“欧元”“埃居”“天网”“地网”“远程教育”等过几年又会怎样？

这是我们不得不认真面对的一个十分现实的问题。

七关于通用度与t阶频度

词语的“通用度”，是指词语在语言应用的各个领域里常用性的综合指标，它兼顾到词语的分布率和频率两个方面，并且把两者有机地结合起来（注：尹斌庸、方世增《词频统计的新概念和新方法》，载《语言文字应用》，1994年第2期。）。通用度的基本计算公式为：

T＝

其中，T为某词的通用度，k为抽样统计的全部语料的分组数，而且每组的语料数量大致相等，n[,1]n[,2]…n[,k] 为该词在各组中分别出现的次数。例如：

Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ 频度合计频度合计通用度

猿人 0

0 52

0 52欣赏35 33.9

花园 0 13

0 17 10 40花园40 23.7

欣赏 4

5 11

8 35猿人52 10.4

这里，ⅠⅡ…Ⅴ代表k组的各组，其下的数字是“猿人”“花园”“欣赏”3个词在各组中出现的次数，可以看到原来按一般频度高低排列的“猿人”“花园”“欣赏”3个词，考虑了分布之后，按照通用度重新排列的常用顺序正好与原来的顺序相反，是：“欣赏”“花园”“猿人”，这与人们的直接语感比较吻合。

特别应该指明的是通用度与使用度虽然都是考虑了语料的散布问题，但是通用度比使用度更进一步，尹斌庸、方世增在他们的文章中明确地指出：“通用度概念中所说的‘领域’，既可以指‘空间’，也可以指‘时间’，它既可以指一个词在共时的语言应用中各领域里的通用程度，也可以指一个词在历时的各个时期里的语言应用中的通用程度。”实际上就是考虑了词语在时间轴的一种散布。他们的一个经过时间轴散布的8千多词的“通用度表”（B表）在与一个仅仅是依据一般的频度取的8千多词词表（A表）进行对比分析时，发现A表有812个词语应该淘汰，532个词语应该补充，两者相加共有1344个词语有偏差，约占A表总词数的15%。例如：淘汰了“儒法斗争”“大鸣大放”“讲师团”“返潮流”等词语，补充了“感想”“常识”“记忆”“精彩”“争先恐后”“移风易俗”等词语。

通用度是一种扩展了的频度，尹、方两位先生引入一个 t 阶频度的新概念来定义扩展后的频度，t 阶频度的公式为：

公式右边的字母都代表正整数，左边的N[,t]（t阶频度）是一个正实数。

当t＝1时，N[,1]＝n[,1]+n[,2]+…+n[,k]，即N[,1] ＝N。所以，传统的频度称为一阶频度。

当t＝2时，

前面的通用度例子就是二阶频度。依此类推可以有三阶频度、四阶频度等。

t阶频度的基本性质是：假设n[,1]+n[,2]+…+n[,k]＝N，则有：

阶数越高，则分布对频度值的影响越大，频度值收缩越快。t 阶频度的理论，给词频统计工程找到了新的工具，使统计结果更加具有客观性、合理性和实用性。

八关于流通度

流通度与使用度、通用度是既有关系也有区别的。

流通度要考察语言在社会交际中的真实流通情况，流通度有自己的计算公式。决定语言的流通度的主要因素仍然是语料库的选材，选材不仅要考虑到静态的分布、散布，还要考虑这以外的动态因素，即要考察所选文本的发行量、发行周期、发行地区、阅读率等等。这些与社会语言学有关的因素都决定着文本真实流通程度，我们认为所谓“真实文本”的最重要最核心的问题是文本的“真实流通”。只有在流通度高的文本的基础上计算的使用度才是更加科学的使用度。通用度虽然比使用度进了一步，从空间分布推进到时间分布，但都是一种静态的抽样，没有考察“流通”这种动态。

我们前面已经说过“语言不是静止的，语言在运用中不断地产生变化，语言的生命力就在于这种稳定中的变化。这些变化的端倪就隐藏在大规模的真实文本（无论他们是经典的还是非经典的文本）之中，甚至就隐藏在那些非规范现象里。一切新词、新义、新用法一开始总是不在约定和规范之中的，不过一旦被大家接受并广为传播，最终将进入约定或规范，这就是语言发展的辩证法和规律。”语言学界所谓“被接受”或认可原则上就是“能不能说”，“能不能说”则主要是靠个人的“语感”，而语感历来是众说纷纭、莫衷一是的。

我们提出“流通度”概念，希望对语感加以界定、加以量化，使得“能不能说”、是否已经“被认可”“被接受”“开始传播”变得可以通过计算进行判定。进一步还想把“流通度”的知识或者说“流通度”的获取教给电脑，即使电脑获得“语感”，从而获得自学习功能。所以流通度理论不仅是在语言学方面使人的“语感”得以量化，更重要的是在信息处理方面有可能使计算机真正获得语言的自学习能力，使智能化进入一个新的发展阶段。

什么是“流通度”呢？简单而通俗的解释就是：“流通度”是一种语言现象的流行通用的程度。所谓“语感”主要是指对“流通度”的感觉。流行通用程度高，听得多，就感觉能说，否则，就觉得不能说。“语感”处于似有似无或不高不低的就“拿不准”。

例如：“打的”“锔油”“亮丽”“亮泽”这样的词语在开始听来（“流通度”不高时）一般很刺耳，认为是不规范的用法、生造词、方言词等等，但是听的看的次数多了（“流通度”高了），甚至出现“面的”“的哥”“今天下雨，‘的’不好打”之类，说明开始广为传播，就不再刺耳，甚至“面的”“锔油”已经被收入字词典。不仅对于新词、新义、新用法，流通度是判定的重要条件，就是对于方言词语、术语、文言词语、外来词语等是否进入普通话、是否进入通用、是否规范等，流通度也是极为有用的量化操作标准。这样语料的流通度的选择就显得更加重要。

书面交际的文本的流通度量化可以从以下一些方面进行：

1.文本的发行量

发行100万册和发行1000 册的文本对于社会交际和语言的影响力是绝对不一样的。《人民日报》《中国青年报》《北京青年报》与一份销量不大的报纸的影响力、一部畅销书和一部非畅销书的影响力是不言而谕的。发行量可以定义为“流通量”，“流通量”与流通度成正比。

2.文本的发行周期

同样是较高的发行量，日报、周报、月刊、季刊、年鉴发行周期大大有别，流通度乃至使用度显然完全不一样。发行周期可以定义为“流通密度”，发行周期与“流通密度”成反比，周期越短，密度越大，“流通密度”与流通度成正比。

3.文本的发行地区

同样的发行量、同样的发行周期，只在本地发行和全国发行其影响力显然也不一样。发行地区可以定义为“流通空间”，从某种角度看，发行地区也是一种分布或散布，是文本流通在地域方面的散布。“流通空间”与流通度成正比。

4.文本的阅读率

文本的流通度当然取决于流通量、流通密度、流通空间，但是一个读物印量再大，发行周期再短、发行地区再广，大家拿到手不读，也没有什么影响力，一些依靠权力派购的报刊就属于这一类。阅读率可以定义为“流通率”，阅读率高的文本才是真实流通的文本，才是对语言的发展有真正影响力的文本。目前的阅读率只能靠社会调查，将来网络电子版的阅读率的计算可能会更方便。

这样，我们可以有一个最简单最基础的流通度计算公式：

流通度＝流通量·流通密度·流通空间·流通率·…

实际上流通度还会有其他的参数，已经说到的流通量、流通密度、流通空间、流通率都还要有自己的计算公式以及一定的权值或系数，这是另外的论文的任务了。

九关于历时流通度曲线

流通度与使用度、通用度是有别的。流通度是对语料库的选材而言，或者说是对文本而言。而使用度、通用度是对词频统计而言，为了让词频对于选择常用词更加合理，提出使用度和通用度的概念，使用度考虑了词在不同的语料类和不同文本中的散布和分布，通用度进一步考虑了在时间方面的散布。当然不是仅仅词频具有使用度和通用度，语言的其他构成成分也有使用度和通用度。

文本的流通度当然也决定了词语等语言成分的流通度，语言成分的流通度又与它们的使用度和通用度有密切关系，只有真实流通并且流通度高的词语其使用度和通用度也才是真的高频的。

但是作为大规模真实文本的“语料垃圾”或者“语言统计垃圾”的治理，仅仅依靠共时的流通度的计算是不行的，我们必须要引入“历时流通度”这个概念。所谓“历时流通度”是要测查语言知识在一个具体的时间段中流通度的变化，绘制各语言现象的流通度曲线，这个流通度曲线就是决定一种语言现象是否开始“广为传播”，是否“被接受”的依据，是“被认可”或者被作为垃圾清除的分水岭。

实际上，我们也可以把历时流通度看作语言现象在流通时间中的一种分布或散布，这就是语言研究时间观的改变。今天语言现象在某些方面的变化和测查手段的更新已经允许我们进行这种时间观的改变。

在宋柔等人的实验中二字词语接续对“禹作”出现300多次，但是仍然被作为没有接续关系的“垃圾”一类，他们是人工操作处理的。实际上如果有“历时流通度曲线”，就可以清楚地看到流通度的大起大落，因为“禹作敏”作为政治舞台上的过客很快就销声匿迹了，这种词语从历时流通度的角度看只是一种历史上的“过路词语”。郭冶方早在80年代曾提出过“汉字流通频度”的概念，并对汉字使用的“时代特征”和GB字符集在“流通频度里的应用”进行过分析（注：郭冶方《新闻信息汉字流通频度统计》，载陈原主编《现代汉语定量分析》，上海教育出版社，1989。）。只是他那时不可能提到语料的流通度和历时流通度的曲线，也没有提出流通度的计算公式，并且仅仅着眼汉字的流通问题。不过，那已经是很了不起的了。

苑春法、黄昌宁等人在1995年著文谈到“第三代语料库”的问题，介绍了美国计算语言学学会倡议的数据采取计划ACL／DCI。认为这一代语料库首先对所有可以得到的语料以文本形式存储起来，它的容量一般为一亿词次以上，21世纪可望达到万亿词次的量级（注：苑春法、黄昌宁等《新一代语料库的建设与管理》，载陈力为、袁琦主编《中文信息处理应用平台工程》，电子工业出版社，1995。）。该文主要具体谈及新一代语料库的建设及管理，没有过多探讨语料库建设的理论问题，但实际上已经将下一代语料库的建设提上议事日程。

本文仅从语言学的角度，基于目前信息处理的水平和今后的动向，在回顾此前语料库建设的前提下，宏观探讨几个与语料库建设有关的理论问题，或许对下一代的语料库建设有所裨益。

标签：自然语言处理论文; 语料库论文; 文本分类论文; 文本分析论文; 现代汉语论文; 语言学论文;

关于大规模真实语篇语料库的若干理论思考_自然语言处理论文

猜你喜欢