人工语言与自然语言融合理论的实现与应用_自然语言处理论文

人工语言与自然语言融合理论的实现与应用_自然语言处理论文

人工语言与自然语言融合理论的实施与应用,本文主要内容关键词为:自然语言论文,理论论文,语言论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

情报检索语言分为人工语言和自然语言两个大类。本文所说的人工语言与自然语言的融合,指的是在人工语言中增加自然语言成分,自然语言适当引进人工语言的原理和方法,两者取长补短,互为表里,互为主辅,最后完全融合,使之都能独立进行标引和检索,形成一种既具有自然语言的优点又揉合了人工语言优点的高级情报检索语言。[1]换一个角度说,就是在以类名(分类号)、主题词为代表的人工语言和以关键词为代表的自然语言之间建立对应关系,实现情报检索语言之间的相互转换,相互控制。

1 人工语言与自然语言融合理论的提出

1.1 在印刷型文献的手工检索阶段,人工语言较之于自然语言有着不可替代的优势

在基于印刷型文献的手工检索阶段,尽管文献的数量有限,但是基于自然语言直接用于情报检索时不可避免的缺点,如词汇量大、词汇的模糊性和不确定性、词汇的多义性、同义性和近义性等,运用自然语言进行情报检索,无论是从检全率还是从检准率来说,其结果都差强人意。人工语言就是为了弥补纯粹的自然语言检索的不足而创制的。人工语言通过控制同义词和近义词,区分同形异义词,把语义相关的词联系起来等手段来消除词汇的模糊性,从而达到满足多种检索要求的目的。与纯粹的自然语言相比,人工语言的优点是显而易见的,正是因为这样,人工语言在手检时代在情报检索领域处于主宰地位。

1.2 在数据库的计算机和网络的信息检索阶段,人工语言的局限性凸显,人们迫切呼唤自然语言的“回归”

1.2.1客观条件[2]

(1)文献数量海量增长。这里的文献是指广义的文献,是基于科学技术、包括计算机技术高度发展从而带动起来的以多种介质为媒体的、包括网上资源在内的各种文献。如果文献标引还继续沿用查人工受控词表严格采用人工语言标引的模式,无法化解标引速度慢与文献海量增长这个事实间的矛盾。

(2)科学技术,尤其是计算机技术和网络通信技术的发展及其在情报检索领域的应用为自然语言的“回归”提供了必备的客观条件。

(3)自动标引技术研究应用的深入和完善,为自然语言提供了一个重新施展身手的技术平台。

(4)网络检索的发展使居家检索、办公室检索成为现实,呈多层次、多元性结构特点的情报用户渴望摆脱人工语言的束缚和专职检索人员的介入,而使用他们熟悉的、符合他们思维习惯的自然语言来直接表达他们的检索要求,获取他们想要的信息。

1.2.2 主观条件

人工语言的局限性从它诞生之日起就客观存在,只是在当时的手工检索条件下较之于自然语言,它的确优胜,故其局限性还没有明显凸现而已。随着计算机技术和网络技术的飞速发展,人们通过对比研究发现人工语言的某些缺点正好又是自然语言的优点。在网络环境下自然语言无论是在反映新学科新事物各概念表达的准确性方面,还是在标引速度和用户表达检索意图等方面,都恰恰弥补了人工语言由于“受控”而造成的缺陷。

1.3 人工语言与自然语言融合的必然

虽然机检时代为自然语言提供了重新施展的空间,但由于自然语言作为一种检索用语言与生俱来的弱点,决定了它不是一种尽善尽美的情报检索语言,若要以它来完全取代人工受控语言,至少在现阶段来说是不可能的。况且,若采用完全不受控制的纯粹的自然语言检索,那么情报检索不是又重新回到起点,反而更是情报检索技术的倒退了吗?再则,人工语言尽管有局限性,但并不是没它已完全失去存在的必要和发展的空间,而只是说它在情报领域担当主角还是配角的问题。

两种语言天然的优势互补决定了它们谁也取代不了谁,它们只有互相兼容,互相结合,其最高境界是完全融合,形成一种既具有自然语言优点又具有人工语言优点的高级情报检索语言。

2 人工语言与自然语言融合理论的应用与实践

人工语言与自然语言应该而且应当可以融合,这是不容争议的。张琪玉先生认为在这两者融合的新型的情报检索语言形成之前的现阶段的现状可以说是三种情况并存:(1)是人工语言与自然语言在一个检索系统中并用;(2)是自然语言适当引进人工语言的原理和方法;(3)是人工语言增加自然语言成分。[3]实际上(2)和(3)说的是同一个问题,即人工语言与自然语言的融合。同时,大家普遍倾向于根据人工语言的优点及原理对自然语言进行适当的控制是一种较好的方法,并展开了大量的研究与实践。

2.1 书目数据库中人工语言与自然语言的并用

书目数据库采用中文图书机读目录,即CN-MARC格式,其中606字段采用人工语言(主题词)标引,而610字段采用自然语言(关键词)标引。这里的关键词是指未经规范化处理的主题词表以外的非受控词,多取自文献的题名、文摘、章节或正文。610关键词字段是在规范性主题词无法准确揭示文献主题时采用,情报用户可通过这一字段用自然语言作为检索人口进行主题检索。书目数据库是一种人工标引的以“前控”技术为主的检索系统模式,610关键词字段的启用在一定程度上弥补了受控人工语言的不足,两种语言在书目数据库中的并用满足了用户多种情报需求。但这种人工标引模式人为因素较重,受制于标引人员的责任心、理解力、判断力等,在人工语言不能准确全面揭示文献主题而标引人员又没有作关键词标识时,检索用户很难达到检索目的。

笔者在这里用了“并用”而没有用“融合”一词,是因为在书目数据库中,人工语言(分类号与主题词)与自然语言(关键词),其检索功能是互相并立的,而不是融合为一体的。在两种检索语言、三种检索标识之间并不存在相互对应关系。当然主题词与分类号两种人工语言之间存在对应转换,但主题词与关键词、分类号与关键词之间没有相互转换的关系。[4]

2.2 全文数据库中人工语言与自然语言的对应转换

作为文献数据库的另一种类型,全文数据库是一种存贮文献全文或其中的主要部分的源数据库。在全文数据库中,其情报信息的组织、标引和输出采用的是自然语言处理系统技术,即一种以相关排序和智能文本处理为特征的自然语言处理系统。[5]这种处理系统虽冠名为“自然语言”,但毫不例外地借用了人工语言的控制原理和方法,引入了人工受控词表如后控词表、人口词表等,通过自然语言与人工语言的对应转换,有效地把文本中分散的概念联系起来,并把文本中的垃圾信息剔除开,从而为用户提供以自然语言作为情报提问输入和对话接口的检索方式。由于对文献基本上不作标引或只是用自由标引法赋予自然语言词作自由标引,自然语言处理系统在检索时可以直接用自然语言词进行匹配查找,并且同时具有文献处理成本降低、文献处理速度加快、文献处理难度减少等优点,特别是对新出现的事物和很少文献论述但其名称确定的事物其检准率较高。但也正因为如此,自然语言检索的误检率也比较高。[6]

2.3 现阶段人工语言与自然语言融合的实施手段

我们知道,情报的组织、标引与检索是一个不可分割的过程。在这个过程中,组织和标引文献是手段,检索文献才是最终目的。现阶段我们对文献进行处理是三种方式并存:(1)是标引控制+检索控制;(2)是标引控制+检索不控制;(3)是标引不控制+检索不严格控制。(1)和(2)大多为受控语言系统所采用,第(3)种方式则为自然语言系统所专用。实际上,在情报检索系统中,受控语言系统与自然语言系统之间的界限已明显淡化;并且,无论是受控语言系统还是自然语言系统,都离不开“词汇控制”四个字,其最主要的区别是在控制时间的前后和控制程度的强弱上。

2.3.1 人工语言的自然语言化——自然语言接口用对应表

为了适应网络环境对文献检索的要求,人工语言本身也在不断地进行优化改进,如由先组式语言向后组式语言发展,同时基于概念的可分析性和可综合性的原理,大大增强了人工语言的组配功能等。优化的目的是为了有效提高人工语言的表达能力、聚类能力和匹配能力。但人工语言的这种自身的努力与改变仍然不能跟上时代的步伐,它必须借助外来因素的帮助。

最通常的做法是在情报检索系统之前安置一个自然语言语词与情报检索语言语词的对应表,其前端为自然语言的语词,后端为人工语言的语词。对应表实际上就是人口词表的机读版,它除了把人工词表编制时因时间、篇幅的限制,不能作为正式主题词,即落选词、不通用的词、各种形式的同义词和同义词级、被上位词替代的过于专指的词收入以外,还可以随时把代表新学科新事物的新词语收入作为入口词。[7]词表的编制可以由机器自动完成或由人工参与、机器辅助来完成。作为情报检索系统的一个附加部分,对应表的加入并不影响原有的标引工具和标引数据。实践证明,编制自然语言接口用对应表是人工语言自然语言化中最简化可行的一种方式。它缓解了人工词表收词不全给检索带来的困难,提高了标引的一致性和检索效率。

2.3.2 自然语言检索系统的专用词表——后控问表

作为实现人工语言与自然语言融合的一条通道或者说是接口而嵌入自然语言检索系统中的后控词表,它与自然语言接口用对应词表的相同之处在于其性质,即是一种转换的工具,一种扩检的工具,都与入口词表相类似。与自然语言接口用对应表不同的是:(1)自然语言接口用对应词表是安装在情报检索系统之前,而后控词表是安置在自然语言检索系统之后,即系统的输出阶段;(2)自然语言接口用对应词表一般是在现有的人工词表的基础上,通过增加入口词来编制;而后控词表一般是在检索系统中实有的自然检索标识的基础上参考现有各种词表编制;(3)与自然语言接口用对应词表相反,后控词表中,标引-检索用词是自然语言,非标引-检索用词却是人工语言;(4)后控词表在词汇控制的程度上并不十分严格。后控词表的应用,使用户既可以利用文献中的自然语言词进行检索,又可以用词表中的词族进行族性检索,兼有人工语言与自然语言的长处,是目前图书情报界公认的最有发展前景的检索方法。

2.3.3 前控与后控技术双管齐下

这里的前控与后控技术双管齐下,指的是粗略标引+自然语言检索+后控词表控制检索结果。

我们知道自然语言本身存在一词多义、同词异义的现象。一个词语,在某个学科领域代表某个含义,但在另一个学科领域,它可能又被赋予了新的含义。就以“自然语言”这个词语为例,它在语言学这个学科与在情报科学学科中的内涵肯定就大相径庭。粗略标引,即建立一个结构简单明了的知识分类体系或主题索引,宏观上控制网上文献资源。用户在查询时,先选择大致的类目或主题,然后再进一步查询,可以减少词义混同现象;还可以加上简单的地理、时间、文种的控制,从而提高文献的专指度。目前许多数据库,如中国学术期刊,就分为政治经济法律、医药卫生等多个大类;而许多网上数据库或搜索引擎则是按主题归类,分为娱乐、健康、汽车等。粗略标引与后控词表结合,由于粗略标引是一种不太严格的控制方法标引,所需的时间不多,系统把较多的功夫下在输出阶段的检索和筛选上,即运用后控词表控制检索结果;而用户仍然用自然语言作为检索入口,而且效果更好,因而是一种检索用户与检索系统都相得益彰的变通方法。[8]

2.3.4 数码链接关键词词表法

由于自然语言对应词表多按字顺排序,不可能象分类语言那样通过表现等级关系清楚地显示主题之间的关系,造成了检索策略构造困难,数码链接关键词词表就是为了解决这一困难以后控词表为蓝本进行优化改进而形成的。其特点是:(1)不设控制词,赋予每一个关键词一个词号,而同义的关键词用同一词号链接,那么词号与关键词之间可能是一对一或是一对多的关系,通过词号与关键词之间的数码链接,很好地解决了由于同一主题文献多种表达方式即多词一义和词义混同而造成的漏检和误检问题,有效地提高了查全率;(2)为便于扩检与缩检,以较简便的词族表取代分类表或范畴表。基于关键词这种自然语言之间存在着的等级关系、等同关系,与之相链接的词号也相应地设置不同的级别;(3)编制各种注释来指引用户检索文献;(4)尽管结构并不十分完整,但由始至终把检索用户的需求摆在第一位,实用性强。[9]

3 人工语言与自然语言融合遭遇的难题

尽管人们致力于人工语言与自然语言融合的研究,并把自然语言检索作为研究的侧重点,但迄今为止,仍面临着以下几个难题:一是如何从自然语言文本中抽出最能准确、充分表达文献有价值内容的词,以及这些词与检索课题有效匹配的问题。这个问题的复杂性在于文献作者用词无明显的规律性,以及作为人类社会现象的自然语言不可能用纯自然科学的方法去研究解决;二是克服自然语言由于不规范和缺乏语义关联性而检索不利的问题;三是汉语不同于一般的拼写文字,没有自然切分的标识,而且中文分词并不单纯是字符层面的处理,更多的是语义层面的处理,所以对中文来说还有一个自动分词的问题。[10]

抛开第三点不谈,作为人工语言与自然语言融合的阶段性成果的入口词表和后控词表,它对解决上述问题的作用如何呢?后控词表作为入口词表的一种,它是一种单纯的基于列表式的词表,其结构是一线性或多线性的,而人的思维能是非线性的、发散性的。这种线性结构决定了后控词表控制方式只能在字面层次上而不是从概念内涵上满足用户的要求,因而不能有效地解决自然语言文本与检索课题的匹配问题。在接近人脑思维方式的智能情报检索系统成功研制之前,后控词表的编制需在以下几方面下功夫。其一是对自然语言控制规范的“度”的问题,控制得过多或过少,都会影响自然语言检索的效果;其二是词表的编制模式问题,从后控词表有关方面的研究理论、研究思想看,其编制思想、编制手段和编制技术跳不出《中国图书分类法》、《汉语主题词表》的框框,都是在这两表的基础上加以改进而成。如何借用人工语言的理念,另辟奚径,在词表的构造上实现自动化,组织形式突破线性化,实现真正意义上的概念语义检索,是关系到人工语言与自然语言实质性融合的关键性问题。[11]

尽管人工语言与自然语言的融合理论的实施与应用在计算机网络的强力支持下有了长足的进展,但实际上现阶段人工语言与自然语言的融合是以自然语言词表,主要是后控词表或是对后控词表优化改进的词表为接口进行的,可以说现阶段仅仅处于两者融合的初级阶段,离真正意义上的人工语言与自然语言的融合还很远很远……

收稿日期:2004-05-10

标签:;  ;  

人工语言与自然语言融合理论的实现与应用_自然语言处理论文
下载Doc文档

猜你喜欢