自然语言的应用研究,本文主要内容关键词为:自然语言论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
摘 要 作为情报语言学研究对象之一的自然语言,在情报检索中的应用正日趋广泛。本文将其与规范语言进行了比较,重点讨论了其应用中的三个问题,自然语言标引、标引检索用词表及检索语言整体化趋势,并就其未来发展作了阐述。
主题词 自然语言 规范语言 情报检索
1.自然语言与规范语言
自然语言(natrual language )是相对于规范语言(Controlledlanguage)而言的,其本质特征是不受控制[1]。 从情报检索的发展历程来看,作为语言保障的规范语言是对自然语言实施控制而出现的;而情报检索的进一步发展必使得曾被否定的自然语言重新得以肯定[2]。
1.1规范语言的产生
规范语言是适应情报检索需要而创制的一种人工语言,它在手工检索条件下产生,并得到了充分发展及应用。
如历史最久远的分类语言,采用比较抽象的类号来表达概念,组织检索系统。它具有良好的系统性,适于学科或专业出发的族性检索。同时,随着学科发展及用户需求的变化,分类语言也由等级体系型日益向分面组配方向发展。
而规范语言的另一重要分支——主题语言,则以自然语言为基础,经过人为的形式控制(词量、词形、词义及词间关系等),用来直接表达主题概念。50年代由于计算机检索的迅速发展,主题语言也在经历了元词语言的短暂应用后进入叙词语言的大普及阶段。作为吸取以往所有规范语言优点的叙词语言,适应了标引、检索的多种要求,是在机检条件下效率较好的一种规范语言。60年代,在国外被称为“叙词表”时代,其应用达到了顶峰。
无论是哪种规范语言,为了达到简明专指地进行标引及全准便捷地实现检索的目的,都对人们日常使用的自然语言进行了种种转换及限制处理。如分类语言是建立在代表主题概念的一系列类目基础上的号码体系,而主题语言则是有选择并加以规范化的自然语言的一个子集。这在克服了自然语言的两大不足[4]: 概念与语词非一一对应,及概念关系的隐含性的同时,也不可避免地导致了规范语言自身的局限,即表达概念的受限,词汇转换的失真及标引、检索前处理量大且难以达到统一等。
七、八十年代由于计算机软件硬件条件的支持,国外在联机检索的基础上进一步向网络化发展。90年代初以来各国的信息高速公路建设更是方兴未艾,如火如荼,国内机检水平也在迅速提高,并与全球的大趋势相合拍。在这种形势下,作为情报检索语言保障的规范语言因其固有的人工性、受控性,越来越难以满足大量、迅捷、自由、多样的检索要求,其得不偿失的内在不足更趋明显化。
1.2自然语言的优势及当前信息条件下对其的需求
自然语言作为日常使用的语言,无疑最符合人们进行情报检索的习惯,随着机检的高度发展,应用条件的日益完善,自然语言有可能扬长避短,重新发挥其固有的优势。
①直接采用文献作者使用的自然语言,标引工作就可以摆脱规范语言的了解掌握,以及繁复的分析转换过程。这大大降低了标引的脑力、体力负担,加快了标引速度,又减少了表达概念上的失真和不一致。
②直接以日常使用的自然语言进行情报检索,符合检索者的习惯,简便易行,对于日益增大的普遍检索用户群而言更是如此。
③采用自然语言标引与检索,可达到足够的专指度,且不存在类目或词汇迟滞的问题。
④自然语言具有通用性,不存在规范语言的统一兼容问题,在使用自然语言的各数据库间可实现标引、检索成果的共享。
⑤自然语言标引为计算机的自动处理创造了条件,其发展将可能取消费时、费力的人工标引。
因此自50、60年代进行的二次克兰菲尔德得出最少实施控制的系统较之其它系统优越的结果后,自然语言检索系统得到了迅速发展,发达国家的联机检索已从只能利用受控的叙词语言进行布尔逻辑检索的第一代发展能利用自然语言进行语境逻辑检索的第二代[5]。
2.自然语言在标引检索中的应用研究
如前所述,自然语言较之规范语言更适于当前的信息状况及机检条件,并且数十年来在实践中也得到了相当的应用和发展。同时,由于它本身的不足,以及使用条件的不断变化,自然语言也面临着一些理论及实践方面的不足。以下分三方面进行论述。
2.1自然语言标引问题
按照兰开斯特的划分,自然语言标引可分为三种形式,人工标引(含赋词标引和抽词标引)、机器标引(抽词)和不标引(又分全文本和部分文本)。在实际应用中,人工标引虽然效果好,但处理速度较慢,因此较常用且带趋向性的仍是自动标引(即上述的后两种形式)以及部分人工的机助标引。目前国内已实现的自然语言标引方式有以下几种。
①无标引,即全文单汉字标引
这是与全文检索技术相对应的一种典型的自然语言标引方式。它比较完全地实现了自动化,且标引深度大,检索方便灵活,可以检到一些细节性、边缘性的信息。但由于以字为对象进行处理,易产生虚假组配,检索噪声大而筛选负担重,同时检全率较低,扩、缩、改检比较困难。
②基于题名或文摘的抽词标引
这种方式应用较早,至今仍在汉语文献自动标引中占有较大比重。它一般需构造一个抽词词典,然后根据各种算法用文献中的自然语言匹配词典(或相反),匹配或成功即成为标引词。由于采用先组式标引,不像单汉字标引需对字的字间关系进行组配,因此检索速度快。但它所能处理的自然语言受到抽词词典的构造、维护状况限制,且纯机械的抽词也无法完全避免误差[6]。
③基于题名的增补关键词标引
关键词标引是适应科技文献数量剧增及快速简便的检索需要而产生的,早期主要基于题名的情报性,直接抽取其中的自然语词(关键词)并加以轮排而成。然而题名在表达概念的准确性、专指性、完备性方面存在差异,对非科技文献犹甚,因此出现了从文摘、正文甚至著者等方面增补关键词的改进方法,这同时也增加了人工辅助的成分。
①词串标引
词串标引是在对自然语言的理解基础上,由人将用自然语言书写的主题描述句标记成形式化主句(或称词串),然后由机器自动完成相应的索引款目[7]。 国外60年代末70年代初词串标引发展迅速,问世了一批进行词串标引的机编索引系统如PRECIS、ASI、NEPIIIS等。其中最著名的PRECIS 标引专指度高,轮排准确,款目与自然语言贴近。汉语PR-ECIS是对其职能号、使用规则进行修正调整后专用于汉语文献的主题标引系统,与之配套的微机软件亦已研制成功。
2.2自然语言标引与检索词表问题
自然语言检索的理想模式是标引、检索阶段均使用自然语言,且不使用任何控制手段。然而这将造成检索策略构造困难、检全率的问题,同时也在不同程度上存在一些影响检准率的因素[8]。同时, 由于计算机对自然语言的理解力以及汉语语词切分、识别尚存在相当距离,纯自然语言自动标引与检索未获真正意义上的推广及使用。
这种状况使得自然语言也不得不研究吸取规范语言的某些控制手段或指导思想,以期在保持自然语言的基本特征及固有优点下,最大限度地提高标引、检索效率。由此产生了各种自然语言标引、检索词表(典)。
①后控制词表
以往的规范文语言词表是在文献或情报输入时就对索引词先行加以控制(受控标引),因此又称为前控词表。由于它的控制带有一定的粗泛性、滞后性,有时甚至失控,因而人们开始尝试使用自然语言(自由词)进行检索,但这又造成了与受控语言的脱节。于是,在标引时使用自然语言,在检索时实施一些不严格的控制,这就成了后控制词表的最初思路。
1959年美国匹兹堡大学法律中心采用一种同义词表来辅助其法律全文数据库的检索,它只是简单地将相同含义的词编辑在一起,作为一种自动扩检工具而获得了相当好的效果。
国内在这方面的研究始于80年代初,近年来则正逐渐形成理论和实践热点,出现了一批实验或实用性后控制词表系统。如基于用户提问和用户建议的自学后控制系统,基于字面相似原理的后控词表辅助编制系统,基于词对相似和词对共现原理的后控制词表系统以及基于分面分析的机辅后控制词表系统等[9]。
后控制词表通过罗列自然语词来提供一种转换或扩检系统,其控制效果由词表对自然语言词间关系的显示形式、种类及质量所决定。它作为利用规范语言的原理和方法编制的自然语言检索用控制词表较好地减轻了标引和检索负担,又同时保留了自然语言的优点,其应用前景十分广阔。
②入口词表
入口词表的编制是为解决标引和检索的入口词问题,最初的出发点是针对规范语言词表而言的。它解决了词表词量有限的问题,并提供了规范语言与自然语言的接口。随着情报检索的发展,入口词表的应用范围也有所拓展,可以认为标引词、检索词表达的变化以及查找途径的增加都可称为入口思想的反映。
常见的入口词表有与规范语言词表同一的入口词表、专门编制的入口词表等,截词检索从其功能而言也是一种无形的入口词表。另外,词表的轮排索引提供了从词素出发的多个入口,也是入口词表的一种重要形式。
③切分词典
这是针对汉语分词的困难,而构造的一种机内词典,在自动标引时作为切分抽词的辅助工具。其中又可细分为主题词词典、关键词词典、部件词词典、非用字后辍表等。
上述切分词典均在自然语言自动标引中得到了应用,但仍存在一些需完善之处。如保证词典抽词的准确性、便检性,切分规则的完备性以及提高处理隐含概念、缩略语等特殊语言现象的能力。
2.3 自然语言与规范语言的结合使用——整体化趋势
自然语言与规范语言的构成特点决定了它们在检索效率方面具有互补性,如果能扬弃二者的优缺点并将之有机结合,从理论而言无疑将取得最为合理优良的检索效率。
从实践方面来看,国外自70年代中期即已显示了将两种语言结合使用(即所谓整体化语言)的显著趋势。在使用整体化语言的混和型情报检索系统中不仅标引相对经济、明确,检索效果也更为理想。根据我国计算机检索的仍以规范语言人工标引及传统情报检索为主的现状,采用整体化语言应当是提高机检水平,逐步实现向自然语言过渡的一种现实而有效的途径。
整体化语言的结构与功能可见下图:[10]
规范语言
在一个完备的整体化语言系统中,可以同时用分类语言、主题语言和自然语言标引文献,提供多种检索入口。此外,由于分类号联连了类目与叙词,同义词表勾通自然语词与叙词,就可以通过计算机实现三者之间的自动转换,提高标引与检索效率。
实际应用中,往往采取其中的一种或二种的结合,比如:
①为规范语言词表增加自然语言入口词
即提高词表的等同率,提供更多的标引检索入口。国外词表80年代以来入口词增长较快,一般等同率均超过了50%,而国内词表则多在20%以下,自然语言入口词明显偏少。
②专用入口词表
由于入口词带有指向、转换作用、因此词量越大,标引检索时选词的时间、智力消耗就越少,一致性也更多,这就产生了专门编制的入口词表。如MEDLARS 数据库系统的入口词表,荷兰Excerpta Medica 数据库系统的同义词表等。它接受用户的自然语言输入,然后自动转换为相应规范语言。
③混合词表
它包括一个比较粗略的受控词表或类表,仅构成一个大致的上层结构。标引时首先使用粗泛的叙词或类号,再加上直接取自文献的自然语词。检索时,自然语词保证了一定的专指度和方便性,而带控制的词表(类表)则限制了自然语言的使用范围,又方便了族性检索。
④自然语言标引,后控制词表检索
即在标引时不进行任何控制,直接选取自然语词,待词汇积累到一定数量时再进行一些后控制处理。主要在检索输出时对同义词以及语义句法上的相关词进行控制,以实现自动扩检,提高检全及检准率。
3.自然语言应用的未来发展
以上对自然语言在情报标引与检索中的应用作了回顾及有关重点论述,以下再就其未来发展作几点说明。
3.1计检、网络化条件下, 自然语言标引与检索将成为主流模式
自然语言的作用被重新肯定,始于计算机检索的发展所创造的有利条件,因此机检条件的进一步完善,如对自然语言的理解识别、存贮介质的多样化、大容量化以及超文本、多媒体技术的发展,都在客观上为自然语言的普及应用创造了客观物质条件。
另一方面,信息日益渗入人们的日常生活及各行各业,情报检索的需求也在激剧增加的同时呈现出新的趋势,自然语言普及、方便、通用的特点显得尤为突出。在各国信息高速公路普遍联网的将来,面对量大、时新的各类数据库、情报源,特别是日益增加的全文信息,规范语言将不得不让位于时效、功能更强的自然语言。
3.2自然语言的应用仍然离不开控制原理
从自然语言与规范语言的结合使用,到利用规范语言的控制原理来提高自然语言标引与检索效率,都可以看出,纯自然语言的应用有其不可克服的缺陷。
而目前及未来情报检索的发展又使得人们在追求优良的检索效果及合理的费用——效益比中更多地选择自然语言。正是这种矛盾决定了自然语言应用将保持规范语言中的基本原理——对检索的控制,并将充分吸取其发展过程中成熟而有效的控制手段、控制技术和控制方法。当然,控制的方式会有所变化,但通过控制提高检索效率的根本目的不会改变。
3.3情报语言学研究对自然语言应用的相应保证
如果说七、八十年代情报语言学的主要研究对象是规范语言,同时研究自然语言的应用问题的话;那么进入90年代特别是今后的时期,其研究重点无疑应当有所转移,并从理论方面为实践提供基础及保证。
①以自然语言应用为中心,研究其应用条件、检索效率、成本效益等现实问题;并从对某种具体语言的结构、功能、特点转向对更为抽象的控制手段、思想的研究。
②探讨情报语言学各种原理、方法在自然语言中移植的可能性及实现途径,并从实际需要出发确定理论重点,进而指导实践的发展。唯其如此,自然语言才可以迅速地完善,更好地服务于当今的信息化社会。