网络环境下分类法一体化的发展_自然语言论文

网络环境下分类法一体化的发展_自然语言论文

网络环境下分类法主题法一体化的发展,本文主要内容关键词为:分类法论文,环境论文,主题论文,网络论文,法一体化论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

分类号 G23

1.分类法主题法一体化检索的发展

1.1分类、主题检索语言的特点

将表示各种知识领域(学科及其研究问题)的类目按知识分类原理进行系统排列并以代表类目的数字、字母符号(分类号)作为文献主题标识的一类情报检索语言,亦称分类法。使用分类检索语言建立的文献情报检索系统能够使检索者鸟瞰全貌、触类旁通,对系统地掌握和利用一个学科或专业范围的知识和情报十分方便、有效。

分类检索语言可分为等级体系分类语言(等级列举式分类法)和分析一综合分类语言(分面组配式分类法)两种。等级体系分类语言属于先组式语言,分类体系明显,容易理解,但因其采用列举式列类方法和类目的单线排列方式,所以存在着不能无限容纳概念的局限性和集中与分散的矛盾。分析一综合分类语言就本质而言属于后组式语言,不过通常采取先组散组式的使用方式,它基本克服了等级体系分类语言的缺点,但分类体系不够明显,较不易理解。

使用语词标识的一类情报检索语言,亦称主题法。其基本的、共同的特点是:①用自然语言中的名词术语经过规范化后直接作为文献主题标识,直观性好;②按字顺序列排列标识,检索者较易使用;③具有按文献主题(文献所论述的事物)集中文献情报的功能,对有关某一事物的检索效率较高;④用参照系统及其他方法间接显示文献主题概念之间的关系,其系统性不及分类检索语言,对一学科或一专业文献作全面、系统的检索比较困难;⑤较接近自然语言,所以较易与自然语言结合使用。

1.2分类法主题法的结合——分类主题一体化

分类法和主题法的发展清楚地说明了二者在相互渗透和相互融合。分类法采用了一系列主题法的技术和手段,诸如编制分类表字顺索引,在分类表中按主题事物集中列类,对类名的词形或词义的控制等。同时主题法也引进了一系列分类法的技术和措施,诸如在标题表中设置副标题和倒置标题,设置“隐蔽的分类体系”——参照系统,在主题词表中引入概念成族和字面成族的方法,编制范畴索引、词族索引和轮排索引等。这些方法使分类检索语言和主题检索语言各自的功能得到了改善,但它们仍不能实现两种检索语言的有机结合,即分类主题一体化,都只具有单一的分类标引或主题标引的功能。

1.2.1分类主题一体化词表的类型

为了寻找分类法和主题法之间的共同点,60年代中期以后,国外对分类表和主题词表进行了大量的抽样调查和试验,并在此基础上开始了分类法主题法一体化(以下或称分类主题一体化)的理论研究。

分类主题一体化词表大致可以分为以下三种类型:

(1)分面叙词表。如《教育主题词表》、 《社会科学检索词表》、《音像资料叙词表》等。这可以说是最典型的一体化词表。它通常由一部分面或半分面的分类表和一部字顺叙词表组成,有的还附有轮排索引及英汉对照索引。

(2)分类主题词表。又称为分类法—主题词表双向对照索引, 如《中国分类主题词表》、《中图法教育专业分类法》等。我国最早的分类表—叙词表对照索引是为了调查《中图法》与《汉表》之间的对应关系,寻求实现分类语言和主题语言之间的兼容及互换而编制的。这些对照索引通常由分类号与主题词对应表、主题词与分类号对应表两部分组成。前者为每个类目列出其对应的一个或多个主题词或词串(即主题词的组配形式);后者为每个主题词列出其对应的一个或多个分类号。这种对照索引好似一部体系分类表与一部字顺主题词表的合璧,但加上互相对应的部分以后,它的功能就超过了这两部分功能的总和。

(3)集成词表。 它是“将某些特定主题领域的若干叙词表和分类法汇编成一种集成词表”,用于联合分类标引和主题标引,实现分类语言与主题词语言之间的兼容及互换。

1.2.2一体化词表的优点

20多年的实践证明,这种分类主题一体化检索语言具有下列多种优点,主要是:

(1 )用户可以在一个检索系统中同时进行字顺主题查询和系统分类查询,可以提高检索效率;

(2)标引人员可以同时完成文献的分类标引和主题标引, 两种标引数据可以互相转换,从而节省人力和物力。

(3)用分面分析的方法编制分类输入数据表, 可以保证编表选词的全面性和均匀性,保证构造词间的关系(即各种参照)的完整性和准确性;

(4)用手工拟定的分类表通过计算机自动生成字顺主题词表, 可以提高编表的速度和质量;

(5)检索语言的管理工作可由一个机构统一进行, 而不再需要由二、三个机构来分别维护;

(6)成为不同检索语言之间兼容互换的工具。

2.网络环境下分类法主题法一体化是必然发展趋势

传统情报检索语言(Information Retrieval Language)在情报检索中起到语言保证作用,因为它是标引人员与检索人员的共同语言,起到沟通情报的存贮和检索两个过程及标引人员和检索人员双方思想的桥梁作用。情报检索语言也被称为人工语言、受控语言,是根据情报检索的需要而创制的人工语言。它是从自然语言出发,根据情报检索的实际需求,辅以一定的标引规则对自然语言事先规范而形成的一种特有语言,其实质是表达一系列概括文献情报内容的概念及其相互关系的概念标识系统。按其结构原理,可分为分类检索语言(分类法)、主题检索语言(主题法)和代码检索语言;按其标识的组合使用方法,可分为先组式(列举式)语言和后组式(组配式)语言。

目前,网络信息检索工具主要是基于范畴层次(List-based Search Engines)的搜索引擎和基于语词层次(Words-based Search Engines)的搜索引擎。著名的浏览型网络信息检索工具如Yahoo、Eblast、Galaxy和大部分综合型搜索引擎实际上都是自觉或不自觉地借鉴了传统情报检索语言组织和揭示信息的思想,Altavista集成的Askjeeves就是自然语言搜索引擎。

传统检索语言经过网络适应性改造后,能够成为目前及将来相当时期内最主要、最重要、最有效的网络信息资源组织的方法,依然能为网络信息检索提供语言保证。

2.1 网络环境下的分类法检索语言

网上现在主要有两类分类体系:一类以传统分类法的简本为结构,类目级别一般为二、三级,基本保留原有体系,主要用于学术性信息资源的组织与查询;另一类是指南型分类体系,其设计主要用于从普通用户出发,用于通用性网络信息资源的组织与查询。它根据需要,构建新的多维分类体系,揭示多维信息空间联系,适合网络环境,并且积极探索新的改进技术和方法。尽管类目的划分和设置存在许多不合理的地方,但它多是“应需而生”,具有很强的适应性和实用性。在相当长的时间内会逐步发展成为通用性网络信息资源组织的主流。

现在网上信息资源中非文献型信息占的比重越来越大,比如:图形、图像、声音、动画等,分类法独有的聚类功能和代码标识,这在组织和揭示多媒体信息中占有极大的优势;按事物与学科范畴分类组织网上信息资源,具有层次清晰、逻辑严密、体系稳定等优点,而且符合人们的一般查询习惯,同时不受语种限制,因此分类组织法可能成为新世纪网络信息资源组织、揭示的工具,成为国际通用信息检索语言。

2.2 网络环境下的主题法检索语言

关键词法将信息原来所用的,能描述其主题概念的关键词抽出,不加规范或只作极少量的规范化处理,按字顺排列,以提供检索途径的方法,它是直接使用自然语言的一种方法。关键词法选词灵活、广泛,适应性强,组织揭示网络信息速度快、专指度高、查准率高,适宜于不同用户层次检索网络信息。关键词检索已经成为网上绝大多数搜索引擎最重要的检索方式。

叙词法取自自然语言并加以规范化的语词作标识,严格以概念组配为原则,当遇到某些概念的表达使用组配会产生意义失真时,就直接选用词组,因此在很大程度上克服了检索“噪音”严重的缺点。叙词标识是组配的,比较灵活,在检索中可采用布尔逻辑式构造信息检索式,适合计算机信息处理,便于网上信息资源检索。关键词与叙词相结合的形式有利于对网络信息准确描述、科学组织。

2.3 互联网上需要分类查询与主题查询的一体化

“搜索,是Internet永恒的主题和魅力”,在需求驱动下的搜索才能促使把无序的信息转化为知识。把信息的分类组织和字顺组织有机地结合起来,把分类检索和字顺检索有机地结合起来,把自然语言检索和人工语言控制结合起来,是在相同技术条件下对网络信息进行整序、控制和检索的最有效方法。互联网上信息的数字化和软硬件技术条件为分类查询和主题查询的真正结合奠定了基础。

网络信息的分类、主题一体化整序,就是既对信息进行分类整词、信息形式特征、信息编码特征等关联起来,从而向用户提供分类主题一体化的检索功能。所谓分类主题一体化的检索功能,就是用户除了可以独立进行分类检索和字顺检索并随意转换检索方式外,还能通过分类与主题的相互限定改变检索范围,达到最佳的搜索效果。

单一的检索方式即使功能再强,也无法完全满足不同知识背景的网络用户多种多样的查询需要。

在网络信息查询中,分类与主题的一体化结合主要表现在两个方面:

(1)在特定的知识范畴内进行字顺检索

用户为缩小字顺的搜索范围,一般先选择一定的类目,在该类控制下进行主题检索;或者在浏览过程中发现类目关系比较复杂、不易把握时,在该类中转向字顺检索。这两种不同的思路都是把检索范围控制在一定的知识领域内,达到较精确的检索。目前少数搜索引擎具备这种由分类对主题检索的控制。

(2)用特定的类限定字顺检索

在进行主题检索时,常使用一定的条件进行限制,以便把检索结果控制在某种范围内。一是使用信息的形式属性加以限定,例如信息的编码属性(如中文/英文,简体/繁体);信息来源或分布属性(如网站、网址、网页、全文、新闻、中国/台港澳/世界);信息的载体、用途、使用对象等属性(如MP3、图片、软件、硬件、游戏)。 经过这样的限定,就可以过滤掉很多无关的信息,多数搜索引擎都具有这种限定功能。二是使用分类系统的知识范畴进行限定,把对某主题、某事物的字顺检索控制在一定的知识领域。例如检索“汽车”时把范围选定在“工程技术”内,就可以把玩具汽车、文艺作品中的汽车等不相关信息过滤掉。目前搜索引擎还不具备这种控制功能。

注意,这种“字顺检索—分类限定”控制,和前面的“分类范畴—字顺检索”控制是不同的,区别在于信息搜索的范围不同。在分类系统内进行字顺检索,检索的结果属于该类的网站信息;使用“字顺检索—分类限定”控制,检索的结果还包含网页、全文信息。在互联网上实现分类检索与主题检索的真正结合,现有的技术条件是具备的,但目前搜索引擎的分类检索与主题检索是独立的两个系统,这是亟待解决的问题。

经过研究,我们认为当前应加强理论研究及实际系统的开发研制。

分类—主题—自然语言一体化是检索语言发展的重要趋势之一。分类主题一体化能很好地适应网络环境,可以满足网络用户的多种检索需求,为用户提供经济有效的多种检索途径。自然语言依然是最优选的检索接口,是用户检索用语言。三者一体化才能发挥最佳整体效益,满足网络信息检索多方面需求。

对传统的分类法、主题法进行大量的改造。比如,开发机读版本,进入数字信息空间,同时修订类目,建立网络信息资源分类体系,充分借鉴目前网上已有的分类体系并吸收传统分类法的理论、技术和成果,突出使用性和易用性;完善分类表,大量充实入口词,增强类目的规律性;加强分面分析方法的应用,可以提高检索系统的性能及检索效率。

3.分类法主题法一体化实例剖析

1986年美国国家医学图书馆(NLM)主持了一向长期研究和开发计划,即一体化医学语言系统(Unified Medical Languang System,UMLS)。其目的在于建立一个计算机化的可持续发展的生物医学检索语言集成系统和机读信息资源指南系统,以便于提高计算机程序理解拥护体温中生物医学词汇涵义的能力,并利用这种理解帮助用户检索和获取相关的机读信息。

3.1 UMLS的构成

UMLS由超级叙词表(Metathesaurus)、语义网络(Semantic Network)、情报源图谱(ISM)和专家词典(Specialist Lexicon)四个相互联系的部分组成。

(1)超级叙词表。超级叙词表的2001年版收集了60多种生物医学源词表(其中部分为多语种)中的约80万个概念和约190万个名称。 超级叙词表以概念或涵义组织,同一概念的不同名称(如同义词、词语变体和译文)被链接在一起。每个概念都有一些属性以便限定其涵义。

(2)语义网络。语义网络通过了134种语义类型为超级叙词表中所有概念提供了一个统一的分类体系。语义类型之间的54种链接展示了语义网络结构并显示出生物医学领域内的重要关系,在超级叙词表中可以找到指定概念的所有信息。语义网络提供了指定给这些概念的基本语义类型的信息并定义了语义类型之间可能存在的关系。

(3)情报源图谱。 情报源图谱是一个关于生物医学机读资源的数据库,其目的是利用超级叙词表和语义网络测度情报源与用户特定相关性,以便选取最合适的数据库。为用户提供特定情报源的范围、功能及检索条件,自动连接相关的数据库,在一个或多个数据库中自动检索,并自动组织检索结果。

(4)专家词典。 专家词典的设计旨在为专家自然语言处理系统提供词汇信息,其范围包括共现英语单词和生物医学词汇。每个词汇条目记录有专家自然语言处理系统所需的饿句法、词法和字法信息。专家词典包括一组词典程序,用于确定英语词汇的饿范围,并识别生物医学术语和文本词的词形变异。还包括三个索引和四个词汇数据库。

3.2 UMLS的特点

(1)以受控语言和自然语言的一体化为目标

UMLS通过编制融先控与后控于一体的超级叙词表,对概念词进行了不同层次、不同角度的控制,如形态学控制、词汇学控制、语义和语用控制等,通过词典专家程序和自然语言程序,可同时计算两个概念的共现频率、特殊事物的共现数据以及语义网络推理、识别和转换,使系统的自然语言理解和处理成为可能。

(2)实现了不同检索语言的综合性兼容

UMLS通过字、词、术语、概念、语义、语用的一体化,可以实现各类检索语言,分类语言和主题语言、自然语言和受控语言、各文种各功能检索语言的一体化,真正体现了它在专业词汇控制、计算机自动编制词表和超级叙词表数据应用于智能化交互程序等多方面的综合功能。

(3)具有更广泛的适用性

UMLS在设计之初,就考虑到了检索语言的差异性和相关信息的分散性。在此理念的基础上建造的一体化系统不论是在单系统还是多系统,不论是脱机环境,还是网络环境,直至Web技术都有很强的适应性。

UMLS的经验表明,利用国内外现有各种词表(叙词表、标题表、关键词表)、分类表(体系分类表、分面组配分类表)、数据库、专家系统以及各种辞书、工具书,创建一种高度专业化、多学科的综合化超级知识库综合性词表已有了基础。这种超级知识库词表系统应具有自学习和推理功能和广泛的适应性。在此基础上建立的检索语言能满足不同类型、不同层次用户的检索需求。即允许用户在检索提问中使用不同文种的自然语言,也可使用自己熟悉的受控语言(主题语言或分类语言)检索和组织信息。而在系统内部,由受控语言负责对用户自然语言提问的转换、自动联接,支持标引、查寻、检索、浏览、组织信息的全过程。系统可根据用户需要,随时显示语义网络、词义、词间关系,指导用户扩检和缩检,最后能自动按检索相关度组织输出结果。

标签:;  ;  

网络环境下分类法一体化的发展_自然语言论文
下载Doc文档

猜你喜欢