网络资源知识组织的工具,本文主要内容关键词为:网络资源论文,组织论文,工具论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
Walt Crawford在与Michael Gorman合著的Future libraries:dreams,madness & reality一书前言中写道:“图书馆存在的目的,就是获得、提供存取和维护所有形式的知识和信息,并为其用户在使用这些馆藏的过程中提供说明和帮助。”[1]在国内,叶鹰等人还就基于元数据的信息组织方法和基于本体论的知识组织方法进行了探讨,并提出由于元数据主要关注文献资源的形式特征因而较适宜信息组织,以及由于本体论主要关注文献资源的内容特征因而更适合知识组织之观点。[2]笔者也曾经在《信息组织工具论》一文中将图书馆的资源组织分成信息组织和知识组织两类,并对实体资源和网络资源信息组织所用的工具进行了梳理。[3]
图书馆资源的知识组织与其信息组织既有联系,更有区别。如果说信息组织的对象是个体资源,其作用是用格式化的元素描述各种复杂的资源,以便计算机或人能够对其进行识别和处理,所以是种微观组织法,那么知识组织的对象则是群体资源,其作用是通过联想关系构成语义网络,进而将资源组织成一个相互联系的体系,所以是种宏观组织法。或者如果说信息组织的结果主要是向读者/用户提供谁及其具有什么样资源的信息,那么知识组织的结果则主要向读者/用户展示某一结构及其每一节点存在哪些资源的知识。
众所周知,国内外图书馆对实体资源进行知识组织,运用的是知识组织系统(Knowledge Organization System,简称KOS)中的分类表和受控词表。分类表和受控词表由原来的独立编制到现在逐步走向一体化编制,可谓达到了极致程度。所以本文的重点将放在网络资源的知识组织工具的梳理方面,并在此基础上阐述知识组织系统的发展及其互操作问题,以与《信息组织工具论》第3部分中的“各种元数据标准的并存及互操作”相呼应。
1 主题法和分类法在网络资源知识组织中的应用
有史以来擅长于实体资源知识组织的主题法和分类法,同样也可用于网络资源的知识组织。若用受控词表和分类表来对网络资源进行知识组织,一般需要对其进行适应性改造。不过在此之前,需要先来看看主题法和分类法在网络应用中的重要性和可行性问题。
1.1 主题法和分类法在网络应用中的重要性和可行性
自然语言具有信息处理成本低、效率高、容易被普通检索者所接受等优点,在资源呈几何级数增长的网络时代无疑是一种较为经济和实际的选择。但是自然语言也存在表达概念过于自由、语义无关联、词汇无控制等弊病,容易牺牲检索的质量,产生大量的检索噪声,从而影响检索的效率,同时也会增加用户的检索负担。搜索引擎作为一个超大规模的自然语言检索系统,由于网络资源的数量极其庞大,因而检索效率低下的问题也更突显。因此,要实现搜索引擎检索效率上的突破,除了改进和优化检索模型、索引算法和匹配算法外,从语言保障层面上讲最重要的一点就是如何将受控语言的基本原理和方法以适当的方式应用到自然语言检索中去。
情报语言学界一致认为,检索时的后控制形式即“自由标引+后控词表”有机结合的混合系统,是一种较为有效的控制形式。后控词表可在很大程度上解决自然语言检索中的许多问题,即把“前控制”变为“后控制”,同样可以达到规范语词、显示概念间关系、减少自然语言的不确定因素的控制目的。正如兰开斯特指出的那样:“后控词表的发展为改进联机网络内的检索效果以及成本-效益提供了良好的前景。”[4]目前,网络应用的实践也表明:越来越多的网络信息检索系统均不约而同地采用了各种不同形式的后控制方法来提高其检索效率,即受控词表的使用重心发生了后移,形成了“标引不控制+检索控制”的检索模式。
其次,网络资源虽然具有不同于实体资源的特点,但是分类法仍是网络资源知识组织所采用的重要方法之一。自从Yahoo!开了利用分类思想来组织网络资源之先河后,目前互联网上主要采用以下两种分类手段来对网络资源进行知识组织:一是人工标引或自动标引方式采用自编的分类系统,如Yahoo!、Open Directory、搜狗目录等;二是人工标引方式采用现有的文献分类法。1996年,OCLC的Diane Vizine-Goetz就将Yahoo!与DDC和LCC的大类、某个基本类、结构进行分析比较,试图证明传统分类法对网络资源知识组织的可行性。[5]其比较和所得出的结论是:①选取Yahoo!的1-10和35-45个目前最普遍使用的类目与相应的DDC类目作比较,结果表明,DDC比Yahoo!拥有足够宽泛的主题覆盖面用以组织互联网上繁杂的资源;进而选取Yahoo!和DDC的教育类作比较,结果表明,DDC拥有足够的覆盖深度,能揭示网络资源更深层次的信息。②DDC和Yahoo!同样提供了支持浏览的等级结构,但因具有类号标识上优势,DDC较之Yahoo!更能控制类目之间的关系,以及扩大、缩小和调整类目之间的关系。③分类法的类号标记易于实现不同语言之间的转换。
以上研究表明,DDC严格的等级体系具有很好的实用性,既可用于网络资源知识组织,也可利用它的等级结构、概念体系以及类目关系对网络资源进行自动标引。除此之外,分类法用于网络资源的知识组织和揭示还具如下优势:①分类法独有的聚类功能及其代码标识,为组织和揭示多媒体等非结构化资源提供了一条可行的途径;②通过主题类目限定检索范围,可提高查准率;③分类等级结构可提供检索词的上下文;④当检索目的不明确或检索词不确定时,分类浏览的启发方式更有助于用户的检索。
1.2 主题词表和分类法在网络应用中的适应性改造
由于一般主题词表规模庞大、词汇丰富,往往难以将整个主题词表及其参照系统全部输入计算机。即使有现成的机读化、网络化词表,也会由于其参照系统的复杂性而使其易用性大大降低。因此,为了满足网络环境下的信息检索需要,传统的主题词表须作如下一些适应性定位和改造:①在功能定位上,主题词表的功能和使用在网络环境下将发生很大的变化,未来的主题词表将更多地用于检索,而较少用于标引;②主题词表的数字化是网络应用的前提条件,互联网上有许多电子版的受控词表网站可供检索和浏览,而为适应终端用户的检索习惯,主题词表则需完善可用于浏览检索的词表等级体系结构;③结合网络资源的特点,在主题词表的基础上大量增加入口词,编制后控词表;④充分利用超文本的链接技术构建微观词表或后控词表,增加词间关系的参照显示,并在此基础上探索后控制的多种形式,如采用入口词表或微观词表等形式。
目前,尽管只有个别的研究项目(GLIN)明确表示将整合主题词表,但是美国国家图书馆的两大项目American Memory和THOMAS均表明词汇问题是最严重的缺陷,而用主题词表是解决词汇问题的关键方法之一。[6]
其次,将分类法用于网络资源的知识组织,也需根据网络资源和用户的特点对之作出适应性改造和调整。例如将NetFirst的主题目录体系与DDC相比较,我们可以发现两者的类目术语和强调的重点不同。如DDC标题概念宽泛,描述性术语扩及类目,而NetFirst只是使用目前的类目来强调所选择的类。即NetFirst在采用DDC时,在研究人员对数据库中分类号的分布状况进行统计分析的基础上,对DDC作了类目和类级等方面的改造。
具体来说,分类法在网络资源知识组织的实际应用中,须从以下几个方面进行改进或改造:①机读化和网络化。机读化是分类法进入网络的必要前提。这里所说的机读化不只是将分类表输入计算机,还要对分类表作网络化的改造。网络化的另一层涵义指分类检索语言在介入网络资源知识组织前必须要对其类目进行彻底的修订。即以学科分类为原则,同时根据网络资源大众化的特点和某些热门学科的需要来设置和安排类目。比如删除分类法中不大可能在互联网上出现的某些概念和类目,进一步细化某些热门学科或专业,增加生活和娱乐等方面的类目。②归并一些不适合网络资源知识组织的类目并对其层次进行简化,类目注释要突出内容含义的说明和类目关系的指引。③充分利用新技术、新方法来改造原有的分类法,把类目的线性结构改造成网状结构,以提高分类法描述网络资源主题的能力。根据网络资源的特点对类表进行完善、调整,大量充实入口词,还应解决复合主题的转换问题,包括引用次序的调整,使类目具有较强的规律性,并能根据不同主题概念的特征按一定的次序加以组配等。这一方面可充分利用超文本技术,加强交替类目、参见与注释类目之间的横向联系,加强多重列类的使用;纵向联系则借助层层链接来实现,但要注意对类目体系深度予以控制。另一方面可加强分面分析方法的应用。④易用化。分类语言当前已经达到相当高的控制水平,进一步的改进主要是在易用性方面,因为网络检索系统的最终使用者不再仅仅局限于懂分类检索语言的专业人员,而是扩大到广大的网络终端用户。
2 网络资源知识组织的专用工具
如前所述,擅长于实体资源知识组织的主题法和分类法,经过改造后同样也可用于网络资源的知识组织,但主要限于网站或知识库的导航与浏览。从此意义上讲,网络资源的知识组织可能更适合于使用形式化本体和大众分类等工具。
2.1 形式化本体
对网络资源进行最有效的知识组织,之所以强调要使用形式化本体,是因为根据某些学者对本体的定义,本体也可以是非形式化的。如根据本体为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”,[7]以及“本体是概念模型的明确的规范说明”之定义,[8]也可将前述的主题词表和分类表划归本体的范畴。因为分类表尤其是主题词表本质上讲就是一部语义词典,它由术语及术语之间的各种关系组成,能反映各学科或某学科领域的语义相关概念。[9]但若根据“本体是共享概念模型的形式化规范说明”,[10]以及“本体是共享概念模型的明确的形式化规范说明”之定义,[11]用于网络资源知识组织的本体必定是形式化的本体,因为只有形式化的本体才是计算机可读的,才能被计算机所处理。
形式化的本体一般比较抽象,如果不与领域(domain)相结合,常常容易被人看做是一种概念游戏,甚至让人难以理解和接受。目前,形式化本体最有效的构建方法是在现有非形式化本体的基础上(即以分类主题一体化词表中的叙词及其分类等级为基础),使用XML Schema或RDF Schema或OWL本体编码语言来对之进行转换。相比较而言,XML Schema对于本体的语义描述过于单薄,OWL虽然具有很强的描述力,但描述起来过于复杂且成本过高,而RDF Schema虽然在表达能力和逻辑严格性方面不如OWL,但用来描述叙词关系也可胜任,因此成了很多机构转换语言的首选。另外,W3C还在发展的一种RDF语法标准——SKOS(Simple Knowledge Organization System)。较之RDF Schema,SKOS 能更好地反映本体中的语义关系。即SKOS除了可用<skos:hasTopConcept>、<skos:altLabel>、<skos:broader>、<skos:narrower>和<skos:related >等标签来反映叙词表中的“族”、“代”、“属”、“分”、“参”等语义关系外,还有大量的标签(目前共有32个标签,其中类4个、属性28个)可用于本体更为广泛、深入、细致和全面的语义关系描述,不失为一种比OWL简单而比RDF Schema易用的本体编码语言。即叙词表中概念体系、分类表中的等级结构,在经SKOS规范化和形式化处理后,同样可以成为计算机可操作的一种本体工具。[12]如在2009年南京政治学院上海分院召开的“全国第五次情报检索语言发展方向研讨会”上,我们已经可喜地看到国内已有不少人士在利用现有的分类法和叙词表中的知识结构和概念体系,并通过SKOS的词汇或标签对本体进行了研究。[13]
最后需要指出的是,形式化本体既可通过编码语言转换传统的知识组织系统而获得,也可通过一定的方法流程或采用辅助工具进行创建。
2.2 大众分类
如前所述,在形式化本体构建过程中,叙词表和专业词典等可以认为是经过专家人工编纂审核后的概念词典,可以直接用来作为形式化本体的知识来源。但是并非所有的领域都有标准的专业化叙词表和专业词典,而且即使存在专业性的叙词表和专业词典,其本身也有一个概念不断更新的问题。因此,如何获取领域概念以支持本体的构建,就成了构建领域本体的一个发展方向。在国内,王军曾研究过如何利用资源题名和文摘中的主题信息和词汇去丰富原有知识组织系统(分类法和主题法)的技术。[14]而在国外,随着Web2.0尤其是Lib2.0的发展而兴起的folksonomy,同样也可用来获取领域概念以支持本体的构建。[15]
folksonomy简单地说就是一种“自下而上的社会化分类”,它由用户自发地使用标签,对感兴趣的资源进行分类,并与他人共享标签的过程和结果。因此,国内研究人员大多将这种具有社会标注(social tagging)性质的folksonomy翻译成“大众分类”。即大众分类部分承担起构建语义万维网的重任,广大用户在普通Web页面上所加的语义信息,可使网络资源达到某种程度的知识组织,尽管大众分类与本体虽然在结构、创建者、同义词控制、准确性、灵活性、创建成本、变化程度、可用性以及可量测性方面均存在差异。[16]
大众分类之所以也可用来获取领域概念以支持本体的构建,是因为它们在以下方面存在共同点:①大众分类与本体都是一种分类方法。本体是将世界上存在的事物划分出一些基本类型,然后再按某种学科将某种事物进行细分,从而形成事物的分类体系。就一个本体实体而言,它具体包括概括事物本质的基本概念(也称之为“类”),以及概念与概念间形成的层次体系关系、属性关系和其他语义关系。而大众分类是由网络用户自发为某类资源定义一组标签进行描述,并最终根据标签被使用的频次选用高频标签作为该类资源类名的一种为网络资源分类的方法。由此可以看出,本体与大众分类都是一种分类方法,即都是为了人们的沟通与理解而人工构建的统一的认识事物的标准。②大众分类与本体都是共识,而非个人的知识。本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即本体针对的是团体而非个体的共识。而在大众分类中,用户既是标引员又是使用者,因而在标引与使用之间能够重复和模仿,得到及时反馈。通过这些过程,用户共商标引词的含义,直到达成一致意见。即大众分类通过对个人成果的聚合来形成社区含义,同样代表了大部分人的共同愿望。③大众分类与本体都是以提高检索效率为目的。在许多语义万维网中发现,本体的一个特殊用法是从用本体语言表达的实事和准则中推断新的知识。另一个通用方法是查询用本体语言表达的数据,检索语义意义上的搜索结果。二者结合所形成的语义搜索软件,可充分利用本体为用户查询提供全面和相应的回复。即本体的真正构建在于努力创建一个更易于标记过程和语义检索的用户界面。而大众分类也是为了方便(尽管主要是为个人方便)检索而对资源和对象(任何URL地址)进行自由标记的结果,由于在特定的社会环境下标签与资源总是聚合在一起,所以也可提高其索得率和查找率。
大众分类分宽大众分类与窄大众分类两种。与宽大众分类不同,窄大众分类是在较窄范围内的用户(即在同质用户)中建立起来的专业化知识平台。这种大众分类有利于在专业社群中实现知识共享,也使得将大众分类引入图书馆的知识组织成为可能。[17]但即使采用窄大众分类,由于语言本身的模糊性和复杂性等原因,也会使以关键字为核心的标签产生模糊性(大众分类中标签的主要问题是同义多、歧义多、单复数滥用以及专指度不够)。目前,基于XML的同义词控制尚只能进行一些简单的同义分析,还不能完全解决标签的模糊问题。因此,如何将大众分类这种“自下而上的社会化本体”转换成“自上而下的图书馆化本体”,以及如何利用图书馆化本体来引导和规范用户的词汇,就成了国内外学者所关注的课题。[18]
总之,大众分类基于“有胜于无”(Better than Nothing)的理念,其标签是对用于本体构建的受控词表和分类表的补充。大众分类与本体既有联系又有区别,比较切实可行的做法是在大众分类与本体之间建立联系,将大众分类的可用性、灵活性与本体的精确性相结合,并从大众分类中抽取本体(即TagOntology),[19]以促进语义检索的发展。
3 知识组织系统的发展及其互操作
由国外学界率先提出并能涵盖我国情报检索语言概念的知识组织系统,简单地说就是各类知识组织体系的统称,含分类表(classification schemes)、类目表(categories)、规范档(authority files)、标题表(subject headings)、叙词表(thesauri)以及本体(ontologies)等。[20]知识组织系统不仅涉及自然语言,而且由于世界自然语言的丰富性带来其互操作方面的特点。
3.1 知识组织系统的发展
在目前的情况下,知识组织系统除了对以上分类主题一体化、形式化本体和大众分类等进行研究外,主要朝以下两个方向发展:
(一)受控语言与自然语言的融合研究
人们普遍认为,自然语言中的术语专指性高,有助于表达独特的检索需求和提高查准率。同时,网络用户在进行网络搜索时也倾向于使用术语进行搜索。因此,对术语的研究可以成为自然语言与受控语言融合的突破口。术语的特征是规模较为稳定,增长和更新的速度较之日常生活用词汇要慢得多。有研究表明,在网络环境下使用术语做提问词并以此改善查准率是可行的。Google也用术语来优化检索和缩小检索结果的范围,提高其查准率。[21]
但术语仅为语义检索提供词汇基础。而要真正实现语义检索,还需要有功能更为强大的逻辑工具。本体及其他类似的逻辑工具的引入,不仅在传统的知识组织工具的改造方面,而且也在支持自然语言检索和促进受控语言与自然语言融合方面都有可能起到重要作用。另外还应看到,解决自然语言与受控语言的融合问题,需要深入研究逻辑学和语言学,借鉴和引进这两个学科的研究方法和成果,深入分析受控语言的词汇、句法结构和语义结构。
(二)多语言词表构建研究
互联网上充斥着各种语言的资源。因此,应用多语种词表来实现跨语言检索已成为网络时代的一种需求。2005年IFLA起草的《多语言叙词表指南》,[22]对于建立多语言叙词表具有指导和促进作用。在《多语言叙词表指南》中,构建多语种叙词表的方法有三种:①从一种语言开始创建新的叙词表,然后增加其他语言;②合并现有叙词表(可合并两种或多种现有的叙词表从而成为一种新的多语言检索语言;或将现有的叙词表相互链接);③将一种叙词表翻译成一种或其他多种语言的叙词表。[23]
多语种叙词表的运用扩大了网络叙词表的使用范围,使叙词表向国际化方向发展。目前正在进行的多语种词表项目有:国际粮农组织FAO的多语种农业叙词表AGROVOC,欧洲的GEMET、Eurovoc和Merimee,以及荷兰的MACS等。
3.2 知识组织系统的互操作
知识组织系统的互操作是指不同知识组织系统之间的兼容互换。就像元数据标准的互操作既可将性质相同的元数据标准进行映射对照、也可将性质不同的元数据标准进行映射对照一样,知识组织系统的互操作既包括不同分类表之间或不同主题词表之间的互操作,也包括分类表与主题词表之间的互操作。知识组织系统间这方面的互操作主要通过派生法、翻译法、系列化分类表或词表、卫星词表法、直接映射、共现映射、中介词典、数据库链接以及宏词汇的模式与方法来实现。[24]
知识组织系统互操作是实现分布式资源集成检索以及交叉浏览的有效方法。因此,互操作成为知识组织系统领域重点研究的主攻技术,相关的研究项目有欧盟的DESIRE Ⅱ,欧洲的HILT和Renardus,以及美国国家医学图书馆的UMLS等。[25]
在分布式网络环境下,无论是数字图书馆等学术应用系统还是企业的商用信息系统,都在一定程度上面临着系统异构、语法异构、模式异构和语义异构等问题。近年来,国外学者关于应用本体解决信息系统问题的研究,主要围绕探寻基于本体的有效方法、解决特定领域的异构问题展开。所采用的方法主要为本体与代理结合的方法、本体间映射的方法等。[26]
如果把主题词表和分类表看成是传统知识组织系统,那么知识组织系统的互操作除了解决传统知识组织系统间的互操作以及本体间的互操作问题外,还要解决传统知识组织系统与本体以及大众分类与本体间的互操作问题。