国外几种典型的知识组织系统及应用,本文主要内容关键词为:几种论文,典型论文,国外论文,组织论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
Knowledge Organization Systems(KOS)被译为知识组织系统或者知识组织体系,是目前国内外研究的热点。知识组织系统是各种对人类知识结构进行表达和有组织的阐述的语义工具(Semantic Tools)的统称,包括传统图书馆建立在文献单元基础上的分类法、标题表、叙词表以及更泛指的情报检索语言、标引语言,也包括网络时代建立在概念单元或只是单元基础上的概念地图(Concept Maps)、语义网(Semantic Networks)、概念本体(Ontologies)等[1]。
从以文献单元、数据单元为基础的知识组织系统[2],发展到以本体为基础的语义网知识组织系统[3],KOS研究的方法与技术不断提高,应用范围不断扩展。本文选取3个国外案例,分析了几个典型的KOS及应用。
1 数字图书馆中科学概念高度结构化描述的KOS模型
T.R.Smith和M.Zeng等人通过使用传统的知识组织系统的原理和其他一些语义工具,构建了特殊领域的高度结构化模型[4-5],并且使用知识基础和可视化工具表示关于科学概念的知识。这些高度结构化模型集中于客观的表示、操作性语义、使用和概念间相互关系等这些属性上。在数字图书馆中,知识是基于概念的高度结构化模型,而服务是支持基于这些高度结构化模型的不同信息资源集合中。
1.1 科学概念的基本描述
许多重要的和特有定义的科学概念,例如它们的表示、语义、特性与其他概念的关系以及使用,在组织的文献资料中是以无结构方式分布存在的,不能用简单的语言学术语来表示。然而,大部分传统的KOS,在科学建模活动中,特别是当被单独使用时,对有用处的相关概念属性知识的存取或集成缺乏有力的支持。在对传统的“信息容器”方面的知识存取上,传统的KOS的优势也受到很大的限制,例如,“信息容器”中的内容可以被作为主题标题的基本术语的概念表示来存取。
传统KOS的概念模型在提供深度上对学习是很有用的,但在知识的组织和存取上只有有限的价值。受不同的科学组织在自己领域下构造的详细的、客观的概念模型的推动,ADEPT(The Alexandria Digital Earth Prototype)已经发展了科学领域关于概念的高度结构化模型,它是基于框架的用属性值填充的知识表示系统。这种高度结构化概念模型,明显地扩充了传统形式在图书馆环境下使用的极具特色的类主题词表定义的概念。受到存在论中进化理论和应用的影响,高度结构化模型不仅包含概念和它们之间关系的表示形式,而且包含它们的属性值,见图1。
1.2 基于应用的科学概念的分类方法
为了表示“概念分类”的价值空间,研究者发展了一种面向科学概念基于使用的分类,是以科学教育国家研究委员会的出版物为基础的。这个分类提供了以详细说明操作性语义的客观科学操作形式来表现概念的功能。例如,一个抽象的数学概念“算术平衡”,可以部分的被定义为能够实现用符号表示的平衡的客观语义操作。由此将概念进行分类,这些概念在操作性上能在被说明的概念的基础范围内进行阐释。另外,还有许多不能进行如此分类的概念,包括那些无法说明的概念,例如the“way”of Lao Tzu。
图1 科学概念高度结构化模型的组成要素
图2 基于应用的科学概念分类模型
图2展示了研究者对科学概念基于应用分类的基本形式,在应用分类中阐述了科学家引用的概念包含有大范围的前后关系,如多边形、试验、数据设置等可操作性的说明。这种分类所表现的操作上可说明的概念属于下面三类之一:抽象概念(Abstract Concepts)、方法概念(Methodological Concepts)、具体概念(Concrete Concepts)。抽象概念具有依据造句法的(或计算的)符号表现操作的形式定义的操作性语义,包含3个子集,分别是依据造句法的(语言的)概念、合乎逻辑的概念、精确的概念;方法概念具有以按科学方法明确定义的操作的不同类形式定义的语义,这些操作能够在与它们相关的各个方面得以实现,方法概念中的子类包括鉴定/描述、表现、理解、应用、交流等相关操作的概念;具体概念包含按科学方法明确定义的操作形式定义的语义,这些操作提供对某一概念的解释。大体上,这些概念是用于模型和理论构建的概念类,主要的子类包括:可测量的概念、可认知的概念、可解释的抽象概念。例如,对于概念“河水流量”有一个很有特色的操作,它可以用在现实环境下实现的不同测试程序的形式来定义,如程序测定水流在一个给定的时间间隔内穿过某一横截面的量。
1.3 科学概念高度结构化表示的形式
高度结构化模型的表示可以通过两种形式存取:可视的和原文的。可视形式的意图是表示概念间的相互关系,并且能提供一个概念空间结构的全部观点;原文形式允许用户通过一些概念的高度结构化模型的元素内容进行浏览。对概念空间的可视化表示已经可以通过两种程序执行:一种是OpenGL图表可视化工具;另一种是Java脚本。
1.4 高度结构化模型所需要的技术工具
科学概念的高度结构化模型集中了各种各样的关于知识组织和表示的结构以及其他工具的原理,见图3。主要包括:辞典、分类、语义网络、概念地图、分析和分类法等。不同的知识组织系统/结构/服务所使用的原理和元素提供以声音为基础的ADEPT模型。
图3 科学概念高度结构化模型元素和相关的支撑技术
2 基于语义网的映射辞典语义的KOS模型
2.1 研究的背景
术语资源在广阔的网络环境下对信息重组日益重要,为了通过查询数据库和元数据重组文献知识就需要引用受控词表。特别是以简单的语义网络形式组织术语及其相关概念的Thesauri,成为从迅速增长的电子信息潮流中搜索资料的重要工具。在发展自动化的媒介来超越受控词表方案之间的差异方面,一直有持续增长的兴趣,这样用户可以使用一组熟悉的术语来搜索用其他词表方案组成的知识集合。一个特定的集合与一种术语资源紧密相连,可以包含术语和概念间典型关系的辞典方式给出。研究者集中于术语及其关联的某一特殊集合而决定的不同含义,并且与研究一个集合中对象的所统计的适当术语相比较,在此基础上,对映射辞典语义的KOS模型展开研究[6-7]。
2.2 一个领域的辞典映射
研究者把辞典映射视为识别条件、概念和约计相等的阶层关系式的过程。它是合并Thesauri、原数据辞典和交叉和谐的构造以及辞典交换的中央程序,研究寻找其适当等价物的问题,特别集中于与Polyhierarchies以及化合物和非化合物术语相关的问题。
在这些研究中有一个普通的假定(见图4),使用者使用一个选择的特定辞典来寻找不同的数字集合,以其他语言的形式被映射到Thesauri中专门的词汇,或到辞典的不同版本。研究者采用来自Krause的两步程序的观点,它能将来自辞典映射的含糊性与来自使用者查询和文件之间的关系分开。为了智能地区分这些效果,每个辞典被假定与一个或较多集合的索引相一致,也就是经过它自己的辞典,对一个集合正确的使用者查询能产生完全的回收和很高的精确度。
图4 使用关联术语或词汇的假设
更进一步假定,所有的集合的对象组基本上具有相同的本源和来自于一个网域,这样来排除含糊性的另一个来源。
2.3 应用
在特定的假设之下,首选的术语即所谓的“描述符”可以被视为概念。每个概念依次能被视为一组对象的目的。顺次,把映射问题转变成关于组的数学问题,也就是术语被视为它们正确地分类的对象组。“正确地”是一个使用者惯例的问题。并假定,使用者能大体上肯定地决定哪个术语正确哪个术语错误。这个假设提供一个在Thesauri中甚至多语言之间的概念比较的绝对的估量。只要在一个足够大的数据库中的对象,以定义明确的方式被平行的两个Thesauri分类,在两个Thesauri中的概念之间的组关系能自动地被接近。任何的矛盾都能被转为人类的错误。如此的假设对描述逻辑(DL)是广为人知的和基本的,如DL网站和描述自然对象的Thesauri所隐含的。在实践中,不是所有的子集关系可以在一个辞典中被表达,并且术语解释可能是以复杂的方式上下文依赖的。为了利用统计的或神经网络方法形成一种清楚的区别,研究者定义“基于观念的映射”原则是:术语被映射成相联系的正确分类的对象组(例如,描述逻辑中的“解释功能”);相关联的一些术语的上(下)位类组是术语相关联组的一个扩展集(子集)。根据描述逻辑,上位类术语“包含”下位类;一些相关术语(RT)的关系以描述逻辑感觉可以被视为角色,尤其是部分—整体关系(BTP)和函数关系;两个术语之间的映射通过它们相关联的集合的一套关系来定义。
图5显示了多语言辞典中的不同概念,研究者增加假设的转换和假设的中间语言。有时来自一个组的一个定义明确的概念系统被另外语言的用户群作为一个整体采用。例如,国会图书馆的主题标题在希腊大学图书馆和许多其他较小的语言组的图书馆中被使用,同样那里存在将美国艺术和结构辞典转换成荷兰和西班牙的,而且还计划转换成其他的。在如此的情况下,被转换的辞典中的概念能变成中间语言,它的优势是至少包含一项原来的概念。研究者主要感兴趣的是有相互关系的Thesauri,这也是ISO5964的目标。
图5 在一种环境下一个多语言辞典的不同概念的示例
此外,基于以概念为基础的映射而且使Thesauri有相互关系的观点,应当提供采用不同术语资源的交叉系统等价的重组结果,研究者提议映射的表达能力应该至少与搜索示例的表达能力是相等的,而且使用者可以在目标系统中表达的搜索请求胜于映射机制可以提供的。
这些等效表达式提供一个任何目标辞典的术语中表达初始的查询术语的方法。明显地,初始查询的任何布尔逻辑组合能转换成一个目标术语的布尔逻辑组合,图6和图7示范了用布尔体系的复合物等效展示语句的语义学。图6中的例子是法国术语bergerie在AAT中有精确的等价“sheep barns OR sheep folds”。在AAT中术语的第一个公共上位是单一建造工作。明显的上位术语animal housing在AAT中只是sheep folds的上位术语,大概是因为它的多层次设计。在图7中,在BT关系表达包含的假设之下,右边星罗棋布的循环指出在目标层次上概念的大概位置。
图6 等价关系中“OR”的表示
图7 等价关系中“AND”的表示
3 不同元数据领域之间的语义互操作的元网
3.1 研究的背景
网络化知识组织系统往往包含使用多种元数据模式描述的混合媒体类型,所以机器理解不同领域的模式元数据描述是在网络化知识组织系统中存取信息的一个基本要求。
尤其有3种情形下元数据描述的互操作是需要:①在异构元数据描述中需要使用统一检索界面;②集成或合并补充的但可能是重叠的元数据模式或标准的描述;③根据用户特定的兴趣、视角或需求,使一个隐含和完整的元数据描述产生不同的视图。
不同领域的元数据描述并不是语义完全区别的,而且是在很多方面相互重叠和相关联的。通过人工生成一对一的路径达到互操作是可行的,但这种方法不能随着元数据词汇的扩大而变化路径。一个可扩展和经济的方法是利用实体和关系——如人、地点、创造、组织、事件等[7]。
3.2 ABC底层元数据模型概述
ABC采用一个事件相关视图来为一个创造不同表示的关系建模。这种事件相关视图为在一个资源生命周期中包含的众多表示事件和发布人(代理)的特性集合提供了明确的语义连接点。
另外,ABC提供为内部视图转换的元数据模型和方法的多视图。如果需要生命周期信息,可以使用事件模型。当需要单资源元数据,可以使用以资源为中心的模型。图8是ABC元数据模型的UML表示。
图8 ABC元数据模型的UML表示
3.3 元网的开发
一个元数据术语主题词表与其他语义映射限定在一个确定领域/词表(如映射矩阵的列数),更为通用的方法是,从元数据术语语义主题词表中动态地抽出映射,这个主题词表正式定义许多不同领域的标准词表里的元数据术语之间的关系。
1)主题词表内和主题词表间的关系。定义单语主题词表的标准和存档的ISO2788标准,定义了以下的主题词表内的关系模型:层次的、相关的、等价的。层次关系在有“更广/更窄”意义的概念之间产生。
这种关系能进一步分为generic(BTG/NTG),整体—部分(BTG/NTP)和实例(BT/NT)关系。为简洁起见,研究者仅选择建模BTG/NTG关系(一种主题词表开发的常见行为)和等价关系,在元网中不包括相关关系。
多语主题词表建档和确定的ISO5964标准定义了以下的主题词表间的关系类型:完全等价、部分等价、对多等价、不完全等价。这些关系说明不同元数据词表的术语间的语义关系可能比1对1完全等价复杂的多,并且“完全等价”也是一种近似。但是,因为研究者针对的问题仅仅是许多标准英语元数据词表里的术语关系,所以,认为这种更复杂映射的程度要比自然语言主题词表来得简单。在元网开发中的元数据术语主题词表——元网仅仅包含优先术语(ABC核词表),等价/重叠关系(ET)和更广的术语(BT),并试图包括最重要和广泛使用的元数据词表(都柏林核心,IFLA,IEEELOM,INDECS)。
2)元网的描述。元网主题词表的目的是提供使机器能理解在不同领域中元数据术语等价和层次(上下)关系的语义知识。
这种主题词表的范围仅限于用来描述与资源和它们的生存周期有关的属性及与事件的最有影响力的元数据模型/词表。它包括书目、博物馆、档案馆,记录和权益管理组织等的元数据词表。这是通过使用ABC词表中的核心术语并抽取那些同义词和在元数据模式中可能用来表示原来核心术语的hyponyms运行WordNet搜索。另外,结果与DC,INDECS,IFLA,IMS和CIDOC CRM这些词表比较以确定大部分在这些元数据字典里的术语被加进了这个主题词表。
开发这种词表的机器可识别RDF模式,并且表示RDF模式元素、类、子类、属性、子属性,被用来定义元数据元素之间的层次/上下和实体/属性关系。
RDFS标签元素用来说明可能用到的语义等价术语。ABC核词表用来作术语的顶层集。尽管这个主题词表是手工生成的,它可以认为是通过使用推理机制合并不同领域的RDF模式——正如在本体推理层(OIL)提出的——自动生成的。
例如,考虑“Agent”,ABC词表中的核心词汇,并因此生成元网词表中的优先术语,“Agent”的使用在其他元数据词表中的语义等价术语。包括:actor,contributor,creator,player,does,worker,performer。“Agent”可能的语义窄些的术语或hyponms包括author,composer,artist,musician等。
3)把元网连至XSLT中。例如,假定Java程序,Mapping.java包括一个扩展函数readMetaNet.对于在语法分析输入元数据描述时的每一个元素,输入元素名(如abc:Agent)和输出领域模式定义(如都柏林核模式)被传给readMetaNet函数。这个函数在元网RDF模式文档中查找同输入模式定义的描述元素,并返回这个值。XSLT在输出描述中用这个名字创造一个新的输出元素。图9说明了程序的流程。
图9 元网连至XSLT的流程
使用XSLT可以从语法上分析输入的XML描述,并对每个元素调用一个根据元网主题词表中定义的语义关系确定输出领域等价术语的Java过程性编码扩展。
收稿日期:2007-10-08