面向知识导航的机构要素元数据规范及互操作,本文主要内容关键词为:要素论文,操作论文,机构论文,知识论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
从信息服务走向知识服务,意味着要从单纯地提供信息资源转变为以用户为中心提供解决方案来使用户获取所需要的知识。但是,当前领域内对各种电子文献的元数据的著录标准和规范不仅有着各种不同的规定,而且各个标准和规范内部,元数据也只是孤立的,并不能很好地描述各个要素之间的关联信息。这种情况极大地阻碍了用户检索时相似文献的获取,降低了查全率和查准率,降低了统一检索的效力,影响了电子文献数据库的知识关联和知识共享水平。在这种情况下,对于一种面向知识服务导航的、完善元数据互操作性能的元数据标准与规范的需求就非常迫切了。
有鉴于此,本文首先阐述了知识导航要素对于提高知识服务导航水平的意义,然后针对知识导航要素中的典型要素——机构要素,围绕着知识服务导航的需求,以DC元数据为基础,并自定义扩展元素,考虑到完善元数据互操作的性能,制定了机构要素的元数据规范,采用RDF/XML描述定义,着重阐述了知识导航要素的意义,并针对其中的机构要素进行元数据规范以及元数据互操作分析。
1 知识导航要素
当前,海量的电子文献数据一方面给用户提供了越来越完善的信息,但是另一方面,也已经给用户检索目标文献带来了一定的纷扰。与此同时,针对不同的电子文献制定的不同的元数据规范所提取出的要素,使得用户在检索文献信息时必须要面对多种不同的、毫无关联的要素,不仅增加了检索难度,也降低了用户的检索效率和检索欲望。如何提取出能够涵盖不同文献类型特征的核心要素,对于提高用户检索效率和知识服务水平有着很大的帮助。
1.1 知识导航要素及特征
知识导航是指从各种显性和隐性信息资源中,针对用户的需要将有价值的信息提取出来的过程。当用户在数据库中做检索时,知识导航要求面向用户需求,对检索要素进行规范,并能够获得最切合用户需求范围的检索结果。正是基于这一理念,知识导航要素被提出来了。
知识导航要素是针对海量的信息资源,通过对其资源特征进行分析,而总结出来的五个代表性的知识节点,包括:人物、机构、主题、关键词、基金。这五个要素可以很好地描述一个信息资源的特征,所以采用知识导航要素可以界定具体文献的特征。但是更重要的是,知识导航要素能够很好地满足知识导航对元数据互操作的要求。
这是因为知识导航要素可以满足不同信息资源间特征关联性的要求,具体而言,就是要利用知识导航要素在不同的信息资源之间建立特征的关联。所谓的关联性,从外部特征而言,指的是必须完成不同标准中具有相同内涵的要素之间的相互联系与转换;另一方面从同一个标准内部而言,原数据互操作指的是必须实现标准内各个要素之间的互相限定和关联,而且必须能够通过与知识导航要素的关联取得其他要素的信息。
首先,知识导航要素是对资源的特征的一般性描述,任何资源不论在哪一种元数据著录规则之下,都会选择出人物、机构、主题、关键词这些信息资源中基础性的特征元素。而基金作为目前评价文献学术性水平的重要指标之一获得了越来越大的重视,有基金资助的各种文献都会标明其所获得的资助基金。所以,不同类型的信息资源具有知识导航要素的完备性,这就为研究要素间的关联性提供了必要条件。
其次,知识导航要素之间也可以通过彼此间的限定和关联来获取彼此的信息,如图1所示,通过机构与人物的关联,可以获知作者与机构的从属情况等学术信息。再有,对于作者同名的问题,我们可以通过人物和机构双重限定的方法来解决。这种特性能够满足元数据互操作中各个要素之间的彼此关联。对于元数据互操作中的元数据映射,有着非常重要的作用,比如可以促进元数据映射中信息无损化的实现。所以,知识导航要素具有外部特征和内部特征的关联性,满足了知识导航对不同信息资源间特征关联性的要求。
图1 知识导航要素的关联示例
1.2 机构要素的特征
在知识导航要素中,机构要素是比较典型的一个。一方面是机构要素具有普遍性,任何发布的信息资源都会提供相应的机构信息,而且对信息资源的元数据规范中,机构要素也是不可缺少的一个内容,这意味着机构要素能够在进行元数据操作时最大限度地实现信息无损。另一方面,通过机构元素可以限定和获取其他要素的信息,具备要素间的特征关联性。比如,通过作者姓名和作者单位(机构要素)的组合可以限定一个作者,有效地解决了作者重名的问题。如图2所示,机构可以通过多个属性与知识导航要素中的其他要素相关联。
图2 机构要素与知识导航要素中其他要素的关联
进一步说,这两个方面可以说是相辅相成的。机构要素的普遍性为机构要素在知识导航五要素内部的关联提供了实际意义,而机构要素与知识导航要素中其他要素的关联又为机构要素的跨标准互操作提供了更为有效的功能扩展。
由此可见,机构要素不仅是信息资源的一个重要特征,可以无损地映射到大多数的元数据格式,更重要的是,机构要素同知识导航要素中的其他要素有着丰富的语义关联,对元数据互操作是非常有利的。因此,在知识导航要素中,机构要素是非常典型的一个要素。也正因为如此,我们围绕着元数据互操作的要求,针对机构要素进行元数据的规范非常具有代表性。
2 元数据的互操作
由于信息资源类型的多元化,使得人们不可能使用某一种元数据规则来统一描述复杂的信息资源。而面对众多元数据标准和格式,当人们需要提供统一的知识发现、知识关联和知识共享的时候,就必须解决不同标准和格式下的元数据互操作问题。所谓元数据互操作,是指在由不同的元数据标准和格式下,要向用户提供一个统一的知识发现与知识共享的功能,确保用户的检索需求能够在不同的元数据环境下得到一致性的结果。也就是说,元数据互操作问题就是与不同元数据格式间的知识关联、知识发现与知识共享等相关技术问题。
2.1 元数据映射的作用
元数据映射(Metadata Mapping)是元数据互操作中最本质的一种技术,其实质就是为一种元数据的元素和修饰词在另一种格式下找到相应的内涵的元素和修饰词,并能够实现信息丢失最小化的要求。元数据映射是人们实现元数据互操作的一个常用而有效的方法。
2.1.1 多对一元数据映射
元数据映射有一对一映射和多对一映射两种,一对一映射最典型的例子就是DC与MARC之间的元数据映射。针对DC的检索式可以直接映射到MARC下的元数据格式,从而实现不同元数据格式下的统一检索;多对一映射指的是,采用某一种元数据格式做中间格式,多种不同的元数据格式都向中间格式做映射。这样可以解决一对一映射的复杂性以及对模板的不可重用性,能够最大限度避免信息丢失,提高精确性和准确率。在机构要素的元数据规范中采用多对一的元数据映射。
多对一元数据映射的问题在于,所采用的中间格式必须在元素组成、语义定义以及应用方面都具备足够的适应性和普遍性。由此,我们采用了国际上公认的、具备代表性的元数据集——都柏林核心元数据集(DC)。
2.1.2 都柏林核心(DC)元数据集
都柏林核心是国际公认的一种关系元数据的标准。1995年3月由美国OCLC与NCSA联合发起,创建了一种用于标识数字资源的简要目录模式都柏林核心元数据集(Dublin Core,DC)。DC由15个基本元素组成[1],见表1。
DC中的每一个元素都是可选的、可重复的,此外,DC还是可扩展性良好的一个标准,对于机构元素的定义中,可以通过对DC进行扩展元素的定义来较好地弥补核心元数据集的不足之处[2],能够全面地表述文献的特征。
2.2 资源描述框架(RDF)的语法模型
资源描述框架(RDF)是W3C提供的一种基于XML的用于描述信息资源的标准,它提出了一种简单而有效的语法模型,来解读元数据的特征[3]。DC加RDF是描述元数据互操作的普遍搭配模型:DC为RDF提供语义支持,而RDF则为DC提供完善的数据模型。RDF表示的数据模型见图3。
RDF最基本的单位结构为一个三元组:资源R,属性类型P和属性值P-V。简言之,RDF就是关于资源和属性的一个关系描述。如图2所表达的就是资源R具有属性类型P,而P-V则是P的一个具体值[4]。
XML是一种定义语言,使用者可以定义无穷无尽的标记来描述文件中的任何数据元素,从而突破了HTML固定标记集合的约束,使文件的内容更丰富、复杂,并形成一个完整的信息体系。RDF框架下的XML语言称之为RDF/XML。RDF/XML从语法层面解决了互操作的基本问题[5]。通过RDF/XML来描述图3中的语义,逻辑代码如下:
通过这样一个简单而有效的描述,RDF就可以为元数据提供一种标准的语义表达方式。
3 机构要素的元数据规范
如上所述,知识导航要素具备相应的互操作特性,五要素内部的相互限定和关联特性使得元数据互操作具备可行性;而机构要素在不同的元数据标准和格式下都是普遍的知识节点,这有助于完成自定义元数据标准与DC的多对一元数据映射。
3.1 基于DC的元数据规范
DC元数据集是简单而功能强大、覆盖广的一个元数据集,它涵盖了学术信息资源的大多数的特征[6]。在对机构要素的元数据定义中,DC元数据集也满足了对大部分信息资源特征的描述。此外,因为我们采用多对一转换的元数据映射方式,所以,为了保证元数据互操作的性能,必须考虑机构要素的元数据格式对DC标准格式的元数据映射的可靠性。因此,复用DC元数据集是制定机构要素元数据规范的必然选择。对于DC无法很好地描述的特征,则通过自定义核心元素来全面描述信息资源特征。
3.1.1 复用DC元数据集的核心元素定义
元数据复用就是采用复用若干种元数据集的部分元素或修饰词的方法,通过扩展元数据集的适用范围、兼容不同元数据格式等方式来描述复杂的信息资源对象,具有良好的描述清晰性、逻辑整体性、语义一致性和操作规范性。例如北京大学信息管理系编制的《视音频信息元数据规范》就复用了DC除“覆盖范围”元素外的其他14个元素以及部分修饰词,也因此形成了与DC元数据之间较强的互操作性。机构要素的元数据核心元素定义是可以与DC元数据集中的元素一一对应的,其含义和修饰词都完全来自于DC元数据集。这样就可以很好地完成机构要素的元数据格式下的元素信息与中间格式——DC元数据格式的无损映射。
机构要素的核心要素定义如下,均可以与DC元数据集一一映射。
(1)标识identifier
(2)名称title
(3)描述description
(4)主题subject
(5)创建者creator
(6)责任者contributor
3.1.2 机构要素的自定义元素
因为DC元数据集是主要着眼于所有的信息资源的共同特征而建立的通用元数据标准,所以它不可能完全涵盖一种具体的信息资源的全部特征,因此机构要素的一些特征仍然不能被很好地表示出来,比如说,“联系方式”在机构要素中是非常重要的一个信息,但是DC元数据集并不能良好地表达出来。这时候就需要自定义元素来全面地表达信息资源的特征。
机构要素的自定义要素如下:
(1)联系方式address
(2)机构代码registeredCode
3.1.3 元数据的扩展元素修饰词
DC元数据集具有良好的可扩展性,但是仅仅对以上的元数据要素进行规范,还不足以描述信息资源完整的特征。比如说,机构的部门设置还有机构名称的变化,比如“中国科学技术情报研究所”转变为“中国科学技术信息研究所”,仅仅定义名称一个元素是没有办法厘清关系的。由于这些元数据元素只是上位元素的半显示语义结构[7],如果要在信息资源中获取其下位元素信息就非常困难。所以,这种语义结构并不利于元素语义向下扩展和元素的一致性著录。
为了全面描述机构要素的特征,我们将独立的机构实体作为一个描述对象,并通过description中的“机构简介”字段加以说明;对于机构沿革的变化,我们则在description项中“机构沿革说明”字段中加以说明,比如上面举例“中国科学技术信息研究所”的名称变化,就可以在“机构沿革说明”中增添相应的信息。新的RDF编码规范支持这种结构[8],加上考虑到DC元数据集具有非常好的可扩展性,我们采用了扩充元素修饰词的办法来扩展元素的语义结构。扩展修饰词定义如下:
(1)标识identifier:标识
(2)名称title:名称、译文名称、规范名称
(3)描述description:描述、机构简介、机构沿革说明
(4)主题subject:主题,机构地区分类,机构行业分类,机构性质分类
(5)创建者creator:创建者,主管部门ID,主管部门名称
(6)责任者contributor:责任者
(7)联系方式address:地址、邮编、电话、传真、EMAIL、网址
(8)机构代码registeredCode:机构代码
通过以上扩展,可以比较完整地描述机构要素的特征。
3.2 元数据规范表
机构类元数据格式的设计除参考DC核心元数据外,还吸收了DC agent的部分内容,主要目的是为了对地址的表达尽量采用格式化处理。通过扩展修饰词,可以全面描述元数据下位元素的信息,良好地表达出元数据的语义结构,有助于机构要素的信息无损化的元数据映射。最后得到的元数据规范见表2。
4 机构要素的元数据互操作
我们已经知道,知识导航要素的提出是为了给知识导航中元数据互操作提供一个有效的解决办法,机构要素的元数据规范就是考虑到元数据互操作的要求而制定的,那么针对这一规范,我们必须考虑其互操作性能。
以“中国科技信息研究所”为实例,做出元数据规范,见表3。
4.1 RDF下的机构要素的数据模型
如上所述,RDF是基于XML语法来描述信息资源的语言框架[9],系统并不需要了解多个元数据标准的格式,只需要了解RDF的标准描述框架。通过RDF描述后,检索系统可以很好地理解结构化的xml语法下元数据的精确含义,从而解读多种元数据格式[10],提高检索效率,促进知识发现和知识共享,避免出现以往经常出现的检索结果与检索目标无关的情况。
以DC元数据定义为基础,借鉴DC抽象模型的部分描述[11],对机构要素的元数据规范做出了RDF描述-organ,以元素Title项为例,逻辑代码如下:
图4 实例的RDF描述
根据以上对表3中的规范实例所做出的RDF定义,可以得到RDF语义数据模型,这种结构以DC为约束条件,能够在不同标准间进行元数据映射时实现信息无损最大化[12],逻辑结构示意图见图4。
4.2 机构要素的元数据映射
在机构要素的元数据规范中,可以通过其元素的普遍性满足不同信息资源间映射的需要。比如,标识号(identifier)是用来唯一表征机构要素的一条记录,就可以通过标识号来实现不同元数据标准和格式下机构要素的关联。通过自身标识号对中间格式的基于DC的元数据标准的转换,一个信息资源的机构要素的标识号可以映射到其他信息资源的机构标识号,比如,期刊论文元数据标准的作者单位ID、学位论文元数据标准的学校ID、会议论文元数据标准的主办单位ID等等。这样就通过机构要素实现了不同元数据标准和格式下的元数据映射。具体流程见图5。
图5 机构要素的元数据映射举例
5 总结
各种类型的信息资源日趋增多,随之产生了众多不同的元数据规范。这导致了元数据互操作中的信息丢失和知识关联困难,从而降低了统一检索、跨库检索等方面的效率,降低了知识关联、知识发现和知识共享的水平。通过对海量数据的考察,我们提取了能够描述文献的一般特征的五个要素:人物,机构,主题,关键词,基金,称之为知识导航要素。知识导航要素作为元数据互操作的核心要素,可以有效提高数据交换的效率。本文说明了知识导航要素及其对知识导航的实际意义,并通过对机构要素的特征考察,围绕知识服务导航的要求,考虑元数据互操作的实际需要,通过复用DC元数据集并自定义核心元素,针对机构要素制定了元数据规范。最后,作者通过对元数据规范的应用实例进行语义和语法的解析,研究了机构要素元数据规范下应用RDF/XML描述实例的模型。通过以上措施,本文为知识导航中的机构要素元数据的知识关联和知识共享提供了一个较好的解决方案。