元数据研究进展_元数据论文

元数据的研究进展,本文主要内容关键词为:研究进展论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

【分类号】G250.7

元数据是关于数据的数据,是关于信息资源的形式(格式)、主要内容、存放位置等信息的集合。随着网络元数据运动的深入开展,愈来愈多的元数据格式被开发出来,既有一般通用型,也有适用于特定知识领域的。由于越来越多的信息可以通过数字化方式利用,人们日益意识到了元数据在日常工作中的重要性。

1 当前元数据发展的特点

1.1 元数据体系的多样化及互操作性问题的提出

为了适应WWW的快速增长及数字图书馆的出现,世界各地的图书馆员和信息专家努力改善描述、组织和检索远程信息和其它电子资源的方法。在这一过程中,他们并不是独自前行的,因为社会其它部门的电子资源的创建者和提供者同样也试图管理日益庞大的信息资源,从而导致了大量的元数据体系同时和并行的发展。从1990年起,各种各样的团体已经开发了多种元数据标准。如MARC元数据描述书目数据,EAD元数据描述档案文献,GLIS元数据已经成为政府信息描述标准,CDWA、VRA Core及CIMI元数据用来描述博物馆和视觉资源等。这些元数据标准的使用同样也不受到国家和语种的限制。但当适用于特殊主题和形式的元数据标准越来越多时,当在不同的元数据格式描述的资源体系之间进行检索、资源描述和资源利用时,就带来了新的挑战—即元数据的互操作性问题。

1.2 元数据创建者的“全民化”和“平民化”

元数据创建者可分为三类:作者在创建资源时可嵌入元数据以便资源被检索系统发现和组织;信息资源系统管理者也可创建元数据来描述和组织自己的资源;提供信息服务的信息网关(Information Gateways)也可创建元数据。即对包括计算机科学家、图书馆员、数据提供商、学科专家及资源创建者等所有因特网用户开放。

2 元数据的作用

2.1 促进资源发现(Resource discovery)增加知识使用效度

搜索引擎在查全率和查准率方面和图书馆用严格的MARC格式组织起来的目录是无法比拟的,但由于MARC格式的局限性,并不适于网络资源搜索的组织,很长时间以来,网络资源发现工作一直滞后。以DC为代表的新兴元数据格式弥补了这一缺陷,因为促进因特网信息资源的发现是元数据最基本的功用,也是产生元数据的原因。这一领域的元数据标准以DC为代表,结构化的资源(XML)和关于资源的元数据(RDF)互相配合将大大提高资源发现的效率。根据台湾辅仁大学的调查,DC元数据误检率仅2.9%,而其它7个搜索引擎的误检率均超过20%。这是因为元数据中包含了搜索引擎可以查询的属性信息,可以提高资源检索的准确性。

2.2 信息过滤

元数据是网上信息过滤技术的基础,“因特网内容选择平台”(PICS)是实现这一职能的一个元数据标准。它的初衷是协助家长控制孩子们获取因特网资源的权限,家长们通过对浏览器进行设置,就能够将那些不符合他们规范的内容过滤掉,以保护儿童或者使自己的私有权利不被侵犯,让用户能够非常方便地找到最适合自己需要的内容。引入内容分类定级机制是PICS最为显著的地方,不同的组织可以根据他们的目的以及价值取向,对Internet上的资源进行分类定级。

2.3 个性化服务

互联网的发展使电子信息迅猛增加,搜索引擎技术的不足,使得网络用户的信息需求与现有的信息查询技术之间的矛盾日益尖锐,其不足主要有如下几方面:第一,在使用搜索引擎时,只要使用的关键词相同,所得到的结果就相同,它并不考虑用户的信息偏好和用户的不同,对专家和初学者一视同仁,同时返回的结果成千上万良莠不齐,使得用户在寻找自己喜欢的信息时有如大海捞针,用户需要个性化服务;第二,网络信息是动态变化的,用户时常关心这种变化。而在搜索引擎中,用户只能不断地在网络查询同样的内容,以获得变化的信息,这花费了用户大量的时间,所以网络环境下呼唤个性化服务。

网站的个性化服务是指网站在用户注册时询问用户的年龄、职业、收入、爱好等,并将这些信息作为元数据存储起来,以后用户登入网站,网站就根据这些元数据提供为这个用户量体裁衣的个性化服务。Push技术和个性化服务是紧密结合的,它也是根据事先存储的元数据主动推出用户可能需要的服务的技术,其主要构想是:基于用户访问的特点,在用户拉取信息的搜索过程中,根据用户输入的关键词,通过机器学习,可以识别和预测用户的兴趣或偏好,从而有针对性、及时地向用户主动推送相关知识和最新信息。很多网站根据用户的注册信息主动发送新闻、广告之类的信息就是Push技术的一个应用。目前已有构造Web访问模式树(WAP-tree)的算法,可从大量信息访问日志挖掘用户访问信息的模式。也可从用户访问文档的超链接来预测用户的访问偏好,其知识发现采用关联性法则。

2.4 个性化教育

认知能力是由用户的年龄、经验、职业等共同构成的,由于用户的认知能力不同,对网络教育的要求会不同,对系统的使用能力也会不同。元数据能被用于改善查找过程,构筑特殊用户指导路径,并维护不同教育资源之间的关系。一些著名的元数据研究活动已经对网络教育产生了直接影响。美国国家标准与技术机构(US National Institute of Standardards and Technology)学习对象元数据组(Learning Objects Metadata Group,LOMG)已经发展了用于描述“学习对象”的属性集。作为教育管理系统(Instruction Management System,IMS)的研究者(Contributor),LOMG的一个目标是确定一个提交给IEEE P1484工作组的元数据规范。Wantz等利用元数据构筑一个以用户为中心的教育应用软件,其研发采集、存贮及分配教育元数据的目的是为网络个性化教育提供一个环境。个性化教育要符合认知规律,同时也要兼顾适应差异与统一要求两个方面,二者不可偏废。

2.5 元数据与知识管理的关系密切

元数据技术是知识管理技术中的关键内容,元数据对于知识管理的重要性就相当于搜索引擎之于Internet的重要性。随着知识经济的发展,数字化环境对人类的知识管理技术和水平提出了更高的要求,元数据在知识管理中的重要作用越来越被人们所认同,其中比较有名的如澳大利亚的RKMS(Record Keeping Metadata Standard)。RKMS是澳大利亚为了支持网络空间的商业活动而制定的文件管理的元数据格式,它与适用范围更广的DC、AGLS兼容。

3 元数据的互操作性

从20世纪90年代末起,元数据研制者和潜在用户开始将注意力转到元数据的互操作性上。元数据的互操作性成为网络信息管理的优先法则,其对跨系统、语种及地理位置的信息共享、交换及易获性具有直接的影响。

3.1 语义的互操作性

(1)元数据映射 解决元数据互操作性问题的一种方法是进行元数据格式转换,被称为元数据映射(Metadata Mapping、metadata Cross walking)。从理论上讲,作为一个描述性系统,元数据应该允许系统间的描述性映射。如果不同系统能够允许在元数据间创建映射,那么每一个系统都可以查找其它系统的元数据;如果所有的系统都创建了通用的映射,那么就可以实现跨系统的广泛检索。目前已经创建了许多映射方式:

①一对一的映射方式。可用图1表示:

体系A→体系B(单向,从来源A到目标B只有一个映射过程)体系A体系B(双向,两者即是来源又是目标,具有两个映射过程)

②映射XYZ方式

图1

映射XYZ方式需要大量的时间及智能工作(Intellectual Work)(4个体系需要12个映射过程)。因此,这种方式不太实际,一个替代方法是将各种体系映射到一个最包容的综合覆盖体系如USMARC,如下述映射X所示图2。

③映射X方式

这种方式更加实际和易于管理。映射X利用现有的体系(体系X)作为转换板(Switch Board),在体系X中没有收录许多特殊元素,来源体系通常是相异的。从一个详细的体系(如具有60个元素)映射到一个简单的体系(如只有10个元素)的结果与其反向映射的结果截然不同。OAI协议鼓励这种方式,并指令DC作为转换板。

图2

目前,有关元数据进行映射或互相转换研究已有了初步的成果,已有大量的转换程序存在,根据元数据之间的对应关系(Mapping),供若干元数据格式之间进行相互转换,支持元数据间的语义互操作性。例如DC与MARC、DC与EAD、DC与GILS、GILS与MARC、GILS与TEI、TEI Header与MARC、FGDC与MARC等。其中在DC与MARC进行桥接时,因为MARC数据比DC丰富,所以从MARC映射到DC与反向映射截然不同。因为在前者许多MARC字段被映射到一个DC元素,后者则是一个DC元素映射到一个单一的MARC字段。在这两个反向的映射过程中,一个MARC数据转换成DC数据后,在此基础上又重新转换回MARC数据时,就不可避免的存在着信息的缺失。由于DC的句法分为限定性和非限定性两种,因此DC与MARC之间的转换映射也分成限定性和非限定性两种情况。同时,并非所有的MARC字段参与映射过程,只有那些被认为有利于广泛的跨领域资源发现的字段被映射。目前已有许多国家致力于研究DC与MARC的转换映射,并取得了一定的成果,如挪威、芬兰、丹麦、瑞典等北欧国家联合开展了“北欧元数据工程”,探讨DC与Normarc、Finmarc、Danmarc、Swemarc等本国机读目录格式的转换映射问题,并开发了一个二者的转换装置,指导人们如何进行操作。在我国,有关DC与CNMARC间的相互转换问题也成为研究热点,这其中包括DC十五个基本元素集与CNMARC之间的相互映射转换以及扩展的DC元数据集与CNMARC之间的相互映射转换。由于MARC的描述能力大大丰富于DC,如何尽量解决两者之间转换所产生的歧义与不确定性依然是一个很大的难题。

(2)采用核心元数据集Dublin Core(DC) DC具有15个即可选择又可重复的核心元素,可被用于简单或复杂的元数据描述,以创建任何搜索引擎和数据库结构可用的元数据。其目的是提供能被用于任何应用软件、数据格式或者主题领域的字段和描述,是适合于任何Web资源、任何标准的元数据。它提供了跨学科和格式的语义互操作性,与现存的其它元数据兼容,可作为结构化元数据进行编码和转换的模块化基础结构,是可被任何图书馆和出版商用于描述和标引电子资源的坚固工具。目前,DC得到了来自英国、澳大利亚、瑞典、丹麦、挪威、芬兰、德国、法国、日本、加拿大、美国等国专家的积极参与,俨然已成为一个国际范围内通用的适用于资源发现系统的元数据标准。

3.2 资源描述框架(Resource Description Framework,RDF)

解决元数据互操作性的另一种思路是建立一个标准的资源描述框架RDF,用这个框架来描述所有的元数据格式。RDF是一个能对结构化的元数据进行编码、交换及再利用的体系框架,它为元数据提供了一个可操作的载体。这种体系结构通过对通常意义上的语义、语法和结构的支持,从而提供了在各种不同的元数据体系之间的互操作性。在RDF的描述体系中,针对不同资源类型对象的描述要求,选用不同的元数据方案,而这些元数据方案可以无缝地整合在一起,同时对同一资源类型的不同属性描述也可以采用不同的元数据标准,这样可以在标准开放的前提下更好、更深层次地对资源内容进行描述,以提供未来更好的资源检索与获取服务的能力。其中作为一个国际性的跨学科研究活动,DC元数据计划已经提供了在RDF里表达DC元数据的指南。

4 规范控制(Authority control)

不同的信息团体根据其部门用户的需求发展了不同的元数据体系。在当今信息系统中整合和利用多种元数据体系的能力将主要依赖于输入的元数据和现有的目录数据及各种元数据间的兼容性。规范控制在元数据的互操作性上起到十分重要的作用。换句话说,网络环境中的多种元数据体系的成功应用将依赖于规范控制。1994年Taylor第一次探讨了因特网背景下规范控制的问题,但至今为止在这一领域的研究还非常少见,问题依然存在。元数据的规范控制功能包括信息内容的规范化描述、规范标引和信息评估等方面。只有通过规范化描述才能保证数字化信息在不同的系统中交换。同时,元数据还可以存放规范化的标引信息,用一种规范化的受控语言来揭示主题、有铲地组织数字信息。从数字化信息资源组织现状看,对信息的主题正向着受控和非受控两种方法并举的方向发展,特别是随着图书馆界的参与,利用受控情报检索语言来描述数字化信息越来越得到重视。

灵活性(Flexibility)、互操作性(Interoperability)、可扩展性(Extensibility)是数字化信息组织的新特点,这三个特点与元数据的规范控制互相制约。灵活性允许元数据创建者可根据内容与特征或详或简地创建元数据记录,而不必遵守任何专门的目录规则或标准目录,灵活性妨碍了规范控制。就互操作性而言,许多人相信元数据记录中将包含一个所有元数据体系通用的核心元数据集,这将方便在各种各样系统中交换和使用元数据,这也是DC产生的基本前提。映射提供一个从一种元数据体系转换为另一种元数据体系的方式,也是实现互操作性的一个主要方法。规范控制只有在需要对不同来源及格式的元数据进行整合及有效利用时才涉及到互操作性问题。可扩展性意味着允许创建者为了特定目的、特定学科、特定网页的需要,附加一些额外数据元素和限定词,对语义进行更精确的定义,其风险是降低互操作性。然而可扩展性并不是一个规范控制的必然问题,实际上许多元数据限定词遵守相应的规则或标准目录,从而提高了元数据的规范控制。

规范控制有四个成功因素,分别为受控的操作环境、人员的培训、标准的应用及标准目录的参考。

5 结论

元数据是用来描述信息资源或数据本身特征和属性的数据,在数字化网络化信息资源组织与利用中发挥着日益重要的作用。任何元数据标准的发展都需要投入相当的时间、人力和物力,切记支持元数据的互操作性,减少重复性研究,最大的利用已确立的元数据标准,注重规范控制。

收稿日期:2001-11-27

标签:;  ;  ;  ;  ;  

元数据研究进展_元数据论文
下载Doc文档

猜你喜欢