中文元数据研究进展与发展趋势,本文主要内容关键词为:研究进展论文,发展趋势论文,数据论文,文元论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着互联网的迅速发展和网络信息资源数量、类型和种类的激增,人们发现在海量的信息环境中,信息的查询和检索越来越困难,网络上充斥着各种各样的信息,但人们却不知道怎样才能找到自己所需的信息。
目前,对网络信息资源的整理主要有两种方法:一是通过搜索引擎自动搜索整理,搜索引擎虽然对许多资源有索引功能,但其查准率却极低,往往检索结果数量很大,而其中包含的有用信息却太少;二是由专业编目人员使用传统的元数据——MARC格式进行著录,虽然能达到一定的检准率,但在数据加工标引工作上既费事又费力,过于专业化和繁琐,非专业编目人们不能使用,著录的速度远远落后于网络信息资源的增长速度,对于充斥于网上的海量信息可以说是无能为力。为了有效的解决人们方便的查找网络信息资源这一问题,元数据这一概念就被提了出来。
1 元数据概述
Metadata(元数据)被称为关于数据的数据(data about other data),它是专门用来描述数据的特征和属性的、提供某种资源的有关信息的结构数据(structured data),也就是说,元数据是促进Internet信息资源的组织和发现的数据。元数据作为描述网络信息资源的工具,往往有多个按照规定编码语言和编码方式对信息资源属性进行特征描述的元素组成,这些元素按照规定的相互联系和整体结构形成具体的元数据格式,应用于特定的主题或专业领域。元数据包含的数据元素集就是用来描述一个信息对象的内容和位置的,以便能在网络中方便的查找和检索信息。从元数据提供者的角度来看,元数据能改进网络信息资源的检索能力(特别是检索的精确性),以及信息资源的控制和管理问题。
目前国内外对元数据的理解,主要有两种观点:一种观点认为元数据和传统的图书馆编目体系没有区别,metadata的功用与书目卡片的功用大体相似,通过metadata可以了解到某个Internet站点的资源类型,如某个Web页面的标题、作者、主题及关键词、内容摘要等等信息;另一种观点则强调元数据是一种关于网络资源或其他资源的机器可理解信息,并且认为机器可理解是关键。这种观点关心数据的结构,认为元数据包含内容是对原始信息资源的描述,旨在使用户通过检索对相关原始信息资源进行选择、定位和调取。
2 中文元数据研究的现状
目前国内已有不少单位和个人进行元数据的研究,或介绍国外的各种元数据格式和生成工具,或介绍DC元数据等与MARC的映射关系,并已取得了初步研究成果。在图书馆界,进入实用阶段的主要有上海图书馆的数字图书馆元数据项目、北京大学图书馆的拓片元数据项目、清华大学图书馆的建筑元数据项目以及台湾辅仁大学图书资讯系吴政睿教授研制的中文DC系统。为了促进中文元数据的研究开发,2001年5月在上海图书馆召开了“中文元数据应用国际研讨会”。另外,国内许多大学信息管理系的研究生也以元数据研究为主题开展相关研究,如北京大学信息管理系博士研究生刘嘉的毕业论文《元数据研究》。
2.1 上海图书馆的数字图书馆元数据项目
1997年,上海图书馆启动了第一个数字化项目—善本古籍的数字化,此后又陆续开始了上海图典、上海文典、中国报刊、民国图书、点曲台和科技百花园六个数字化项目。在数字化项目实施中采用了以DC为核心元数据集、多种对应于不同资源类型的元数据方法并存、并以RDF为基础的资源描述框架的元数据方案。该方案统一了元数据的描述方法,保证了原始素材内容管理中元数据的完整性,提高了元数据之间以及与其它资源对象数据之间的互操作性,同时也提供了一个统一的内容管理体系。总体来说,上海图书馆对将元数据作为其数字化图书馆项目已经有了比较具体的实践性研究。
1998年,上海图书馆开始从事元数据的课题研究。2000年6月,为了加大元数据研究与开发的力度,成立了元数据研究课题组。2000年10月上海科学技术文献出版社出版的吴建中教授主编的《DC元数据》就是课题组成立以后的第一项研究成果。全书共分七章,主要介绍了DC元数据的发展简史、DC元素与修饰词、DC的应用句法与结构、DC与USMARC的比较和CORC(联合在线资源目录,Cooperative Online Resource Catalog)系统简介、CORC著录操作实践、CORC寻路器的创建与CORC系统的管理,书的最后附录有《CORC实验系统DC著录使用指南》和《DC元素与修饰词详表注解》。这是国内迄今为止关于DC元数据研究的重要成果,也是国内开展元数据研究和培训的重要参考书。
2.2 北京大学图书馆的“中文metadata标准研究”
“中文metadata标准研究”是北京大学数字图书馆研究所、北京大学图书馆数字图书馆工程的重点研究项目。项目组由北京大学数字图书馆研究所的三个单位组成:北京大学图书馆、CALIS管理中心、北京大学信息科学中心。2000年5月,“古籍数字图书馆元数据”立项,本项目以各类具有鲜明的中文特征的金石拓片、敦煌古卷、善本、舆图以及旧报刊等特藏文献为资源实体对象,研究中文文献元数据标准,并在其基础上制定中文文献元数据标准框架,建立若干中文文献示范数据库。
目前北京大学古籍数字图书馆拓片元数据标准的设计及其结构研究已取得了重要进展。根据拓片的特点,把拓片元数据从结构上分为描述型元数据、管理型元数据和应用型元数据三个部分。描述型元数据大多是传统意义上的著录项目以及与拓片、原器物内容等有关联的元素,其中核心元素14个,包括名称、主要责任者、主题/关键词、资源描述、其他责任者、日期、资源类型、资源形式、资源标识、来源、语种、相关资源、时空范围和权限管理;本馆(北京大学图书馆)核心元素3个,包括版本、物理特征和出版项;拓片个别元素根据资源对象情况制定。管理型元数据主要是与拓片的数字影像有关联的元素,包括上下文信息、出处信息、验证信息和评价信息四个元素。应用型元数据是为特定的应用而设立的元数据项,主要是地理信息元数据项(GIS metadata),其是用来描述资源对象的地理时空属性的,包括时间项和空间项两个元素。地理信息源数据不同于描述型元数据的地方是,描述型元数据中的日期、时空范围采用自然著录的方式,而地理信息元数据则需专门加工成特殊格式。
此外,北京大学数字图书馆除了已经设计并应用的拓片元数据标准和古籍元数据标准外,正在设计并接近完成的元数据标准还有舆图元数据标准、学位论文元数据标准和网络资源元数据标准。
2.3 台湾辅仁大学图书资讯系吴政睿教授研制的中文DC系统
吴政睿教授研制的中文DC系统有两项:一项是梵蒂冈中文联合馆藏系统(UCSIV);一项是分散式元数据系统(DIMES)。
UCSIV采用的是美国微软公司的Windows NT和SQL Server,主要特色是所有资料的查询、新增、修改,都是通过Web界面(WWW)方式进行。目前系统包含两种元数据类型—都柏林核心集和IETF正在规划中的URI结构(包含URN,URL,URC),此外还将陆续加入其他种类的元数据格式,如GILS等。
DIMES是一个开放性的元数据实验系统,作者建立系统的目的是让读者通过这个系统,对元数据及其未来的可能运作方式有更具体的认识,此外,也希望利用它来测试和验证元数据的功能和效用。其主要有以下特色:①同时提供著录和检索两种功能,它的处理对象并不只限于网络文件,也适用于传统文献的著录;②开放性设计,任何人都可以通过它进行检索和著录;③使用URN作为资源(或文件)的唯一表示符;④同时提供模糊检索的功能。另外,此系统有注册子系统、都柏林核心子系统、查询子系统和URL子系统四项功能。
2.4 中文元数据应用国际研讨会
为了促进中文元数据的研究开发,2001年5月7-9日在上海图书馆举办了“中文元数据应用国际研讨会”,这是国内首次有关中文元数据研究的专题研究会。为了对中文元数据的应用进行一些实质性的研究,大会组织了两次专题讨论,一次是有关元数据标准化的讨论,另一次是有关元数据开发与应用的专家论坛。图书情报界主要元数据项目的专家从四面八方汇聚一堂,希望本次会议能够对元数据今后的发展起到积极的推进作用,最后研讨会代表在元数据的研究方面形成以下共识:①重视数字图书馆资源建设,把网上信息资源的组织与整理放到重要的议事日程上。加强对网上信息资源描述和管理的研究,通过对元数据的理论研究与应用开发,提高数字图书馆建设的整体水平;②开展调查研究,组织有关元数据应用的地区或全国性调查,全面了解元数据普及与应用的程度,广泛征求研究人员和用户对DC及其他元数据的意见,并公开调查结论,以促进国内元数据应用的交流和发展;③加强中文元数据标准化的研究。要学习与研究国际上先进、通用的元数据标准或应用方案,在充分考虑中文资源特点的前提下,对目前流行且具有国际化前景的各类元数据方案进行比较研究,在保持与国际标准接轨和兼容的基础上,制定符合中文资源应用需求的扩展与应用规范;④促进中文元数据应用的技术推广工作。鼓励开展一些标准化程度高、技术含量大、应用效果好的合作项目,推动对现代信息技术环境下中文元数据的编码、著录规范及相关技术的研究与实践。采用和参照现有的国际规范,加快中文元数据编码的标准化进程与实际应用。引进和利用各种成熟、规范的编码体系中的元素,将这些基本构件有机地组合起来,形成适应具体应用需求与中文资源特点的应用规范,提高互操作性。同时应努力探讨与实施中文元数据注册管理机制,推动标准化、模块化的中文元数据应用方案的交流与推广;⑤在推广现代元数据应用的同时,不应忽视以MARC为代表的传统元数据的发展与利用。针对传统元数据与现代元数据的不同特点,取长补短,发挥各自特长,对各种信息资源形态与特点的资源进行有效的内容组织与信息挖掘。加强传统元数据与现代元数据格式之间的融合,提高中文元数据应用的互操作性。同时在新的信息技术与标准的应用环境下,对传统元数据进行革新与发展,使这些元数据在数字化时代焕发新的生命力。
总而言之,这次会议的召开,对目前中文元数据研究中存在的主要问题,如中文元数据的标准化问题、CNMARC与元数据关系处理问题以及元数据的应用等方面问题的解决提供了一个良好的开端。
3. 中文元数据研究的发展趋势
3.1 元数据的标准化
90年代元数据格式大量涌现,不仅出现了很多针对不同资源的元数据格式,同时由于缺乏规范和一致性约束,针对同一资源类型也出现了多种格式。另外元数据应用的广泛性,参与制定元数据格式的团体众多等原因,都是造成元数据格式大量出现的原因。元数据格式的众多,尤其是同一种资源有多种元数据格式的出现,不可避免地导致了重叠现象的产生,因此元数据的标准问题也就逐渐提上了日程。元数据标准的设计应遵循以下四个相结合原则:①准确性与适用性相结合;②可互操作性与可转换性相结合;③通用性与专用性相结合;④可扩展性与可操作性相结合。设计思想应包括以下几个方面:①支持中文数字资源的保存和利用;②参考国际上主流的相关标准和较为成熟的技术;③适应不同层次对元数据的制作要求;④尽可能考虑与其他元数据方案的可交换性。
3.2 元数据的互操作性
90年代后期,人们的注意力从元数据格式的开发转移到了元数据的互操作性上。元数据的互操作是网络信息管理的基本原则,它直接影响到不同的系统、语言和地理位置间的共享、交换和整合检索,并能节省人们制定新的元数据格式的时间,同时又能使它为最广大范围内的使用。如果将元数据的互操作分为语义、语法和结构的互操作三个方面,那么映射和OAI(Open archive initiative)应属于语义互操作的方法,RDF和XML则分别是结构和语法互操作的途径。
映射是人们在寻求互操作途径方面迈出的第一步,所谓映射就是为一种元数据模式的元素和修饰词在另一种元数据格式里找到相同功能或含义的元素和修饰词。映射可以解决几种格式间的统一检索,映射方法的进一步发展是选择一种格式作为映射的中心,其他的格式都向这一格式映射,这样就大大降低了复杂性。参与映射的元数据格式越多,这种方法的好处越明显。当人们选定DC15个基本元素作为映射的中心时,OAI就产生了。相对于以前的映射方法而言,OAI只采用简单DC作为映射中心,大大减轻了映射的工作量,OAI的这一优点决定了它是一种有前途的方法。相对于OAI,Z39.50功能更加完善,对于标引详细复杂,数据质量高,对互操作质量要求也相当高的系统,最好采用Z39.50,目前采用Z39.50的主要是传统的数目数据库。使用RDF/XML的命名域的概念,在开发一个元数据格式时,借用其他元数据集的某些元素,可以减少重复劳动并增强元数据格式间语义互通性,方便互操作的实现。
3.3 保存元数据研究
过去图书馆界讨论metadata大多把焦点放在资源描述及发现这些方面,随着数字化信息资源的日渐增长,保存元数据的研究越来越受到研究者的重视。保存元数据是指支持数字化资源长期保存的数据,所谓长期保存就是指保存期限可以无限延长。保存元数据可以用来协助数字化信息资源的管理,有助于系统提供特别的数字资源给使用者,确保数字信息资源提供给后代子孙使用。保存元数据强调的是数字信息资源的长期保护,其主要目的在于确保所有数字化资源的可用性、持久性及知识整合性。目前保存元数据的主要研究内容,OAIS体现得最为充分;保存元数据的框架结构,OAIS最引人注目。
OAIS(Open Archive Information System)参考模型的主要功能是接受信息、保存信息并提供信息服务,目的是保证信息的长期保存和利用,它基本上显示了长期保存资源需要的所有信息,一个信息包由内容信息、包装信息、保存描述信息和描述信息四个部分组成。数字资源的保存得到中,在同一个框架OAIS下开发保存系统和制定元数据格式,将能够促进不同领域系统间的互操作和信息共享。OAIS具有以下意义:①能加快数字资源取代纸本资源占据主导地位的步伐;②对于数字图书馆的建设有不可低估的作用。
总之,随着元数据研究范围的不断扩大,深度不断加强,元数据的规范化和标准化问题将变得更加严峻,难度也将更大。元数据标准的设计不仅要注意个性化与通用性的协调,而且要注意简单与描述能力之间的均衡。另外元数据的功能不再仅仅是对对象的描述和管理,重要的是比以前更加强调用户需求的实现。但毫无疑问的是,元数据研究的深化和发展必将为网络信息资源的有序组织、适度控制和高效检索提供更为便利的条件,为数字图书馆的信息资源建设提供更为广阔的前景。
原生文献专栏(第28期)
中国人民大学图书馆/书报资料中心联合主办