我国元数据研究发展状况分析研究,本文主要内容关键词为:分析研究论文,发展状况论文,国元论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
计算机技术、网络技术、通信技术的飞速发展使人类社会步入了知识经济时代。知识对个人、企业、国家发展的作用越来越受到人们的重视。呈几何级数增长的信息在给人类带来财富的同时,也使人们陷入信息的无序和混乱中。对知识的管理在当今显得尤其重要。虽然人类对知识的管理自有知识起就存在,知识经济时代的数字化环境正对人类的知识管理技术和水平提出挑战。元数据,这一人类管理知识的新工具就应运而生了。
为了对中国元数据研究现状进行分析,笔者对我国1998年1月至2000年6月的14种重要图书馆学、情报学杂志进行了文献调研,同时对网上电子文献进行了调研,有关元数据的文献共有20篇。本文主要是依据此次调研的结果,在进一步分析的基础上形成。
一 纯理论性研究
此类文献涉及的主要内容有:元数据的概念及DC 15个基本元素及其子元素的介绍;对目前几种元数据的比较;当前应用项目发展情况的介绍。
1 对元数据概念的认识
关于元数据概念的认识,虽然存在层次高低的区别,但对其基本特性意见基本一致:即“元数据是关于数据的数据”。如在“元数据标准概述”一文中:“元数据也被称为是关于数据的数据。更为正式的表达是:元数据是与一些对象相联系的数据,这些数据将使用户可以藉此数据减少对对象的存在或特征方面的全面高级数据知识的依赖。”北京大学图书馆肖珑认为:“元数据,是用于提供某种资源的有关信息的结果化数据,简单地说,是关于其它数据的数据。”中科院文献情报中心张智雄作了这样的陈述:“metadata通常被定义为‘关于数据的数据(data about data)’或‘描述数据的数据’(data that describes data)”。刘嘉博士在她的论文中对元数据这一概念作了最有深度的探讨,对元数据的含义作了详尽的阐述,并列举了各种观点。但总体来说各位作者对元数据定义的看法基本一致,认为“元数据是关于数据的数据,关于结构化数据的数据。”对DC元数据的15个元素的中文译名虽然存在一些细微差异,但可以说是大同小异。对子元素论述最为全面的当推上海图书馆数字化工作组的刘炜和赵亮,他们在《“中国国家试验型数字图书馆”项目工作报告元数据方案实施意见》一文中作了就当时来说十分完整的阐述。随着DC子元素的发展,在上海图书馆数字化工作组的一篇文献《CORC实验系统DC元数据著录指南(pdf格式)》中给出了目前最完整的阐释。
2 在元数据的比较方面
台湾辅仁大学信息咨讯系吴政睿教授在1995年便发表了《三个元资料格式的比较分析》,可以说是此研究领域的开山鼻祖。肖珑对现有几种主要元数据:USMARC、Dublin Core、VAR核心类目(VRA Core Category)、艺术作品著录目录(Categories for the Description of Works of Art)、REACH著录单元集合(REACH elementset)进行了详细介绍、分析和比较。这也是目前比较研究中的一篇力作。作者分别从以下三个角度对元数据进行了比较研究。从易用性角度看,DC>VRA Core>REACH>USMARC。从严密性角度来看,USMARC>DC>VRACore>REACH。从网络产品的描述能力来看,作者首推DC。而在应用性方面,作者认为:MARC较实用于纸形出版物、图像、缩微、视听资料、软件、数据库等。VRA CORE、REACH著录单元集合更实用于美术作品(如绘画、雕塑等)、拓片、瓷器、家具、服装、建筑等三维实体。DC则介于二者之间。而中山大学信息管理系庄育飞对DC元数据和图书馆编目的区别作了较为深入的研究:著录主体不同,元数据更具有广泛性;在使用对象方面,DC是为自动搜索程序提供的;著录详尽设计的目的不同,DC是为广大用户而非仅仅为专业编目员设计的。刘嘉在她的博士论文中对大陆和台湾的元数据研究情况作了概述和比较,使我们了解了台湾同仁的研究情况,有助于我们在今后的研究工作中有所借鉴。
3 在元数据标准研究方面
目前,此方面的研究主要是针对网络界和数字图书馆界都颇为关注的几种元数据进行了概要性的阐述。上海图书馆数字化部在《元数据标准概述》一文中阐述了都柏林核心(Dublin Core)、因特网内容选择平台(PICS)、资源描述框架(RDF)、编码档案描述(EAD)和文本编码倡议(TEI)的内容和结构,并给出这几种标准的描述实例和应用实例,可以说对以上标准进行了比较深入、透彻的探索。而另一篇关于元数据标准研究的力作是中国科学院文献情报中心张智雄的《Metadata:组织和发现Internet信息资源的数据》。在该文中作者对元数据标准的新发展CDF、MCF等作了概述。并在对DC、PICS、WEB COLLECTIONS、CDF、MCF、RDF等标准进行详尽介绍的基础上,进行了思考:“几种元数据都有一定的相似性。但Dublin Core俨然是一个国际范围内通用的实用于资源发现系统的metadata标准。”
4 在元数据应用项目的研究介绍方面
上海交通大学图书馆王绍平副研究馆员在《合作编目——网络资源书目控制的必由之路》一文中对DC的应用项目之一——CORC的产生、发展作了较全面的介绍。在文章结尾,作者说:“CORC计划的目的是在自动编目工具与图书馆合作的基础上,建设共享的网络资源数据库。”并呼吁图书馆界人员“走CORC之路,对我国网上资源进行合作编目,以免重蹈文献信息资源编目各行其是的覆辙。”
总体来说,我国的纯理论性研究工作主要是对国外知识管理的先进技术和方法进行介绍和引进,并在此基础上形成了对知识管理新技术标准和方法的共识:“Dublin Core俨然是一个国际范围内通用的实用于资源发现系统的metadata标准。”“我国网上资源进行合作编目应该走CORC之路。”
二 应用性理论研究
1 DC与USMARC、DC与UNIMARC、DC与CNMARC的转换对照研究
对此领域的研究,从目前有关资料来看,主要研究者有台湾辅仁大学信息咨讯系吴政睿教授和北京大学信息管理学系的刘嘉博士。吴政睿教授可以说是此研究领域的领头人,或说是开创者。有资料显示吴政睿教授1998年在《都柏林核心集到中国编目格式的转换对照表》一文中,对都柏林核心栏位和修饰词的内容及应用方式进行了第一次极具实用价值的研究,也是论及DC与CNMARC转换的第一篇文献。而在《从都柏林核心集看中国编目规则的连续性出版品著录》一文中,根据中国编目规则的修订版,逐条描述了都柏林核心集的著录方法。同时,对中国编目规则进行了逐条探讨,有助于了解新旧两种著录方式的差异,是一篇对实践具有很强指导意义的论文。而刘嘉博士在她的博士论文中对此领域作了最为全面的论述,在其论著中,对DC与USMARC、DC与UNIMARC、DC与CNMARC的转换对照进行了仔细、深入的研究并在前人的基础上有所突破。
2 DC数据模型的探索性研究
在《一种基于事件的都柏林核心(DC)数据模型》一文中,作者对基于事件的DC数据模型作了探索性研究,使DC元数据的元素表达更加具有直观性、一致性、逻辑独立性和可操作性,并促进了DC语义的研究。
从目前这些文献的研究情况来看,我国对元数据的理论研究正从纯理论性研究阶段步入应用性理论研究阶段,势必在不久的将来迎来元数据应用性理论研究的高潮。
三 我国元数据研究项目情况
在2000年6月举行的“知识管理与元数据研讨会”(上海图书馆举办)上,通过与会交流获知,在我国大陆已经开始了元数据的研究项目。目前,主要有国家图书馆的有关法律、旅游、古籍元数据的研究项目,北京大学图书馆的拓片元数据研究项目,清华大学的建筑元数据研究项目。目前,均处于研究和产品开发阶段。
上海图书馆的数字图书馆项目实施中选择了元数据方案,1997年上海图书馆启动了第一个数字化项目——善本古籍的数字化,此后又陆续开始了六个数字化项目,分别是上海图典、上海文典、中国报刊、民国图书、点曲台和科技百花园,将极具特色的馆藏和地方文献开发出发,到1999年底,总容量已经达到200GB。
总体来说,上海图书馆对将元数据作为其数字化图书馆项目已经有了比较具体的实践性研究。
据有关资料显示台湾学者在此方面的研究已经进入产品应用和系统运作阶段。刘嘉博士在她的论文里对台湾辅仁大学信息咨讯系吴政睿教授研制的中文DC系统进行了较全面的介绍:
1 梵谛冈中文联合馆藏系统(http://dimes.lins.fju.edu.tw/ucsiv/Chinese/)
本系统所采用的基础是美国微软公司的Windows NT和SQL Server,主要特色是所有资料的查询、新增、修改,都是通过Web界面(WWW)方式进行。目前系统包含两种元数据类型——都柏林核心集和IETF正在规划中的URI架构(包含URN,URL,URC),此外还将陆续加入其他种类的元数据格式,如GILS等。
2 分散式元数据系统(http://dimes.lins.fju.edu.tw/dimes)
DIMES(网络文件著录和检索实验系统),该系统已于1997年应用于梵谛冈图书馆的中文文献的著录。这是一个元数据实验系统(Metadata Experimental System,简称MES,网址:http://140.136.85.194/wu/metadata或http://blue.lins.fju.edu.tw/~wu)。作者建立MES目的,是让读者通过这个系统,对元数据及其未来的可能运作方式,有更具体的认识,此外,也希望利用它来测试和验证元数据的功能和效用,例如都柏林核心集这种简单的数据描述格式,是否如制定者所预期的,足以满足大部分网络文件著录和检索的需求。MES是一开放性的实验系统,有以下特色:同时提供著录和检索两种功能,MES的处理对象并不只限于网络文件,也适用于传统文献的著录;开放性设计,任何人都可以通过它进行检索和著录;使用URN作为资源(或文件)的唯一识别码;还将同时提供模糊检索的功能。
另一个应用项目是台湾地区的ROSS(Resources Organization and Searching Specification),是台湾数字化博物馆的一个项目。该项目正在建设中,主要采用Dublin Core作为核心元素,开发适用于各种对象,如历史记录、文学作品、绘画、地图、图片、标本等的元数据。
综上所述,我国元数据研究工作者对DC这一元数据作为我国知识管理的技术标准和方法基本取得共识。我国对元数据的研究正从纯理论研究阶段步入应用性研究阶段。从实践应用来看,台湾学者走在我们前面,已经有了有关系统的运作,大陆则刚刚起步,有待于加强与台湾学者的合作,进一步开拓我国的元数据研究工作。
收稿日期:2000年12月25日