国家图书馆关于中文Metadata标准的研究与制订,本文主要内容关键词为:国家图书馆论文,中文论文,标准论文,Metadata论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着数字图书馆的进展,元数据的研究日益受到重视。国家图书馆在开展多项数字图书馆研制项目的进程中,关注国外此项研究与利用的有关情况,并开始了中文元数据标准的研究与制定工作。
一、数字图书馆元数据工作的回顾
信息技术的高速发展,对传统图书馆提出了新的挑战。自20世纪90年代中期以来,国家图书馆一直致力于数字图书馆的研究和建设,近十年来,我们所承担的一系列数字图书馆项目在元数据的创建和应用方面做了一些有益的尝试,其中包括:SGML的图书馆应用、基于特征的多媒体信息检索系统、中国数字图书馆演示系统、知识网络——数字图书馆系统工程、中国试验型数字图书馆、拓片数据库的研制以及中国数字图书馆网站的部分资源。上述项目包括但又不仅限于元数据的创建和应用,现仅将这些项目所涉及的元数据的研制情况介绍如下。
1.文化部科研项目《SGML的图书馆应用》
该项目是1997年文化部立项的科研项目,与北京大学计算机研究所合作开发。国家图书馆现代文津信息技术研究中心参照国外利用SGML的情况,开发了基于SGML的图书馆应用系统,使用户可以通过Internet的WWW浏览器直接存取SGML应用系统的数据。该系统已于1998年2月开始在我馆提供给用户使用,取得了良好的效果。
2.基于特征的多媒体信息检索系统的研究
该项目是中国科学院技术研究所与国家图书馆的合作项目, 列入1996年国家863攻关计划,现已通过技术鉴定。 项目主要研究基于内容特征的图像信息检索,实现按照图像的纹理、颜色、形状等特征对图像信息进行检索;研究中文信息的全文检索,利用相关检索机制,提高检索效率;研究信息存储管理方法,实现跨平台的客户端检索。它是跟踪国际上数字图书馆检索系统所使用的高新技术自行研究开发的项目,其成果可用在面向影像内容的数字图书馆检索系统中。
3.中国数字图书馆实验演示系统
国家图书馆负责该演示系统的研制,并于1998年完成,该系统在多媒体数字资源的创意、设计和加工,元数据抽取和元数据库的生成,对象数据库建设,调度系统的选用,以及实现多库的跨库检索和用户界面等方面进行了探讨,取得了初步的实践经验。开发了数据加工、置标、管理方面的软件;开发了元数据和对象数据装入和管理方面的软件;开发了包括多媒体对象在内的动态页面生成软件;开发了支持SGML和分布式数据库检索、查询软件以及元数据和对象数据连接的接口软件等。
4.知识网络——数字图书馆系统工程项目
该项目是1998年国家863攻关项目, 由国家图书馆与北京曙光天演信息技术有限公司合作完成。
本项目参照国际上主流的数字图书馆研究方法和成果,结合中文数字资源的特点,在系统总体框架及开发技术上与国际接轨;开发的主体工作围绕基于SGML/XML的以中文资源为主的系统的建立、维护和发布;在知识挖掘、知识聚集等方面通过智能主体方式予以集成;对国外已有的比较成熟和定型的技术,进行了吸收和利用,充分考虑了下一代Internet的实用性。
5.国家计委《中国试验型数字图书馆》(七馆合作项目)
1996年5月,在国家图书馆、上海图书馆等联合提议下, 文化部向国家计划委员会申报了中国试验型数字图书馆项目,并于1997年获准立项,成为国家重点科技项目。该项目以国家图书馆为组长单位,有上海图书馆、辽宁省图书馆、南京图书馆、广东省中山图书馆和深圳图书馆等参加,桂林图书馆后期加入。
按照计划,该项目要组织建设若干个整体性好、符合统一技术要求的资源库,以在数字图书馆系统中形成一个多馆合作的、具有一定规模的、整体性较强的资源库。资源库主要有:旅游多媒体资源库、法律法规数据库、孙中山文献全文数据库等,同时,该项目也带动了各参与馆的其他数字图书馆项目的开发,例如中国古籍善本影像数据库、中国博士论文影像数据库、历史舆图与图片数据库、深圳特区文献数据库、民国时期(1911—1949)南京政府文献数据库、东北文献图录数据库和国际数字图书馆文献数据库等。
6.拓片数据库的研制
中国国家图书馆藏有各类石刻拓片13万余件,是馆藏中的精品。截止到2000年12月31日,已编制拓片书目数据9700余条。为了在互联网上展示拓片的原貌,我们一直想按照数字图书馆的技术对拓片进行加工、整理、存储,并为读者提供服务。
金石拓片数据库研制计划是:三年内完成元代以前石刻拓片9000余种数据的研制(含书目和全文影像数据),再用几年时间完成1 万余种明清石刻拓片数据的研制;最终目标是在本地实现跨库检索,通过元数据实现与国家图书馆已有的旅游资源库、名人资源库、大百科资源库、当代词典等数据库的无缝连接;对分布式数据库,特别是各个单位建立的拓片数据库,实现异地的跨库检索。
以上6个项目表明, 国家图书馆在数字资源的元数据研制和应用方面积累了一定的经验,为中文元数据标准的研究和制定奠定了基础。
二、“中文元数据标准”项目的有关情况
“中文元数据标准”课题来源于2000年6月7日在北京香山召开的第一次“中文文献资源共建共享合作会议”。来自中国大陆、台湾、香港、澳门以及新加坡、美国、荷兰等国家和地区的42家中文资源收藏单位的62位代表参加了会议。会上,代表们提出,制订中文元数据标准是建设中文数字资源库的重要前提,是实现网上中文资源共享的基石。会议决定由中国国家图书馆牵头制定《中文元数据标准》。为此,国家图书馆专门成立了“中文元数据标准”课题组,该课题已被确定为2001年度文化部、国家图书馆重点科研项目。
目前,该课题已完成了以下几项工作:
1.成立课题组,研讨基本架构
2000年11月,确定了项目参加人员和分工。该工作小组由10人组成,绝大多数是工程师或者研究馆员,大都具有比较丰富的研究和实践经验。经研讨,工作小组一致认为中文元数据的框架应该采用开放、可扩展的模式。对那些通用的、与中文环境无关的无数据可直接使用国外的元数据集;对那些与中文语义相关的元数据,拟采用基本集、第一扩展集和第二扩展集的方案。基本集可采用类似Dublin Core的元数据集;第一扩展集可按大类来划分,进行有限的扩展;对于第二扩展集,用户可根据需要较灵活地进行扩充。
2.广泛吸取国内外元数据项目的精华
按照工作计划的要求,我们于2000年底完成了对国内外元数据标准及项目的调研工作,写出了详细的调研报告。
(1)国内情况:
①国家图书馆的文化旅游资源库
由于此次七馆合作建设的中国文化旅游资源库的内容主要是景点的文化背景介绍,所以在制作对象数据和元数据时,以景点为基础对象。相关的元数据集也在此基础上加以定义。
②清华大学建筑资源库
主要在DC核心集基础上,扩展成70多个字段,采用RDF框架, 同时提供DC RDF、USMARC、CNMARC、HTML等标准的相互转换,页面显示供读者自行选择,后台通过建立“映射关系”、采用ASP技术实现。
③广东中山图书馆的孙中山全文集
中山图书馆研制数字图书馆采用的元数据是都柏林核心元数据的15个项目,增加了记录控制号(Record),共有16个数据项,并规定了中文数字化文献的文本著录格式,使之符合数字化中文文献的规范著录要求。
④北京大学的古籍拓片资源库
北京大学的“中文Metadata标准研究”小组,成立于2000年9月2日,是北京大学数字图书馆研究所、北京大学图书馆数字图书馆工程的重点研究项目。该项目试图以各类“中文文献”(如具有鲜明的中文特征的金石拓片和敦煌古卷、善本、舆图等)为资源实体对象,研究中文文献元数据标准,并在其基础上制订了中文文献元数据标准框架,建立了若干中文文献元数据示范数据库。
⑤上海交通大学的音乐库
上海图书馆数字图书馆项目元数据方案以Dublin Core作为核心集,多种元数据方法并存,并用基于XML的RDF的资源描述体系将它们封装在一起,保证了原始素材内容管理中元数据的完整性与互操作能力。
⑥深圳图书馆计划建设的法律资源库
目前正在制定有关方案,元数据方案的研究已经开始,并已建立了初步框架,有待实施。
(2)国外情况包括:
美国国会图书馆核心元数据集、编码档案描述(EAD,Encoded Archival Description)、英国国家图书馆Cedars项目、Dublin Core、加州大学数字图书馆影像藏品元数据、艺术作品描述类目(CDWA,Categories for the Description of Works of Art)、MoAⅡ实验项目元数据、电子文本编码与交换(TEI,Electronic Text Encoding and Interchange)、欧洲NEDLIB的长期保存核心元数据集、视觉资料核心(VRA,Visual Resources Association Data Standards Committee)、澳大利亚国家图书馆的基于实体-关系模型的逻辑数据类型、政府信息定位服务(GILS,GovernmentInformation Locator Service)等。总的说来,国外元数据方案及有关项目主要考虑了以下几个方面:
——元数据的相关含义
——元数据的设计原则
——元数据的功能与作用
——元数据标准的设计步骤
——元数据的结构
——元数据的元素组成
——元数据的互操作性及其语法结构
——元数据的语义结构及相关规则规范
根据以上的调研情况来看,国际上一些主要国家图书馆的元数据方案已基本趋向成熟,并且开始应用在数字资源的建设中;而国内中文元数据标准尚处在研究和制订阶段,大范围的应用还没有开始,这在一定程度上制约了中文数字资源的建设和加工,同时也严重影响着全球中文文献资源的共建共享。
3.确定设计原则、设计思想,完成方案的草拟工作。
2001年2月,经过对国际元数据标准制定和实施情况的考察,认真分析国内已有元数据项目的各个方面,同时结合中文文献资源自身的特点,完成了中文Metadata核心集和扩展集标准草案的拟定工作。本草案在数据结构上采用了比较广泛使用的OAIS模型,元数据上参考LC,NLA,Cedars,DC等较为成熟的核心元数据集。
(1)设计原则
①准确性与实用性相结合:要求设计的元数据方案在对数字资源的描述上尽可能做到准确无误,保证用户搜索资料的准确性。同时兼顾了方案的实用性,要让数字资源加工单位能够把它应用到具体的资源加工实践中去。
②可互操作性与可转换性:元数据的可互操作就是要支持多个异构系统之间资源与服务的调用。即在本标准框架下创建的元数据不仅应该被自己开发的应用系统所支持,还应该支持其他组织或机构(如档案馆、博物馆)开发的应用系统,这要求在字段命名、编码格式上达成一致,至少包括某些语义上的一致性。可转换性表现为能够方便地转换为其他系统常用的元数据。
③通用性与专用性:中文文献的类型多种多样,涵盖的专业领域也五花八门,除了考虑一定范围内的通用性之外,还应该注意特定的专门领域对文献著录在广度和深度上的不同要求。
④可扩展性与可操作性相结合:由于数字资源的多样性特征,数字图书馆的各项应用应该充分考虑可扩展性,元数据的创建也不例外。该元数据方案只能提供最广泛意义上的描述性信息,在不破坏本方案整体框架的前提下,用户单位可根据自己的特定需求进行扩展。可扩展性在一定程度上也体现了可操作性。
(2)设计思想
①支持中文数字资源的保存和利用
设计的方案是以“信息发现”为主,同时也考虑了“保存”的问题。数字化之后的中文资源,一方面是为了保存,但更是为了向广大信息用户提供服务。在数字资源的保存和利用中,各个单位(包括图书馆、博物馆、档案馆、学校,以及其它信息提供单位)使用的存储系统或者应用系统各不相同,本方案充分考虑了这一需求。
②参考国际上主流的相关标准和较为成熟的技术
经过长时间的调查研究和实践,我们决定采用OAIS信息总体框架。该框架是ISO的参考模型,它定义了可用于多种操作的一系列功能, 从资源的创建,到存储、数据管理、存取和利用。同时,该方案的语法和语义结构采用的是以XML编码的RDF Schema,有利于可互操作的需要, 与我们的设计原则吻合。
③适应不同层次对元数据的制作要求
在元数据的制作过程中,不同资源的拥有单位对元数据方案提出了不同的要求,资源类型千差万别,研究利用的目的也多种多样,这决定了在创建元数据时的深度和层次也有差异。
④尽可能考虑与其他元数据方案的可交换性
目前的元数据方案很多,许多机构都在采用各不相同的元数据方案创建数字资源。因此,考虑到未来数字图书馆资源的多样性和复杂性,需要实现与其他元数据方案的可交换性。
(3)方案的各组成部分
本方案目前包含四个主要内容,即中文元数据标准制订说明、中文核心元数据集、中文核心元数据扩展集和中文元数据方案RDF Schema。其中,中文核心元数据集又包括中文核心元数据框架结构表、中文核心元数据集定义、中文核心元数据DTD定义;中文核心元数据扩展集包括中文元数据总体框架图、中文元数据总体框架说明、中文元数据基本扩展集定义、中文元数据基本扩展集DTD描述。
4.海纳百川,广泛征求海内外同行的意见和建议
为了集思广益,我们在起草了《中文元数据方案(讨论稿)》之后,课题组先后于2001年6月29日和7月5 日分别在国家图书馆召开了国内专家交流会和征求意见会,与业内专家进行了广泛而深入的交流。来自中科院网络中心、清华大学计算机系、北京大学图书馆、上海图书馆、武汉大学信息管理学院、四川大学信息管理系、北京书同文数字化技术有限公司等单位的专家,与课题组成员进行了认真深入的讨论,并提出了中肯的修改建议与意见。
课题组在消化吸收国内专家意见的基础上,对本方案做了进一步的修改。2001年8月7日,我们又组织召开了一次国际性的征求意见会,来自美国加州大学、芝加哥大学图书馆、哈佛大学哈佛-燕京图书馆、台湾师范大学、北京大学图书馆、清华大学图书馆等单位的专家和学者,就修改后的方案进行了热烈的研讨,与会海内外专家对课题组制订方案的工作思路与方法表示了肯定,同时希望元数据工作小组再接再厉,尽快完成方案的定稿工作。
三、后期研究计划
1.进一步优化完善现有元数据集,完成中文Metadata标准的研究和制订。
我们的目标是争取在2001年底完成中文元数据方案的研究和制定工作。现已完成的方案还须继续认真研究和充分论证,改正不足之处,使之不断趋于完善。
2.推进文化部科研项目《中文Metadata核心集标准》的研究。
与此同时,我们还承担着文化部科研项目《中文Metadata核心集标准》的研究。我们将结合《中文Metadata标准格式的研究和制订》,制定《中文Metadata核心集标准》。
3.本着边研究、边开发、边应用的原则,把研究成果应用于金石拓片数据库和其他数字图书馆项目的资源建设。
国家图书馆的数字图书馆项目和中国数字图书馆工程建设正在逐步展开,其中的核心部分就是数字资源的加工和建设,我们要努力使资源的元数据加工符合“中文Metadata标准格式”的规定,以便真正实现数字资源的共享。
数字图书馆是一个新生的事物,它的研究与建设是一项长期而艰巨的任务,中文数字资源元数据标准的研究和制定也不是一蹴而就的工作。我们的最终目的,是要研究制订一个科学、实用、操作性强的元数据标准,共同推进数字图书馆研究和建设的进展,真正实现资源的共建与共享。