OAIS参考模型与中文元数据方案,本文主要内容关键词为:模型论文,方案论文,数据论文,文元论文,OAIS论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[分类号] G250.7 TP29
中文元数据方案主要目的是制定一套适用于中文数字资源发现、长期保存、管理的通用元数据框架。此元数据方案的设计大部分基于OAIS参考模型,包括了描述性、管理性、技术性和法律性信息,用户可以在这几个方面对中文数字信息进行语义级访问。
1 OAIS参考模型
随着科技发展的加快和用户团体的变化,保存信息的机构会发现他们的大部分信息需要能够长期保存(Long Term Preservation)。数字文档的长期保存面临的主要问题是技术更新换代。20年或100年后,我们或我们的后代可能无法处理现有数字文档的比特数据流,这样也就无法访问这些数字文档。收集关于处理现有数据的关键数据,确保将来仍能访问这些数据就成为了我们的任务。元数据是关于数据的数据(Data about Data),一个元数据集的设计不仅要考虑元数据的发现作用,还应当考虑到对数据的长期保存作用。
面对以上问题我们需要一种能够解决数字档案长期保存的框架模型,开放档案信息系统(Open Archival Information System,简称OAIS)作为ISO试行草案无疑满足了我们的需要,OAIS是美国国家航空和航天局(简称NASA)和美国太空数据系统咨询委员会(Consultative Committee for Space Data Systems,简称CCSDS)联合制定的标准,旨在对资源的存取和长期保存规定概念和参考框架。
OAIS是一个档案流通、存储、交换系统,一个由人和计算机系统组成的有机体,它承担保存信息的责任并将其提供给指定团体(Designated Community)。OAIS中的“开放(Open)”表示其推荐稿和以后与其相关的标准都是在开放论坛中制定的,并不表示可以不加限制访问档案,长期(Long Term)指受技术变化影响足够长的时间,包括对新媒体,新数据格式的支持,或者对用户群体变化的支持。
OAIS框架为我们提供了如下内容:
·对长期保存处理数字信息所需理解的存档概念提供了一个框架;
·为非存档组织有效参与保存工作提供所需概念;
·为描述和比较结构、对现存和将来的档案操作提供包括命名和概念在内的框架;
·为所保存数字信息的数据模型进行比较,为讨论数据模型和内在信息随时间如何变化提供基础;
·为其它长期保存的非数字形式信息扩展提供一个基础;
·为鉴别OAIS相关标准的产品提供向导。
这个参考模型阐述了档案信息保存功能的全过程,包括加工、档案存储,数据管理、访问和发布。它同时阐述数字化信息向新媒体及格式迁移,表述信息的数据模型,信息保存时软件的角色,以及档案间数字信息的交换。参考模型确定了存档功能的内在及外在界面,确定了这些界面的很多高级服务。
OAIS参考模型不定义任何实施这些概念的特殊方法。具体实施者以OAIS参考模型为开发提供特定服务和内容的指导,但OAIS参考模型不假设或局限于任何特定计算机平台、系统环境、系统设计范例、系统开发方法、数据库管理系统、数据库设计范例、数据定义语言、命令语言、系统界面、用户界面、技术、所需媒体。这也是中文元数据设计的出发点,力争采用一套通用的元数据集表示跨领域的公共信息,这些公共信息将更好的服务于信息数据的发现、保存与管理。
1.1 OAIS的环境
详见图1。
图1 OAIS的环境模型
OAIS之外是信息生产者、用户和管理层。
·信息生产者是提供用于保存的信息的人员和客户端系统。
·管理层是制定OAIS政策并大范围应用的角色,即控制OAIS是管理的唯一职责。管理层不参与日常档案操作。OAIS管理职责由OAIS内的管理功能实体完成。
·用户指从OAIS服务中获取所感兴趣保存信息的人员或客户端系统,一类特殊用户群称为指定团体,他们是可以理解保存信息的用户集合。
1.2 OAIS信息的概念
人或系统都可以有一个帮助他们理解接收到信息的知识库。例如,一个人的知识库包括对英语的听说读写能力。
信息定义为可以交换的任何类型知识,这种知识总可以用某些数据形式传达。例如,一本图书的信息用可视的字符(数据)传达,字符由某种语言的知识(知识库)进行组合,转换成更具含意的信息。如果接收者不具有英语知识库,则理解英文(数据)需要借助英语字典和某种接收者知识库可明白的语法信息(例如,表征信息)。
相类似,存储在CD-ROM文件的信息由其比特(数据)组成,当这些比特和表征信息(可以被接收者知识库理解)结合后就可以转化为更有意义的信息。例如,假设一组比特数表示的ASCII数字表格以表示经纬度确定地球上的地点。表征信息包括对久SCII的定义、数字格式和其在文件中的位置、如何表示经纬度、经纬度单位的定义。还可以包括其它关于表格的附加信息,比如“数据由其表征信息处理输出信息”,详见图2。
图2 从数据获取信息
为了使信息对象成功保存,OAIS明确理解数据对象和其相关表征信息就十分重要。具体对于数字信息,则OAIS必须明确比特数和其表征信息。与运行时尽量隐藏比特数的概念相反,这里要求对数字信息保存的比特级别清楚了解。
由于表征信息的递归特性,即表征信息除去自身数据外还包括其它表征信息,在未来将带来一个复杂的表征信息对象网络。因为OAIS的一个关键目的是为指定团体保存信息,所以OAIS应当理解指定团体的知识库,至少理解OAIS所要维护的表征信息。OAIS需要在为指定团体维护少数表征信息和为广大用户群维护无需专业知识库的众多表征信息间抉择。指定团体的知识库随着时间的演进,则为了确保继续理解也需要对表征信息更新。
实际操作中,用于访问信息对象的软件也需要对包含的表征信息对象网络有一些理解。然而软件不能作为识别和收集信息对象中表征信息的基础,因为保存工作软件远比保存数字或实物形式的信息困难。
1.3 OAIS信息包
每个信息生产者向OAIS的信息提交,每个OAIS向用户的信息发布,都会有一个或多个离散信息传送。所以对于一个信息包概念就显得很方便。信息包是一个概念上容器,包括内容信息和保存描述信息两类信息,内容信息和保存描述信息由打包信息封住和识别。最后的包裹可以依靠描述信息来发现。信息包关系如图3所示
图3 信息包概念与关系
内容信息是信息保存的主要目标。它由基本数据对象(物理对象或数字对象,如:比特数)和为使指定团体理解数据对象的相关表征信息组成。例如,一幅图像,用CD-ROM中文件的比特数记载,则在同一CD—ROM中包含表征信息。
只有内容信息明确后才能确定制作保存描述信息。保存描述信息是保存内容信息所需要的,应用于内容信息使其可被清楚识别,使内容信息的生成环境得以理解,保存描述信息分为来源、上下文、参考和固有四部分:
·来源信息记载内容信息历史的信息,它告知内容信息的来源、改变、保管者。
·上下文信息记载内容信息同其环境关系的信息,包括内容信息为何生成,与其它现存内容信息对象的关系如何。
·参考信息提供一个或多个标识符,使内容信息得以唯一识别。例如,图书的ISBN。
·固有信息提供了一个包装或保护外壳以防止内容信息被任意改动。例如,对一个数字信息包的内容信息进行核算。
包信息与内容信息和保存描述信息是绑定在一起的,例如,内容信息和保存描述信息时CD-ROM上几个特殊文件的内容,则包信息应当在ISO-96600卷/文件结构中,即CD-ROM中文件的名字与目录信息。
描述信息是用于发现感兴趣的内容信息所在的包。根据设置不同,可以是对信息包简单描述标题,也可以是在著录服务中完整的可搜索属性集。
有必要区分开向OAIS提交时、OAIS保存时和OAIS发布时的信息包。向OAIS提交的信息包与OAIS最后发布的信息包相比表征信息和保存描述信息不够充分。另外,不同阶段OAIS对保存信息的组织方法也有所不同。最后OAIS提供给用户的信息并不包括所有表征信息或与发布内容信息相关的所有保存描述信息。这些区别使信息包分为提交信息包SIP、档案信息包AIP、发布信息包DIP。
提交信息包是信息生产者提供给OAIS的包。它的形式和细节内容一般由信息生产者和OAIS协商。大多数提交信息包含一些内容信息和保存描述信息,不过需要若干个提交信息包才能提供一个完整的内容信息及其相关保存描述信息,从而组成一个档案信息包。一个单一的提交信息包包含的信息也可以分布在若干个档案信息包中。提交信息包中总会有某种形式的打包信息。
OAIS中一个或多个提交信息包转换成一个和多个用于保存的档案信息包。档案信息包包含完整的内容信息和相关保存描述信息。档案信息包也可以包含其它档案信息包收藏,这将在第四章讨论。档案信息包的打包信息将形成OAIS的内部标准,由OAIS自己管理,根据OAIS不同而不同。
为响应用户索取,OAIS以发布信息,氧的形式提供所有或部分档案信息包给用户。发布信息包包括档案信息包收藏,包括(或不包括)完整保存描述信息。某种形式的打包信息使用户得以明确其索取的信息。对于不同的发布媒体或用户要求打包信息的形式也会不同。具体参见图4。
图4 OAIS档案馆外部数据流
1.4 档案信息包AIP
档案信息包是整个参考模型的核心逻辑结构,所有保存描述信息对象都要包括在里面。依据OAIS对档案信息包的定义,可以设计实用的中文元数据方案。如图5所示。
图5 档案信息包
2 中文元数据方案
2.1 中文元数据集
中文元数据方案在总体框架结构上采用了OAIS参考模型;在元数据集方面,参考了美国国会图书馆(简称LC),澳大利亚国家图书馆(简称NLA),Cedars项目,Dublin Core(简称DC),NEDLIB项目等较为成熟的元数据集。在保证总体框架结构的前提下,保持和DC项目的对应关系,方便现有元数据得以有效利用。
OAIS参考模型规定了支持数字资源长期保存的多种元数据类型,中文元数据方案基本上是这些元数据类型的综合。根据OAIS每个资源和其元数据打包,作为“信息总体”;一个信息总体包括“内容信息”和“保存描述信息”两部分。内容信息包括数字对象本身和其描述信息元数据,描述信息元数据可以从语义上告知如何访问(读取)该数字对象。保存描述信息由其它元数据组成,它们帮助理解内容信息。中文元数据方案总体框架如图6所示。
图6 中文元数据总体框架
我们在中文元数据方案的框架基础上制定了中文核心元数据集和中文扩展元数据集,方便用户使用。考虑到目前应用较广其它元数据集(例如Dublin Core元数据集),中文元数据方案尽量考虑与它们兼容,比如在“资源描述”信息部分用户可以直接使用Dublin Core元数据集定义。经过反复比较和试验,我们最终确定中文核心元数据集包括25个元素,它们基本上包括了对中文数字资源的描述性、管理性、技术性和法律性信息。确定中文核心元数据集和中文扩展元数据集后,分别定义了各自的DTD和RDF Schema。用户可以根据DTD方便的用XML和RDF表示中文元数据。
中文核心元数据集:
1.名称 Title
2.主题 Subject
3.版本 Edition
4.内容摘要 Abstract
5.内容类型 Content Type
6.语种 Language
7.内容覆盖范围 Coverage
8.内容创建者
Creator
9.其它责任者
Contributor
10.内容创建日期 Date of Creation
11.出版Publisher
12.版权所有者 Copyright Holder
13.资源标识符 Identifier
14.关联资源Related Objects
15.数字资源制作者 Digital Publisher Name
16.数字资源制日期 Digital Publisher Date
17.数字资源制作地 Digital Publisher Place
18.权限声明Rights Warning
19.公开对象Actors
20.操作许可Actions
21.原始技术环境Original Technical Environments
22.加工处理历史Ingest Process History
23.维护历史Administration History
24.认证指示符 Authentication Indicator
25.基本抽象格式描述UAF—Description
2.2 中文元数据试验
依据中文元数据集为数字资源加工标准,利用配套的中文元数据加工软件我们针对几种类型的对象数据设计了相对应的元数据集。以“理论研究”数据库为例,该库收集了各种类型的理论研究著作,针对这些对象的共同点设计了“理论研究”元数据集。“理论研究”数据库每条数据对象根据此元数据集加工并存储,并可根据需要以XML格式或RDF格式表示。为了方便实际操作,试验方案的元数据集是中文核心元数据集的扩展集,比如对“名称”进一步细化为“中文名称”、“副题名”、“外文名称”等。
3 结束语
综上所述,按照OAIS参考模型设计中文元数据方案为元数据集的定义提供了一个良好的框架,为数字资源的加工提供了实际可行的标准。不同的行业或具体应用仅需在此基本框架上扩展便可立即应用。加工后的数字资源既可以长期保存,也能够满足检索的需要。同时采用中文元数据方案加工的不同种类、不同行业数字资源也可以方便准确的交换信息。