军队院校数字资源元数据标准的设计与实现,本文主要内容关键词为:军队论文,院校论文,数字论文,标准论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
军队院校数字资源元数据标准(以下简称MAMS)是构建军队院校数字图书馆系统的信息基础,其目的是为军队院校数字资源建设、保存、服务与交流提供一个统一的可供参考的元数据方案,促进军队院校数字资源的共建共享。
1设计
1.1 设计原则
根据军队院校数字图书馆建设的实际需要,MAMS在设计时遵循了以下原则(1)支持军队院校数字资源的长期保存、检索与受控利用;(2)参考目前国内外主流的相关标准和较为成熟的技术与方案;(3)适应不同层次与不同学科领域对元数据的制作要求;(4)尽可能考虑与其他元数据方案的可交换性。
1.2 总体框架
MAMS突出数字资源的长期保存,因此在总体框架结构上选择遵循OAIS参考模型,包括该参考模型所提出的框架、术语与概念。Open Archival Information System(简称OAIS)是美国国家航空航天局的CCSDS(Consultative Committee for Space Data Systems)应ISO的要求制订的标准,旨在对资源的存取与长期保存规定概念与框架,此框架适用于所有致力于长期保存数字资源并提供利用的系统和组织,从而为很多组织包括政府部门和数字图书馆采用。
1.3 元数据集
OAIS是参考模型,它侧重于定义了一个数据保存的总体框架,包括应具备的功能、统一的概念和术语等。都柏林核心元数据集是侧重信息交换的标准元数据元素集,拥有描述不同学科领域资源的能力。二者是同一标准中不同层面的内容。MAMS在保持总体框架结构的前提下,保持与都柏林核心元数据集项目的对应关系。
在元数据集方面,除都柏林核心元素集以外,MAMS还参考了LC、NLA、Cedars、NEDLIB、CORC及国家图书馆制订的中文元数据方案(草案)等较为成熟的元数据集。
MAMS的元数据集包括核心元数据集、元数据基本扩展集和元数据集细分方案。
核心元数据集是军队院校数字资源元数据框架中比较常用和必备的部分,其中包含了都柏林核心元素集的绝大部分元素,并增加了若干条有关数字版权信息和针对数字资源的长期保存与受控利用的元素。
元数据基本扩展集是军队院校数字资源元数据框架中除了核心集以外的部分,在需要的时候作为著录的可选项。
元数据集细分方案采用类似于都柏林核心元素集的方法,通过使用元素修饰词或引入子元素,对元素加以限定和细分。
2 元数据体系
一个完整的元数据体系,包含三个方面的内容,那就是结构(Structure)、语义(Semantic)以及语法(Syntax)的定义与描述。结构规定了元数据体系由哪些概念实体(或称数据项与元素)构成以及这些概念实体之间的相互关系;语义指的是元数据的概念实体的定义;语法则规定了元数据表达与描述信息的基本规则与方法。
2.1 信息模型
元数据体系的结构是以某个数据模型为主干,通过在其上增加具有适当描述粒度、描述范围、使用限制和层次关系的元素而形成。
MAMS严格遵循OAIS所制订的信息模型。OAIS认为要保证信息的长期保存和利用,仅保存数据对象本身远远不够。图1是OAIS的信息模型结构图,它展示了长期保存资源所需的全部信息。
图1 OAIS信息模型
一个信息包括是一个概念性的容器,它包含两类信息:内容信息和保存描述信息。内容信息和保存描述信息通过封装信息进行封装和区分,最后得到的信息包通过描述性信息来被检索。
内容信息由数据对象与其表征信息共同构成。数据对象(Dara Object)是保存的原始对象,它可以是物理形式,也可以是数字形式。数字形式的数据对象不过是一个或多个比特序列的组合,它需要表征信息(Representation Information)把这些比特序列转化为可理解、有意义的信息。表征信息包括结构信息和语义信息。结构信息通过描述信息对象的格式、数据结构,把比特流转换为数字、字符、表格等易于为人识别的信息,然后由语义信息来对它作进一步说明,规定像数据对象的语言之类的附加信息,使之成为具有更明确意义的信息。
要实现内容信息的长期保存和利用,还需要其它的信息对其特征加以描述,这就是保存描述(Preservation Description Information,PDl)信息。PDI信息包括下列内容:来源信息(Provenance Information)描述内容信息的来源,产生以后的监管人、处理历史等;环境信息(Context Information)是内容信息和信息包以外其它信息的联系;参考信息(Reference Infornmtion)用来识别或描述内容信息,它常与下文提及的描述性信息重复;完整性信息(Fixity Information)保护内容信息不受篡改,例如内容信息的校验和(checksum)。内容信息和PDI信息通过封装信息(Packaging Information)关联、包装起来成为一个完整信息包(Information Package)。封装信息可用来确认一个信息包及识别不同信息包间的界限。一个信息包要能够被用户检索到,并能够让用户判定其是否符合需要,就需要描述性信息(Description Information)来描述其特征和属性。
2.2 元数据集
正如前文所述,MAMS是在遵循OAIS参考模型的前提下,按照保持可选择性、可修饰性、可扩展性和可重复性的设计方针,在都柏林核心元数据集的基础之上建立起来的。MAMS的元数据集如表1所示:
表1 军队院校数字资源元数据集列表
信息包 描述性信息 标识符 国际标准书号
国际标准连续出版物号
国际标准音乐号
国际标准音像制品编码
国际标准技术报告号
连续出版物号
中国统一刊号
标准号
统一资源标识符
统一资源定位符
数字对象标识符
论文标识号
用户自定义标识符
题名 正式题名
并列题名
统一题名
其他题名
主题 主题词或关键词
军队学科分类法
中图分类法
科图分类法
杜威十进制分类法
用户自定义分类法
描述 摘要
目次
版本说明
适用对象
评价
一般性描述
类型
出版者
内容创建者
其他责任者
来源
来源题名
年度标识
卷辑标识
分期标识
日期
可获取日期
创建日期
发行日期
修改日期
生效日期
语种
正文语种
字幕语种
配音语种
覆盖范围
格式 格式扩展
媒介格式
系统需求
支持 试验工程
科研项目
基金
安全 秘级
授权
保存描 参考信息
军队院校数字资源联合信息码
述信息 环境信息
关联信息对象
原有元数据
创建理由
起源信息 保存理由
原始技术环境
监管历史
存档前变更史
加工处理历史
维护历史
谈判史
数字资源制作者
数字资源版权声明
完整性信息 认证指示符
内容信息 表征信息 结构信息
图像
音频
视频
文本
数据库
程序
语义信息
基本数字对象
2.3 语义描述
语义指的是元数据的概念实体的定义,也就是元素项目的定义,内容包括其描述范围、在元数据体系中的所处位置、使用方法及使用限制等。下面是对“MUD”元素的语义描述:
MUD(军队院校数字资源联合信息码)
本元素的文本记录数字资源对象的军队院校数字资源联合信息码。
本元素必备,不可重复,系统自动生成。
2.父元素
Reference-Information
3.子元素
4.内容注解
军队院校数字资源联合信息码是军事训练信息网上任一独立标引资源的唯一标识符,是实现开放式权益管理、开放式链接与资源库注册机制等一系列高层应用的基础,考虑到其在系统中的特殊位置,未将其归入描述性信息下的标识符元素。
5.实例
例1:装备指挥技术学院(802)2003年生成的第29条记录。
由于篇幅有限,因此不把MAMS中各元素的语义描述一一列出。
2.4 语法描述
MAMS采用了基于XML(eXtensible Markup Language)的XML Scheme和采用特殊语法的DTD(Document formaT Definition)两种方式对其语法结构的定义进行描述。
在军队院校数字图书馆系统中,所有信息对象的元数据都是以XML文件保存的。系统规定:所有保存元数据的XML文件都必须通过DOCTYPE声明外部的描述MAMS语法结构的DTD或XSD文件来验证其文档结构的有效性。
3 统一的元数据框架
统一的元数据框架对于实现分布式、开放式的集成信息服务体系,具有重要的意义。这既是实际应用的需要,也是技术发展的趋势。因此从一开始,我们就力图构建一个构建统一的元数据框架。
目前,对文献类型具有最广泛兼容性的元数据标准就是都柏林核心集(Dublin Core,DC),由于具有可选择性、可修饰性、可扩展性和可重复性,在描述种类繁多的电子信息时,它已经成为首选,在国际上尤其是北欧得到了广泛的应用。
DC由15个基本元素组成,分为三大部分:内容描述部分有题名、主题、描述、来源、语种、关联和覆盖范围;知识产权部分有创建者、出版者、其它责任者和权限;外形描述部分有日期、类型、形式和标识符。这15个基本元素从大的框架上覆盖了信息描述的各个方面,数字文献的各种特征属性均可以在此15个元素中找到对应的描述项目。
尽管这15个基本元素具有强大的包容性,但在对资料进行详细著录时,却存在框架过粗的问题,为此DC引进了修饰词的概念,如语言修饰词、体系修饰词和元素修饰词,进一步明确元数据的特性。特别是通过体系修饰词,把MARC/AACR的优点和各种已有的分类法、主题词等控制语言吸收进来,极大地丰富和增强了DC地描述性和权威性。同时在坚持互操作的原则下,允许各个DC地方版在15个基本元素的基础上增加新的元素和修饰词。
在DC基础上发展起来的MAMS,较好的继承了DC的可选择性、可修饰性、可扩展性和可重复性。MAMS在遵循OAIS参考模型的前提下,包含了都柏林核心元素集的绝大部分元素,并增加了若干条与数字版权信息、数字资源的长期保存与受控利用、安全控制及资源产生的支持背景相关的元素,同时根据实际将部分元素细化为若干子元素,在保证MAMS整体描述能力的情况下提高了描述的精确度。
从目前实践的情况来看,应该说MAMS基本上达到了把各种类型的数字资源统一到一个元数据体系框架下的目标,当然最终结果还需要通过实践进一步检验。由于各种各样的局限性,不可能制订出一个能够描述任何资源的任何特性的元数据体系,既是现在做到了,将来也会不合时宜。因此,必须有一套方法来解决新资源新特性的问题。
研究认为,解决新资源新特性大致有两个途径:(1)研究新资源新特性的实质内容,在已有的元数据体系中找到其归属点;(2)为新资源新特性添加新的元素。第一种情况的例子比较普遍,比如说导师,就可以归到“其它责任者”元素下。第二种情况的例子则相对特殊一些,如出现了一种类型于“国际标准书号”的“xxxx号”,此时只需要为“标识符”元素增加“xxxx号”子元素即可。
4 应用
元数据在数字图书馆中的作用主要体现在信息资源的管理、描述、保存与使用这四个方面。而对元数据的具体操作则主要集中在标引、存储、检索与使用这四个方面。
前面已经说过,军队院校数字图书馆系统把元数据存储在XML文档与数据库中,分别用于保存与检索。
很显然,该XML文档用于元数据信息的保存、交换与利用都没有问题,但众所周知,目前对大批量XML文档实施精确检索的难题还没有解决,因此必须把元数据信息从XML文档转换并导入到数据库中。表2显示了该文档中的元素与数据库中字段的对应情况。
表2 元素与字段对应表
元素名称元素名称翻译属性值字段名称
ISSN
ISSN ISSN ISSN
CSSN
CSSN CSSN CSSN
Article-Identifier 论文标识符论文编号 论文编号
Chief
正题名题名题名
Parallel并列题名 英文题名
英文题名
中文主题词 中文主题词
Kelword
主题词与关键词 英文主题词 英文主题词
Abstract
摘要 中文摘要中文摘要
英文摘要英文摘要
CLC
中图分类号 中图分类号 中图分类号
……
…………
……
从上表可以看出,在把元数据信息从XML文档向数据库中映射时,有以下两个特点:(1)字段名称与元素名称或其翻译名称可以不同;(2)名称相同的元素可因属性的不同而对应多个字段。
字段名称与元素名称或其翻译名称可以不同的优势在于MAMS能够与原有的元数据标引习惯保持一致,包括命名习惯与著录项目选取习惯。只是把著录项目与MAMS中的元素进行映射,著录人员就面对与以前一样的著录项目进行标引,而使用者也可使用熟悉的命名规则。例如把论文数据库中的“其他责任者”解释为“导师”,显然“导师”要比“其他责任者”更易于理解。
名称相同的元素可因属性的不同而对应多个字段,这使著录人员可以通过添加属性值,对方案中的元素从语义上做更细的划分,比如“摘要”就被细分为“中文摘要”与“英文摘要”。
军队院校数字图书馆系统在MAMS的具体使用上采取了灵活的处理策略,在保持统一元数据标准的前提下,给予著录人员足够的扩展,使之既能够继承原有著录习惯,又能应付著录多种资源所带来的复杂需求。
在进行元数据标引时,对于不熟悉MAMS的使用者,可按其熟悉的字段逐项进行标引,而对于专业的著录人员,则可以针对元素进行选取与标引。
军队院校数字图书馆系统把元素与字段之间的映射关系都记录在系统文件中。检索时,如果按字段名称进行,可直接进行;如果是按元素名称进行,则要先通过映射表找到其所对应的字段,然后执行检索操作。比如要检索“摘要”时,通过映射信息可以知道,“中文摘要”与“英文摘要”这两个字段中保存的数据均是摘要信息,所以检索程序就对这两个字段同时进行检索。
通过映射机制,可对多个结构不同但都遵循MAMS的数据库进行联合检索。
5 结束语
MAMS在设计时,充分考虑了构建基于集成信息服务和用户信息活动的数字图书馆所需的元素,同时制订了灵活的应用策略,使之能够满足各种资源与各种应用的需要。在实现中,一方面,采用XML进行描述、保存与交换,保证了系统的开放性与灵活性;另一方面,采用清华同方的全文检索服务器实现基于内容与集成的检索服务,保证了系统即使面对TB级的数据,依然能够保证优秀的查准率、查全率和快速响应,同时轻松实现信息服务的集成。
半年来,通过数十家军队院校图书馆的实践证明,MAMS达到了其设计目标。
收稿日期:2004-01-16