档案元数据标准分析_元数据论文

档案元数据标准分析,本文主要内容关键词为:档案论文,标准论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

1.前言

随着信息技术、网络技术的不断发展,档案数字化的步伐也在加快。数字化建设过程中,元数据标准的建设是其基础与关键,也是档案电子资源标准化中最重要的一环。那么,档案馆该如何建立自己的元数据标准?目前,与档案资源相关的元数据标准有很多,如:通用于电子资源的DC(Dublin Core,都柏林核心元素集)和用于书目数据的CNMARC(China MARC,中国机读目录)等[1]。鉴于DC元数据标准在电子资源中的通用性及其在其他行业中的应用实践,我们基于DC来分析和制订档案资源的元数据标准。

2.DC元数据标准分析

元数据分为两大类:即描述型元数据和管理型元数据。描述型元数据是描述对象数据属性或识别信息资源的元数据,读者可以通过它了解对象数据的基本信息并确定是否需要对象数据;管理型元数据本身并不描述对象数据的属性,只是信息资源的加工存档、结构、使用管理等方面的相关信息。同时管理型元数据一般都由系统(管理软件)自动生成,无须人工干预,因而DC元数据标准主要指描述性元数据。

1).DC元数据标准介绍

Dublin Core是在1995年3月第一届元数据研讨会上产生的,会议在美国俄亥俄州的都柏林召开,在讨论会上创立了适合网络信息资源描述、组织和管理的元数据,即Dublin Core。1996年9月的第三次会议,在13种元素的基础上增加2种元素,进一步明确DC的功能,侧重于网络信息资源的描述而非评价,并将15种元素分为3类:资源内容的描述:知识产权的描述;外部属性的描述[2]。

2).DC元数据标准的特点

可互操作性[3]:DC标准定义了统一的数据模型,能适用于各种类型资源、各种平台,并能基于DC方便地实现数据收割与交换。

简单性:DC元数据标准只包含15个大类元素,而且各元素的概念简单易懂,对于各类著录人员,都具有可操作性。

扩展性:对于具体的电子资源,DC提供了良好的扩展规则。在横向扩展时,新增加元素不能与已有元素有语义上的重复,在纵向扩展时,主要遵循向上兼容的原则[4],从而能满足不同资源的复杂需求。

3.档案元数据标准的思考

1).档案的根本作用在于其“真实性”与“凭证性”[5]。基于此,元数据的著录越详细越好,同时也有利于用户检索过程中定位具体的档案对象。但著录者所追求的是简单性与准确性,元数据著录太完备,工作量会成倍增加,而且著录错误的可能性也越高,这样又不利于用户对档案资源的检索与获取。因而,在制订元数据标准时,有必要找到一个数据加工与信息服务的平衡点。

DC元数据包含15个元素,国家出台的《文书电子文件元数据方案(征求意见稿)》(以下简称《方案》)中则包含了36个大类共90个小类元素[6]。显然,DC的15个元素不能全面反映档案资源的信息,而《方案》所包含的90个小类元素对著录者而言又太过复杂。因而如何结合《方案》对DC标准中的元素进行扩展成为元数据标准制订过程中的关键。

2).档案资源有其特殊性,首先是因为档案馆与其他行业相比,数字化起步较晚,国家还未出台正式元数据标准,因而档案馆在制订自己的元数据标准时,既需要考虑到标准的适用性(能准确描述档案资源并能方便检索)又要考虑到其兼容性(即能与未来国家标准接轨)。其次,档案资源种类繁多,包含了正式出版物、公文,还可能有照片、试卷等特殊资源。如果要针对每种资源都制订一套元数据标准,其工作量将会相当大,而且太多的元数据标准也会让著录者难以适从。

因而,我们所制订的元数据标准应该具有通用性,即能描述所有档案资源。我们考虑采用三类元素来描述档案资源,即类型元素、核心元素和个别元素。其中,类型元素用于描述档案资源的类型,通过该元素实现对所有资源的兼容;核心元素复用DC中的部分元素并进行扩展,用于对所有资源的通用性描述,包括责任者、主题、题名等信息;个别元素用于描述具体资源的特殊属性,反映具体资源的特点。档案资源元数据的整体结构如图1所示。

图1 档案元数据标准结构

4.档案元数据标准的建立

基于以上考虑,我们可以依据DC元数据标准并结合《方案》中对档案资源各元素的定义,来制订一个比较通用的档案元数据标准。其元素的设置基本按DC元数据标准进行设定,并依据档案资源的特点,去掉部分不适用于档案资源的元素,同时对部分元素进行扩展。

1).类型元素:复用DC中的“Type”元素,并依据档案资源特点进行扩展。

集合层次:用于描述资源所属的大类,按《方案》要求,分为全宗、文件、卷宗等。

文种:用于描述资源具体的种类,包含命令、通知、报告等共计19种情况。

2).核心元素:依据资源特点复用DC中的12个大类元素并进行扩展,去掉不适用于档案资源的两个大类元素:来源(Source)和出版(Publisher)。

题名:描述资源的主要题名。

并列题名:以第二种语言文字书写的与正题名对照并列的题名。

副题名:解释或从属于正题名的另一题名。

主要责任者:对资源内容创建作出重要贡献或负有主要责任的团体或个人。

其他责任者:对资源内容创建作出贡献或负有责任的其他团体或个人。

主题词:表达资源主题的规范化的词或词组。

人名:资源内容涉及的具有检索意义的人物姓名。

关键词:在标引和检索过程中取自电子文件题名或正文用以表达主题的,并具有检索意义的非规范化的词或词组。

地名:资源内容涉及的具有检索意义的地名。

机构名:资源内容涉及的具有检索意义的组织机构名称。

生成时间:明确资源形成时间,为用户提供以生成时间为条件的检索途径。

保管期限:指资源的存留年限,包含永久、长期、短期、30年等情况。

保密期限:对资源密级时效的规定和说明,如果资源的权限为“公开”,则本元素值为“无”。

摘要:对资源相关信息的描述,主要是摘要或文摘。

附注:资源本身以及形成、处理和管理过程需要解释和补充说明的事项。

文件大小:电子资源的字节数。

技术环境:指组成电子文件的数据的逻辑格式,通常由文件扩展名表示。

页码:与电子文件对应的纸质档案页数。

时间范围:效力产生的时间范围。

空间范围:效力产生的地域范围。

档案号:以字符形式赋予资源的用以固定和反映资源排列顺序的一组代码。

案卷号:标识资源所属案卷,利于资源管理和利用。

文件号:文件或组合文件的排列顺序号。

文件编号:文件制发过程中由制发机关、团体或个人赋予文件的顺序号,也称文号。

语种:电子文件正文所使用的语种,遵循ISO6392标准统一由三位字符表示(如果需要用中文方式表示语种,则需要纵向扩展一个元素:“语种中文表示”)。

附件:指附在正文之后对对正文内容进行说明的文献。

相关资源:与电子文件有密切关联的其他文献。

权限:描述档案密级,分为公开、限制、秘密、机密、绝密等五种情况。

3).个别元素:依据不同资源的特点进行扩展,以通知为例,需要扩展三个个别元素。

主送:指通知的主要受理者,一般为通知内容规定任务的主要执行者。

抄送:除主送者以外需要执行或知晓通知内容的其他接受者。

紧急程度:通知送达和办理时间要求的急缓等级。

另外为方便资源对象的获取,我们统一扩展一个管理型元素:对象路径,用于描述数字化对象的存储位置。

通过以上分析,我们能大致制订出档案资源的元数据标准(见表2,以长沙市委的一份通知为例给出了一个著录实例)。

5.小结

本文所做的研究仅是抛砖引玉,由于各单位实际情况不同,元数据的标准可能会有所不同,只有经过详细的调查分析,包括对著录人员、读者以及不同资源的分析,并按简单、适用的原则,方能制订出真正适合本单位使用的元数据标准。

标签:;  ;  

档案元数据标准分析_元数据论文
下载Doc文档

猜你喜欢