档案信息化建设中的数据描述标准研究_档案目录论文

档案信息化建设中的数据描述标准研究_档案目录论文

档案信息化建设中数据描述标准研究,本文主要内容关键词为:档案论文,标准论文,数据论文,建设中论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

数据描述标准可以规范数据定义、统一数据库结构,实现信息的有序管理和快速检索利用,从而达到资源共享的目的。根据Lisa B.Weber的观点,数据描述标准分为3个层次:一是数据内容标准(Data content standard),二是数据价值标准(Data value standard),三是数据结构标准(Data structure standard)。下面从这3个层面,对国内外档案数据描述标准进行一一阐述。

1.数据内容标准(Data content standard)

数据内容标准是指“对档案目录信息的著录顺序、著录方式和著录表达形式进行规范”,即著录标准(或规则)。目前,较常采用的著录规则有:ISAD(G)、APPM、RAD、MAD3以及中国的《档案著录规则》等。

1.1 ISAD(G)介绍

1994年由国际档案学会(ICA)出版了ISAD(G)(General International Standard Archival Description,国际档案著录标准),并于2000年修订出版了ISAD(G)第二版。ISAD(G)第二版考虑到与EAD标准的兼容,使ISAD(G)数据元素与EAD元素相互对应,实现了两种数据格式之间的自由转换。拟订ISAD(G)的主要用意是希望各国档案馆通过该标准,彼此交换已建档的档案数据,进而促使国际档案界建立完整统一的档案信息体系。

ISAD(G)分为识别说明区(Identity Statement Area)、上下关系区(Context Area)、内容与结构区(Content and Structure Area)、检索与使用情况区(Conditions of Access and Use Area)、相关资料区(Allied Materials Area)和附注区(Note Area)等6个大项,共包括26条规则。每条规则都包括档案描述项目的名称、档案描述项目的目的叙述、一般规则应用到该项目的叙述、应用到该规则的举例等4个部分。

1.2 APPM介绍

APPM(Archival,Personal Papers and Manuscripts,档案、个人文件与手稿)是1983年由Steven L.Hensen拟订、美国国会图书馆出版的美国档案编目规则,1989年,SAA(Society of American Archivists,美国档案人员学会)出版了第二版。APPM最大的特点在于它是专门针对档案与手稿的本质和特色,以及档案资料特有的管理方式所设计的描述规则。

APPM主要包括描述(Description)、标目与统一题名(Heading and uniform titles)两个部分。描述部分包括通则、题名与责任项的说明、版本项、资料(或出版类型)特殊细节项、日期项、实体描述项、文件系列等7个项目。标目与统一题名部分包括检索点的选择、人名、地理名称、团体名称、统一题名等5个项目。

1.3 《档案著录规则》介绍

为实现我国档案信息资源的交流与共享,1985年我国依据《文献著录总则》(GB3792.1-83)制订并颁布了国家标准《档案著录规则》(GB/T3792.5-85),作为全国档案著录的规范性依据。经过十几年推广实施,全国档案著录的标准化程度有了很大的提高,在总结已有经验的基础上,国家档案局又参照ISAD(G)对该标准加以修订,于1999年以行业标准发布新版的《档案著录规则》(DA/T18-1999)。根据《档案著录规则》,军队系统编制了《中国人民解放军档案著录规则》、《军队文书档案目录数据库结构与著录格式》等。军队著录规则的简单介绍和评述。对信息化的作用。

此外,RAD(Rules for Archival Description)是加拿大的《档案描述规则》,MAD3(Manual of Archival Description)是英国的《档案描述手册》第三版,在此不加详述。

1.4 对ISAD(G)、APPM和《档案著录规则》三者的比较分析

ISAD(G)、APPM和《档案著录规则》三者结构体系一致,不同之处表现在:

1.4.1 从服务对象来看

ISAD(G)是适合国际范围应用的档案著录规则的总体规范,而美国的APPM和中国的《档案著录规则》则是针对一国档案而制订的详细描述规则。因此ISAD(G)实现全球档案信息的共享,而APPM和《档案著录规则》仅仅满足本国档案信息的交流。

1.4.2 从内容来看

ISAD(G)、APPM和《档案著录规则》三者在内容上的一个共同点是都不包含档案管理(如档案鉴定、档案征集、档案典藏及利用)工作过程的著录。区别有三:(1)在标目及检索点的提供上存在差异。APPM在第二部分“标目与统一题名”中提供了人名标目、团体名称、地名标目及统一题名等检索点的选择,这对用户的检索非常重要,因为一般档案资料没有正式的书名和题名,而且档案资料大都是机关团体活动的文书、或是私人手稿信件,因此统一题名、团体标目与个人标目就提供了最佳的检索途径。在ISAD(G)和《档案著录规则》中则没有提供相关的标目和统一题名。(2)在ISAD(G)的第五大项“相关资料区”中包括“出版附注”这一小项,这是APPM和《档案著录规则》中所没有的。笔者认为,对于档案资料根本不需要出版、发行方面的说明事项,因为档案资料不是公开出版的,如果被集合出版了,就不再是档案了,而是资料汇编(即图书)。(3)在《档案著录规则》中,设置了文本项、密级与保管期限项、提要项,在APPM和ISAD(G)中则没有,这是针对中国档案整理、保管、利用方法而设立的。

2.数据价值标准(Data value standard)

数据价值标准是指“对分类号、主题词和各种专有名词等数据值进行规范控制”,即标引标准。档案信息标引最基本的标准是分类法和主题法。我国档案界目前采用的分类法和主题法有:《档案分类标引规则》、《中国档案分类法》、《档案主题标引规则》、《中国档案主题词表》和《汉语主题词表》等。国际上还有一些通用的和专用的词表,如LCNAF、LCSH、AAT、GNIS、MeSH等等。

2.1 《中国档案分类法》

《中国档案分类法》于1987年由档案出版社出版,后来经修订于1997年出版了第二版。第二版是第一版的扩充,其类目、条目、内容、规模都大大超过了第一版。

《中国档案分类法》是一部完整的体系分类表,主要由编制说明、大纲、简表、详表(类目表)、辅助表(复分表)等部分构成。它主要适用于档案文献检索系统的建立,但某些专业部门也可用以组织档案实体的分类排架。

2.2 《中国档案主题词表》

《中国档案主题词表》于1988年发行试行本,1995年修订出版了第二版,该版的主表共收录正式主题词21785条,非正式主题词4106条,共25891条。

《中国档案主题词表》是一部综合性主题词表,主要用于标引和检索各级综合性档案馆、档案室所保存的档案,企事业单位的文书档案及各机关一般公文、资料的主题标引和检索也可参考使用。该表对党政管理工作方面的词汇收录较全,但对科技档案中的词汇收录较少,故不能满足专业档案机构的需要。

除了《中国档案分类法》和《中国档案主题词表》等国家性标引标准外,军队系统还制订了一系列的军队档案标引标准,如《军队档案主题词标引规则》、《军队档案常用主题词表》、《军用公文主题词表》、《军用主题词表》等。这些标引标准的指导范围仅限于军队档案机构和部门的档案主题标引工作。

2.3 LCNAF

LCNAF(Library of Congress Name Authority File,国会图书馆名称规范文档)是一个包括人名、统一题名、丛书及主题的国际性规范记录数据库,是1992年由LC(Library of Congress,美国国会图书馆)负责编制的,目的是降低各馆重复建档的成本并达到数据的共享。LCNAF虽然是图书馆制订的名称规范,但其中的部分规范名称也同样适用于档案馆。

LCNAF是通用性词表,此外,还有AAT(Art and Architecture Thesaurus,艺术和建筑叙词表)、GNIS(Geographic Names Information Systems,地理名称表)和MeSH(Medical Subject Headings,医学主题词表)等专业性词表,在此不加论述。

2.4 小结

从情报检索语言角度来看,无论是《中国档案分类法》、《中国档案主题词表》,还是LCNAF、LCSH,这些数据价值标准都是受控的人工语言。在网络环境下,虽然不受控的自然语言越来越受到青睐,但在检索过程中,自然语言还必须通过转换系统将其转化为人工语言,才检索到所需文献。因此人工语言(即数据价值标准)在规范控制、提高文献的检全率和检准率上,仍发挥着不可替代的作用。

3.数据结构标准(Data structure standard)

数据结构标准是指在计算机环境下,对档案信息进行划分和组织的结构化格式规范,如MARC标准和元数据标准等。如果说上述的数据内容标准和数据价值标准是针对非数字化档案信息资源的描述和揭示标准,那么此外的数据结构标准则是针对数字化档案信息资源而制订的标准规范。

3.1 MARC标准

MARC(Machine-Readable Catalogue,机读目录)格式最初是图书馆界所采用的书目记录格式,后来应用到档案界产生了档案的机读目录格式,典型代表是USMARC AMC。从计算机处理和资源共享来看,MARC标准既是数据编码标准,又是数据交换标准。

3.1.1 USMARC AMC

USMARC AMC是美国档案机读目录格式标准,它是档案目录数据机读化格式的开创者,也是发展最成熟的档案机读目录格式。同图书的MARC记录结构一样,一条美国档案机读目录的记录由头标区、目次区和数据区3个部分组成。其中,头标区的数据项定义了处理记录的参数,从而使记录本身具有了自我说明能力;目次区对应于记录的各字段,它是USMARC AMC记录能够进行纯文本存贮的关键;数据区是对档案特征进行实际著录的变长字段,它使用一个由字段标识符、子字段标识符、指示符与其他特殊代码组成的指示系统,记录了档案的数据元及其特征。

除了美国USMARC AMC外,英国正在发展本国的UKMARC AMC格式。但在欧洲,除瑞典之外,并未有其他档案馆发展采用MARC格式。这说明,档案界并不象图书界那样广泛采用MARC格式,这在很大程度上制约了档案信息资源的共享。

需要说明的一点是,USMARC AMC与前述的APPM有密切的关联,两者可以搭配使用。比如,在采用USMARC AMC格式建立档案机读记录时,对著录的个别项目可同时参考档案编目规则APPM。

3.1.2 《中国档案机读目录格式》

至今我国档案界尚未采用自动化条件下统一的机读数据交换格式,我国于2003年由上海档案局和南京政治学院上海分院承担完成了《中国档案机读目录格式》,但该格式还没有成为正式标准,未被普遍采用。目前及今后要做的工作是使该格式能成为国家标准,增大其强制执行的力度。

此外,军队根据自身特点制定了《军队档案机读目录信息交换格式》,该标准规定了通用的案卷级、文件级档案机读目录信息交换格式,提出了文书档案、科技档案、专门档案等各类档案机读目录信息交换的基本要求。本标准适用于军队文书档案、科技档案、专门档案机读目录信息的交换和管理。

3.2 元数据标准

元数据最广泛的定义是“关于数据的数据”,在档案领域,元数据是指关于某一电子文件和文件组合的背景及其相互关系的结构化著录数据,即著录信息。元数据是近年来发展的产物,在各种不同的专业领域自行发展适用于其专业的描述标准。适合于图书馆界的是DC(Dublin Core,都柏林核心),适合于档案界的则是EAD。

3.2.1 EAD内涵及特点

EAD(Encoding Archival Description,编码档案描述)是档案界目前处理档案与手稿资料最常用的元数据标准。该格式采用SGML置标语言,用于档案检索工具的编码,“通过对档案目录信息全文的置标,使其结构可被计算机理解,置标后的各个部分形成语义链接,文本的浏览不必前后线性次序展开,可以采取多维的导航和交互方式进行。”目前由LC所属的“网络发展与MARC标准办公室”与SAA共同负责维护。

EAD具有以下两项特点:(1)EAD是一项使用于档案检索工具的描述标准,可供多人同时使用信息、交换信息以及检索;(2)EAD是一种使用于档案检索工具的通讯格式,可让档案馆将电子信息传递到远端使用者。

3.2.2 EAD格式

EAD共由4种技术文件构成,即:EAD DTD(Document Type Definition)、EADTag library、使用指南(application guidelines)、实施概要(compendium of practice)。其中,EAD DTD是EAD的主体部分,也是其主要功能得以实现的结构基础。EAD DTD主要由高层元素(Higher-level Elements)组成,包括标目〈eadheader〉、前面事项〈frontmatter〉、档案描述〈archdes〉、3个大项。在每一大项之下再细分为若干小项,小项又可细分出若干元素,而所有元素都包含在档案著录置标元素〈ead〉中。

3.2.3 EAD未来发展

国外对EAD的研究较深,并实施了一系列的计划,在未来档案描述中将发挥重要的作用。对于国内档案界,对EAD更多的是介绍性研究,而对EAD在中文档案中的应用研究较少,很大程度上制约了EAD作用的发挥,因此,我们对EAD的研究应突破表层,加快EAD本土化的研究,发展中文版的EAD,以便于国内档案界在描述档案时,能有相应的元数据标准为依据。

标签:;  ;  ;  

档案信息化建设中的数据描述标准研究_档案目录论文
下载Doc文档

猜你喜欢