历史档案文献数据中心建设模式刍议,本文主要内容关键词为:刍议论文,数据中心论文,历史档案论文,文献论文,模式论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
网络技术的特征是远程技术共享,历史档案数字化就是结合历史档案和网络载体的资源共享模式。具体而言,历史档案数字化主要是采用一些数码设备,对纸质历史档案进行数字化加工,将其转化为存储在磁盘、磁带、光盘等载体上,并能被计算机识别的数字图像或数字文本的处理过程。现阶段历史档案的数字化工作进展主要体现在历史档案资料目录中心建设层面上。到现在为止,纵览从中央到地方的历史档案数字化工作,都没有办法给用户提供一个全面、详细、多元化的历史档案文献信息平台,以助于档案用户使用历史档案。基于此,笔者考虑由国家档案局统一领导,在网络环境下建立一个历史档案文献数据中心,对第一、二历史档案馆,中央档案馆以及全国各省、市、地区所藏的历史档案文献实行集中统一管理。借助历史档案文献数据中心这个信息平台,来满足广大档案用户对历史档案的利用需求。
1 “历史档案文献数据中心”的界定
到目前而言,“历史档案文献数据中心”还没有权威的定义。本文认为,“历史档案文献数据中心”是一个为档案用户提供历史档案文献数据的综合信息平台。该中心由国家档案局牵头,对散存在全国各地的历史档案实行网络环境下的集中统一管理。所谓集中统一管理主要是指分中央、省和市(地)三级对历史档案文献数据进行动态管理。“历史档案文献数据”所涉及的内容包括国内现存的所有明清及明清以前的档案、民国档案、革命历史档案,以及部分有历史价值的档案文献资料。笔者寄希望“历史档案文献数据中心”能够反映出全国历史档案的总体面貌,档案用户能借该中心查到各时期历史档案的文件级条目,以及部分数字化全文。
“历史档案文献数据中心”建设的价值、“历史档案文献数据中心”建设的功能优势等不是本文探讨的重点,故恕不多言。
2 建设模式:三级建设模式
2.1 第一级历史档案文献数据库的建设
第一级历史档案文献数据库资源主要包括第一、第二历史档案馆及原中央档案馆下的历史档案馆藏,以及其他可以直接纳入中央一级进行数字化存储和管理的有重要价值的历史档案、文献资料。这一级又可称为中央一级,因为原来这三个档案馆内的档案本就属于国家直接管辖。这一级的历史档案文献数据母库主要包含三个子库和三个文献资料库:保存在第一历史档案馆的明清历史档案文献数据库、保存在第二历史档案馆的民国历史档案文献数据库、保存在中央档案馆的革命历史时期档案文献数据库,以及与之相对应的三个文献资料库。第一、第二历史档案馆以及中央档案馆负责为该一级历史档案文献数据库提供可靠的历史档案数据信息,由国家档案局对其进行指导和管理。每个子库中的数据信息主要包括两个部分,一是著录条目,二是数字化全文影像。中央一级的历史档案文献数据中心需要将每一个全宗、每一盒案卷中的每一份文件进行数字化扫描,并且以“件”为单位进行著录,也以“件”为单位进行全文与著录条目的挂接。每一份著录文件条目的内容大致应表明该份历史档案的责任者、形成时间、事由、文种等等。如图1所示:
图1 第一级历史档案文献数据库(母库一)
中央一级历史档案文献数据库的建设特点在于数据相对集中,便于采集。就现阶段看来,中央一级历史档案数字化工作进展比较快,已经具备一定的历史档案数字化经验。比如根据第一历史档案馆馆藏所生成的《清代档案文献数据库》、《大清历朝实录》、《大清五部会典》,这些专著成果已为中央一级的历史档案文献数据库的建设打下了坚实的基础。
2.2 第二级历史档案文献数据库的建设
第二级历史档案文献数据库的建设资源主要包括全国各省、自治区、直辖市综合档案馆内的馆藏历史档案。同样按历史档案的基本分期分为明清和明清以前的历史档案、民国历史档案、革命历史时期档案。现在各省、自治区正循序渐进地对其自身所典藏的历史档案进行数字化。历史档案工具书《明清档案通览》、《全国民国档案全宗通览》中所涉及的像广东省、四川省、北京市、天津市、重庆市、广西壮族自治区、西藏自治区、港、台等地区的历史档案,均可作为第二级历史档案文献数据库资源建设的重要参考。第二级历史档案文献数据库可分为三个层次,第一层是第二级历史档案文献数据母库,第二层是明清、民国、革命历史时期档案数据子库,第三层是以省、自治区、直辖市为单位建立若干历史档案文献小库。第二级历史档案文献数据库仍以“件”为单位对各时期的历史档案进行著录并挂接到数字化全文。由国家档案局统一指导并管理,由各省、自治区档案馆负责向历史档案文献数据二级中心提交数据,以便分清责任,提高效率。如图2所示:
图2 第二级历史档案文献数据库(母库二)
第二级历史档案文献数据库建设特点在于数据来源都是各省、自治区、直辖市的综合性档案馆馆藏,提交单位较第一级历史档案文献数据库的单位要多而且分散。值得注意的是,第二级历史档案文献数据库数据资源的搜集工作应尽可能做到全面,否则容易疏漏,像海南省明清档案就被《明清档案通览》所遗漏。当然,由于各省、自治区、直辖市的历史档案数字化水平不一致,会有大量的历史档案数据暂且存在空白现象,需要利用“历史档案文献数据中心”系统开放式的特点,为其腾出足够的数据存储空间。
2.3 第三级历史档案文献数据库的建设
第三级历史档案文献数据库的数据资源包括全国各省会城市、经济特区、较大的市、县地区档案馆及相关研究机构所保存的历史档案数据。比如四川成都市、深圳市、广东江门市、四会县、信宜县、四川龙泉驿、双流、万县、合川、理县、温江、绵竹等地区历史档案。除此以外,其他偏远或较小城市凡保存有价值历史档案的,均可将电子数据报送到第三级历史档案文献数据库中来。由国家档案局指导,各市、县一级综合档案馆、地方政府部门和相关的文化研究机构配合,向第三级历史档案文献数据中心报送数据。每个报送单位成立一个小数据库,仍分别归总到明清、民国历史档案、革命历史时期档案子库和资料库中来,以“件”为单位进行著录,并尽可能提供数字化全文。如图3所示:
图3 第三级历史档案文献数据库(母库三)
第三级历史档案文献数据库资源的搜集需要格外细心,它的报送单位并非仅局限于地方综合性档案馆,还包括一些博物馆、学术研究机构、社会团体等等。虽然第三级历史档案文献数据资源分散,不容易搜集,但却非常具有地方特色。例如四川省成都市档案馆典藏的民国时期四川省会警察局全宗档案,可以非常详细地反映出民国时期四川地区的军事与民生情况;福建省连江县有一类关于十五姓族谱的明清时期档案,这对于研究家族史,颇有价值;山东省曲阜县文物管委会制作的孔府档案,是非常有名气也颇具地方历史文化特色的明清历史档案整理硕果;湖南麻阳苗族、通道侗族自治县的少数民族自治县档案,能反映出我国少数民族历史档案的局部特色。因此,第三级历史档案文献数据资源收集难度较大,但却丝毫不容忽视,它是整个“历史档案文献数据中心”不可或缺的一个组成部分。
2.4 分级建立历史档案文献数据库的意义
之所以考虑对历史档案文献数据进行分级建设,并非是单方面地将全国历史档案依照行政级别进行分级,更非为历史档案的价值划分出等级,表明孰轻孰重。这样的建设方案是以当前从中央到地方历史档案数字化的现实状况为基础的。现在全国各地或多或少有对历史档案进行数字化建设,为了把各自的建设成果都纳入到这个数据中心来,必须设计出一套最行之有效的数据报送方案。这个方案,保证了历史档案尽可能全面地予以报送。哪怕再偏远地区的历史档案都能够在“历史档案文献数据中心”中找到自己的具体位置。另外,分级建立“历史档案文献数据中心”使得我国历史档案有纵横交错之感:从纵向看,它将历史档案分为明清及明清以前历史档案、民国历史档案、革命历史时期档案三项;从横向看,它将历史档案分为中央一级;省、自治区、直辖市二级;市、县、地方三级。这样一来,整个历史档案文献数据中心就可呈现出立体感,便于档案用户更加明确查找到历史档案的具体位置,也便于国家对历史档案实行灵活、机动的管理。
3 建设重点
要建立如此庞大的“历史档案文献数据中心”,有以下几项重点工作不容忽视:
3.1 “数据中心”的建设需要对我国历史档案进行全面普查
在国外,如英、法、德、意、日、韩等国家对于历史文化遗产的普查工作都非常重视。而我国对人口、经济乃至古籍都有过普查,至今却从来没有对历史档案进行过全国性普查,国家档案局也没有将此纳入日程。[1]笔者通过网络调查发现,各省的历史档案数据还存在很大差异,比如山东省的革命历史档案有143000余卷,而其他省的相关档案,多则上万,少则只有几千乃至几百卷。这说明山东省拥有大量的革命历史档案数据可供挖掘。通过对历史档案的全面普查,国家可以全面把握历史档案数量、保管质量、缺失情况等各方面的实际情况。在历史档案普查基础上,国家可以有的放矢地开展历史档案的数字化工作,集中力量先抢救濒危历史档案。全国各地历史档案文献数据报送单位与当地档案行政管理部门积极配合,由国家档案局组织专家对我国历史档案普查设计专项调查指标,全面摸清历史档案的实际情况。这将是历史档案文献数据中心建设最为基础的工作之一。
3.2 “数据中心”的建设需要国家档案局的统一指导和协调管理
从上文的论述中不难看出,国家档案局必须起好领导带头作用,而全国各级档案行政管理部门以及地方各类历史档案文献数据报送单位积极主动地配合工作,才能保证“数据中心”的顺利建设。在此基础上,各类历史档案文献数据报送单位还可以相互交流经验,彼此沟通和学习。
3.3 “数据中心”的建设必须更新、统一标准
我国的历史档案数字化标准还很落后,在我国档案行业标准中,历史档案数字化行业标准绝大多数是在2000年以前制定的,而2000年后的行业标准仅有2个[2]。如今,历史档案的全文数字化工作早已提上日程,但历史档案全文数字化标准却迟迟不能正式出台。全国各地所使用的数据库技术标准不统一,很容易造成“数据中心”各类数据的不兼容。因此,国家档案局必须加快历史档案数字化标准的建设步伐,分别针对明清档案、民国档案、革命历史档案拿出一套全国比较统一且兼容的技术标准,以便贯彻执行。
3.4 “数据中心”的建设需要最基本的网络信息技术作保障
首先是数据库技术。在历史档案数字化实际工作领域内,我国所开发的各种档案管理软件系统主要基于SQL Server数据库,用SQL书写。SQL是结构化查询语言(Structured Query Language)的缩写,最早是IBM的圣约瑟研究实验室为其关系数据库管理系统SYSTEM R开发的一种查询语言,它的前身是SQUARE语言。如今无论是像Oracle、Sybase、Informix、SQL Server这些大型的数据库管理系统,还是像Visual Foxporo、PowerBuilder这些PC上常用的数据库开发系统,都支持SQL语言作为查询语言。当前,成都市档案馆使用的紫晶文档管理系统以及在此基础上开发设计的民国档案文件管理系统、四川省档案局所使用的四川省档案管理系统都是基于SQL Server数据库建立的。这些系统已经具备了文件著录、全文扫描、挂接以及文件级数据检索、查看全文等功能。
其次是基于“三网”下的路由交换技术。当前,绝大多数网络通信是基于TCP/IP协议及其相关技术实现的,而路由交换技术是构建IP网络的技术基础,是网络互联的基础。另外还有建立在现有网络结构之上的负载均衡技术。它可以扩展网络设备和服务器的带宽,增加吞吐量,加强网络数据处理能力,提高网络的灵活性和可用性。负载均衡技术主要有软/硬件负载均衡,本地/全局负载均衡。建立“历史档案文献数据中心”主要使用的是硬件负载均衡技术。
最后,考虑到“历史档案文献数据中心”的安全性,还必须对防火墙技术和入侵检测技术有所认识。防火墙技术只允许符合安全规则的网络连接和访问顺利通过防火墙,从而达到有效隔离各个安全区域、保障核心数据的安全性的目的。入侵检测技术(IDS)从计算机系统或网络中收集、分析信息,查看是否有任何企图破坏计算机资源完整性、机密性和可用性的行为,检测计算机系统是否有遭到攻击的迹象,并作出反应。通过IDS可以检测异常的网络流量,如黑客扫描、网络病毒等,并及时对其进行拦截和控制。
4 结束语
“历史档案文献数据中心”的建设是一个浩大的工程,但它并非是建立在空中楼阁之上。经过近些年的实践摸索,历史档案的数字化已经具备一定的技术基础。全国各省、市、地区档案馆也或多或少对历史档案的数字化工作有自己的经验和心得。本文仅从理论上对“历史档案文献数据中心”作一大胆地思考和设计,希望“数据中心”能够真正成为历史档案文献信息交流的大平台。笔者愚钝,诸多疏慎之处还望与奋战在历史档案数字化一线的有识之士共同探讨与交流。