档案信息数字化的边界问题研究,本文主要内容关键词为:边界论文,档案论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、引言
数字化本质就是将人们感受到的信息抽象为可以度量的用符号表达的数字、数据,再将这些数字、数据按照一定的数字化模型(编码规则)转换为一系列计算机可以识别的二进制代码,从而可以通过计算机对这些数据进行高效率的处理、存储、传输,这就是数字化的基本过程。
档案数字化无疑就是将存储于传统载体上的档案信息进行数字化。在信息化技术日益发展的今天,档案数字化也随之迅速发展起来。事实上,各种原始的档案资料(文本、影像、声音、图纸等)数字化具有技术上的可行性,在我们构建描述信息的二进制序列过程中,无论采样的频率有多高,总是存在与实际事物的差别,因为世界万物的本质是连续的、模拟的。一个数字化的世界是离散的,是对模拟世界的近似表达。此外存储于计算机内存或介质上的数字化信息有易复制、易修改的特点,尽管近年来计算机数据安全技术有了突飞猛进的发展,但是这些安全技术针对的是对生命周期较短的数字信息的实时保护,从理论上来说,没有任何对数字信息保护的技术是万无一失的,特别是为了维护数字信息的安全性所付出的代价也是巨大的。
吴宝康教授主编的《档案学概论》明确指出,“档案是历史的原始记录,或说原始的历史记录。这是档案的本质属性”,“档案在与其他事物相比较而存在的过程中所显示的独有的特性,就是原始记录性”。
“档案是人们处理事务过程中遗留下来的副产品,它是人们进行社会实践活动附带的产物,或者说它是自然形成的,而不是纯粹人为的结果”。尽管不能机械地理解原始性的含义,但是毫无疑问档案的历史性、真实性是其本质属性。
显然,档案信息数字化的工程不能成为一种“时尚”,而要在保证档案基本属性的情况下借助于现代信息技术扩展其作用范围,提高其效率。因此需要从档案的特点、成本、效益等方面综合考虑,确定出数字化与非数字化的边界,按照科学合理的方案进行数字化建设。
二、明确档案信息数字化的目标
档案有两种基本价值:一种是历史凭证价值,从档案的基本属性和档案的内容、形式、特征看,档案是真实可靠的,具有法律效力;另一种是情报信息价值或称参考价值,从档案的信息储备和所反映的内容来看,档案信息可供各项工作借鉴、参考。由此可见档案利用的主要价值主要体现在体现在真实的凭证作用方面,而对效率要求相对处于较次要的地位。
对现实中的信息完全数字化的优势,在于其强大的计算处理能力、高效的查询功能及信息管理与共享能力。在效率优先的前提下数字化是必须的工作。而对档案的数字化处理必须结合其档案利用的特点与数字化的优势找出一个最好的结合点。
因此,笔者认为档案信息数字化的目标是在保证档案原始凭证性、真实性、安全性的前提下,利用数字化的优势,提高其管理、查询与传输效率,扩展其服务功能特别是数据挖掘功能。
三、档案信息的数字化现状与问题分析
现有的数字化档案管理系统大部分基于关系数据库系统,基本实现了档案的编目、检索、统计、借阅等日常管理,其本质是在原有的档案管理体系上附加了计算机管理软件,这在一定程度上提高了档案管理工作的效率。
由于受各种条件限制,档案的原始载体大部分是以实物形式存在的,数字化将以实物形式存在的档案转储为可被计算机识别处理的数字化形式,目前,在我国许多省市档案馆都把数字化工作列为一项重要工作,理论界也对此进行了大量的研究,许多部门也做了实践的尝试。其目的就是研究和实践如何充分利用现代信息技术为档案的管理与利用服务。但是就现状而言数字化工作面临着一些问题。主要表现在以下几个方面:
1.档案数字化边界问题
档案中那些内容数字化、那些内容以原始的内容保存或者以“双轨制”的形式进行,都不能十分明确,极端的做法是尽其所能通过键盘、各种采集卡及扫描等设备将其内容全部数字化。
2.档案数字化信息的标准问题
档案信息数字化无相关电子数据标准,不同档案部门数据结构格式不统一,尽管可以通过大量的元数据来克服这样不一致的问题,但不利于网络条件下的档案信息的高效率共享。
3.档案数字化信息的管理问题
工作不协调,数字化过程与对数字化信息的管理不能同步进行,所有原始材料的数字化虽然技术上容易实现,但是对于较大型的档案管理部门数字化将是漫长的工作,即使完全数字化了,将会涉及海量异构数据的存储、转储及管理与检索。最重要的是,如果相应的检索与验证管理软件不能跟上的话会使问题复杂化,许多前期工作将会前功尽弃。
4.档案数字化信息的安全性问题
数字化后的电子信息安全性与可靠性问题十分突出,如何保证数字化后的信息不被随意的访问、篡改、复制是一个十分复杂的问题。要解决这样的安全问题,需要利用计算机数据安全技术,单从技术特征来说要解决的问题是数据的完整性、数据的保密性、数据的可用性,涉及的技术:包括数据加密与数字水印。档案信息是需要长期保存的,这将导致加密密钥的管理将变的十分困难,因为密钥安全性不仅在于计算的复杂性,而且还在于其不断的更新,而数字水印技术在一定程度上必然导致原始数字信息的失真,从而进一步破坏档案的原始凭证性功能。
综上所述,在数字化过程中,如何平衡各个影响因素,需要我们仔细分析,事实上,以上所有问题都是由边界不清晰带来的,即所有档案材料中那些部分数字化、那些内容不数字化不是十分明确。
四、档案信息的数字化边界划分
如果从档案信息的主要作用来分析,既然是用来作为凭证的,因此其效率要求相对来说较低。对所要求的凭证信息在一日内一般都能查询确定,就目前的管理体系来说完全能够达到其所要求的效率。
因此,数字化的作用在于提高利用效率的同时,扩展原有档案信息的利用价值,即除了凭证功能外扩展其分析价值,通过对以前档案资料的统计分析及信息挖掘为决策未来提供必要的支持。
在实现了对档案的目录、案卷、借阅、编研、查询、统计等基本外延信息计算机管理的基础上,我们可以将进一步的档案内容数字化按照需求分为两种,一种是以方便管理应用为主要需求的数字化工程,一种是以分析应用为主要需求的数字化工程。
对于大部分单位的档案信息来说,前者不具有普遍性,因为通过分析我们知道,从应用的角度分析其所带来的好处只是检索速度的提高与信息共享的方便,但是,以上均不是档案信息主要利用价值的体现,因为其存储、检索与安全维护的代价是巨大的,况且对海量异构数据的管理与应用会增加档案利用的复杂性,从成本效益及安全的角度考虑也是不科学的。
所以,以分析应用为主的数字化实现才是最佳的选择,它可以在保证档案信息最基本特性及利用价值的基础上,利用现代信息技术扩展其利用价值,通过对以前的信息进行数据挖掘,从而为决策分析提供服务。在此前提下应该建立档案管理信息系统、数据仓库、原始档案材料三级管理与应用模式。
1.档案管理信息系统
管理信息系统是对档案材料存在与利用信息的数字化及管理系统,具体数字化及管理的内容主要包括:档案的实物存储位置信息、属性信息、审核信息、借阅利用信息、统计信息等。
2.数据仓库
与事务处理数据库系统不同,数据仓库是从多个数据源中收集的一个信息仓储(或归档),是整合的、主题导向的、长期积累的、且内容不频繁更改的数据集合。采用数据仓库的技术,将来源于不同档案部门管理信息系统的信息资源,复制集中到一个数据仓库中形成一个资源信息中心。
由于数据仓库不常被修改,也不用于通常的事务处理,只是用于查询、数据挖掘、分析,因此其一定程度的数据冗余是容许的。此外,数据仓库的特性也是符合档案的基本应用要求的。
基于数据仓库的数据的单向流动保证了数据的安全性,分布于各个档案部门的数据单向地转储到数据仓库中可以在两方面保证数据的安全性,即使从数据共享的角度来看,作为数据仓库的用户来说,本质上只有只读权限,堵塞了数据的安全漏洞。
建立数据仓库时,数字化的内容并不需要所有的原始档案材料,而可以是能反映原始档案信息内容与作用的摘要信息。它既能够作为查询与信息共享的数据源,又可以作为数据挖掘从而进行决策分析的数据源。
3.原始档案材料
指的是以原始状态存在的归档材料,是最终其原始凭证作用的材料,只有这些材料才是可靠真实的。其形式包括文本、图形图像、视频、磁带等,大部分为模拟状态存在的自然信息。它是数字化信息的物理映象,与相关的数字信息构成一一对应关系,它是管理信息系统及数据仓库的基础。原始材料在某些情况下也可以考虑对其进行数字化,一是条件允许的情况下,特别是在管理与安全技术成熟的情况下,可以作为一个管理分支进行数字化管理;二是需要传输利用的情况下,通过数字化可以将档案材料在网络上实现快速传输与共享。
五、结束语
利用现有的信息技术,设计出科学、合理、安全、高效的档案信息服务体系是当前档案管理的当务之急,其中数字化是必须的环节,哪些需要数字化,哪些还要保持其原始状态,即数字化的内容则是需要研究的重要课题。为此需要明确数字化的目标,数字化的前提是保持档案的原始性与真实性,从而保证其基本的凭证性应用,在此基础上可以通过一定程度的数字化实现计算机管理以提高其利用效率与共享程度,同时,通过对其内容摘要的数字化并结合数据仓库及数据挖掘技术扩展档案的分析功能。