文雯
(湖北省电力公司)
摘要:传统的档案保护和利用工作,已不适应当今科技发展水平,为了便于档案信息的收集、保存和开发利用,必须运用先进的信息技术来改造和改善原有模式。利用扫描仪或数码相机等数码设备对纸质档案进行数字化加工,将其转化为存储在U盘、移动硬盘、光盘等载体上并能被计算机识别的数字图像或数字文本,然后进行数字化管理,成为当今档案信息化建设的重要内容。
关键词:纸质档案;数字化;加工处理
作为企业资讯重要来源之一的档案部门,在信息时代里如何利用丰富的档案资源,以方便、快捷、多样的形式为公司发展提供服务一直都是我们不断探讨的问题。结合我国档案化建设的需要,适应现代信息技术的挑战,笔者认为有几个与纸质档案数字化相关的问题需要提出来和大家一起共同探讨。
一、纸质档案数字化工作开展前如何整理出加工对象
笔者认为这个问题涉及三个方面:
(一)要不要或者如何对纳入加工范围的档案进行价值鉴定
很多档案室室藏档案都有20多年历史,基本上是从公司成立积累至今,档案数量庞大。而且在电力系统中基层档案员同时还兼任职其他工作,不可能用全部的时间来完成档案数字化工作,所以从时间上讲,全部室藏档案数字化不可行。
从社会效益上讲,我国信息资源开发利用工作已经在转型,已“从I 4T(信息技术)阶段转向I R(信息资源)阶段,从基础设施阶段转向深入应用阶段,从数量建设阶段转向质量建设阶段,从粗放配置阶段转向追求效益阶段”,扫描有效性差、共享性差和系统性差的档案无疑是浪费人力、浪费精力和物资资源的行为。
开展室存档案数字化工作一定要鉴定先行,档案鉴定工作要坚持以“应用”为导向,即要根据“利用优先”的精神来确定数字化工作的轻重缓急,将那些“价值高、可公开、易检索”的档案确定为数字化的范围。具体做法是抽出业务精通、知识结构牢固的骨干成立鉴定工作专班,在以往档案鉴定的基础上逐份对纳入扫描范围的档案进行挑选。
(二)对有加工价值的对象再次挑选
对于加工对象的确定首先按档案内容价值进行筛选,即:以档案的内容有无重要或比较重要的查考利用价值作为全文信息数字化的主要依据;其次是按照档案稿本进行筛选。在确定档案价值的前提下,对立档单位的发文,同时存在草稿、定稿、正本的,扫描正本;无正本的,扫描定稿;无正本和定稿的,扫描草稿;属于扫描范围的正本存在数份的,选择字迹比较清晰的正本扫描;属于扫描范围的草稿存在数份的,根据时间选择最新的修改稿扫描,如草稿无时间,则选择字迹比较清晰的草稿扫描。另外还要按照档案载体质量情况进行取舍。档案纸张破损、霉变或字迹褪变、信息难以辨认的文件和字迹潦草、无法辨认的文件扫描后也无法识别,所以在没有对其采取抢救措施前不必要扫描。
(三)按照《档案著录规则》(DA/T18)等的要求,规范档案中的目录内容。包括确定档案目录的著录项、字段长度和内容要求。如有错误或不规范的案卷题名、文件名、责任者、起止页号和页数等,应进行修改。
档案价值鉴定、加工对象的挑选、目录著录会花费很多时间,但是数字化工作绝不能贪数量,一味图快,要“质量第一,速度第二”。保证纸制档案数字化工作质量高,速度快。
二、数字化加工中损伤原稿与保护档案载体矛盾双方的统一
档案保管要求保障档案的载体和内容的安全,但是在数字化过程中保障纸质档案载体的绝对安全是不可能的。我们可以通过严格的借阅手续避免档案少卷,可以通过详细的拆卷、扫描登记录来保证档案不缺页,但是高速扫描下对文件原稿的损坏却无法避免。
期刊文章分类查询,尽在期刊图书馆尤其是2002年以前按照按照传统方法整理的以“卷”为单位档案,当时采用“三点一线”装订法,而且筒子页居多。要将这些档案扫描提电子格式,必然要拆卷和裁开筒子页,所以,要开展纸质档案数字化工作,有些损伤是必要的。
在扫描时,把筒子页裁开批量扫描,有些同志对这种做法很不认可,认为违背了档案管理原则,我个人认为,档案保管和数字化扫描中的裁剪行为绝不是对立的双方。首先,档案保管的最终目的是为了今后的开放利用,纸质档案数字化也正是为了更广泛地开发利用,两者的目标是一致的;其次,纸质档案的数字化还有利于延长档案内容存在的时间。毕竟纸张的寿命是有限的,但是经过数字化处理的档案可以存在多种载体上,并可以自由转移,客观上起到了保护档案,延长档案寿命的作用;再次,裁开筒子页仅仅是两张档案纸中缝的分开,既不影响档案信息的安全,又不影响单张档案的纸张质量。
当然,对于筒子页,也不能“一裁了之"要区别对待。
1、档案纸质较好、页面平整、纸张厚薄和弹性适中,单张档案不影响翻阅的,可以裁开扫描。
2、档案纸质较薄、弹性差、裁开后单张翻阅易损坏的,不能裁开,仍采用平板扫描或者套上保护膜利用高速扫描通道的双面扫描功能逐张扫描。这些档案在室藏档案中数量较少,主要集中在公司成立初期形成的档案中。
三、目录录入和原文扫描能否脱钩
纸质档案数字化工作中,普遍的做法是利用档案管理软件首先录入案卷级目录,紧接着录入文件级目录,最后扫描和挂接原文。笔者认为,目录录入和原文扫描能够脱钩,对于需要数字化加工的档案可以先扫原文,再录入目录,也可以先录目录,后扫原文。
在纸质档案数字化的实际工作中,会发现一些案卷内的文件和已录入的卷内目录不能一一对应,存在有目录无文件和有文件无目录的现象,批量扫描时扫描人员不可能全部一一对照,这样就造成了卷内原文挂接时顺序混乱,“文不对题”。固然这是目录著录不够细致造成,但是这种不细致的现象并不少见。案卷中卷内文件目录抄写不规范,漏、多、省的现象,档案馆(室)不是个别现象,还相当多,一些搞目录录入的同志过于依赖原有的卷内文件目录,直接影响了纸质档案数字化的质量。如果先扫原文后著录,那么这种“文不对题”的问题可以及时发现,后来著录的同志就可以根据标注和修改后的卷内文件目录,正确录入。
笔者认为,档案室的纸质档案数字化工作可以原文先行。对于已经确定在数字化扫描范围内的档案可以先录入案卷目录,然后扫描原文,对在扫描原文过程中发现的问题及时纠正,最后按照纠正的卷内文件目录著录。
同时,目录录入和原文脱钩,也有利于档案馆组织力量同时开展这两项工作,提高纸质档案数字化的效率。如果先录目录,必须要按照《档案著录规则》的要求,仔细核对原文,按照原文进行著录,并在案卷的卷内文件目录上纠正不规范的地方,以便后来扫描原文的同志知晓。
四、数字化加工中主要技术规范
1、扫描图像质量和存储格式要求。
数字化加工必须通过建立健全有关技术标准和业务规范将馆藏档案数字化的质量要求落实到各个工作环节。目前,我国对纸质档案数字化作出要求:页面为黑白两色,并且字迹清晰,不带插图的档案,可采用黑白二值模式进行扫描;页面为黑白两色,但字迹清晰度差,或带有插图的档案,以及页面为多色文字的档案可采用灰度模式扫描;页面中有红头、印章或插有黑白照片、彩色照片、彩色插图的档案,可视需要采用彩色模式扫描。一般黑白和彩色文档的分辨率不能都低于100dpi,有汉字识别需要的档案分辨率要在200dpi以上。
图像保存遵循“易于识别,减少丢失”的原则,目前推荐采用的是tif和jpe9格式,提供网络查询的扫描图像也可存储为ceb、pdf或其它格式。tif格式是一种非破坏性的存储格式,能够被广大图像处理软件普遍支持,也能够被现在国家推广的科怡软件直接识别,但它体积大,占用空间多。jpe9格式是有损压缩存储格式。主要针对彩色或灰阶的图像进行大幅度的压缩,达到让文件小的目的,可以被科怡软件间接阅读。
2、不同质量纸张的扫描。
由于档案形成的年代久远,而且各个时期、各个立档单位对文件形成的要求不同,因此馆藏档案中档案纸质载体质量良莠不齐,有些纸张过脆、过后、过薄,甚至用草纸、烟盒纸等书写重要文件。实践中发现在八十年代的纸张质量韧性好,厚薄适中比较适合高速扫描仪扫描,而九十年代以后很多机关的纸质加厚,但是韧性差,相对教脆,反而不适合批量扫描。对于烟盒纸、信纸等不规格纸张不适合批量扫描,只能逐张扫描或者平板扫描,否则容易卡纸。文档一体化的实现还需要很长一段时间,所以不同质量纸张扫描问题,是我们必须要考虑的问题,它考验了我们现在的业务标准,要求我们在传统管理与现代化管理接轨中从源头上规范我们的文稿用纸,要求采用既利于档案永久保管又利于数字化扫描的纸张。
3、数字化加工要逐件扫描,规范命名。档案数字化在原文扫描中既要批量加工提高速度,又要重视质量保证顺利挂接到档案管理软件。因此原文扫描要逐件进行,以件为单位批量扫描,切不可为了提高扫描速度以卷为单位进行大批量处理。
数字化后的影像命名直接关系到今后的原文的挂接、查询和开发利用,一定要准确、清晰。《纸质档案数字化技术规范》规定,纸质档案目录数据库中的每一份文件,都要有一个与之相对应的唯一档号,以该档号为这份文件扫描后的图像文件命名。多页文件可采用该档号建立相应文件夹,按页码顺序对图像命名。
总之,纸质档案数字化要始终坚持以“开发利用”为目标,以“现代化管理”为导向,一手抓提高纸质档案数字化工作的速度,一手抓数字化后档案的质量与效率。当纸质档案数字化工作和文档一体化管理接轨之时,也就是我们全面实现档案现代化管理的转折之时。
参考文献:
[1]《纸质档案数字化技术规范》
[2]中华人民共和国行业推荐标准
论文作者:文雯
论文发表刊物:《电力设备》2015年4期供稿
论文发表时间:2015/12/4
标签:档案论文; 纸质论文; 目录论文; 原文论文; 工作论文; 文件论文; 加工论文; 《电力设备》2015年4期供稿论文;