数字化技术与存储解决方案,本文主要内容关键词为:解决方案论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
文章编号:1005-9652(2004)01-0026-04 中图分类号:G270 文献标识码:A
档案数字化是档案信息化建设过程中一项重要的基础性工作,如何利用先进、成熟的计算机技术以及合理的工作流程,将堆积成山的原始资料高效、准确、批量地转化为数字档案,是摆在档案工作者和技术开发人员面前值得深入探讨的一个问题。同时,为规范和方便档案的日常管理,加强档案的保护和保密工作,提高档案的查询效率,充分利用档案资源为本机构乃至全社会服务,实施档案数字化,并建立一套全新的数字化档案管理信息系统是一种有效的解决方案。本文以大量的工程实践经验为基础,主要从档案业务功能和技术方案选择两个角度介绍和分析档案数字化与数据存储的解决方案。
1.档案数字化业务过程模型
档案数字化是一个复杂的系统工程,其处理过程简要概括为电子档案信息的获取,信息处理,信息的存储、信息的发布与利用等四个核心业务过程。
(1)电子档案信息获取有多种渠道,图1中给出开展馆藏档案数字化的三种获取形式,即纸质档案的扫描加工、模拟档案如磁带、磁盘存储的档案的数字化转换以及采取数码照相技术将档案实现数字化的三种典型方式。无论是哪种形式都需要采取恰当的技术参数,选择合适设备及文件存储格式、安全的存储介质来进行电子文件的临时保存,以便进一步开展档案信息的处理。
图1 档案数字化工作流程
(2)档案信息处理是数字化解决方案的核心功能,主要包括对档案信息的编目、标引、图像文件处理、图像识别处理以及将图像与档案目录信息进行一致性关联等内容。该过程的每一个功能模块都需要借助于软件开发平台建立相应的用户操作环境,如档案目录信息的录入、图像文件的去污处理、图像的浏览以及将图像文件与档案目录信息实现关联的软件系统的开发与应用等。
(3)档案信息的存储。安全存储档案信息是整个系统得以有效运行的支撑保障。这个环节中首先应根据系统存储量的需求、安全管理的基本要求以及应用访问的速度等因素选择存储设备,如磁盘阵列、光盘塔、网络存储设备等,其次是选择各类电子档案信息的存储和访问方式,如采取文件存储还是采取数据库存储方式等。
(4)档案信息利用是档案数字化的主要目的之一,该环节中除了需要建立档案信息的查询与利用平台以外,更多的是需要考虑哪些信息可以在网上公开发布,哪些信息是采用权限控制的方式在网上进行查询利用,这些问题的解决必须服从《档案法》和各管理机构的实际业务管理条例。
2.纸质档案数字化加工流程
纸质档案数字化,就是将纸质档案转化为基于原文影像及标引信息(或全文信息)的数字档案信息的过程。其工作流程主要包括档案整理、扫描、OCR识别(如果需要实现全文检索,可采用OCR技术)、图文编辑、图文质检、重新装订、备份等多道工序。该流程要求支持工序回馈,形成一个闭环的质量控制系统。
(1)档案整理是数字化加工流程的预备工序,主要是将档案资料按归档要求进行分类、组卷、排列、修补、编写案卷号与页号,并根据档案的内容编制目录。
(2)扫描加工是通过中高速扫描仪和专用扫描软件将整理和分检好的档案资料批量转化成图像文件,并自动实现图像的压缩存储。扫描过程不严格要求页号顺序,但是必须保证图像质量与原件一样清晰。
(3)OCR(Optical Character Recognition)识别是通过OCR软件将扫描生成的光栅图像文件自动辨识成文本字符的过程。根据需要可对档案的部分内容(如标引信息)或全文进行识别。鉴于字体、纸张状况以及识别算法等诸多因素,OCR的识别率不可能达到100%,因此在自动OCR处理之后,还需要进行人工校对和补录(简称OCR后处理)。OCR后处理功能可在图文编辑工序中具体实现。需指出的是,OCR识别属于可选工序,一般仅适用于较清晰的印刷体文本或较规范的表格类资料,对于手写体档案,OCR识别率不很高。
(4)图文编辑是建立数字化档案的核心工序,主要实现:图像处理,页号排序,建立档案标引/全文信息(人工录入或OCR后处理),案卷与图像挂接,目录与图像挂接,密级设置等功能。
(5)图文质检是一个模拟查询调阅的过程,主要包括文字内容校对、原文图像质检、图像挂接检查与密级校核等,以综合检查档案扫描和图文编辑工序的加工质量。
(6)重新装订即根据被拆开的档案原件上的页号排列顺序,并且根据装订要求重新装订。装订完的档案经过质检员检查后才可以归还档案库房。
(7)备份是档案数字化加工完成后必须进行的安全管理的一环。系统维护人员使用备份软件定期将加工好的电子档案(原文影像及文字信息)从服务器中转储到光盘或磁带上,以作长期备份。
3.档案数字化主要技术指标的选择
纸质档案数字化过程涉及数字化扫描技术、图文编辑、图像格式、图像存储等关键技术方案的采用和技术参数的选择。其主要功能包括扫描加工、质量检查、去污处理以及加工后的图像文件与档案标引信息的关联等。
(1)扫描技术参数选择
扫描过程中尽量采用标准的TWAIN、ISIS编程接口,编写应用程序直接控制各类扫描仪,自动实现图像压缩存储。一般要求支持连续和平板两种扫描方式,支持A3、A4等多种幅面;支持黑白二值、灰度和彩色等多种图像格式,有盖章、照片的页面采用灰度或彩色图像处理。
扫描过程中分辨率的选择需要根据实际业务的需要进行灵活设置,一般情况下,为了满足网络化查询利用,黑白图像采用200dpi就可以满足要求,彩色图像的扫描分辨率还可以低一些,具体参数可以根据扫描清晰度和质量因素进行综合选择。对于一些特殊的利用如承办展览等可以采用较高的扫描分辨率来进行。
(2)图像文件格式的选择技术
1)TIFF/JPEG格式
TIFF是一种支持多页存储的图像文件格式,它支持多种压缩算法(如CCITY、IZW、JPEG等),但TIFF本身并不是一种压缩算法。而JPEG既是一种单页存储的文件格式,同时又是一种标准的压缩算法。TIFF的重要特点是支持多页存储、多种压缩方法,而且扩展性强,因此在专业图像应用领域得到了广泛的应用;JPEG格式一般用于压缩、存储单页图片的灰度或彩色图像,不支持多页存储。在数字化档案的应用中,其主要技术指标如下:
* 每卷档案作为一个图像文件,采用TIFF多页存储格式,能将任意多页的黑白二值、灰度、彩色、各种不同幅面图像压缩到一个图像文件中。
* 黑白图像压缩采用CCITT~GROUP4压缩算法;灰度、彩色图像压缩采用JPEG(YUV4:4:4)算法。
* 200DPI,A4幅面,黑白二值图像压缩效果:TIFFCCITT~GROUP4,平均每页大小为20K左右。
2)JPEG2000/JBIG格式
JPEG2000作为JPEG升级版,是新一代灰度/彩色图像压缩国际标准,其压缩率比JPEG高约30%左右,同时它还支持无损压缩、渐进传输和感兴趣区域等先进特性。
JBIG是同一标准化小组WG1制定的新一代的二值(黑白)图像压缩国际标准,其压缩率比CCITT~GROUP3(4)高20%~80%。
JPEG2000/JBIG格式应用有如下问题:目前大多数通用的图像应用软件还不支持或者不充分支持这些新的格式;由于该格式采用了复杂的小波变换算法,在普通PC机上的图像处理速度明显慢于JPEG和TIFFCCITt-GROUP4,经过实测:JPEG2000图像首次放缩有3秒左右的延迟时间,而相应JPEG图像的首次放缩几乎没有视觉延迟。
(3)OCR识别技术
OCR技术可用于档案标引信息识别和全文信息识别。在理想的测试条件下,其主要技术指标如下:
* 识别字体:识别宋体、仿宋、楷体、黑体、魏碑、隶书、圆体、行楷、行书等近百种字体。
* 识别功能:支持印刷文稿、纯英文、中英文混排、较工整的手写文稿等多种类型。对印刷材料的识别率达98%以上。
* 识别速度:在普通配置的计算机上印刷体汉字达120字/秒以上。
* 要求图像分辨率:一般不低于300DPI。
由于大量实际档案的纸张、字体和测试样例往往存在较大差距,因此OCR在实际应用中自动识别的准确度和稳定性会有较大的折扣,这使我们不得不遗憾地面临艰苦而繁琐的人工校对和补录工作。
(4)图像文件密级定义技术
为了在较细粒度上实现对电子档案图像信息的安全访问与控制,可进行通过采用页定级或页内区域定级,即指定某页或页内某区域的保密级别。保密级别可分为公开级、国内级、内部级、秘密级、机密级、绝密级等等。页定级与页内区域定级之后,通过用户角色授权,便可实现精细的数据访问控制和权限管理。
页密级与页内区域密级授权访问方式的特点是:若某个页内区域没有显示设定密级,则自动继承所在页面的密级;若页内区域设定了密级,而且该级别与所在页面的级别不同且高于其所在页面的保密级别,则覆盖所在页面的密级,也就是说以页内区域的密级为准。
页内区域定级的技术实现方式是:可采用“区域定位”技术实现页区域级别的设定。即一页档案中的某个区域可以由这个区域左上角相对于该页的坐标、区域的长和宽来惟一定位。因此,可以把区域的位置信息和区域的级别拼成字符串来表示和存储页区域级别信息。
(5)多媒体音像档案数字化技术参数
多媒体音像档案数字化,就是将录音、录像等各种形式的多媒体原文资料通过音频、视频转换设备进行转换、识别,压缩,生成标准格式的电子文件,并编目以及建立标引信息的过程。
资料类型 转换工具 文件存储格式技术参数
照片 数码相机/ 清晰度、分辨率、黑白/
扫描仪
JPEG 灰度/彩色等图像的选择
录音(磁 数字音频 MP3
信息失真度、压缩比选
带、文件)
压缩卡 择
录像(磁 数字视频 MPEG 信息失真度、压缩比选
带、文件)
压缩卡 择
(6)条码技术
文档数字化加工的全过程,采用条形码技术进行跟踪管理是非常有效的手段之一。通过采用条码可以实现下述自动化处理:
1)在档案整理工序中加贴表示不同意义的条码,可以实现案卷号、档案分类等关键标引信息的自动识别。
2)档案移交过程中,可利用条码自动进行档案的逐卷核对;档案盘点时,通过条码扫描枪或无线数据采集器进行条码扫描,可实现库房档案数量的精确统计,同时还可以实现库房实物档案与计算机中存储的档案信息的核对。
3)在档案的借阅管理工作中,可应用条码进行自动化的出入库管理。
(7)数字档案信息的存储
数字化后的数字档案信息包括档案目录信息和图像原文信息两大类,为了实现网络化利用,档案的目录数据库必须采用支撑网络化系统运行的数据库,如SQL Server2000、Oracle、Sybase、Informix等商业化的关系型数据库管理系统。而数字化后的电子图像文件的存储则可以选择文件存储方式或数据库存储方式任何一种存储方式,如果选用数据库存储,则要求数据库服务器的存储容量足够大,如果选用文件存储,则应考虑存储在文件服务器上文件的存储规则和命名规则,以方便实现图像文件与目录数据库的检索。
1)文件存储方式:在文件存储方式中,数字档案影像以文件形式存储于文件服务器上,相关联的标引信息存入数据库中。该种存储方式降低了数据库的庞大性,提高了数据的更新效率;有利于数字档案数据的交换和标准化管理,但此种方式需通过软件实现文件和数据库的一致性备份,增加了程序编写的复杂性,同时备份也比较复杂。
2)数据库存储方式:在数据库存储方式中,数字档案影像被直接存储到数据库的Blob字段中。这种存储方式简便了数据的备份,安全性相对较强,但由于数据库容量较为庞大,增加了数据库的管理与维护难度,对数据更新效率有一定影响。
(8)存储设备与备份设备的选择
1)数据存储设备:推荐采用磁盘阵列(RAID5)存储电子档案。磁盘阵列具有存取速度快、数据冗余校验、故障恢复、支持热插拔等多种先进特性。如有条件也可采用更为先进的NAS(网络附加存储)或SAN(存储区域网络)存储体系结构。
2)数据备份设备:可采用可擦写光盘(MO、DVD-R、CD-R)、光盘库、磁带、磁带库等多种存储介质,推荐采用光盘/光盘库作备。
4.发展与展望
本文阐述的馆藏档案数字化业务过程模型和各类技术参数与指标的选择是在深入分析和综合了各地不同行业用户需求及实际工作经验的基础上,跟踪世界先进的图文影像技术而提出。基于此方案设计和实现的电子影像档案管理系统,目前已成功地应用于工商、医疗、保险、档案馆等行业的档案数字化加工业务中,取得了良好运行效果。如果能够在档案数字化过程中,遵循档案管理及电子影像文件管理等方面的国际国内标准与规范,将其标引信息和属性信息采用统一的约定或标准进行规范化处理,那么,档案的数字化业务将会以更快的速度发展起来。我们相信,随着基于XML的档案元数据标准的出台,不同系统间的数据交换也将有望实现,同时随着图像工具软件的改进,JPEG2B00/JBIG格式必将会成为数字化档案的主流格式。