新华社图文档案管理网络系统的建立及应用分析,本文主要内容关键词为:新华社论文,档案管理论文,图文论文,系统论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
新华社是党中央的耳目喉舌,担负着向全中国以及全世界宣传我们党的各项方针政策,为党中央收集来自各方面情况和反映的任务。新华社的档案管理工作是为宣传报道服务的,负责保存在宣传报道及其他各项工作中形成的珍贵的档案资料、文件、文献和提供利用工作。新华社档案处保存有从1938年到现在的大量的中央领导同志审批稿和新华社的历史档案材料,这些材料都是珍贵的财宝。多次的调阅使用,必然造成对这些材料的损坏。因此,及时准确地提供档案信息,安全完整地保管档案材料,是对新华社档案管理工作提出的要求。为了及时准确地提供档案信息,达到安全完整保管的目的,以适应档案管理现代化的需要,新华社档案处与沈阳市天星公司于1996年3 月根据新华社档案管理的特点和现状,合作开发了多媒体档案管理网络系统。至今该系统运行已二年多了,实践证明,系统运行稳定、可靠。下面我们对这套系统的开发状况进行一些分析:
一、系统的定位
我国档案自动化管理的发展大致为三个阶段:即档案目录级检索编目阶段;档案原文存储及检索单机运行阶段;档案原文存储及检索网络运行阶段。根据新华社的实际情况,我们将系统的起点定位在第三阶段。这是因为高起点的设计才能保证技术上的先进性和用户投资的持久性。
节点单位的物理结构模式我们选用了客户机/服务器(Client/Server)模式,它克服了网络/服务器结构存在的高负载网络流量、高负载文件服务器进程等缺陷,是目前信息系统普遍采用的一种分布处理方法。它主要有三个部分:数据库服务器、客户应用程序和网络,每部分集中于一项特定的工作。服务器主要是当多个用户并发地请求相同资源时,对这些资源进行最优化的管理。客户应用程序提供高度交互、易用的界面,处理所有的屏幕和用户输入、输出,是系统中供用户与数据进行交互部分。网络和通信软件是系统中客户机和服务器之间数据传送工具,是Client/Server体系结构中的重要一环。Client/Server系统能把工作任务交给客户机、服务器分担的系统,是把用户接口、事务处理、数据管理功能恰当划分的一种协作计算模型,具有高度的开放性和互操作性。
二、硬件配置与软件结构
在选择硬件设备时,我们综合了资金情况、设备状况、使用水平等多方面因素,力求达到最佳的性能价格比。
在服务器端,我们选用WINDOWS NTSERVER作为网络操作系统,提供文件和打印共享、通信、网络连接和应用程序服务,在整个网络上运行TCP/IP通信协议,实现多种网络平台互联。选用符合ODBC 标准且支持Client/Server体系结构的MICROSOFT SQL SERVER作为数据库服务器,提供数据库管理和存储。
在客户端操作系统的选择上,客户可根据自己机器设备情况,既可采用WINDOWS3.2,也可选用WINDOWS 95等。尽管WINDOWS3.2会逐步被WINDOWS 95所取代,但由于WINDOWS 95对设备要求很高,若单位中有一批像486/33这样的旧机器,让其闲置也是一种浪费。 同时我们选用了FOXPRO作为客户端前台开发工具。
三、设计方案分析
1、全文信息管理。
过去,人们用计算机进行档案、图书、情报一类的管理工作,实际上是一种目录管理,也称为“二次文献管理”。从技术手段上看,通常是使用某种关系型数据库管理系统,如DBASE之类的, 可以处理结构化的信息查询。随着需求的扩大和技术的进步,发展到要对文件的内容进行管理,即所谓的“一次文献管理”。只有将原始文件的全部内容都输入计算机,才能做到不接触档案原件,也能让读者看到原文。所以本系统采用档案全文管理方式。
2、褪变档案的恢复。
由于档案原件保存的时间都比较长,年代久远,字迹褪变,采用扫描仪输入如不经过处理就会模糊不清,达不到利用的效果。所以,必须在档案扫描输入时,对褪变档案进行处理。这通常有两种方法:一是整页档案统一确定一个阈值。采用这种方法操作简单,速度快,适用于整页文件字迹反差一样的文件。若整页文件字迹反差不一致时,就会出现不清楚的部分处理清楚了,而原来清楚的部分反而不清楚了。二是分块阈值净化。就是在褪变程度不同的一页档案中,针对褪变程度划分几个或若干个区域,每个区域确定一个阈值。经过这样的处理,使原来褪变程度不同的一页档案还原成清晰度一致的档案,提高了褪变档案的可读性,解决了年代久远的档案信息完整保存和有效提供利用的问题。我们设计的软件中采用了上述两种方法,既保证了反差一致的档案快速扫描,又可对反差不一致的档案进行局部处理。
3、图像的压缩还原。
这个系统的任务之一是存贮各种信息,其中主要是图像信息。图像信息具有保持存贮对象最大信息的优点,但同时也有占有计算机存贮空间太大的显著缺点,所以必须对扫描的图像信息进行压缩,这样才能使本系统走向实用。
由于图像数据量比较大,为了在使用上达到实时性,压缩及还原的速度就要快,这是系统性能的一个重要指标。在软件编程语言方面,我们选择了以汇编语言为主,C语言为辅。 对于打开文件及分配内存等使用C语言指令,因为C语言指令本身就比较快速,而对于需要按位处理的操作(图像的每个像素)全部采用汇编语言,其中采用32位汇编指令和按标志位进行的像素遍历判断,从而充分发挥了计算机的特长,实现了压缩还原的高速度。
压缩算法的另一重要指标是压缩比,我们采用了国际上最新的压缩标准JBIG压缩方法,在一张1.5G的光盘上可以存贮将近10万页A4幅面的文件,使压缩比最高。压缩比的范围在8到40之间不等, 随图像的复杂程度而不同。压缩及还原一张A4幅面的文件时间在2秒之内, 由于采用边还原边显示的方法,还原显示一页文件基本没有等待时间。
4、图像库管理。
有了高效的压缩方法,还需要把压缩后的数据有效的组织及管理起来,这样才能使图像系统存贮更多的页数,同时所占的空间最少。
一般的图像存贮方法有两种,一种是把每个图像压缩后形成一个文件,存放在硬盘或光盘上,使用时按照文件名称来查找。这种方法的缺点是要求记录每个图像文件名称,系统的开销非常大。同时由于每个图像作为一个文件存贮,在硬盘或光盘上会产生大量的碎片,使得存贮效率非常低,而在查找时由于系统是按顺序查找,所以在图像较多时,速度会非常慢。另一种方法是建立一个图像库和一个索引文件,把图像全部放到这个图像库中,然后在索引文件中指出每个文件在图像库中所在的位置。这种方法克服了上面方法的缺点,但又产生了新的缺点。由于是以一个文件来存贮图像,而每个文件的大小会受系统的限制,使一个系统真正存贮的图像数变得非常小。另外文件过分大之后,备份及拷贝都成为问题。
我们的图像库管理软件的设计思想是,把一个系统分成若干个子系统,每个子系统可以定义几万个指针库和几万个图像库。在此同时每个指针库可以定义千万个指针,一个图像库可以存贮百万个图像。所以按照这种数据结构来计算,一个图像子系统就可以存贮数十亿个图像,整个系统可以存贮达到百万亿数量的图像,而同时它的备份及安全性都能得到保障。
5、图像分层压缩。
在我们保存的档案中,有不少红头文件。对于这些红头文件或用不同颜色书写的档案原件,如何保持其真迹,通常最简单的办法是采用彩色扫描压缩方式处理。这种压缩方式的缺点是系统开销量大而且还原显示及打印的速度慢。为解决上述缺点,我们采用了把颜色简单的分几层,然后每一层按照二值图像压缩,还原时再合成到一起的方法。采用这种方法压缩比非常高,而还原后的效果与实际原件一样,不仅适应档案彩色文件扫描的需要,又能节省大量存贮空间。
6、文本文件的管理及OCR汉字识别截取输入。
新华社档案处保存有近20万期的内部刊物至少有200万页, 如果采取图像方式存贮将占很大空间。我们将OCR 汉字识别软件移植到我们的档案管理系统中,建立了文本文件数据库。为了提高系统的输入速度,我们利用OCR汉字识别技术,采取自动截取输入方法, 将识别后的信息分类自动存入到相应的著录字段中,用自动截取方法,免去了人工录入的烦恼。
总之,我们这套系统坚持实用的原则,在实用的基础上追求多功能。我们认为,系统只有实用,才会具有强大的生命力!