基于数据仓库的数据库电子文件管理研究_数据仓库论文

基于数据仓库的数据库电子文件管理研究,本文主要内容关键词为:文件管理论文,数据仓库论文,数据库论文,电子论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

信息技术的发展使得信息系统在各机构与单位得到了普遍应用。一般说来,信息系统由承担业务处理的应用程序与保存数据的数据库管理系统两大部分组成。信息系统在使用过程中,应用程序提取数据库电子文件中离散的基础数据,进行分析、整理、统计等,生成业务需要的电子文件。数据库管理系统是对数据进行存储、处理和维护的软件系统,保存了本单位在实际业务处理过程中产生的历史基础数据,生成大量的数据文件。除了这些数据文件,还有日志文件、数据字典文件等。这些数据库电子文件是电子文件的一种,和其他种类的电子文件在管理原则与方法上是相通的,其特殊之处在于充当文件数据平台的数据库管理系统会赋予它某些特性。目前国内档案界尚未有成熟的管理方法①。一些档案学者在自己的论著中探讨了数据仓库在档案管理中应用的可能性② ③,这些论著指出数据仓库技术是数字档案馆的关键技术,并对数据仓库本身进行了简要分析,但对于如何将数据仓库与档案信息及管理过程融合没有过多的涉及。本文从文件与档案管理的思路,提出若干数据库电子文件管理存在的问题,进一步将数据仓库融入到电子文件生命周期中,提出一个基于数据仓库的数据库电子文件管理模型。

一、数据库电子文件管理存在的问题

1.数据库电子文件保管期限的划分问题

从文件与档案管理的角度出发,在逻辑上识别本机构形成的电子文件的数量,为其划分保管期限,是档案人员常见的做法。对于数据库电子文件,还能不能采取这样的做法,为数据库中的每一份电子文件确定其保管期限?

数据库保存了信息系统使用过程中生成的数据,是机构业务过程的产物。数据库管理系统为保存、管理这些数据,又自动生成若干文件,如日志文件、数据文件等。这些电子文件相互联系相互作用,任何一个文件的缺失,都可能造成数据库工作的不正常。如果把这些电子文件划分成了长短不同的保管期限,那么在保管期限较短的文件超出其保管期限时,仍不能对其随意处置(如销毁删除),否则会影响数据库的正常工作。数据库不能正常工作,那些保管期限长的文件就失去了可读性。

应该将一个数据库下的所有电子文件看做是一个整体,不对它们一个一个鉴定划分保管期限,而应对整个数据库进行鉴定。结合应用程序,鉴别整个信息系统在机构业务中的作用,从而为数据库电子文件划分一个统一的保管期限。

2.机构以前使用的信息系统中数据库电子文件的保管问题

这有两种情况。一种是机构被撤销,其以前使用的信息系统将同时被废弃,保存了该机构在实际业务处理过程中产生的历史基础数据的数据库电子文件应该随该机构的其他文件一起归档,由档案部门进行鉴定保管。一种是机构对信息系统升级换代,从档案的角度看,是电子文件软硬件平台的变化,是电子文件的迁移。依据相关规定,迁移前的电子文件及平台应保存一段时间。那么这些信息系统中的数据库电子文件应以何种形式进行收集归档?

如果单纯将数据库管理系统收集归档,或将文件从数据库中导出再归档,没有了承担业务处理的应用程序的支持,这些数据库电子文件成了离散的、非连续的数据信息,将几乎没有什么可读性,即使被读出,也由于没有应用程序的支持而丧失了其逻辑结构,也就失去了保存的价值。如果将信息系统整体(包括应用程序与数据库)收集归档,虽然解决了数据库电子文件的归档问题,但目前档案人员对于这些数据库和应用程序并无好的管理办法,给档案部门带来了难题。

3.数据库电子文件的迁移等问题

信息技术飞速发展,信息系统原来的软硬件平台必将被淘汰,如数据库管理系统从桌面数据库到网络数据库到分布式数据库等,档案部门需要对数据库电子文件进行迁移。这样的迁移涉及到新的数据库管理系统对数据库电子文件的管理,甚至涉及系统应用程序的更改,需要对该系统所涉及业务非常精通的专业人士与计算机专业人员才能完成,可以说超出或部分超出了档案工作的范围,档案人员很难胜任。

信息系统的整体归档,数据库电子文件的利用也面临难题。只有数据库管理系统被安装运行,数据库电子文件才能被有效利用。档案部门不可能也没有必要将过多的与档案业务无关的数据库系统时时安装在本部门的计算机中。如果用户利用时再进行安装,用完后再从计算机中卸载,会给用户与档案部门带来极大的不便。

在数据库的保管过程中,存在这样的可能性:通过应用程序或数据库管理系统本身可以更改、删除数据库中历史数据,一些数据库电子文件相应发生变化,难以确保数据库电子文件的原始性与真实性。

4.不能对数据库电子文件进行深层次开发利用

随着信息社会需求的发展,从大量数据中提取支持决策的信息显得越来越重要。这种需求涉及大量用于决策的数据,而这些数据可能分布在不同部门的不同信息系统的传统数据库中。传统的数据库系统可以满足机构内中层与集成管理者的需求,却不能完全满足高层管理者的需求,因为越是高层管理者,越需要综合性强、加工程度高、信息密度大的信息。同时,数据库电子文件的信息量非常巨大,这样保存在数据库电子文件中的大量信息不能被档案工作者深层次编研开发,浪费了档案信息资源。

二、数据仓库的结构

数据仓库是一个适应决策分析的数据环境,它是一个面向主题的、集成的、不可更新的、与时间相关的数据集合④。所谓主题是在一个较高的管理层次上对信息系统中的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。主题在数据仓库中可以用多维方式进行存储。数据仓库中的数据并非由自身生成,而是来源于其它数据系统。这些数据源可以是支持事务处理的传统关系数据库,也可以是半结构化的数据库甚至是无结构的文件系统等。数据源主要包括业务数据、历史数据、办公数据、Web数据、外部数据以及原数据。

数据仓库基本功能层数要完成数据查询、决策分析与知识挖掘等。数据仓库管理层分为数据管理与元数据管理两部分,主要负责对数据进行抽取、清理、加载等操作。环境支持层包括数据传输与数据仓库基础两部分。

三、利用数据仓库技术进行数据库电子文件的归档与管理

数据仓库技术为解决数据库电子文件归档与管理问题提供了可能性。其数据集成性保证了原信息系统中的数据库电子文件可以保存在数据仓库中,其不可更新性保证了数据电子文件的原始性与真实性。在数据组织方面,数据仓库面向主题可以多维方式组织数据,和档案管理中按主题对档案进行分类及电子文件的多维性有一定的相通之处。基于以上分析,用数据仓库实现对数据库电子文件的管理是可行的。

国际档案理事会电子文件委员会将电子文件的生命周期分为概念、产生和维护三个阶段。我们可以依据这三个阶段将数据仓库技术与电子文件管理相结合,将数据仓库融入到电子文件的整个寿命周期中,如图2所示。

图2 电子文件生命周期各阶段与保管工具的关系

图2中的概念阶段,不仅要根据信息系统的业务处理需要设计数据库,还应该将数据仓库初步设计出来。考虑到真正意义的电子文件管理系统目前在我国尚未得到普遍应用,进一步对上述模型做如下细化:

该模型从目前的技术水平看是完全可以实现的,尤其对于大中型企业来说更是如此。在实现过程中,需要特别注意以下几个方面:

首先,归档过程必须经档案人员与专业人员共同对数据库电子文件的共同鉴别与鉴定来完成。档案人员对数据库进行整体鉴定,明确文件的构成要素,将这些要素集中控制,然后选用适当的数据抽取与转换工具将电子文件加载到数据仓库中。目前,市场上已经有一些这样的工具。多个主要的传统关系型数据库管理系统厂商(如微软、ORACLE等)已经开发了其数据库产品与专门的数据抽取和转换工具之间的集成接口,采用专用的数据抽取和转换工具十分方便。

其次,选用关系型查询工具、数据仓库工具(如 OLAP)以及数据挖掘工具以访问数据仓库中的数据。借助这样的工具,档案人员无需技术人员的协助,即可表述对数据库电子文件的查询要求。查询结果能根据用户的需要,形成用户需要的电子文件,还可以进行深层次的知识挖掘等服务。

最后需要注意的是,数据仓库是一个解决方案,档案部门可以根据原信息系统的实际情况建设相应的数据仓库②。在具体应用数据仓库技术时,档案人员通过与专业人员互相沟通,根据原有的信息系统开发适应的数据仓库。

该模型其实对于OA系统下的电子文件管理也是适用的,这里以发文为例(对于收文是一样),只需要将图3中的信息系统部分改为OA系统(完成拟文、核稿、审核、签发、编号、打印、盖章、登记、分发等)即可。

图3 基于数据仓库的数据库电子文件管理的详细模型

四、利用数据仓库管理数据库电子文件的优点

利用数据仓库管理电子文件的优点可以体现在以下几个方面:

1.电子文件不会被更改,保证其真实性与原始性。加载到数据仓库中的数据具有不可更改性,即加载后的数据与原信息系统数据库中的数据一样,从而确保了数据库电子文件的真实性与原始性。

2.具有较好的迁移性。数据仓库没有固定的模式,是一种应用解决方案,对特定的软硬件平台的依赖性远比原信息系统的依赖性弱,可以方便的从一种计算机平台转移到另一种平台,对于档案部门日后的数据库电子文件迁移是非常方便的。

3.电子文件的有效性得到解决,便于文件的日常利用。单纯归档保管数据库电子文件的最大弊端就是文件几乎没有有效性。数据仓库在保存这些电子文件的同时,利用多种工具可以实现对文件的检索利用,或可以利用原系统的应用程序处理数据。

4.能进一步拓展档案服务的内容。利用数据仓库不仅仅可以提供档案信息的全方位服务,还可以向用户提供深层次的知识服务⑤。

数据仓库技术本意是支持机构全局的决策过程和对机构业务活动的深入综合分析。档案部门可以利用一些工具软件(如数据挖掘工具)从数据仓库中保存的大量机构实际活动过程中产生的历史数据挖掘出隐含在其中的、人们事先不知道的、潜在有用的信息与知识提供给高层管理人员以辅助决策,提供给中层管理人员以优化管理,而传统的档案管理更多为工作人员的实际工作服务。从这个意义上看,利用数据仓库管理数据库电子文件进行的档案信息深层次开发可以将档案工作延伸到直接的管理与生产当中,扩大了档案工作的范围,提高档案部门的地位,尤其对于企业档案部门来说更是如此。

这种档案服务的模式不同于传统意义上的档案编纂。这种模式需要对电子文件信息进行充分的分析,甚至需要进行一定的数据建模,以使基于数据仓库的档案管理系统能适度地扩展和进化,以便支持不断变化的业务需求⑥。

5.为数字档案馆建设奠定基础。数字档案馆建设是一项综合性强、技术应用复杂的系统工程,需要运用许多先进的信息技术。而数据仓库技术正是数字档案馆建设的关键技术之一。

数字档案馆是一种技术模式,是以文件和档案信息为特定对象的有序的信息空间与开放的信息系统。它可以将分散于不同载体、不同地理位置的信息资源通过网络相互连接,向用户提供方便快捷的在线服务①。不同地理位置的档案信息资源可能存储在不同的数据库平台上,这些数据库是异构的。数字档案馆下这些异构数据库必须允许统一检索以方便用户利用,这需要购买额外的跨库检索系统(如Millennium Access Plus,Metalib等)或自行开发相应的系统来实现。数字档案馆使用数据仓库技术,可以避免异构数据库互连的困难。档案部门在归档时就直接将档案信息保存于数据仓库中,建设数字档案馆时就不需要再重新建设数据仓库,整理数据仓库的数据源,节省档案部门有限的人、财、物,为数字档案馆的建设打下了良好的基础。

6.数据仓库的发展为所有类型的电子文件的存储与保管提供了可能。

基于关系对象数据库的数据仓库的应用可以使用户自定义适合某种电子文件的最佳操作。例如企业用户可能会查看某一段时间内(如一年)电子文件(如关于某一产品的订单、相关客户等)是如何按照时间序列变化的。这些在时间上连续的大量数据在实际存储中并不按时间标识存储在一起,可能被分散存储在大量的、不连续的磁盘中,对这些数据的检索效率是很低的。这时可以按年度分类将同一年度的数据作为一个对象看待,将它们作为一个整体存储在磁盘上以大大减少检索时间。

具有网络使用能力的数据仓库的开发和应用可以方便地实现某些电子文件(例如超文本电子文件等)的抽取、转换与装载,在不同的系统中进行元数据与内容的交换,并为数据仓库集成数据,这一点对于构建广义的数字档案馆是极为重要的。

五、小结

机构的绝大部分信息系统是在上个世纪末与本世纪初建设的,目前仍在继续使用,基本没有出现数据库电子文件的归档问题。但我国机构改革的深入必将使一些机构被撤销,一些企业被兼并或破产,档案部门也必将面临本文提到的问题,应该引起档案工作人员的足够重视。

对于数据库电子文件管理,“摆在我们面前的道路将有两条:提供数据库电子文件管理的功能需求,促进数据库技术底层的改进;或者依靠应用程序的开发来辅助数据库电子文件的管理。就短期和目前的情况来看,第二条路更具有可行性”①。

数据仓库已经有了相对成熟的应用,其结构、数据组织的方式、特点对于电子文件尤其是数据库电子文件的管理是适应的。随着数据仓库技术的发展,必将在电子文件管理、数字档案馆建设中发挥关键技术的作用。

注释:

①冯惠玲.电子文件管理教程.北京:中国人民大学出版社,2001

②杨公之.档案信息化建设实务.北京:中国档案出版社,2003

③李国庆.数字档案馆概论.北京:中国档案出版社,2003

④陈京民.数据仓库原理、设计与应用.北京:中国水利水电出版社,2004

⑤李泽锋.数字档案馆建设与管理.北京:中国档案出版社,2005

⑥Steve Hoberman.数据建模——分析与设计的工具和技术.北京:机械工业出版社,2004

标签:;  ;  ;  

基于数据仓库的数据库电子文件管理研究_数据仓库论文
下载Doc文档

猜你喜欢