电子文档元数据管理系统的理论与设计_元数据论文

电子文档元数据管理系统的理论与设计_元数据论文

电子文件元数据管理系统的理论与设计,本文主要内容关键词为:管理系统论文,理论论文,文件论文,数据论文,电子论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、课题的提出

浙江电力办公自动化系统(以下简称浙电OA系统)是一套基于业界流行的系统平台Lotus Domino开发的,注重协作、规范管理的办公业务管理系统,从1999年开始在浙江电力企业投入运行以来,已经有100多家单位实现了联网运行,并在国内屡获大奖。该系统具有电子文件收集、流转、整理、归档,基本实现了办公业务中的“无纸化”、少纸化运作。但随着电子文件在网上每年以成倍的速度递增,逐渐取代纸质文件,成为我们日常工作最直接、最主要的记录(在许多场合,电子文件甚至已经成为唯一的记录),其完整性、真实性、长期可读性等信息安全问题日益凸现。如何设计一套既不易篡改、不易丢失,功能又相对完善的电子文件管理系统,实现电子文件整个生命周期的有效管理和利用,已经成为十分迫切的现实问题。

二、系统的理论构建

(一)建立完善的电子文件元数据模型。

电子文件元数据管理系统的设计目标就是如何利用目前先进的技术手段来保证信息的安全,保证电子文件的真实性、完整性、长期可读性,实现网络环境中电子文件的采集、保管、查询及利用。因此,我们首先必须明确电子文件中哪些必备元素的真实记录可以证明电子文件的真实性和完整性,这就需要设计一个合理的电子文件元数据模型。

定义:元数据是指提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用是:描述信息资源或数据本身的特征和属性,规定数字化组织,具有定位、发现、证明、评估、选择等功能。本课题研究的主要是电子文件管理系统中的元数据,通过该元数据的著录能够保证文件的证据性与原始性;能够保证文件的长期可读性、信息的存取与交换以及提供检索途径等。

尽管没有国际统一的档案界元数据著录标准,但澳大利亚等发达国家已经制订了电子文件元数据国家标准。为此,与澳大利亚国家标准类似,我们以文件管理国际标准ISO14589和ISO/IEC179[ISO11179]为指导,进行元数据模型的研制。

我们将电子文件的元数据模型设计为四层:结构与背景信息层、信息特征层、登记处理层、保管利用层,前三层是针对单个电子文档有效的、具有独立特征的元数据,第四层基本上(并非完全意义上)是对整个全宗内的电子文档或某一阶段内形成的电子文档具有普遍意义的元数据。每层都由不同的元数据元素和元数据实体构成,共计100余个,每个元数据的定义都有10个属性:名称、标识、版本、注册机构、语种、定义、必备性、数据类型、最大使用频率、注释。

为保证元数据模型的互操作性以及根据此模型设计的信息系统具有良好的交互性,我们给出了25个核心元数据:立档单位法律/行政背景、组织沿革、全宗、全宗内分类方案、案卷、主要责任者、题名、主题词、文件编号、文种、保密情况、主送者、成文日期、资源描述、资源类型、资源形式、资源标识、时空范围、相关资源、主办部门、历次文件鉴定、来源、权限管理、当前保管期限、电子档号。这25个核心元数据是参照国际标准都柏林核心元素集进行提炼的,可以与之进行映射。

(二)电子文件元数据采集的安全、可靠性。

有了合理的电子文件元数据模型,下一个问题就是:采用怎样的技术手段,可以保证采集到的元数据准确、可靠。

首先,电子文件是在业务流程中产生的,需要选择一个通用的、具有良好工作流机制的开发平台。Domino/Notes是一个文档数据库系统,是一个强大的工作流自动化开发平台,是当然的群件标准,便于实现协作性的应用,通过权限定义,可以提供严密的文件流转流程。而且Lotus已经成为众多企事业单位、政府机关的办公自动化系统通用平台,因此,我们也选择Lotus作为元数据管理系统的基础平台。

但按照目前的信息系统安全建设要求,它仅具有C2级的安全性,在系统实施和维护中容易发生安全事件,会发生电子文件被损坏、不完整或是无法判断电子文件是否真实的情况,而这些安全事件的发生除了少数是因为系统故障外,大部分都是由于用户的不规范、不合法的操作造成的。而且,一般的办公自动化系统都会采用Microsoft Word作为电子文件的编辑器,利用Word所提供的修订功能实现痕迹保留,但这样记录的修改痕迹极易被篡改或销毁。所以,这样的系统安全技术对保障电子档案的完整性、真实性和长期可读性是远远不够的,如何提高电子文件的防篡改性和可恢复性是元数据管理系统进行设计时的主要课题。

我们引入了上海易诺科技有限公司自主开发研制的“易诺电子信证系统”。该系统以电子印章为主要表现形式,PKI/CA证书技术为关键应用,由电子印章、易诺CA证书、加密电子邮政、文件验证、文件管理、文件修改、信证审计、篡改鉴定、文件修复和现场恢复等功能组成的电子信证体系。该系统所提供的电子印章硬件包括64K EPROM、32K内存、16位CPU,具有多种(国家密码管理部门审核通过的)加密算法,可以存放多种CA证书,无商务CA证书障碍;该系统将电子文件元数据的核心信息存入在一个特殊的安全数据库(相当B1级安全性)中,可以确保系统的现场恢复;该系统的客户端软件可以自动嵌入到Microsoft Word中,使用起来非常方便;系统还提供API标准接口,可以与各种数据库实现文件(数据)的平滑交换;而且按照元数据管理的理论,可以对电子印章图像进行防伪、防篡改处理,并将产生的防伪与防篡改信息、证书信息、数字水印和印章图像嵌入到电子文件中,实现对电子文件加盖电子印章标记,使其成为电子信证文件,可以实现对用章、加密传输、验证、修改、存档、信证文件借阅、同步、审计、防伪处理、防篡改处理、系统管理操作等全部行为进行记录,对合法电子印章、电子信证文件、数据库等进行管理,并具有详尽的查询统计功能。

基于Lotus平台设计的OA系统的业务功能完善,审批环节复杂,但电子文件质量的监管能力比较差,通过与“易诺电子信证系统”进行整合,实现了OA系统与电子印章系统之间的无关联整合,既能确保电子文件的安全,又能够在不对原业务应用系统造成影响的前提下,大大增强信息安全保密功能和性能。

三、系统结构及功能设计

(一)结构设计。

在系统设计过程中,我们首先采用UML这一严格的建模语言对元数据进行分析,把4层元数据模型中100多个元数据进行了分类封装。通过封装,把整个元数据管理系统划分为3层:核心层、关联层和应用层。

核心层:提供公用接口的核心数据,包括命名和数据的意义、数据类型和相互关系,也就是元数据元素和元数据实体,使得可以在任何应用模块中集成。

关联层:建立核心层到应用层的链接,以及应用模块的相互关系。在具体应用系统中主要体现为相关信息库、系统管理中心(负责记录日常系统管理、维护工作的信息)、各级通讯录、OA日志库(记录所有元数据被调用的情况,也是元数据的一部分)、在线帮助库等。

应用层:主要对电子文件形成过程(起草、登录、流转、签发等),以及对电子文件进行历次鉴定、借阅、移交、销毁等工作产生的元数据信息进行采集,然后进入关联层。具体应用模块有收发文库、各类档案库(文书、会计、特种载体、科档)、会议通知、标准化管理等流转数据库。

这三层关系的确立使后面的系统设计思路更加清晰,开发人员只需要建立各个应用模块之间的关系就可以了。比如:收文管理中一收文需要生成电子档号,那么它先从各级通讯录中提取类目号,根据文件的种类生成电子档号,系统会同时将电子档号写入相关信息库。一旦用户或档案人员修改了电子档号,相关信息库中的记录也会同步得到更新,反之亦然。而这个过程中被调用的元数据及其修改情况都被记录在OA日志库中,如果有新的应用模块需要加入,只要新模块遵守元数据模型构架,那么我们只需完成单个应用子系统中简单的代码级开发工作。

(二)功能设计。

1.元数据采集设计。

除了体现电子文件主题、内容部分(即内容特征层中的元数据)由用户完成外,元数据的采集工作一般都由系统后台自动完成,因此尽管通过系统采集的元数据非常多,但对用户而言是完全“透明”的,不会增加用户的工作负担。而且,用户是否及时收到文件、是否已经查看过文件,甚至用户何时打开文件、何时填写意见、何时关闭文件,管理员何时删除过文件、删除的理由又是什么,档案人员何时删除电子文件或销毁纸质文件、理由是什么等等这些与电子文件真实性、有效性直接相关的元数据,都可以通过方便的检索工具随时在系统中获得。

电子文件的元数据采集结果有两种表现形式,主要是以Domino数据库中的单个文件为单位,以三层结构的形式显示所有该文件相关的所有元数据,另外,我们还设计了《电子文件元数据记录表》,定期对库中的元数据进行提取,可供浏览和打印。两种方式互为备份,既能够满足系统的日常维护,减少信息的手工著录量,也能够满足对元数据进行机器、手工的不同方式的检索。

2.安全性设计。

利用Lotus系统平台和电子印章、水印技术等来实现整个系统的3层安全性检验:

(1)Lotus系统的用户身份验证:需要通过工作站安全性检查、服务器用户身份识别、ID口令检查等;

(2)系统的应用检查:需要在正确的数据库权限、正确的文件状态、正确的用户身份;

(3)电子印章硬件Key:

(a)合法的电子印章(印章所包含的公钥必须通过浙江电力电子印章管理中心的验证);

(b)印章Key有自身的口令(PIN),如果输错三次口令,该电子印章需要重新申请验证;

(c)如果需要打印带红章的正式文件,还需要有配套的存档章或加盖印章的电子印章本身。

整个系统的安全性分为:系统级、应用级、文件级,分别实现了多层权限管理、数据加密传输、电子签名、用户访问记录、系统平台安全和动态的权限管理、用户操作记录等功能。

3.数据备份与恢复、数据交换功能。

电子档案的备份及恢复工作是元数据系统设计的重要内容之一,如何与外系统进行数据交换(如实现向档案馆移交档案等),如何在目的数据库中再现源数据库的信息,也是元数据管理系统在设计时特别进行考虑的问题。

经过对各种工具和方案的比较,我们选择了XML格式作为OA系统中产生的电子档案脱机备份(档案移交)的文件格式,按每个电子文件为单位进行脱机备份,产生一个以电子文件流水号为名称的文件夹,其中包括:一个XML文件,记录电子文件的元数据信息;正式文件,包括正文内容、附件、依据如果是发文,还有痕迹版正文、原文摘要。而且档案人员可以不定期地选择对整个档案库或档案库内的部分文档进行备份。备份范围可以通过成文时间(时间段)、年代(工程代号)、主办部门、发文代字、期限、责任者等多个选项进行组合查询得到。通过该备份方法得到的备份可以在系统出现故障或需要模拟数据恢复时进行使用。

4.数据查询功能设计。

元数据模型是文件著录的工具,而著录的主要内容之一就是对具有检索意义的特征进行描述和记录。元数据模型从一开始就为利用者设计了多种查询途径,方便、引导用户如何发现和检索文件,并使用户清楚了解文件及其形成背景之间的关系,满足利用者的需求。

系统设计的查询工具有以下几种:

(1)按范围可以分为:系统级查询、应用级查询;

(2)按功能可以分为:全文检查(模糊查询)、匹配查询(根据用户常用的字段组合查询);

(3)按档案特征可以分为:流水号、存址号、电子档号、全宗分类等。

5.报表打印功能设计。

系统充分利用Microsoft Office中的组件EXCEL,避免采用Notes文档中嵌套的OLE对象,提供一系列适用于不同门类档案的标准格式的报表模板,并允许用户进行自定义。对于已经生成的报表,用户如果需要在其他地方使用或保存的,可以直接利用EXCEL中的保存工具另存到自己的工作站等地方。因为Microsoft EXCEL组件在绝大多数的OA用户工作站上都会安装,不但大大减少了报表工具安装维护工作和用户使用的培训工作,而且新开发的报表工具可以在Microsoft Excel97、2000、XP等多个版本的环境中运行,增加了系统的适用性能。

四、技术特点

(1)构建元数据模型的研制方法及分类参照了有关国际标准,采用文献保证演绎法制定了电子文件元数据著录规则,结合企业实际,独特地从内容特征层、登记处理层、保管利用层、结构与背景信息层4个层面来构建元数据模板,全面、详实。用XML Schema对25个核心元数据的属性和结构进行定义,符合国际标准与规范,使元数据模型具有较好的互操作性。

(2)系统设计采用国际先进的UML标准建模语言,进行可视化建模,注重系统架构的设计,保证了系统良好的可扩展性。

(3)采用Lotus Domino的安全认证机制和电子印章(B1级安全数据库)的数字签名、水印技术相结合的双重安全管理体系,保证了电子文件的安全性、真实性、有效性和不可抵赖性。

(4)系统采用可扩展标记语言(XML)格式实现电子文件元数据的导入和导出,并能在异构数据库之间进行信息交互,具有电子文件安全、有效的脱机备份和跨系统的档案馆移交等功能,以保证电子档案的长久可读、可理解、可恢复。

五、效益与前景

电子文件元数据管理系统已经在湖州电力局等8家不同类型的单位得到了推广,性能稳定,反响良好,系统不仅成功地将国内外在电子文件元数据管理领域的理论研究成果应用到办公自动化系统中,具有首创性,而且融入了电子印章和脱机备份等先进技术。系统的投运减少了纸质文件的打印、印刷、邮寄工作,降低用户负担,提高了工作效能,同时也加强了电子文件的有效保管,体现出元数据管理系统在保证电子文件的关联性、真实性、凭证性、长期可读性上的作用。更重要的是,通过系统的应用,可以让我们在实际工作中积累大量关于网络环境中如何准确、及时收集电子文件元数据方面的成功经验,对制订国内可操作性的电子文件元数据标准或规范具有一定的借鉴价值,同时也为深化电子文件元数据研究和系统开发、促进有关证据立法奠定了扎实的基础。

标签:;  ;  ;  ;  

电子文档元数据管理系统的理论与设计_元数据论文
下载Doc文档

猜你喜欢