利用主题图实现城市圈电子政务系统数据集成模型的构建_电子政务系统论文

利用主题图实现城市圈电子政务系统数据整合模型的构建,本文主要内容关键词为:电子政务论文,模型论文,数据论文,主题论文,城市论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

[分类号]TP393

1 引言

城市圈(City Circle)是指在城市群中出现的以一个大城市为核心,周边城市共同参与分工、合作,构成一个人口和产业密集、分工明确、各具特色、优势互补的圈域经济一体化的区域[1-2]。区域信息一体化建设是城市圈融合和发展的重要前提,城市间电子政务系统数据整合是其中的重点、难点。由于城市间的差异、建设的经济成本,城市圈很难重新建立统一的电子政务系统。因此,如何将各城市已有的电子政务系统数据进行有效整合,从而使纵向结构的各城市电子政务系统实现横向数据共享是一个亟待解决的课题。

目前,绝大多数电子政务系统均采用关系型数据库系统(Relational DataBase Management System,RDBMS)进行数据管理,城市间多电子政务系统间数据结构具有如下特性。

(1)数据异构性。城市间各电子政务系统由于数据库的结构和存储方式不尽相同,以及数据管理模式和应用流程的差异,形成了系统间的数据异构。

(2)数据成分复杂性。政务系统的数据来自于各个行业和部门,而且不断有新数据产生,因此数据成分相对复杂。

(3)数据主题性。尽管政务数据的数量庞大且成分复杂,但从使用角度分析,可以针对部门间相关数据的交叉和关联,按业务流程将数据分为多个不同的主题,使数据组织清晰化。

(4)数据环境不一致性。各系统采用不同的计算机操作系统和数据库系统以及硬件和体系结构的差异,形成了数据环境的不一致性。

本文在深入探讨主题图在知识组织、信息资源定位等方面优势的基础上,针对上述数据结构特性,构建基于主题图的城市圈电子政务系统数据整合模型。该模型通过对异构数据库进行逆向工程,利用ER模型及OAI技术生成相关主题图,并利用主题图的可融合性进行主题图合并,从而实现异地异构电子政务系统问数据的整合,支持跨政府部门的业务协同,增强电子政务系统集成能力和协调能力。该方法具有计算量相对较小、经济成本低等优点,同时可保证数据整合的语义性、可扩展性和灵活性。

2 主题图应用的可行性

一个结构完整的电子政务系统至少应该包括用户层、应用层、数据层三个层次。用户层对用户身份进行管理并提供交互界面;应用层是相关应用、服务程序的集合;数据层则是所有数据资源的集合,在电子政务系统中一般是指RDBMS。利用主题图技术对多电子政务系统进行数据整合是在各政务系统的数据层和应用层之间增加了一个第三方主题图索引层,如图1所示。在该层中从各RDBMS提取数据,利用主题图构成一个结构化的语义索引。应用层根据用户层的操作发出对数据的检索请求,索引层响应并对其进行初步的语义检索处理,然后根据检索结果指向实际数据或者为RDBMS提供经过数据整理和语义加工后的检索关键词,将最终检索结果返回用户层。

图1 主题图索引层

2.1 关系型数据库

关系型数据库将复杂的数据结构归纳为一系列“二维表格”,利用这种二元关系来表达实体类型及实体间的联系[3]。关系型数据库的设计主要包括关系模式(Relational Schema)设计和完整性约束(Integrity Constraints)申明两部分[4]。关系型数据库的各个属性相互关联,相互依赖,相互制约,从而构成一个结构严密的整体。为了避免出现数据冗余、逻辑错误和操作异常,提高存取效率和准确率,在进行数据库设计时必须遵循相应的规则(关系模式)[5]。因此为实现关系型数据库向主题图的转换,必须依从一定的策略,从数据的语义层次提取这些模式信息。

2.2 可行性分析

主题图实质上是一个独立于具体信息资源的、动态的、结构化的索引,通过对主题关系实例的访问可检索到相关的实际资源,从而指引用户到特定的地址获取信息[6]。因此,利用主题图对多电子政务系统进行数据整合是对数据库进行一个映射与导航,将抽象、孤立的数据组织起来,形成结构化的语义网络。利用这种方法可以有效避免异地异构数据库之间的数据标准化、数据合并、数据关联等大量繁琐的计算过程。传统数据库合并方法虽然可以解决异构数据合并问题,但是无法很好解决语义异构问题,而主题图的应用可以解决这一问题。

对于数据库和主题图之间转换的可行性,给出一个简单实例。假设某政务系统数据库中的数据表如表1、表2和表3所示。

图2 主题图转换及合并

如图2所示,根据主题图TAO(Topics Associations Occurrences)三要素的原理,可以对三个表格信息进行分析,识别出数据信息中的主题(Topic)、联系(Association)与事件(Occurrence)。实例中主题包括:单位、员工、职务、学历、国土局等,其中单位、员工等是主题类型;联系类型包括:任职、领导、工作关系等;事件包括:法人、张三等。将识别出的信息分别用XTM规定的元素节点进行描述,生成XTM文档,分别形成三个子主题图。

由于主题图具有良好的可扩展性与可融合性,因此可以在全局模式的指导下对建立的三个子主题图进行相似度分析,对高相似度或者一致的主题按一定规则进行合并,把子主题图按照自底而上的模式合并,形成全局主题图。这种方式可以方便实现底层数据的增加、删除、修改甚至数据库结构的变化。

3 模型构建

多系统间数据整合的基础在于对异构数据库的统一化,而对数据的交互操作是模型设计的关键。

本模型利用OAI技术形成元数据集合,从而实现异构数据的标准化,通过对各政务系统的DBMS分别进行逆向工程,在元数据仓储的基础上按照相关规则生成局部子主题图并遵循一定原则进行合并,利用生成的全局主题图实现数据的交互操作。

3.1 模型概述

图3 数据整合模型结构图

如图3所示,将模型设计为三个模块:数据处理模块,主题图生成模块,主题图合并模块。

(1)数据处理模块:本模块主要是将数据库进行解析,通过对异构数据库的数据标准化[7]、数据库ER模式的抽取、元数据创建、元数据收割等手段,形成元数据仓储,为高层应用服务。

(2)主题图生成模块:本模块利用底层形成的元数据仓储,依照主题图模板和规则文档生成主题图[8]。

(3)主题图合并模块:由于主题图具有良好的扩展性和可重用性,全局主题图可以分为若干个局部主题图分别构建,采用自底而顶的方式进行逐级合并,最终构成一个总的全局主题图。

3.2 ER模型提取

关系型数据库的结构和语义信息都包含在概念数据模式(ER模式)中,向主题图转换的一个关键问题是关系型数据库ER模型的提取,利用ER模型所包含的语义信息来指导主题图的构建。

ER模型的提取一般采用数据库逆向工程(DataBase Reverse Engineering,DBRE)方法完成。数据库逆向工程指获取现有数据库的语义信息,把关系模式转化为概念模式,最后用易于人类理解的概念模式来表示结果。一般来说,RDBMS数据字典中保存了当前“最终”模式状态[9],因此本文设计了一个ER Generator来从数据字典中提取ER模式,如图4所示。

图4 ER Generator

ER Generator通过JDBC对RDBMS进行连接以后,得到一个Connection对象,可以从这个对象获得RDBMS的各种信息。获取这些信息的方法是通过ResultSetMetaData类和DataBaseMetaData类实现,使用ResultSetMetaData获得数据表的信息,使用DataBaseMetaData获得数据库的信息,主要步骤如下:

(1)建立数据库连接

使用ResultSetMetaData类和DataBaseMetaData类,需要使用JDBC API与数据库连接。首先加载连接数据库的JDBC驱动程序,然后调用java.sql包中DriverManager类的getConnection方法,获得一个Connection对象。此Connection对象是java.sql包中接口Connection的一个实现,表示与该数据库的一次连接,代码如下:

(3)获取实体关系信息

ER图中的关系通过FK来表示,根据程序对FK的读取,可以获取实体间的关系。DataBaseMetaData类提供getImportedKeys方法得到已经References到他表的字段。通过这个接口可以很方便地得到有关FK的信息,代码如下:

在实验室构建ER Generator时采用CA公司的CASE工具Erwin对其进行辅助操作。

3.3 OAI元数据收割模块

由于各电子政务系统RDBMS中数据信息的异构特征,该模型采用OAI元数据收割技术来进行元数据提取。

OAI(Open Archives Initiative)元数据收割协议(OAI Protocol for Metadata Harvesting,OAI-PMH)广泛应用于资源整合、跨库检索、学科信息门户建立、个性化服务等领域。OAI协议最大的特色是通过相对简单的、独立于应用程序以外的元数据收割协议,来实现异构分布元数据资源之间便捷的互操作[10]。

本模型利用OAI技术进行跨库元数据收割的结构如图5所示。该模块由三个步骤组成:

(1)将各系统数据库中的数据资源处理成数字对象存储在数字仓储中,建立元数据库,然后对元数据进行结构化组织,从而形成数据提供者(Data Provider,DP),为OAI元数据收割提供元数据信息。

(2)利用元数据收集器对数据提供者提供的元数据进行收集。

图5 OAI元数据收割

(3)对收集的元数据进行规范化处理:

①元数据过滤,将不符合要求的元数据过滤掉;

②元数据格式转换,将过滤后的元数据转换为统一格式;

③元数据索引,对整理好的元数据进行索引。

经过上述规范化处理形成元数据集合[11]。

OAI元数据收割模块可以将异构元数据转换成符合规范的元数据格式,形成元数据集合(仓储),为高层应用服务,以实现对异构信息资源的互操作。

3.4 主题图生成与合并

(1)主题图生成模块

图6 主题图自动生成

如图6所示,主题图生成模块主要完成主题图的自动生成环节,其核心是在元数据仓储基础上,根据提取的ER模式信息,按照规范生成主题图并进行校验与可视化。该模块分为三个步骤:

①主题图初步生成。利用OAI元数据收割模块进行元数据收割,按照数据资源规范和数据集规范进行数据抽取,形成元数据仓储。按照一定的主题图规范生成初步的主题图并输出。

②语义合法性校验。对于初步生成的主题图参照ER模型及SCTM约束语言进行语义合法性检验,并对其进行完善[12]。

③可视化及系统集成。主题图生成后应对其进行可视化工作,提供基于主题图的浏览、检索界面及接口[13],并将主题图以二维图的形式表达出来。同时采用Java语言进行开发,将其与电子政务系统进行系统集成,建构电子政务系统的索引层。

一般可以借助Omnigator或StarTree等工具进行主题图可视化。为实现主题图界面的灵活化,本模型采用XML语法及XSLT配合StarTree来实现。

(2)主题图合并模块

由于本模型的主题图生成采用由底而顶、逐渐扩大的方式构建,所以主题图合并模块是整个模型中的关键技术。

主题图遵循的合并原则有:

①当两个主题被合并,代表同一事物的主题和联系将被合并,并删除重复项。

②当两个主题被合并,结果是一个主题,其特征元素是原来两个元素的并集[14]。

两个主题如果满足下列条件之一则视为描述同一概念:

①两者具有一个或多个相同的主题提示符。

②两者在同一范围定义中有相同的主题提示符。

③它们是对同一个可寻址事物的具体化[15]。

基于以上原则,本文采用类程序语言来描述主题图合并采用的三种方法:

①主题合并

4 结语

本文针对城市圈建设中多电子政务系统数据整合课题,在深入分析主题图技术和关系型数据库的基础上,提出在电子政务系统的应用层及数据层之间建立一个中间层——主题索引层,并借助主题索引层实现异地异构数据库的数据整合。同时本文借助数据库逆向工程、OAI等技术,构建了一个利用关系型数据库进行主题图生成、主题图合并的模型。该模型可以有效避免异地异构数据库整合带来的大计算量,克服了数据整合中语义信息的缺失,具有经济成本低、实用性强的优点。

在今后的研究中,将在此模型基础上,建立一个实验室原型系统,并对其涉及的主题图生成、主题图合并以及主题图与电子政务系统的有效集成作进一步的研究。

收稿日期:2009-10-27

收修改稿日期:2009-11-17

标签:;  ;  ;  ;  ;  ;  ;  ;  

利用主题图实现城市圈电子政务系统数据集成模型的构建_电子政务系统论文
下载Doc文档

猜你喜欢