基于主题图的电子政务信息资源整合模型研究,本文主要内容关键词为:信息资源论文,电子政务论文,模型论文,主题论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号 G253 文献标识码 A 文章编号:1002-1965(2009)07-0161-05
近年来,随着我国信息化和电子政务发展的不断深入,政务工作中开始涉及越来越多信息的组织、交换、检索活动。但“信息孤岛”现象却严重影响到了政务信息的共享,“信息孤岛”已经成为电子政务发展到一定阶段所必然要面临和解决的棘手问题[1]。由于对资源缺乏有效的组织和导航,公众对政务信息的使用普遍存在信息迷航。只有通过对不同物理空间的信息形式、政府机构中分布存储和管理的各类信息资源进行规范的标引、揭示和组织,最终加以统一的整合和管理,才能真正实现信息共享、各部门信息的互联互通,更好地为公众提供“一站式”服务。作为一种强大的知识组织工具,主题图为大量的电子政务异构资源的整合提供了解决方法。国外学者已经对主题图(Topic Maps)在电子政务信息门户的构建方面作了有意义的尝试[2]。目前国内也有学者开始进行主题图技术在我国电子政务方面的研究和探索[3~4]。Metamorphosis主题图环境是目前一个比较完善的主题图架构,本文在Metamorphosis主题图环境基础上,提出了基于主题图的电子政务信息资源整合模型,并对其具体实施进行了初步的探讨。
1 主题图及Metamorphosis主题图环境概述
1.1 主题图及其在资源整合方面的优势 主题图被誉为信息时代的GPS[5],它是多种技术进行融合而出现的一种新兴技术,其作为一种复杂的元数据、一种数字化的知识组织方式、一种智能化的知识索引方式、一种模型化的知识表示和导航技术、一种灵活的分布式资源链接技术,引起了国内外学者越来越多的关注和思考[6]。近年来出现了主题图在图书情报机构、医疗机构、企业单位、网络教育、电子商务、政府部门等领域的研究和应用。主题图将资源之间的关系透过TAO,即主题(Topics)、资源出处(Occurrences)和关联(Associations)描述出来,它们就如同三维空间中的“点、线、面”,将一定领域的知识结构和他们之间的语义关联具体化。而在实际应用中,一般使用和存储XML语法形式的XTM(XML Topic Maps)文浸。我们认为主题图为大量的电子政务异构资源的整合提供了解决方法,其优势主要体现在如下几个方面:
a.语义描述方面。主题图的起源是传统的查询辅助工具,如书后索引、术语表和叙词表,它吸收了传统索引、图书馆科学和知识表示的优点,可用来描述庞大复杂的信息结构。每一个主题都是主题图的一个结点,通过关联将各个结点相互联系起来。关联不再局限于传统叙词表用代属分参的概念,它允许更加灵活地定义各种复杂的语义联系。所以主题图能够为电子政务的信息资源组织提供一个语义接口,为用户提供语义层面的检索功能,克服现在搜索引擎基于关键词匹配查找效率低的缺点。
b.整合分布式资源方面。现在多数电子政务网站的信息资源相互分离,且尚未形成科学的信息服务分类体系。主题图通过资源出处在资源域和主题域之间建立映射关系。这种灵活的分布式资源链接技术可以实现对分布式资源的多重索引。资源域可以是任意形式的信息资源,既包括数据库这种结构化数据,也包括文本文档、XML文档等非结构化数据。主题域则是在资源域之上建立起来的概念地图,主题图正是通过主题域实现对各种信息的整合。因此,主题图的资源出处能够按照主题聚合分布式资源,有效地克服目前存在的政府信息孤岛现象。
c.知识管理方面。主题图基于概念来对信息进行分类,通过概念以及概念间的联系使得一定领域的知识体系结构化,有利于从知识层面组织管理政府信息资源。它是实现政府信息资源组织和实施政府知识管理的一种有力工具。我们更可以通过主题图进一步建立知识库,实现辅助分析和推理决策,促使政府的管理更加科学化,促进知识创新。
d.用户导航方面。主题图提供有效的信息组织和导航方法来减轻用户使用信息资源时的信息迷航。资源域和主题域相互分离,相同的主题可以覆盖不同的资源域,不同的主题也可以覆盖相同的资源域,这种机制可以向不同的用户提供不同角度的视图。它支持跨语言导航、语义导航和可视化导航。相比传统的简单导航,主题图高效的导航功能更加符合用户习惯,更加满足用户需求。
1.2 面向主题图的Metamorphosis环境 近年来主题图的研究已经从理论方面逐渐转入实际应用,Metamorphosis主题图环境(Topic Maps Based Environment)是由Giovani Rubert Iibrelotto等学者提出的一个主题图应用框架[7]。它由本体驱动,能够完成主题图的提取、创建、验证、存储和浏览等工作。该主题图环境可以从大量异构数据信息库中抽取关键数据,形成知识,生成一个供浏览的概念导航。本体作为信息组织方向的趋势,本身有很多优势,主题图是表示本体的强大的工具,但是本体的构建存在着很多困难,本身的工作耗时耗力。在Metamorphosis主题图环境中,特定领域的主题知识则由系统按照一定的规范提取,并且依据一定规则对生成主题图进行有效性验证,对有效的主题图予以存储,供用户浏览。然后将这些提取请求传送给文本搜索引擎,将各个信息系统的信息资源进行整合。用户可以通过可视化的导航主题网络,来查找满足自己需求的主题。目前它已经应用在了公共档案和虚拟博物馆的数据分析、信息整合、知识组织上面。
该主题图环境主要由三大子系统组成,分别是Oveia、XTche和Ulisses。Oveia负责依据一定本体规则来对大量的异构数据进行提取,并将提取的结果存储在主题图当中。XTche负责依据约束规则验证生成的主题图的有效性。Ulisses负责主题图最终的浏览,用于导航和接受用户的检索提问。该环境对关系型数据库存储主题图拥有比较好的支持。相对其他主题图约束语言(TMCL),如AsTMa[8],OSL[9](Ontopia Schema Language),Toma[10](本身包含了TMQL、TMCL和TMML),该主题图环境所采用的XTche语言本身采用的是XML Schema格式,方便XML编辑环境直接对XTche进行编写和验证。
2 构建基于主题图的电子政务信息资源整合模型
我们在Metamorphosis主题图环境的基础上,提出了基于主题图的电子政务信息资源整合的系统模型。该模型通过主题图从不同维度对电子政务的各种异构信息资源提取主题(Topic),构建以这些主题为结点的电子政务资源导航网络,在各结点上通过对各种分布式的异构信息资源所包含的内在语义以及相互关联进行显性的标引,利用主题图的链接技术最终实现按照主题快速定位用户所需的电子政务资源。
该模型主要分为信息资源的获取和数据集提取、主题图的标引和关联、主题图的验证和合并、主题图的展现和更新几大功能模块,如图1所示。第一,从各政务信息资源较集中的单位,如政府机构,获取具有标引价值电子政务资源,按照一定的规则对这些异构资源提取数据集,这些数据集作为主题图标引和描述的直接对象。第二,发挥主题图的资源域和主题域相分离的优势,使用主题图对电子政务资源进行多维标引。主题图的各个结点之间按照一定的知识体系建立相互关联之后要经过预先设置的主题图约束语言的验证,对于验证有效的主题图文件进行初步存储。第三,汇集了不同地域、单位的信息资源按照主题图的合并(Merge)技术进行合并,形成一个更大的主题描述域。第四,主题图经过主题图的展现和更新模块,实现针对各类个体公民、各级政府机构、各种企业单位、各职公务员的不同类型角色的用户个性化展示,为各种用户快速准确定位信息资源,满足其信息需求。
在Metamorphosis主题图环境中,政务信息资源整合的实现流程具体如图2所示。Oveia主要包括了政府信息资源、政府信息中间表示(即数据集)、DS2DS提取器、DS4TM转换器、XSDS规范和XS4TM规范。XSDS规范定义了主题图怎样提取信息,它包含了政府数据源规范和数据集规范以及从数据源到特定数据集之间的提取法则。DS2DS(Data Sources to Data Sets)提取器参照XSDS规范实现从数据源提取数据集的工作。XS4TM规范定义了怎样生成主题图。它包含了电子政务本体规范和电子政务实例规范。电子政务本体规范具体规定了主题图创建过程中需要的所有主题类型(Topic Type)、关联类型(Association Type)、关联角色类型(Association Role Type)、资源类型(Occurrence Type)。电子政务实例规范则描述了主题和关联如何映射到提取的数据集。通过XTM文件结构生成器可以对XS4TM规范进行动态管理。DS4TM(Data Sets For Topic Map)处理器参照XS4TM规范来建立主题到数据集的索引,同时主题之间的关联也在此时建立。Oveia子系统最终输出的是由电子政务资源生成的内部初始主题图。XTche子系统主要包括了XTche主题图约束规范、XTche文件处理器、主题图验证器。XTche规范是一种TMCL主题图约束语言,能够对主题图进行语义约束。XTche子系统接收到Oveia子系统自动生成的初始主题图,主题图验证器参照XTche处理器解析的XTChe规范对初始主题图进行文档结构、语法、语义的有效性验证,对于满足要求的主题图最终将其存储在XTM文档中或者本体数据库中。同时在需要的时候还可以对某些主题图进行合并。Ulisses子系统读取已经生成的主题图来生成语义Web站点,以主题的方式通过规范的链接形式对政务信息进行图形导航。Ulisses子系统同时负责对更新的主题图文件同步转换,避免造成信息陈旧、死链。
图1 构建基于主题图的电子政务信息资源整合模型
图2 基于Metamorphosis主题图环境中的资源整合内部处理流程
3 基于主题图的电子政务信息资源整合模型的实施步骤
3.1 电子政务信息资源的获取和数据集提取 政府信息资源形式上包括了各种办公文档、XML文档、网页、后台数据库等。政府信息本身具有数量庞大、形式多样、结构化数据和非结构化数据并存、安全权限控制、在物理存储上分离但逻辑上相互关联等特点。电子政务资源的获取本身就是一件工程量浩大且需要规范处理的工作,因此需要对具体的电子信息资源进行划分,获取具有收录意义,对用户具有实际价值的信息资源。具体来讲,可以按照模型所示采取自上到下的方法从各级政府部门收集,从信息资源集中的档案中心、政府业务、日常各种单据和报表、政府OA系统、政府管理信息系统、政府数据库、政府网站等地方汇集处理。对获取的各种电子政务资源要建立标准统一的政府数据源规范,使数据的采集规范化。对于收集到的一些信息资源还需要进行人工预处理以满足政府数据源规范的要求。依据从数据源到特定数据集之间的提取法则,对数据源的特定接口、特定位置的数据和相关元数据进行自动提取、统计、分析,生成能够表示数据源信息的中间数据集。中间数据集的作用是将各种异构的原始数据统一形式,方便后面进一步处理。
3.2 电子政务信息资源的主题图标引和关联 要实现从数据集生成主题图,建立数据集到主题图的映射生成规范是非常关键的。电子政务本体规范可以借助对电子政务信息资源主题分类研究和本体构建的一些成果和经验,如北京市面向公共服务的“四纵四横”政务信息资源分类体系,浙江省根据信息资源的主题、性质和共享层次的分类体系[11]。而《政务信息信息资源目录体系》(GB/T21063-2007)从核心元数据、政府信息资源分类、政务信息资源标识符编码规则都做了比较规范的说明。《电子政务主题词表编制规则》(GB/T19486-2004)和《综合电子政务主题词表》(试用本)对这一步的工作开展奠定了基础。
图3 基于主题图的电子政务资源多维标引
我们通过不同的主题图覆盖相同的资源,以不同的角度对资源进行分类和索引,应用基于主题图的多层文献组织模型[12],针对电子政务资源本身的特点,提出可以从概念主题维、政府机构维、服务业务维、流程事项维[13]、权限访问维、用户角色维进行提取,构建多个政务领域的知识本体库。如图3所示,对于同一政务资源实体,概念主题维度描述其内容属性,政府机构维度描述其归属属性,服务业务维度描述其所属的业务属性,流程事项维度描述各政务流程中资源的关联属性,权限访问维度描述资源的使用权限属性,用户角色维度描述资源的用户使用情况,进而对用户进行聚类和个性化分析。电子政务知识本体库可以采用专家知识人工建立和计算机自动处理的方式,并且可以采用例如引文分析法等知识关联的量化方法来建立主题结点的语义联系。最终通过对主题图文件构建实现主题图知识表示、知识聚类、主题图语义元数据提取。
3.3 电子政务信息资源的主题图验证和合并 主题图生成之后,要进行必要的验证和合并工作。通过主题图的有效性验证,可以检查前面自动生成的主题图的语法合法性和语义合理性。Metamorphosis主题图环境中使用的XTche就是一种比较优秀的主题图约束语言,它可以对不同类型的主题图文件实现不同的约束。对于不满足约束条件的主题图文件应该进行及时处理,对于文档语法结构错误的文件调整文件结构,对于语义出错的文件应该查找是获取的信息资源本身存在信息错误还是主题图文件生成时出现了错误。
电子政务的信息资源涉及国家各个领域,主题图的合并特性对于各个单位进行协同式的资源整合和不同领域的资源整合具有突出的优势。在进行跨领域研究时,往往需要对主题图进行合并,主题图合并有相应的规则。通过基于事物的主题图合并和基于命名空间的主题图合并,将交叉领域的知识概念融合在同一个主题图文件当中。主题图合并过程中代表同一事物的主题、联系将被合并,重复的主题或者关联被删除,主题之间的关联会被重构[14]。对于完成了验证和合并的主题图文件,最终的主题图文件既可以以关系型数据库的形式进行存储也可以采用XTM的形式保存。
3.4 电子政务信息资源的主题图展现和更新 根据生成的主题图产生一个最终的用户接口,提供浏览导航入口和检索入口,为电子政务门户的构建提供了基础支持。由于主题图模型不是传统的树状层级结构,而是网状结构,用户可以选择从不同的角度浏览站点,通过结点的展示和链接来获取具体的资源信息。在主题图展示之前要经过用户个性化分析处理,将符合不同用户信息需求的主题图信息呈现给用户。Metamorphosis主题图环境本身的Ulisses支持从主题图到用于导航的语义Web站点的生成。
当然我们甚至还可以使用其他的主题图可视化工具,如Omnigator、StarTree以及TM4J对XTM文件定制3D的视觉导航。
还需要注意的是,某些电子政务信息的更新频率是非常高的,特别是随着时间的推移,一些信息的权限也可能发生变化,所以对主题图文件的更新非常必要,模型系统必须能够对电子政务资源的主题图的更新进行及时的同步。主题图的更新目前主要存在两种同步策略:一种是静态生成器,即一次性生成所有结点,所以生成需要耗费很长时间,但是用户使用的时候有很快的响应;另一种是动态生成,动态生成会依据用户的需求和点击行为读取文件,所以这种策略是实时更新的,但是用户需要等待读取处理的时间。Metamorphosis主题图环境同时支持这两种生成策略。在实际使用中,我们应该针对不同方面的文件对生成策略进行选择,对一些相对固定的信息,如法律法规,采取静态生成策略,而对那些经常更新和变动的信息采用动态生成策略。
4 结语
目前信息资源整合已经成为电子政务发展的战略重点和建设热点。我们通过主题图技术将大量分布式异构的政务资源抽象成一张系统的知识网,尝试解决目前电子政务发展中的“信息孤岛”和用户使用的“信息迷航”。本文在已有的研究上提出了基于主题图的电子政务信息资源整合模型的初步设想,并分析了其在Metamorphosis主题图环境中的使用和实施步骤。接下来我们将对模型的开发实现以及实际应用做进一步详细的研究和科学的检验。
收稿日期:2009-04-24修回日期:2009-05-26