信息集成研究进展,本文主要内容关键词为:研究进展论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
〔分类号〕G353 G203
随着网络的发展,信息以铺天盖地之势向人们涌来,在如此大量且呈分布性、异构性的信息面前,人们领略了从未有过的获取相关信息的艰难和无奈;另一方面,通信、计算机、数字技术的日益发达,使得无论是信息管理者还是用户,都开始将视线从信息资源传统载体的数字化转向各种不同信息资源的集成化,人们期望通过信息资源的整合创造一个能提供统一各种信息资源、便于使用的环境。信息集成正是在这一目标的引导和推动下发展起来的。从近几年我国的研究情况来看,信息集成研究主要体现在两个方面,一是对于信息集成概念、内涵等理论方面的探讨,二是对具体信息集成技术开发应用方面的研究。
1 理论探讨
1.1 信息集成概念
“Information integration”一词有信息集成、整合、融合、有机组合等涵义,研究者虽然在用词上有所不同,但所指的对象基本一致,常见的表述有:
· 信息集成是一种使相关的多元信息有机融合并优化使用的理念。信息集成不是信息的堆积或信息载体的物理堆积[1]。
· 针对某一特定领域某一特定用户的需求,以信息为对象,信息资源为本体,服务为动力,网络技术为手段,协同作业为方法,把信息资源诸要素有机融合并使之优化的动态过程,是一个优化要素、体系重构的过程[2-3]。
· 信息集成是一种或针对某个目标或面向某项特定服务对信息进行组织和管理的理念,集成的核心是以资源作为大系统,采取技术手段进行整合,实现资源共享[4]。
· 根据某一特定主题将相关信息从不同的信息源(无论其地理位置、数据结构和通信要求)有机地链接成一个整体,借助于网络技术和应用软件的支持提供用户访问[5]。
· 针对既定任务,对信息资源、技术资源、智力资源进行有机融合和优化使用的过程[6]。
· 数字资源整合是一种数字资源优化组合的存在状态,是依据一定的需要,对各个相对独立的资源系统中的数据对象、功能结构及其互动关系融合、聚类和重组,重新结合为一个新的有机整体[7]。
1.2 信息集成的理论基础
1.2.1 系统论 信息集成的理论基础是系统论,系统论的显著特点是按事物本身的系统性把对象放在系统的形式中加以考察,充分体现其整体性、关联性、优化性,信息资源集成体系是由各具体资源整合而成的,以系统论为其理论基础,具有重要的现实意义[7]。
1.2.2 知识组织理论 信息资源特别是数字资源的整合,如果仅用信息组织理论作为其基础具有局限性和不适应性,将知识组织理论用于数字资源整合对实现资源整体优化和有效获取、利用具有现实意义。知识组织通过对知识的本质以及知识间关系的有序揭示,组成结构优化的知识库,以利于知识利用和促进创新;知识组织强调系统化地处理和利用信息,发掘知识内涵,建立知识网络系统,提供具有内在关联的信息链和知识链;知识组织侧重以元数据为描述格式,以RDF为基础组织管理数据对象,能够对异构数据对象内容进行整合,实现不同资源系统间的资源共享;知识组织能够利用面向对象数据库、数据仓库、数据挖掘和知识发现技术实现多种功能,如对异构数据源或数据库的信息转换、过滤、提取、整合;对信息源进行智能处理和知识抽取,使信息按知识内容特性聚集并以特定的方式表示等等。不论从组织对象、形式,还是从组织方式、技术上,所有一切都表明数字资源整合应该建立在知识组织理论的基础之上[8]。
1.3 信息集成原则
主要有马文峰在文献[7]提出的6原则,即:整体性原则(保持资源对象学科的完整性)、连续性原则(资源集成的发展性和不间断性)、针对性原则(强调集成的目的是满足特定用户的需求)、层次性原则(集成的结构性和多维性)、科学性原则(集成对象、内容、方式的科学性)、优化性原则(运用技术手段和方法优化组织结构和功能)和孙正东在文献[9]提出的专指性原则、开放性原则、系统性原则。
1.4 信息集成模式
王善平在文献[10]提出了4大模式,即:关联模式(按信息内容间的相关性,将有关信息集成在一起)、结构组织模式(按照某类信息的结构特性确定一相对固定的结构框架,将信息组织在框架内)、综合模式(提取原始信息中的相关内容并重新组织为新的信息)、分析模式(利用一系列定量或定性分析模型,对原始信息进行分析,得出结论性或咨询性信息,提供给用户)。
马文峰在文献[7]针对图书馆信息资源管理总结出了4种模式,即:汇合式(基于OPAC资源系统的一种模式)、组合式(在汇合式基础上增加删除重复信息的功能)、重组式(对资源分解并按逻辑关系重组成立体状、相互关联的知识系统)、一体化综合式(在OPAC资源整合系统与数字图书馆资源整合系统间建立多维度关联)。
蒲延秋在文献[4]提出了多元集成模式,如完全集成式(如CNKI);元数据集中、对象数据分散的集成式(如中国数字图书馆);以网络虚拟方法连接各信息资源进行数字化信息资源建设、管理、服务为主要任务的集成式;以各单位信息资源建设(建专题数据库、电子阅览室资源上网、建Web网页、引进光盘数据库、获取网上虚拟信息资源)为主并集成的模式。
1.5 信息集成的对象范围
信息集成的核心是信息资源的集成,重点在信息内容的集成上,这是研究者一致认同的。除此之外,还有些论文从信息集成的系统论角度探讨了相关因素的集成问题。
1.5.1 过程集成 这是从信息产品生成、信息服务过程考虑的,主要体现在需求集成(包括需求类型、心理、行为及规律),通过集成确定信息提供方向和目标;资源集成(包括资源类型、来源、开发、共享等),通过有机优化要素、体系重构链接成整体和动态的体系;采集集成,主要指采集工具的方法、技巧、途径的集成;加工集成,在广度上有内容、方法、流程的集成,深度上有原装、重装、挖掘的集成,通过不断地从广度、深度上集成使信息整体增值;产品集成,信息产品物化过程的集成;效益集成,在经济效益、社会效益、生态效益间寻找一合理的平衡点;反馈集成[11]。
1.5.2 环境集成 由于研究者的环境视野有所差异,因此环境集成的侧重点也有所不同,有些研究者从多方位的角度观察,有些仅从技术的角度考虑,而且考虑的范围也有大小之分,何全胜从技术大环境考察,在文献[12]中提出了信息基础设施、计算机应用软件和信息标准三位一体构成的环境。他认为这个环境是柔性的,在一定程度上是交互的、开放的和动态有界的,并具有良好的互操作、兼容、组合、公共、可扩展等特征。这个环境能逐步包容由不同部门分别描述、组织、开发和管理的异构或异质的信息资源、信息加工平台、信息交流网络。
王善平从技术小环境考察,在文献[10]中提出了信息源、信息加工和分析工具、用户服务界面3者有机结合组成的集成环境,信息源要求的信息是完备的、自解释的、可解构和析构的;信息加工和分析工具包括基础信息处理和服务层、信息服务代理及方法层;用户服务界面包括应用层和用户支持环境。
罗贤春在文献[11],肖安琪在文献[13]中则从较多的方面对环境加以关注,他们认为人的主观因素(观念)、集成系统的结构等也是信息集成的重要环境因素,因此提倡树立信息观念(信息是战略资源、需求第一、系统、创新、可持续发展观念)、进行结构调整(调整运行管理机制、功能结构、信息资源结构、服务结构、人员结构、经费使用结构)、重视人才培养。
王善平在文献[10]中还提出了集成标准化问题,这也是集成的重要环境之一。集成是资源开发、组织、管理的重要目标,实现这一目标的关键是集成标准化。为数字资源从开发到使用研究制定一系列标准,参照开放系统互联标准OSI将计算机网络分为7层的做法把资源整合标准分为通信层、表示层、组织和规范层:通信层负责信息需求方与供方的对话、互传命令和数据;表示层负责各种信息的计算机表达;组织与规范层负责主题标识、分类标识及其他各种事物的规范。作者建议采取一系列措施来实现标准化,如组织专家研究制定集成所必需的各种标准,建立资源开发审核制度,建立资源引进审核制度等。
1.5.3 方法集成 站在全局的立场上总结集成方法的研究者还比较少,大多数研究者把研究集成方法的着眼点放在技术方法,本文将在第二部分谈到。
1.5.4 技术集成 以数据库网上互联和在线分析工具为基础,建设信息仓库。当前在该领域中,支持技术包括XML、元数据、搜索代理、数据挖掘、可视化技术[14]。
技术集成是信息集成的关键保障,它包括计算机技术、网络技术、软件技术、数据库技术集成[11]。
信息技术集成指数字技术、通讯技术、网络技术、电子商务技术、数据库技术集成[15]。
1.5.5 信息服务方式的集成 服务方式不但突破了时空限制,而且从一对一为主的服务方式转向一对多、多对多的信息提供方式,并且从被动向主动服务方式转变[15]。
1.5.6 信息服务功用集成 可提供信息检索、文献复制、文献传递、多媒体教育、网络导航、信息咨询、专题定题服务以及其他替代服务,这种服务充分体现交互性特点,可随时根据用户需求的变化而改变[15]。
1.6 信息集成的重点
有人认为,信息集成的重点应该放在信息资源本身的集成上。也有人认为,信息集成的重点应该放在集成环境或共享环境上。还有学者认为,信息集成的重点应该放在应用系统的开发和集成制度建设上。实际上,应该把信息资源集成、环境集成、技术集成和服务管理集成耦合起来,作为一项工程或重点项目来考虑[1]。
2 集成技术研究
毋庸置疑,信息集成成功与否的关键是集成技术。学者们从不同角度、不同侧面、不同的切入点对信息集成领域的各种技术进行了研究,有的研究者比较系统地对集成技术的发展作了全局性总结,也有研究者研究集成技术的基础理论问题,还有的研究者具体提供某一领域的实用集成系统,不一而足。
2.1 集成技术的系统论述[16-21]
董福壮在文献[18]中通过对异构数据库的集成、基于中间件的信息系统、联邦信息系统3种技术的论述回顾了信息集成技术的发展,继而又详细说明了信息集成的过程及全局查询处理和查询规划,并在对技术进行梳理和阐述后指出了集成技术今后的研究重点。同样系统论述集成技术的还有蔡俊杰的文章[17],该文对信息集成系统的体系结构、信息源、包装器、中间件、查询处理等方面作了介绍。从这一系列的文献中可以看到:
2.1.1 集成方式 集成系统一般用两种方式建立——数据仓库和虚拟数据库。数据仓库(此种方式又称为统一物理集成)将信息从不同的信息源提取出来,通过格式转换、消除数据冲突、运算、综合、统计等使其转换成公共数据模型并被集成到数据仓库中,一般是把需要的数据从多个信息源下载到本地的一个数据库,用户通过对本地数据库的查询实现检索。其优点是查询的实现情况较好但数据的同步较难实现;虚拟数据库(此种方式又称为中间件方式)将用户的查询分解成对各个信息源的于查询后再分别执行,返回的数据综合起来成为最后的查询结果,其优点是保证信息总是最新的,但不一定保证查询性能,需要合理地制定查询执行计划并进行有效的查询优化。此种方式下数据仍保留在各数据源中,通过各数据源的包装器虚拟成中间件模式,用户查询基于中间件,不必了解每个数据源的特点,中间件将查询转换为基于各个数据源的模式。在信息源数量很多且数据更新频繁的Web环境中,第二种方法大有用武之地。文献[17]探索了一种结合两者技术的AOEDE系统,它基于缓冲的虚拟数据库途径,即把信息源中相对稳定的数据存储在本地,而更新频繁的数据则在查询执行过程中动态地从信息源中获取,从而在满足数据的实时性要求基础上又能保证较高的查询效率。
2.1.2 集成中的关键技术[12,17,21] 建立一个集成系统的过程为:根据应用需求寻找、选择信息源,对信息源进行抽象并开发相应的包装器,在此基础上设计中间件,最后形成针对中间件的用户查询界面。为了获取信息,需要拥有信息提取和转换的包装器,以实现对每条信息的抽象及向上层屏蔽信息源的物理细节,并在查询过程中完成与信息源的交互,把需要的信息从信息源返回的置标语言代码中提取出来,转化为可以被系统进一步处理的形式。包装器的功能相当于一个子查询执行引擎,能根据给定的条件筛选数据,完成与信息源的交互。其次,集成系统需要设计一个中间件,它是系统的全局数据视图,中间件并无数据,它从包装器中获取信息,通过集成不同信息源的数据并解决它们之间的冲突来提炼出供用户使用的信息。第三,查询规划实质上是一个查询优化过程,包括相关信息源的选择和形成从信息源获取、处理数据的查询规划。由于信息源量大、传统信息源和Web信息交杂以及要求缩短查询时间,使查询优化技术面临新的挑战。
2.1.3 信息集成技术的研究重点[18] 信息集成技术的研究重点有:中间件、包装器的自动生成技术;高效的领域知识表达技术;高效快速的查询规划算法;系统整体设计方法和基于知识系统建模方法,可视化开发工具;AGENT技术规范等。
2.2 集成技术的理论探索[14,20,22,23]
文献[22]针对Web信息的半结构、异构性、分布性提出了用“本体”集成Web信息的观点。Web信息的特点决定了结构方法不适应Web信息的集成,而语义方法具有光明的前景。“本体是共享概念模型的明确的形式化规范说明”,它的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,从不同层次的形式化模式给出这些词和词汇间相互关系的明确定义,通过概念间的关系来描述概念的语义。本体针对的是Web信息集成中缺乏统一的语义集(本体)问题,它凭借自身所具有的良好概念层次结构和对逻辑推理的支持提供一种面向语义的集成,既准确描述概念含义又准确描述概念间的内在关联,并能通过逻辑推理获取概念之间蕴涵的关系,具有很强的表达概念语义和获取知识的能力。本体将在信息集成的未来方向——“语义Web”(semantic Web)中有所作为,“语义Web”概念是由因特网创始人Bermers Lee于2000年12月提出的,它的目标是使得Web信息具有机器可理解的语义,满足智能软件对异构和分布信息的有效访问和搜索。
文献[23]提出了信元、信元模型和基于信元模型的集成处理,给出了信元的定义,描述了信元上的维的概念,引入了信元集成的视图机制,认为信元模型系统可以很好地解决各类信息的集成问题。
文献[20]是专门针对企业信息集成的、具有一定理论意义的宏观探讨。企业信息系统集成的体系结构可从纵向和横向两方面进行研究。纵向研究,指在系统的开发设计过程中,结合系统工程与软件工程引入链群的“三链”,即决策链、支撑链、主链,并使其贯穿于系统开发设计过程的始终;横向研究,指建立在链群上的各企业的信息集成,可以通过计算机协同工作、人工智能、数据库等技术实现,链群上的每个生产单元均是虚拟企业,它们均以计算机可以识别的信息进行描述与表示,企业的集成实际上就是这样一些信息在企业内外链群上进行动态或静态的数据集成。文献[20]同时还针对任务的转换与分解、智能体系设计、数据组织与管理体系设计、人与系统的相互作用等问题,分别进行了相应的讨论。
2.3 信息集成系统研制
各类信息集成系统的研制、开发是集成研究中最为活跃的部分,其中最值得一提的是基于知识管理的信息集成系统研究。
2.3.1 基于知识管理的信息集成系统——ISI Web of Knowledge[24]和KBIIS系统[25] 知识管理是对各种知识进行收集、加工、组织、传播并创造性使用的行为,对信息资源基于知识管理的集成,有助于将信息中的知识因子按知识体系的关联性和整体性组织成立体网状、相互联系的知识资源系统,从而达到知识的集成、共享,以实现知识创新的目标。
ISI Web of Knowledge是ISI凭借其独特的引文机制和WWW链接技术有效地集成自身出版的一系列数据库,与其他出版公司的数据库、原始文献、图书馆OPAC以及日益增多的网上信息资源建立相互链接,从而构建的一个强大的基于知识管理的学术信息资源体系。它的体系主要由Web of science、Web of science proceedings、Derwent innovation index、Biosis previews、Chemistry server、Journal citation reports、Current contents connect组成,通过相互间的双向链接,拓展了不同数据库信息间的内在联系;该系统的根本贡献在于实现了不同文献资源的整合,最大限度地保持了知识体系的完整性,它利用信息间的相互引证关系建成的不同类型资源间的沟通,解决了因数据库收录范围有限而造成的知识体系割裂问题。
KBIIS是基于知识的企业信息集成系统,它以数据中心和知识仓库为核心,将企业长期运营过程中积累的独特知识、经验和规则固化并加载到系统中,形成知识流、资金流、物流的并行处理、统筹规划。在企业内部信息管理系统中实现4CP(CAD/CEA/CAPP/CAM/PDM)的有效集成,在Internet上开展电子商务,实施基于互联网的产品协同设计、协同商务、协同制造、协同管理,并通过企业智能门户,有效地集成SCM和CRM系统。KBIIS建立在ERP的基础上,融合知识管理的思想,通过ERP系统、CRM、EB、SCM、管理咨询、知识传播等构筑符合知识管理要求的企业信息化管理体系,实现企业从作业型向知识型的转型。KBIIS的技术体系结构主要以知识推理为核心,采用以CORBA标准为基础的面向对象集成的框架,实现企业信息间的智能集成,CORBA将面向对象技术和网络通信技术有机地结合,使得基于对象的软件可在分布式环境中重用、移植、互操作。作为分布中介,它实现了客户对象透明地访问远程服务对象的目标。
2.3.2 各种信息集成系统 由于集成系统的研究属应用性研究,因此涉及的应用领域面极宽,有企业信息集成系统[25-30],如把现代集成制造系统分为3层递阶结构(工厂层、车间层、工作站层),相应地建立3层网络结构及3层数据库结构,集成平台采用B/S与C/S交叉并用的体系结构,设计一个基于网络的、以SQL-Server数据库为平台的公用数据库,用以存放各个部门的共享数据,各个部门以数据视图的形式应用共享信息,由此实现信息的集成;还有一种新的基于CORBA软总线和CAX的信息集成系统,该集成系统结构可实现跨网络、跨平台的协同设计;有娱乐信息集成系统[17],如AOEDE系统就是一个中文歌坛信息的集成系统,能根据用户查询自动从多个相关的网站中检索歌坛信息;有各行各业的集成系统,如邮政[31](以邮政这一典型物流企业的综合计算机网为实例,探讨跨企业物流信息集成的体系结构,提出跨企业物流信息的集成技术与方法)、石化[32](综合研究过程企业体系结构和信息集成问题,提出信息、功能、组织、产品和资源等5个视图及需求分析,设计了3个主要阶段的体系结构,探讨过程企业方法库、管理数据库、实时数据库和装置模型库的构建方法,提出了基于CORBA标准的分布信息集成模型)、石油地质开发[33](结合国外现代油藏经营的经验,按照现代软件工程的要求设计了一种新型的地质开发信息集成平台。平台设计包括信息及其管理查询方式设计、平台功能及应用设计、界面设计、导航设计)、交通运输[34-36](有对机场航班显示系统、广播系统、离港系统、订座系统、货运系统等弱电系统的信息集成;有空中交通管制指挥监测系统(ATCCMS),它对空中交通管制所涉及的语音通话、雷达数据、飞行计划、气象信息和航行情报等基础信息进行综合集成;还有根据CIMS技术思想提出的船舶信息集成系统(SCIMS),实现船舶信息的高度集成和共享)等。
标签:信息集成论文; 数据集成论文; 用户研究论文; 中间件技术论文; web技术论文; 数据库系统论文; 数据整合论文; 文献回顾论文;