网络信息集成服务研究综述,本文主要内容关键词为:网络论文,信息论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 问题的提出
随着因特网的迅猛发展,其影响已深入到社会生活的各个层面,网络信息环境业已形成并不断发展。与传统的信息环境相比,网络信息环境具有开放性、交互性、用户平等性和自主性等特点。用户信息环境已发生根本性变革,而用户信息需求也相应变化,网络信息服务作为信息产业中直接面向用户需求的部门也呈现出相应的发展趋势。文献[1~6]对此都进行了探讨,提出网络环境下信息资源必然是分布的,传统的信息服务模式多为集中式或分散式,现在这两种服务模式已不能满足用户的信息需求。用户希望可以通过“一站到位”的计算机界面,获得动态的、在时间和空间上一致的面向主题的信息服务。特别是从事高科技领域研究与开发的用户不再满足于为其提供一般性服务,而要求通过知识信息资源共享将分散在本领域及相关领域的专门知识信息加以集中组织,进行文献信息内涵知识的二次开发,甚至利用“基因工程”原理进行知识重组,从中提炼出对用户的研究、开发与管理创新思路形成至关重要的“知识基因”,供其使用。在网络环境下,信息服务于21世纪初必然是由集中服务或分散服务转向集成服务。
2 网络信息集成服务的相关概念
2.1 关于集成
英文单词“Integration”,可用“集成”、“整合”、“综合”等词语表示。目前,“集成”一词用得最为广泛。关于集成的概念有不同的理解。
在系统集成技术领域已基本取得共识,普遍理解为是通过对系统要素、因素或元素进行整合,以求系统状态达到较优。也可理解为为求得事物状态较优,对信息资源、技术资源和智力资源进行融合的过程;在管理领域正在逼近共识,虽然对“集成”的表述尚是各抒己见,但却共同强调要从着眼于组合转换到着眼于融合,从着重于要素的相互促进转换到要素的相互竞争、制约和依存,而且更把管理制度,以及具有创新能力的人看作是具有较大权系数的要素;在信息服务领域,集成服务是对集中服务或离散服务的否定。联通服务并不等于集成服务。集成意味着集成后的服务总效益大于集成前的服务分效益之算术和[7]。
集成一词是指一个整体的各部分之间能彼此有机地和协调地工作,以发挥整体效益,达到整体优化之目的[8]。集成具有两层含义,即集合与组成。所谓集合,就是将不同分布地的信息资源通过现代技术链接在一起,运用信息技术和应用软件,形成科技信息集成服务的环境。所谓“组成”,就是指将所集合的各种信息资源,按照用户的需求,通过各种信息技术和手段,进行规范、科学地组织,以供读者方便快捷地利用[9]。
上述3种观点从不同的角度对集成的概念进行了表述,简言之,集成不是各要素或各模块的机械堆积,而是各要素或各模块的有机整体,是“整体大于部分之和”。
2.2 关于信息集成和信息集成服务
信息集成是一种或是针对某个既定目标,或是面向某项特定的任务,对信息进行组织和管理的理念。信息集成是一种使相关的多元信息有机融合并优化使用的理念。[10]
信息集成服务是基于信息集成理念基础上的信息服务,它不是信息业务板块的机械拼凑,而是一个现代化的服务概念,是分布服务的飞跃,是对集中服务或分散服务的否定。集成服务意味着集成后的服务总效益大于集成前的服务分效益之算术和〔10〕。
信息综合集成服务的基础是信息综合集成。所谓信息综合集成,是把信息资源诸要素有机地链接成一个整体的动态过程。这个过程也是优化要素、体系重构的过程。信息综合集成服务将整个动态过程以网络的方式展示给它的用户,使用户能得到动态的、在时间和空间上一致的面向主题的信息服务。集成信息服务只有在网络环境下才能得以实现,用户利用信息综合集成服务时,在前台面对的将是“一站到位”的计算机界面,而后台则是整体化的信息资源保障体系〔11〕。
所谓信息的集成服务是指根据某一特定的主题,将相关信息从不同的信息源(无论其地理位置、数据结构和通信要求)有机地链接成一个整体,借助于网络技术和应用软件的支持,提供用户访问〔12〕。
2.3 信息集成服务的分类
按集成对象涉及的范围分,可分为信息集成、技术集成、应用集成、管理集成;按优化程度分,可分为4个层次,即联系集成、联合集成、联通集成、联享集成;按亲和程度分,也可分为4个层次,即协作集成、协调集成、协同集成、谐和集成〔7〕。
目前,国内外关于网络信息集成服务相关概念的研究还很不充分,多集中在对集成和信息集成服务概念的探讨上,还没有领域内公认的和普遍接受的定义。作为一个研究领域,概念和概念体系的构建和明晰是进一步研究的基础和关键,对于实践研究的开展具有重要的理论指导意义。因此,构建网络信息集成服务的概念和概念体系是进行网络信息集成服务研究的一项重要课题和紧急任务。
3 信息集成方法与技术研究
目前一般采用两种基本的方法解决信息集成问题,即过程式(Procedural)的方法和说明式(Declarative)的方法。在前一种方法中,根据一组预先定义的信息需求,采用一种特殊的方式集成数据,设计适当的软件模型去访问数据源以满足预定义需求。采用这种方法的系统并不需要一个明确的集成的数据模式概念,而依赖于两类组件:封装器(Wrappers)和中间件(Mediators),如TSIMMIS(The Stanford-IBM Manager of Multiple Information Source)。在后一种方法中,目的就是采用适当的语言建立信息源中数据的模型,构造一个一致的表示法。当查询一个全局信息系统时就采用这种表示法,通过适当的机制访问数据源和/或视图,响应用户查询〔13〕,如IM (Information Manifold)。
目前分布式异构信息集成的方式主要有两种:结构方法和语义方法[14]。结构方法的主要特点是实现比较简单、信息源相对比较固定。其缺点是扩展性差,不提供语义级检索。语义方法的主要特点是扩展性好、适应动态信息源、支持语义级查询,缺点是实现比较复杂。语义层集成主要有两种方式:自顶向底和自底向顶。自顶向底方法是在领域专家参与下,建立全局概念模式,由全局概念模式来统一底层各信息源的语义。自底向顶方法首先提取底层各信息源的局部数据模式,其次在局部数据模式上抽取局部概念模式,最后在局部概念模式上构造全局概念模式。
信息集成技术的发展经历了异构数据库的集成、基于中间件信息系统和联邦信息系统三个阶段。第一阶段又包括多数据库语言系统和模式集成两种方案。信息集成的进一步研究重点主要有:①研究中间件、包装器的自动化或半自动化生成技术,特别是Web信息的自动提取;②研究高效的领域知识表达技术;③研究高效、快速的查询规划算法;④系统整体设计方法和基于知识系统概念建模方法的研究;⑤研究可视化开发工具;⑥XML的研究;⑦移动Agent的研究[15]。
信息集成方法与技术的研究,包括各类专门的技术和计算机实现的体系结构,这方面的研究多是由计算机技术界开展的,这些研究的成果并不是专门围绕着信息集成服务来开展的,而是把信息集成服务作为这些技术的一个应用领域。
4 图书情报领域关于网络信息集成服务的研究
虽然目前图书情报领域关于信息集成服务的相关概念还没有取得共识,以信息集成服务为研究对象的研究还很少,但在实践上已开展了不同层次的网络信息集成服务。以科技信息服务为例,早在1987年就已开展了计算机检索集成服务,至1995年完成,集成度为协调层次[7]。归纳图书情报领域关于网络信息集成服务的研究,主要为以下几方面。
4.1 信息集成服务对策与策略研究
面对信息服务由分散或集中服务转向集成服务的大趋势,不少人立足于本职工作,对网络信息集成服务的性质、本领域或本部门如何应对这一趋势开展研究,多侧重于对策与策略的研究。
文献[9]指出网络信息集成服务是建立在网络环境下的基于用户需求、信息资源变化及信息技术发展三位一体的信息服务方式。其必备环境为:文献信息资源的集成、用户服务机构的集成、服务方式及手段的集成,开展集成服务需要思想观念上的更新、人员素质的提高和服务手段的优化。
文献[16]从科技信息服务的角度出发,指出信息资源建设指导思想从以“占有”信息资源为中心转换到以“集成”信息资源为中心;从以机构/资源为建设的出发点转换到以服务/利用为建设的出发点,提出要建设信息资源保障体系,其含义是:对特定的行业或企业,其信息资源保障系统的功能要素、信息要素、应用要素、技术要素、制度要素在动态优化过程中,以网络为技术平台有机地融合在一起,形成结构合理、管理科学、媒体多样、反应迅速的信息资源服务保障体系。
4.2 集成数据环境的研究
集成数据环境(Integrated Data Environment,IDE)是美国于1996年提出的,是一种物理上分布、逻辑上链接的数据结构,是信息集成服务的核心。一般说来,IDE有以下几个要素:①集成公共数据库;②业务流程重组;③当前工程原则的实践;④开放的系统环境;⑤采纳产品定型数据交换标准;⑥信息基础设施建设;⑦电子数据交换界面(EDI)[17]。营造集成数据环境,可以实现信息的一次生成、多次传递、共享使用。
从发达国家的实践看,集成信息服务需要两个前提,信息的多样化和对信息资源的有效使用。为了建好IDE,各国政府一般都重视3方面的工作,一是国家信息基础设施建设(NII);二是信息资源的建设;三是保证信息流动的畅通有序[17]。
4.3 数字图书馆的研究
数字图书馆目前是一个全球性的话题,但是关于什么是数字图书馆还“仁者见仁、智者见智”。比较有代表性的两种定义,一是“数字图书馆是一个环境,它将收藏、服务和人带到一起以支持数据、信息乃至知识的全部相关流程,包括从创建、传播、使用以及保存的全过程”。二是“数字图书馆是采用现代高新技术所支持的数字信息资源系统,是下一代因特网网上信息资源的管理模式,是没有时空限制的、便于使用的、超大规模的知识中心”。
关于信息集成服务与数字图书馆的关系,有的学者认为,信息集成服务是数字图书馆的基础;有的学者认为,从信息服务的角度,信息集成服务同数字图书馆服务相比,不论从功能方面,还是从体系结构方面,范围更广,内涵更深,不能局限于“馆”。信息集成服务和数字图书馆的定位问题还应随理论研究和实践活动的深入而进一步明确,但是从信息集成服务和数字图书馆的概念的比较可以看出,二者具有密切的联系。
目前数字图书馆的研究无论从理论层次还是实践层次都比信息集成服务的研究更为成熟,对开展信息集成服务的研究具有重要的参考价值。
关于数字图书馆的研究有以下两个方面:
1)软课题研究。数字图书馆的软课题研究内容包括数字图书馆的服务模式、版权保护等;研究范围主要有模式研究、资源建设、相关的标准规范和版权保护等。
2)数字图书馆实现技术研究。数字图书馆结合了目前IT界和通信界的高新技术,其实现技术的研究主要有以下方向:①数字信息加工;②自动标引技术;③XML相关技术;④知识网络/词表/分类法;⑤多媒体技术;⑥信息表示;⑦海量数据存储与管理;⑧体系结构;⑨智能代理与人工智能技术;⑩快速检索机制;(11)智能用户界面;(12)语言;(13)安全技术[18]。
目前,我国建有各种类型的数字图书馆,如国家科技图书文献中心、中国期刊网、国家图书馆、北京大学图书馆、清华大学图书馆、上海图书馆和辽宁省图书馆等数字图书馆项目,还有中国试验型数字式图书馆、中国高等教育文献保障系统、中国数字图书馆工程等。这些项目,或侧重资源建设,或侧重服务开展,或侧重学术研究,有的是以本馆为核心的单独建设,有的是多馆合作的联合建设,具有多元化的特点。
中国高等教育文献保障系统(China Academic Library &Information System,CALIS),是经国务院批准的我国高等教育“211工程”总体规划中两个公共服务体系之一。自CALIS项目启动以来,通过大规模引进国外优秀数据库产品,开发建立如中外文联合书刊书目数据库、中文现刊目次库、高校博硕士学位论文文摘数据库等多个联合揭示高校图书馆丰富馆藏的二次文献数据库,以及重点学科网络信息资源导航库、反映高校特色馆藏的重点学科特色数据库,极大地丰富了高校的馆藏资源。同期构建的联机编目系统、馆际互借与文献传递系统等资源共享软件平台,把高校图书馆资源共建共享活动推向一个崭新的阶段。而三级联合资源保障模式的建立,不仅可以更好地开展资源共享服务,协调全国高校文献资源的合理布局,更为以后网络环境下大规模的分布式资源共享与服务打下良好的基础。现在CALIS已胜利完成了一期建设的任务,正准备进入“十五”建设阶段,即中国高等教育数字图书馆建设[19]。
4.4 其他相关研究
文献[20]以图书馆为中心构想了一个集成服务场景,在这一场景中,用户可以与图书馆员和领域专家进行实时参考咨询,24小时图书馆,支持交互性的技术和其他用户支持能力,不断增长的电子信息馆藏,高级文献传送系统,电子储备,不断强大的智能代理和搜索引擎,以及致力于充分实现这些新技术和新环境潜力的服务提供者。文中给出了一个三级集成服务模型(见表1)。
表1 本地/远程服务模型
表1所示的三级模型是对本地和远程以及服务功能的集成,强调了用户与系统及其服务人员的交互功能。文中还指出了下一代的信息服务不仅要集成本地和远程的服务,还应提供一个可以让图书馆员和技术人员共同参与系统设计、服务发送、资源分配及新功能开发等活动的组织环境。
文献[21] 提出大范围信息服务中存在的4个问题:相关信息资源的发现;信息检索的效率;信息服务的可信性;信息的安全性。网络信息集成服务是典型的大范围信息服务,以上的4个问题值得借鉴。
美国盖尔集团公司(Gale Group)1998年推出了集成化的、基于万维网的“文学资源中心”(Literature Resource Center)。其文学信息可以有多方面的来源,包括商业数据库、图书馆的数字化馆藏和因特网上得到的信息。其集成服务的基本模式主要采用主动的信息发布服务和智能化的个人信息检索代理服务。其服务包括自定义检索服务、信息发布服务、个人信息检索代理服务、用户档案和系统管理服务[12]。“文学资源中心”的资源建设、服务模式和服务功能对开展集成服务都具有参考意义。
图书情报领域的网络信息服务具有不可替代的社会职能,对促进科技、文化、教育、经济的发展具有重大的意义。同时,图书情报机构由于其自身的性质还具有其他领域所不具备的优势,如一定规模的信息资源积累、专业的信息处理规范和信息工作人员的素质等,这些都为图书情报机构开展网络信息集成服务的研究奠定了良好的基础。但是,图书情报领域关于信息集成服务的研究主要集中在应对策略的研究上,信息集成服务的研究和集成数据环境、数字图书馆的研究虽然具有密切的联系,后二者的研究成果可以提供很好的借鉴,但是作为一个研究领域,现有的研究还很不充分,缺少一定规模的系统研究,包括信息集成服务的概念体系、组织模式与运行机制等。因此,图书情报机构网络信息集成服务的研究还具有广大的发展空间,机遇与挑战并存,今后的研究要注重观念与技术的创新,大胆借鉴其他领域的相关研究成果,推动本领域网络信息集成服务研究的进展。
5 企业领域的信息集成研究
目前,企业领域的信息集成研究集中在计算机集成制造系统(Computer-Integrated Manufacturing System,CIMS)的相关研究上。按照信息集成的深度不同,企业领域的信息集成可分为:①面向共享的信息集成;②高层次信息集成即知识集成两个层次。
文献[22]提出企业的信息集成需要建立在以下各种技术之上:①制造信息表示和建模必须使用STEP标准;②制造信息的存储和管理必须采用数据库技术;③制造信息的共享和交换媒介必须采用因特网;④制造信息的处理必须使用具有互操作能力的软件系统。在实践中企业信息集成也大多采用以上的技术,其中CORBA(公共对象请求代理结构)更是由于其诸多特点而成为构筑企业新型信息系统的首选体系结构标准。
企业领域的信息集成在技术层次和实践层次上都取得了一定成果,相比其他领域的研究也更为成熟,很多研究成果和先进经验对其他领域的信息集成都具有重要的参考价值。
6 基于Web的信息集成
网络环境下,数据极大丰富的同时也带来了数据泛滥的问题,Web数据转换集成技术是从巨量的信息中获取有效信息的方法。利用此项技术,用户只需关心自己的真正需求而无须登陆多家网站;它提供的集成技术,能去除来自不同网站的数据的不一致性及冗余性;同时搜集不到数据时,它提供的代理服务还能定时去自动获取数据,并把结果发送给用户[23]。
一个典型的网上信息集成系统主要由以下几个部分构成:①信息提取与转换器Wrapper,负责从各个信息源提取并转换需要的数据。Wrapper的构造有手工和自动两种方式。②数据模型,提供对各个信息源的描述并向用户提供一致的数据视图。③查询处理模块,向上接收用户以高级语言形式提交的复杂查询,向下根据数据模型选择信息源并形成查询规划,从各个信息源提取数据经转换合并后形成查询结果返回给用户[13]。文献[24]从更为宏观的角度提出基于Web的集成化信息系统由数据、人、经营模式、实体及信息平台5部分构成。
7 其他研究
7.1 计算机集成报业系统
文献[25]以《科技日报》CIMS应用工程为背景,对新闻报业的共性问题,包括经营管理、技术现状和需求进行了剖析,提出由办公自动化、报业工作流管理、信息综合管理与服务、后勤支持等4个分系统组成的计算机集成报业系统的体系结构和基本框架。这一研究可以视作CIMS向非制造领域的成功移植,具有重大的实践指导意义。
7.2 科学平台
文献[26]提出了科学平台的概念和基于XML的科学平台系统。科学平台是一个集人类当前全部知识为一体的、合理组织的、表述和谐的、动态生长的网络知识集成系统,利用计算机网络通过信息集成和知识集成来实现科技知识的合理组织和动态生长,从而实现知识产生、传播和应用的总体最优化。
基于XML的科学平台系统的工作流程分为3步:①收集知识;②将知识按照学科整理分类;③对现有的知识按要求进行出版。
内容浏览与查询:基于XML的科学平台系统首先提供了目录和文件浏览方式,类似于计算机的文件系统。在系统知识的查询方面,基于XML的科学平台系统提供了多种服务。可以方便用户进行简单方便的检索。
知识的发表与交流:①WWW在线编辑,例如BBS或聊天室;②通过FTP上传文件;③通过邮寄的方法,将打印出来的稿件送到编辑部。
内容输出打印与出版:智能化的打印服务,定期收集平台内各种信息(如新技术、理论的数量、时间等)定期出版。
以上的研究从不同角度为网络信息集成服务的开展提供了参考。同时,在医学信息、地理信息、政府信息、环境信息等领域已建有不同层次的集成信息系统,图书情报领域的网络信息集成服务可借鉴这些领域取得的先进成果。与本领域相关的研究还有信息转播技术研究、指引库技术研究、信息推送技术研究、智能代理技术研究等,这些也是近年来图书情报领域和计算机领域的研究热点。