Web信息整合机制研究,本文主要内容关键词为:机制论文,信息论文,Web论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
信息整合技术是信息资源分布式建设与集成应用相互作用的产物。早期,信息整合的主要目的是面向异构数据库资源提供集成检索服务。随着网络的发展,Web逐渐成为一个极其丰富的信息来源,如何实现对分布式网络资源的有效选择、过滤、揭示、检索与利用,已成为信息服务机构所面临的一个重要问题,这便是Web信息整合。根据需求驱动的原则,并结合信息环境的特点,笔者将Web信息整合机制归纳为4种类型:面向学科导航服务的Web信息整合、面向集中检索服务的Web信息整合、面向分布式服务的Web信息整合、面向个性化服务的Web信息整合。这4种机制分别针对不同的用户需求,采用不同的实现策略,共同组成一个完整的Web信息整合体系。
1 面向学科导航服务的Web信息整合
网络资源的膨胀在为用户提供多种信息获取途径的同时,也增加了信息利用的难度。如何解决资源的分散性、易变性,如何从质量参差不齐的Web资源中发现自己所需要的信息,是人们关注的焦点。其中,面向学科导航服务的信息整合机制便是解决这一问题的重要方式,它通过对网络资源进行整合组织与集成揭示,建立学科导航体系,从而为用户提供学科资源使用指导。面向学科导航服务的Web信息整合主要包括三个过程:①制定资源选择原则,如有效性、权威性、准确性、综合性等[1];②为所选择资源建立元数据描述信息,并建立与资源站点的链接;③按学科分类组织资源,建立层级式导航体系,支持主题浏览与原文链接服务。
早期的Web整合对象主要是网站、数据库等资源集合,用于构建虚拟图书馆、学科门户等服务体系。例如,IPL(Internet Public Library,http://www.ipl.org/)是一个虚拟图书馆,它主要整合网站资源,其资源的选择过滤、分析评价、导航体系构建等工作都由人工完成,信息整合质量高,但资源覆盖范围有限,存在资源链接更新不及时等问题。随着数字图书馆的发展,Web信息整合范围不再仅仅局限于网络资源,也开始包括本地馆藏资源。例如,美国阿拉莫斯实验室(http://library.lanl.gov/)将本地馆藏资源、授权商业资源、网络开放获取资源等统一按学科进行整合,同一学科内再按数据库、电子期刊、网站、书目信息等分类,支持基于学科的浏览服务。当前,该实验室这种信息整合与集成揭示模式已被众多图书馆所采纳,如中国科学数字图书馆(CSDL)门户网站即按学科整合期刊、文献数据库等资源,提供基于上下文的开放链接服务及情景敏感的导航服务。
2 面向集中检索服务的Web信息整合
面向集中检索服务的Web信息整合又称为基于数据仓库的数据整合,其目标是采取统一数据模型对分布式、异构资源进行规划、平衡、协调、重组,构建集中存储的、同构的、稳定的数据仓储系统,消除分布式、异构性所带来的资源利用上的困难,提供集中检索服务。目前,国内外众多图书馆都采用这种整合策略建立自己的网络学科资源数据库、专题文献数据库等服务系统,并在整合技术研究方面形成了OAI-PMH等国际通用标准。该模式的优点是可以提供高效的检索服务;缺点是数据初始装载周期长,数据更新困难,需要高性能的存储、处理设备,资源的互操作性与可重用性较差。在整合实现上有以下几种方式:
2.1 裸数据整合
面向集中检索服务的Web信息整合即把多种本地数字化资源、授权分布式资源等合并到一个数据仓库中。最成功的应用范例是Dialog,它整合了数百个数据库,这些数据库由不同的开发商独立提供,包括书目、摘要、索引、统计、指南、全文等多种数据记录形式,Dialog采用数据仓库技术对这些数据库进行整合,并提供统一的Web检索界面[2],收到了非常好的效果。
2.2 基于OAI-PMH的元数据整合
OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting)是OAI组织发布的基于元数据的收获互操作框架[3],它由服务提供者(service provider)与数据提供者(data provider)两部分组成。其中,服务提供者遵循OAI-PMH规范,从众多数据提供者那里收获相关资源元数据,并以DC作为统一存储格式建立本地索引,提供集中式元数据检索服务。著名的元数据收获与集中检索服务系统有Southampton大学的Eprints、Old Dominion大学的ARC、OCLC的OAICat以及FS Consulting的my.OAI等。在众多应用系统中,Michigan大学数字图书馆项目OAIster已经从496个数据库收获了5687702条学术资源元数据记录(截止到2005年7月14日)[4]。
2.3 基于RSS的信息整合
RSS(Really Simple Syndication)是一种Web内容联合格式(Web Content Syndication Format),它包含一套用于描述Web内容的元数据规范,并提供一种新颖的Web内容联合机制,包括内容整合者、内容提供者和最终用户三个组成部分[5]。内容提供者在更新网站的同时生成网站内容描述文档RSS Feed并予以发布,内容整合者利用RSS聚合器参照RSS Feed内容收割网站信息(网站内容摘要或全文),并建立本地数据库,支持用户对多个网站内容的集成检索。RSS适合对已知网站的信息整合,例如,新闻搜索引擎NewIsFree(http://www.newsisfree.com/)利用RSS技术,以25种语言每天24小时不间断地跟踪数千个新闻网站,通过数百个新闻频道,为用户提供浏览、检索、通知等服务。
2.4 基于搜索引擎的浅层Web信息整合
搜索引擎是一种浅层网络资源集成技术,它根据HTML网页超链结构,利用爬行器(crawler)发现、获取静态网页信息,建立本地化全文索引体系,提供集中式检索服务。近年来,随着专业搜索引擎、主题搜索引擎以及个性化搜索引擎技术的发展,Web信息整合开始向特定信息类型、特定主题领域以及特定用户需求方向发展。例如,INFOMINE[6] 采用主题搜索引擎技术,广泛采集、整合网络学术信息资源,建立了包括生物农业和医学、经济与贸易等9个学科系列的网络资源数据库,为研究人员提供虚拟学术资源集成检索服务。
2.5 基于主题的深层Web信息整合
在Web空间中,数量更庞大、学术价值更高的资源被收藏在深层网络数据库中[7],对这类资源的整合十分具有挑战性。Old Dominion大学提出了DP9[8] 解决方案,即为数据库系统建立一个专用爬行器网关,采用重定向机制,将数据库资源开放给通用搜索引擎,支持通用搜索引擎对数据库资源的爬行、下载、索引与检索服务。与DP9不同,Stanford大学研究人员提出了基于主题的数据库资源整合方案HiWE(Hidden Web Exposer)[9],它采取查询表单自动填写、查询结果自动分析等技术,实现对数据库资源的发现、选择、过滤、整合与重组。DP9与HiWE均可以实现文档层次的全文信息整合,而HiWE基于主题的整合策略又使得对大型数据库资源的整合变为可能。采用与HiWE相似的技术,BrightPlanet的DQM(Deep Query Manager)已经实现了对7万多个数据库资源的整合[10]。
2.6 基于用户在线提交方式的信息整合
随着网络的发展,接受用户在线文档提交已成为Web信息整合的一种重要方式。利用文档在线提交系统,不但可以实现同一文档的多个版本信息的集成,如预印本、正式出版版本、后出版版本(post print)等,而且可以实现对文档相关信息的集成,如实现期刊论文与相关研究报告、实验数据、工具软件等信息的集成。这种集成方式主要通过机构知识平台(Institutional Repository,IR)来实现,目前最有影响的IR系统是由MIT和HP公司联合开发的DSpace[11],它采用数字对象技术实现对文本、音频、视频、图像等多种信息的整合组织,并支持基于OAI-MHP的元数据收获。
3 面向分布式服务的Web信息整合
数据仓库整合机制不仅存在资源更新的问题,而且在某些环境条件下,资源集中化组织也无法实施。例如,无法获得对分布式资源的本地复制存储授权,对庞大的网络资源实行集中存储将造成本地数据仓库不堪重负,等等。事实上,分布式信息环境不仅是自然的、不可避免的,而且是有利的,它能够有效地处理数字资源建设、管理中的许多棘手问题,如资源的可伸缩性问题、知识产权问题、个性化服务问题等[12],因此,面向分布式服务的Web信息整合更具现实意义。面向分布式服务的Web信息整合又称为联邦集成,其最大特点是保持资源分布式组织模式不变,通过在资源与用户之间构造一个中间件,实现对分布式资源的封装,从而为用户提供一个统一的检索界面。
联邦集成早由Wiederhold于1992年提出的[13],采取协调器(mediator)/封装器(wrapper)方式(如图1所示)。其中,封装器实现对异构资源的链接、查询以及将结果信息封装成公共数据模型(Common Data Model,CDM)。协调器则为用户提供一个统一查询界面,通过查询执行引擎(Query Execute Engine)实现对多个分布式资源的检索,并对从wrapper或其他mediator中获取的查询结果信息进行整合处理,以统一方式呈现给用户。联邦集成在体系结构上具有良好的扩展性,每一种查询模式(Query Pattern)对应一个协调器,每一种类型的资源对应一个封装器,对于新的查询模式与新的数据资源,只要构建与之匹配的协调器与封装器并在系统中注册就可以实现集成检索。当前,关于联邦集成的研究主要集中在分布式查询策略、个人隐私保护、信息安全策略等方面。其中,资源选择以及封装器、协调器构建是研究热点。典型的研究系统有TSIMMIS[14]、Squirrel[15]、WHIPS[16] 等。
附图
图1 面向分布式服务的Web信息整合结构
根据体系结构的不同,面向分布式服务的Web信息整合有以下几种实现方式。
3.1 基于中间件的整合
即采用分布式对象模型DCOM、CORBA、RMI等构建信息集成系统,实现对异构数据资源的整合。该方法的优点是:支持资源的分布式组织可有效避免资源更新的问题;采用标准中间件开发策略,提高组件的重用性,降低系统开发的代价。缺点是:每种中间件都有一套独立的体系结构和私有协议,不同模型系统间缺乏互操作性;需要客户端与服务器之间保持紧耦合关系,如果一端的执行机制发生变化,另一端便会受到影响;不适应对大规模、动态变化资源的整合。例如,根据Calvanese等人提出的资源驱动整合法(source-drive integration)[17],资源模式(source schema)映射为封装器,物化视图模式(materialized view schema)映射为协调器,当资源发生变化时将导致资源模式及物化视图模式的变化,进而导致封装器与协调器的重构,如果前后端不能同步更新,系统将无法正常运行。
3.2 基于SOA的整合
SOA(Service-Oriented Architecture)是一种面向服务的、部件化组织的系统框架。在这种框架下,一种服务被封装成一个部件,一个SOA实质上就是一组服务集合,这些服务间彼此通信,既可以实现简单的数据传递,也可以调用多个服务协同工作。根据OASIS(Organization for the Advancement of Structured Information Systems)的观点,一个SOA参考模型应该包括服务(service)、服务描述(service description)、服务发布(advertisement)、数据模型(data model)、语法语义约定(contract)等要素[18]。基于SOA的整合就是遵循部件化系统设计思想和Web Service技术规范构建封装器和协调器,其中,系统消息编码采用SOAP标准,服务描述遵循WSDL规范,服务发现与定位采用UDDI机制,并通过服务重组、调用,实现对分布式资源的整合。当前,SOA正在与网格、P2P、工作流等技术相结合。例如,Patrick C.K.Hung结合工作流管理将SOA整合系统分为4层结构:应用层、工作流层、服务层、消息层[19]。其中,应用层对应分布式服务,工作流层负责控制用户请求的执行及数据整合操作,服务层映射为WSDL协议,消息层映射为SOAP协议。由于SOA系统具有可重用性、互操作性、可扩展性、灵活性、高效性等特点,因此,特别适合构建松耦合的信息集成系统,代表着Web信息整合的发展方向。
3.3 基于网格的静态整合
即利用信息网格的组织机制,整合在网格系统中注册的主机资源,为用户提供点播服务、一站式服务等。该方式的优点是:采用网格技术能较好地实现对虚拟机及异构资源系统的协调管理与负载平衡,提高整合系统的性能,增加可靠性与易用性;支持大规模数据资源的整合。缺点是:只能整合在网格系统中注册的资源,因而,它是一种静态整合。在基于网格的信息整合研究中,英国Edinburgh大学、Manchester大学、Newcastle大学与IBM、Oracle的联合研究项目OGSA-DAI(Open Grid Service Architecture-Data Access and Integration Services)具有一定的代表性,该项目侧重于网格信息整合中间件及数据库存取与信息整合服务的研究[20]。这些研究机构认为,基于网格的信息整合系统的主要功能应包括:认证与授权、资源发现、数据转换、处理过程管理、异构平台的动态绑定等。
3.4 基于P2P的动态整合
P2P(Peer-to-Peer)是近年来兴起的一种分布式系统,它通过众多主机之间的互联及资源协同共享构造巨型信息存储设施,P2P的主要特点是支持互联主机的动态变化。采用P2P作为信息整合系统的基础结构,不仅可解决大规模数据源的整合问题,而且可实现Web资源的动态整合,使系统具有强大的扩展性。在基于P2P信息整合研究方面,挪威大学的Hao Ding等人提出了一种元数据整合方案[21]。他们将元数据分为三种情形:共享公共元数据、面向同一社区的元数据和面向不同社区的元数据。通过扩展OAI-MHP使其适应P2P网络,利用领域Ontology实现元数据之间的转换映射,最终在不同的Peer社区实现集成异构的元数据。另外,英国Edinburgh大学的Stratis D.Viglas提出了一个综合网格与P2P解决方案,即在网格的数据层和计算层中采用P2P组织结构,从而在实现资源动态集成、灵活扩展的同时,提高系统的负载平衡和容错能力[22]。
4 面向个性化服务的Web信息整合
面向个性化服务的Web信息整合是科研信息化与服务知识化发展的必然结果。它采用信息抽取、知识组织等技术,通过集成、揭示信息对象内容及对象间的语义关系,实现对分布式资源的语义组织,支持个性化、学科化服务。该整合模式具有以下特点:①需求驱动的思想得到充分体现。服务方式从简单的“请求/应答”式转变为“定制/服务”式,信息整合目标不再是为了解决单个的检索需求,而是面向用户的个性需求提供持久的跟踪服务。②协调器的功能得到增强。一方面,通过增加个性需求转换模块,将用户的个性化需求转换为对网络资源的发现、采集、组织、查询等操作;另一方面,协调器的整合功能从数据层面转向知识层面,在全局视图基础上增加知识组织模块,以便从整合后的资源中抽取、发现与用户需求相关的知识,并借助知识组织体系构建数字对象或知识地图,生成知识库,支持主动的推送服务与知识检索服务等。③封装器的类型得到扩展。面向个性化服务的Web信息整合将覆盖更广泛的资源,包括本地资源与分布式资源、浅层网络资源与深层网络资源等,封装器除传统的面向结构化数据库类型外,还将包括面向非结构或无结构资源的主题搜索引擎等。
当前,面向个性化服务的Web信息整合已被众多研究团体、学术会议所关注,相关研究主要围绕Ontology、语义Web、信息抽取等技术展开。其中,Ontology和语义Web主要应用于用户需求建模、全局视图定义、资源模式定义以及资源模式与全局视图的匹配算法等方面。例如,Illinois大学Huiyong Xiao等人提出了一个基于Ontology框架的XML与RDF资源整合方案[23];我国台湾Jiann-Jyh Lu等人应用Web代理、DAML+OIL等技术,实现了基于需求的生物学信息整合。该整合系统根据用户请求搜索恰当资源,经信息抽取、格式转换以及语义分析处理后,向生物学家提供概念检索服务[24]。信息抽取则应用于元数据的抽取、知识发现与组织。例如,英国Sheffield大学计算机科学系的Fabio Ciravegna等人提出了一种学习方法,以便在最小人工干预(提供初始URL等)情况下实现从大型数据库中抽取专题信息的目标[25];我国台湾Chun-Nan Hsuy等人提出了一种Web导航描述语言WNDL(Web Navigation Description Language),使系统能自动发现规则,实现数据的自动定位、抽取与合并[26]。另外,Aadesh Gandhre还提出了一个个人信息助理系统PIA(Personal Information Assistant)。它在自动学习的基础上,能根据用户兴趣自动整合相关网站信息,提供个性化服务。
总之,面向个性化服务的Web信息整合,其整合层次已从文献转向知识,学科化增值服务得到进一步重视,解决科研问题成为信息服务的最终目标。
5 结语
· 不同的信息整合机制基于不同的用户需求。面向学科导航服务的Web信息整合的主要目的是建立学科资源导航体系,帮助用户发现、选择、获取相关资源;面向集中检索服务的信息整合重视提高检索效率,并对决策支持、在线分析(OLAP)等深层信息处理提供资源保障;面向分布式服务的信息整合在保持资源分布式组织模式不变的情形下,实现一站式检索目标;面向个性化服务的信息整合则强调资源整合的深度,注重提供有智力劳动价值的知识服务。
· 多种整合机制之间互不取代、互相补充,它们共同构成完整的Web信息整合体系。例如,与SOA整合机制相比,中间件整合尽管不适合大规模、动态的资源集成,但其仍然应用广泛。一方面,是因为目前很多资源系统尚不支持Web Service调用;另一方面,在很多情况下,采用中间件技术可以达到比较好的用户满意度。
· 在整合系统建设中,应遵循需求驱动的原则,根据信息环境及用户需求特点选择整合机制。例如,可根据资源规模进行选择,对于小规模(比如GB级)资源的整合,采用数据库仓库方式效果可能更好,而对于大规模(如PB级)资源的整合,则适合采取联邦方式。
· 积极开展Web信息整合机制的研究,如基于SOA、P2P、网格等信息整合架构的研究,指导、促进分布式资源组织策略的改进,以便从资源层面增强对信息整合的支持,改进信息整合的效果。
标签:元数据论文; soa论文; 数据整合论文; 大数据论文; 分布式架构论文; 网站数据库论文; 用户研究论文; 数据集成论文; web技术论文; 数据封装论文; 分布式技术论文; 网络大学论文; web开发论文; 信息集成论文; 数据检索论文; 分布式开发论文; 数据库论文;