语义网格环境下数字图书馆知识组织研究,本文主要内容关键词为:语义论文,网格论文,数字图书馆论文,组织论文,环境论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
修回日期:2006-04-11
〔分类号〕G250.76 TP393
数字图书馆是以知识概念为支撑的一种信息服务和知识服务环境,也是重要的社会信息基础设施之一。数字图书馆的知识组织,不仅是实践性问题,而且也是信息资源管理理论研究的重要领域。美国学者Linda Hill等人认为,在数字图书馆中必须融入知识组织体系[1],将数字图书馆的总体结构延伸扩大,以便在发展和使用其馆藏和服务设施的过程中同时考虑知识的表达与组织问题,从而引发了国内外对数字图书馆知识组织的极大关注。学者们发现数字图书馆中的知识既有形态上的多样性、内容上的复杂性,又有存储上的分布性和组织上的异构性。这些特征决定了知识组织是数字图书馆建设的核心与重点,其质量的好坏直接影响到数字图书馆工程的成败。因此,开展数字图书馆知识组织的统一规范标准、策略、应用模型等系统研究尤显重要。
1 数字图书馆知识组织研究的现状
1.1 语义Web技术的应用研究
在数字图书馆知识组织中,国外学者展开了对语义Web技术的应用研究,具体如下:
荷兰学者Brendan Rousseau等人认为,数字图书馆应智能化地选择、组织、管理、发布知识,为用户提供知识服务,对于数字图书馆的设计和进一步的开发,应使用语义Web的层次结构来构建其语义互联基础与信息表达框架。目前已经存在语义Web的基础构件,但是仅依靠这些构件还不足以实现数字图书馆的语义互联[2]。
德国学者York Sure和Rudi Studer认为,语义Web技术推动了数字图书馆知识组织的发展。语义Web的重点在于对数字图书馆中知识库和对象进行语义描述,并利用本体技术建立通用模型,解决分布式异构知识库的互操作,进而对其具体应用进行展望。他认为,语义Web技术可以解决用户接口和人机交互、信息空间中用户统一模型、个性化服务及用户交流协作。目前,要解决的关键问题是如何为用户提供多知识库的统一视图[3]。
美国学者Deborah L.与McGuinness讨论了利用增加语义解释层的办法处理语义Web环境下用户提问的问题[4];意大利的F.Giunchiglia与P.Shvaiko就语义匹配进行了深入研究[5];斯坦福大学知识系统实验室R.Guha等人研究了语义检索问题[6];IBM阿尔马登研究中心的S.Deill[7]、美国B.Hammond[8] 等人提出了一系列语义标注的新方法,美国A.Shet与C.Ramakrishnan则报告了他们关于本体驱动的信息检索、分析与整合应用系统的研究情况[9]。
国内学者同样针对这一问题从不同的角度进行研究,其中武汉大学黄如花博士提出:利用知识地图和语义Web技术实现数字图书馆三个层次的可视化知识组织(词汇表、分类体系和关系列表)[10],张振海提出利用ontology解决知识获取、知识重用、知识共享及下一代数字图书馆运行环境——是基于ontology+Grid的[11];但对如何实现,并没有详细展开,也未给出具体的方法与模型。
南京理工大学颜端武等人认为,数字图书馆要满足用户知识和个性化需求,提出了基于语义Web、数据挖掘的智能推荐检索机制[12];其他与用户需求相关的研究主要集中于对基于语义Web检索的理论探讨,在技术上并未真正实现。
北京理工大学余正涛等人以数字图书馆领域个性化服务为例,以空间向量模型表示用户兴趣和资源特征,借助于构建的领域本体与“知网”知识词典对向量进行概念上的扩展,形成用户及资源特征概念空间向量,并通过向量相似度计算寻找最优的资源,从而有效地将用户和资源虚拟组合在一起[13]。
上述国内外学者从用户和知识库的角度,对语义Web技术在数字图书馆知识组织中的应用进行了研究,主要关注于知识库之间和知识库与用户之间的语义互联互操作,尚未对用户之间具有语义关联的需求进行语义匹配及语义整合,也没有对数字图书馆系统本身的异构性、分布性给予过多关注。
1.2 网格技术的应用研究
近年来,国内外一些研究机构针对网格技术在数字图书馆分布和异构知识的整合方面进行了深入研究,其中国外具有代表性的研究项目包括:
DELOS[14](DELOS Network of Excellence on Digital Libraries)项目是由欧盟信息社会技术Frameworks Programme5(IST-FP5)创建的,其主要是从7个方面研究数字图书馆:①DELOS数字图书馆体系结构;②信息的存取和个性化;③视听与非传统对象;④用户接口与可视化;⑤知识提取与语义互用;⑥数字资源保存;⑦数字资源评估。
Old Dominion大学数字图书馆研究组在其原有的Open Archives Initiative(OAI)系统研究和实践基础上,提出“Digital Library Grid”项目[15],目的在于通过网格来降低整体运行成本,同时增强服务的可用性与服务质量。研究组提出了“数字图书馆网格”项目的系统体系结构。
由Old Dominion大学数字图书馆研究组提出的FreeLib[16] 项目,是基于P2P网络的新型数字图书馆试验系统,对该数字图书馆在设计、实施、发布和评估过程中面临的主要问题进行研究。主要目标在于建立一个可持续的、对动态演变社区提供支持的数字图书馆;同时FreeLib通过与Archon相结合得以整合到美国国家科学数字图书馆的体系中去,能够提供一种不同于传统数字图书馆的可替代服务。
ARCO[17] 是葡萄牙国家数字图书馆(Biblioteca Nacional Digital,缩写BND)中进行海量多媒体数据存储的一个试验性项目,主要是研究网格环境下海量数据的存储。在ARCO的结构体系中,主要研究系统与操作系统、网络资源以及Globus中间件的交互。
DILIGENT[18] 是由欧盟IST-FG6提供支持的,采用EGEE网格项目研究成果的一个研究项目。它的主要目标是建立一个先进的测试环境,使用e-Science公用平台共享知识并能通过安全的、协同的、动态的和经济的途径进行协作;项目测试环境将建立在整合网格和数字图书馆技术的基础上。整合技术将引发功能上的突破,并为下一代的e-Science协作平台奠定基础。
GRACE[19] 项目是一个关于信息检索的项目。该项目计划在欧洲Data Grid技术的基础上开发一个分布式的搜索和分类引擎,它不使用集中式的数据库,而是在每个网格结点本地索引文档并使用和存储位置邻近的计算机资源。这种分布式的应用比以前的集中数据库更加规模化,可以为不同的数据源提供更多的个性化搜索选项。它支持多种语言,尤其是欧盟各国的语言,并能够创建功能强大的网格工具组。
国外这些项目的研究内容和方向各有侧重:DELOS侧重于结构体系的理论构建,偏重于网格结构、P2P结构和面向服务结构的三者融合;Digital Library Grid与FreeLib基于OAI模型,使用网格结构和P2P结构;ARCO、DILIGENT、GRACE与GridIR的结构体系都以网格结构为主。最后一种的不同之处在于:ARCO主要研究网格环境下海量数字资源存储结构,目标在于为数字图书馆的海量资源提供透明的、可管理的接口;DILIGENT结构体系主要侧重点在于为用户提供强大的个性化服务,对数字图书馆结构体系进行整体的研究;GRACE结构体系侧重于本体与语义互用在数字图书馆系统结构中的应用,从语义层面入手研究数字图书馆。它们的共同目标都是为实现分布异构的数字图书馆知识组织提供基于网格的解决方案。
与此同时,国内也展开了基于网格技术的数字图书馆应用研究。其中武汉大学的“数字图书馆网格应用模型研究”项目,提出了基于OAI的数字图书馆网格应用系统框架结构,认为该方案能够有效地解决多个异构数字图书馆之间的资源共享问题[20]。
在OAI-PMH框架的基础上,北京理工大学郑志蕴等人提出全新的互操作框架——数字图书馆网格DL Grid。即利用网格技术解决数字图书馆资源发现、整合、跨仓储检索、安全等问题,为实现大规模数字图书馆的互操作提供了一种新途径[21]。
上海交通大学杨宗英主要从用户角度出发,认为网格技术为数字图书馆中的单点登陆、无障碍的语义理解、知识的智能聚合、知识的映射等服务的实现提供了技术支持。但对于如何实现,尚未提出具体可行的方案[22]。
国内外研究者发现:网格技术在解决数字图书馆资源的分布与异构,实现信息资源全面整合等问题上具有巨大潜力,利用网格实现平台和环境的无关性与独立性,形成虚拟计算组织,用户可以在全球任何地方访问所需的知识,从而使知识得到充分共享。但是,这些研究多是基于网格的数字图书馆研究,更侧重于解决数字图书馆知识物理上的分布及异构,而对数字图书馆知识的语义互联与互操作缺乏足够的重视。
2 数字图书馆知识组织研究的新基点——语义网格
目前,基于语义Web技术数字图书馆知识组织的研究及基于网格技术的数字图书馆分布式异构资源整合的研究,已经取得了较多的研究成果,但这些成果都没有真正实现“以用户为中心”的数字图书馆知识组织。两种研究的侧重点不同,但没有将两者的研究相结合。实际上,数字图书馆中知识的语义互联性、分布性和异构性是紧密联系不可分割的,融合这两方面有助于提高数字图书馆知识组织效率,是当前数字图书馆亟需寻找的一种解决方案。
2.1 语义网格的提出
在英国e-Science[23-24] 的计划研究中,人们发现网格的现有努力和e-Science设想之间存在差距,要达到e-Science的易用性与无缝自动化要求,必须避免人类的过多介入,而是实现机器的可处理性,这与语义Web的目标有某些相似。于是,在2001年该计划最先提出了语义网格的构想,并且于2002年在全球网格论坛GGF成立了语义网格研究组SEM-GRD。他们的语义网格构想的关键之处就是把所有的资源包括服务,都用一种机器可处理的方式来描述,其目标是实现语义的互操作性。实现方法之一就是将语义Web的技术应用到网格计算的开发中。
语义网格技术是新一代的Internet技术。语义网格通过语义Web技术与网格(Grid)技术的结合,提供资源内容(信息)共享能力,即信息系统的语义互操作能力。一方面,网格是Web在计算能力上的提升,而语义网格是网格在语义能力上的扩展;另一方面,语义Web是在现有Web上增强了语义能力,而语义网格是语义Web对计算能力的扩展[25]。值得注意的是,“语义”是从下到上弥漫在整个网格中,而不是仅仅在其上增加了一个语义(知识)层,如图1所示[26]。
2.2 语义网格与数字图书馆知识组织
随着语义网格概念的提出,国内外一些学者试图将这种新技术应用于数字图书馆的知识组织。
英国Ali Shiri在e-Science项目报告中提出:利用本体为数字图书馆构建基于网格的语义框架[27]。Ziga Turk指出,语义网格技术对于识别和标注概念与术语、本体描述、体系结构构建以及用户需求分析起着至关重要的作用;语义网格技术在互操作、数字图书馆、虚拟组织等方面扮演着重要的角色;但对于如何将语义网格技术应用于数字图书馆知识组织尚未作出详细阐述[28]。
希腊学者Ioannis Papadakis等人提出一种基于网格技术的语义数字图书馆框架。这种框架遵循OGSA规范以优化网格的基础结构,从而使之能够高效地处理某类信息;基于面向服务的B/S结构,这种框架的设计原则能够通过开放的标准技术(如RDF和OWL)的运用来挖掘潜在信息的语义,从而满足用户的需求[29]。
美国的Reagan W.Moore认为,语义网技术能够表述指定的实体与其对应的元数据之间的关系。语义Web技术、数字图书馆和数据网格技术的整合,具有管理数字图书馆与数据网格命名空间的能力,本体的使用可以表示命名空间内部关系和命名空间之间关系、数字图书馆和数据网格管理数据与工作流的状态信息,从而构建一个推理引擎来映射网格服务间的属性,并开发本体工具来管理网格服务[30]。
武汉大学董慧认为,数字图书馆知识组织体系的建设应该基于语义网格,语义网格和数字图书馆共同的目标都是资源的规范组织、语义互联与智能聚合;提出了语义网格环境下的数字图书馆新的知识组织体系标准,认为语义网格环境下的数字图书馆知识组织体系研究应该和现有知识组织体系兼容,应该加快标准化研究工作与应用模型及系统的建设[31]。
从这些研究中,笔者认为使用语义网格技术可以为数字图书馆构建一个中间的环境。一方面能够形式化地描述知识,使其负载的语义能够为机器所解析和认识;另一方面使数字图书馆中的知识实现负载平衡与松散耦合,从而将知识、服务和用户有效地整合起来,这也是数字图书馆知识组织梦寐以求的目标。
语义网格技术的应用,为数字图书馆知识组织提供了新的思维方式和新的理念;为数字图书馆知识的松散耦合与集中管理提供了理论依据;为数字图书馆分布资源共享及协同工作开创了新途径。
3 语义网格环境下数字图书馆知识组织的研究核心
3.1 研究目标
语义网格环境下,研究目标是探讨基于语义网格技术的数字图书馆知识组织策略,分析研究数字图书馆知识组织的规范标准与核心技术,深入揭示数字图书馆知识组织对象之间的内在联系,构建一个完整的基于语义网格的数字图书馆知识组织系统。
3.2 研究内容
在Web环境下,由于语义Web技术、网格技术的应用,使数字图书馆知识组织在提供个性化、人性化知识服务方面取得了一定的进展。语义Web技术主要集中解决知识库与知识库之间、知识库与用户之间的语义互联及互操作;而网格技术主要解决数字图书馆知识库和用户在物理上的分布与异构。这为语义网格技术应用于数字图书馆知识组织,为理论探讨转向实际应用奠定了基础。探讨语义网格环境下数字图书馆知识组织的统一规范标准、策略以及构建与现有环境相兼容的知识组织体系已成为转向中的关键问题。
3.2.1 规范标准研究 对现有Web、语义Web和网格环境下数字图书馆知识组织进行系统分析,研究数字图书馆知识组织的理论、方法、技术、工具与体系。结合语义网格技术,探讨语义网格环境下数字图书馆的知识组织原则、体系、方法、步骤、工具及知识描述语言,由面到点地展开语义网格环境下数字图书馆知识组织统一规范标准(以下简称“标准”)的研究,为数字图书馆知识组织提供依据。该标准包括统一的知识标注、统一的知识分类和规范、统一的知识操作与统一的知识视图。
3.2.2 策略研究 其主要研究内容包括以下两方面:
● 语义互联策略。应用有效的知识标识语言RDFS、DAML+OIL、OWL、Loom、OKBC、TM、CycL、OWL等,对知识库中的对象和用户需求表达进行语义描述;在实践研究的基础上,探讨数字图书馆语义互联策略,并构建数字图书馆知识库语义互联模型和用户需求语义表达模型。
——知识库的语义互联策略及应用模型研究。对知识库中的对象进行语义描述,通过单一语义映像和多层语义互联,将知识库从多个不同类型的语义空间变换整合到统一的语义空间,构建语义网格环境下数字图书馆知识库的语义互联模型,实现跨专业、跨数字图书馆系统的语义互联与语义互操作。
——用户需求的语义表达策略及应用模型。对用户需求进行语义分析,应用有效的知识标识语言进行语义描述。在此基础上,探讨基于语义网格的数字图书馆用户需求语义表达策略,构建基于数字图书馆用户需求的语义表达模型。
● 智能整合策略。应用虚拟组织机制,将知识、服务和用户智能地整合在一个虚拟空间,构建基于语义网格的数字图书馆知识组织的智能整合模型。
——分布异构知识库的整合策略及模型。针对数字图书馆的分布异构知识库群,利用语义网格技术将这些资源有效地聚合在统一的资源空间,实现资源的广泛共享。主要研究内容包括:①知识的共享、协同、集成与管理机制;②语义网格接口规范与集成模式;③知识的存储、传输和搜索机制;④语义网格服务的可靠性、可用性与非平凡性等;⑤构建基于语义网格数字图书馆知识库的整合模型。
——用户需求整合策略及模型。针对数字图书馆用户需求语种上的多样性和语义的复杂性,利用语义网格技术将用户需求有效地整合到统一的用户需求空间,使得具有语义相关性的需求用户能够实现共享资源上协同工作。研究主要内容包括:①用户需求空间的共享、协同与管理机制;②用户需求空间语义聚合的策略;③对语义相关的用户需求进行语义聚合,构造用户需求空间;④构建基于语义网格数字图书馆的用户整合模型。
3.2.3 数字图书馆知识组织系统 在标准的指导下,构建完整的、与现有环境兼容的、基于语义网格的数字图书馆知识组织系统是研究的最终落脚点。
3.3 研究思路
①利用网格技术,构建数字图书馆知识组织的模拟环境;②构建多个知识库,对这些知识库中的对象进行统一的语义标识;③构建用户需求的语义表达模型,并对用户的需求进行语义描述;④将分布异构的知识库整合到统一资源空间;⑤将经过语义描述的用户需求进行语义聚合,并整合到统一用户需求空间;⑥构建语义匹配模型,将统一资源空间和统一用户需求空间利用虚拟组织机制整合到统一语义空间。
具体研究思路如图2所示。
将语义网格引入数字图书馆知识组织,解决知识需求与知识获取之间的矛盾,提高数字图书馆知识组织的效率;将知识组织由观念与理论探讨全面转向实际应用,提高数字图书馆知识服务的效率。语义网格环境下,数字图书馆知识组织的研究应在统一规范标准的基础上,从语义互联和智能整合两方面入手,提出基于语义网格的数字图书馆知识组织策略及应用模型,构建与现有环境兼容的数字图书馆知识组织系统。
4 结语与展望
笔者认为,数字图书馆知识组织要求体现出知识的语义性;数字图书馆知识的多样性要求知识组织的统一性;数字图书馆知识的动态性要求知识组织的灵活性;数字图书馆知识挖掘要求知识组织的推理性。若不对现有数字图书馆知识组织进行改进,则无法较好地解决知识忠实表达、无差异理解和合理有效组织的问题,不能从根本上改变数字图书馆知识组织低效率与用户对知识需求的高标准之间的矛盾。
在数字图书馆知识组织中有很多关键技术需要解决,其中突出的问题是如何进行知识语义描述,达到语义互联和语义互操作;如何使分布异构的数字图书馆系统协同工作,提供知识最大限度的共享;如何优化数字图书馆中的知识资源,提供知识化的服务,从而提高资源的利用率[32]。
基于语义网格的数字图书馆是未来的发展趋势,今后3-5年语义网格的概念和相关技术将日趋成熟并全面应用于数字图书馆的知识组织[33]。知识、服务和用户被整合到统一的语义空间,实现语义互理解、互操作。在统一的语义空间中,知识库实现语义互联和语义互操作;用户需求实现语义上的忠实、无差异表达;用户需求与知识库完成语义匹配,达到互理解;具有共同需求的用户可以交流协作;从而真正实现知识组织方法从“语法”到“语义”再到“语用”的跨越[34],最终提高资源的利用率。
语义网格环境下数字图书馆知识组织研究还有如下需要迫切解决的关键问题:①应用有效的知识标识语言,对资源进行语义描述,通过单一语义映像和多层语义互联,将知识库群从多个不同类型的语义空间变换并整合到一个统一的资源空间;②针对数字图书馆用户需求表达具有语种的多样性和语义的复杂性特点,利用语义网格技术将用户需求有效地整合到一个统一的用户需求空间,使得需求具有语义相关性的用户能够实现在共享资源上的协同工作;③应用虚拟组织机制,将已经整合到统一资源空间的、分布异构的知识库和整合在统一用户需求空间的用户需求统一纳入一个虚拟语义空间中,实现知识库与用户需求的语义匹配,达到用户需求及知识库的互理解。
标签:数字图书馆论文; web技术论文; 语义分析论文; 组织策略论文; 异构网络论文; 用户研究论文; 项目组织论文; 组织环境论文; 用户需求论文; 网格系统论文; 知识体系论文;