网格知识组织研究,本文主要内容关键词为:网格论文,组织论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G201文献标识码:A文章编号:1007-7634(2006)06-0806-04
1 引言
网格(Grid)研究源于美国政府在过去10年中资助的一些大规模高性能计算项目——分布式超级计算(Distributed Supercomputing)或元计算(Metacomputing)。它是利用现有互联网的架构,把地理上广泛分布的各种资源,包括计算资源、存储资源、带宽资源、软件资源、数据资源、信息资源、知识资源等整合成一个逻辑整体——一台虚拟的超级计算机,它能够为用户提供一体化的信息和计算、存储、访问等应用服务,虚拟的组织最终实现在这个虚拟环境下进行资源共享和协同工作,彻底消除资源“孤岛”。[1] 网格是构筑在互联网上的一组新兴技术,它将高速互联网、高性能计算机、大型数据库、传感器、远程设备等融为一体,为科技人员和普通百姓提供更多的资源、功能和交互性。互联网主要为人们提供电子邮件、网页浏览等通信功能,而网格的功能则更多更强,它能让人们透明地使用计算、存储等其它资源。”传统因特网实现了计算机硬件的连通,Web实现了网页的连通,而网格试图实现互联网上所有资源的全面连通,包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等。
2 网格研究的现状
短短几年时间,网格技术在各个领域就得到迅速发展。各国政府相继公布了本国的“国家网格计划”。学术研究机构和组织纷纷提出了自己的网格研究目标。IT业的一些公司,如Microsoft、IBM、SUN等,也推出了与网格相关的技术平台。甚至连媒体,也开始不断的炒作网格的概念。与网格相关的新名词更是不断涌现。笔者认为当前关于网格的研究主要在三个领域展开:计算网格研究、信息网格研究和应用网格研究。
最初,网格研究主要是面向科学和工程计算,将分布的计算机和其它设备组织起来,协同解决复杂科学和工程计算问题,我们称这类网格研究为计算网格研究。它的目标是将跨地域的多台高性能计算机、大型数据库、贵重科研设备(电子显微镜、雷达阵列、粒子加速器、天文望远镜等)、通信设备、可视化设备和各种传感器整合成虚拟的超级计算平台,获得前所未有的处理能力,用于解决诸如飞行器数字模拟、核爆炸模拟、天体运行模拟、虚拟现实和高分子材料分析等需要超强计算能力的科学和工程问题。这方面的代表性研究工作包括Globus项目、美国国家科学基金会资助的NPACI(National Partnership for Advanced Computational Infrastructure)、国家技术网格(NTG)、分布万亿次级计算设施(DTF)、美国宇航总署的IDG、美国能源部的ASCIGrid以及欧盟的DataGrid等。其中,最著名的网格计算研究是美国的Globus项目。
随着网格研究的不断深入,人们开始思考如何利用网格技术或网格思想来消除信息孤岛和知识孤岛,实现信息资源和知识资源的智能共享。这类研究的侧重点是智能信息处理。当前,我们面临的是一个信息爆炸的时代,各种信息成指数地快速增长,而现有的Web信息服务器就好像Internet世界上一个个孤立的小岛。虽然这些“小岛”之间暂时还有充足的带宽资源可用,但大量的信息还是被“锁”在各个小岛的中央数据库里,各“孤岛”之间并不能按照用户的指令进行有意义的交流。解决这一问题的最佳途径是建立跨越Web的信息分布和集成应用程序逻辑——信息网格。信息网格通过对信息源的数据、信息和知识进行有效的描述、组织、管理、处理、交换,以一种新的结构、方法和技术来管理、访问、分析、整合分布的数据,提供了一体化的信息获取、处理与应用服务的基本技术框架以及智能化的信息处理平台和基本应用环境,从而实现信息的有效共享与互操作,提供信息的联机分析处理与服务。在信息网格中,各种信息资源被统一管理和使用,信息处理是分布式协作的和智能化的,用户可以通过信息网格门户透明地使用整个网络上的各种资源。信息网格的最终目标是把Internet上的信息服务站点连接起来,实现服务点播(Service on Demand)和一步到位的服务(One Click Is Enough)。
企业界的研究则大多集中在尽量利用现有的Internet/Web技术,将因特网上的资源整合成一台超级服务器,有效地提供内容服务、计算服务、存储服务、交易服务、内容分发(Contents Delivery)、服务分发(Service Delivery)、电子服务(E-service)、实时企业计算(Real-Time Enterprise Computing,简称RTEC)、分布式计算、Peer-to-Peer Computing、Web服务(Web Services)等方面。
3 网格给知识管理带来的发展机遇
随着网格研究,特别是信息网格研究的深入,图书情报学界的学者们开始关注这项新技术对信息管理活动的影响。
中国人民大学褚俊认为未来信息管理的发展,“应该以知识和信息的导航为目标,以具有高性能计算的网格技术为基础平台,……,围绕着知识和信息导航这一目标,信息管理活动将更注重知识内容的挖掘、知识的发现、隐性知识的显性化等问题;其次,也更强调知识和信息的描述与组织问题,注重不同层次、不同学科的链接,构建以知识元为单位的知识链;第三,提供服务时更将以人为本,做到个性化、专业化、精确化及保证私密;第四,采用新技术和网格的高性能计算,将可以解决知识信息的海量存储、智能检索、高度共享、高速传输等问题……。”[2]
温有奎和赖伯年也指出:“回顾人类信息管理活动的发展,我们的信息管理当前还面临一些技术性的障碍,……,使我们难以对人类迄今为止的全部知识成果进行全面梳理,从而构建“知识体系”的框架,并确定各知识单元之间的逻辑关系。而网格技术的发展,从技术手段上为人类的这一梦想提供了实现的可能性。”[3]
可见,虽然网格的研究刚刚起步,我们对网格及其给人类信息管理活动带来的影响的认识还较为肤浅,对信息管理的未来还没有形成清晰准确的认识。但有一点可以肯定,网格对信息管理领域的影响是变革性的。尤其是知识组织和知识服务,在网格环境下面临新的发展机遇。
4 网格环境下的知识组织
按照布鲁克斯的理论,分析和组织知识是情报学的逻辑起点。他所指的知识组织,是对文献中所含内容进行分析,找到人们创造与思考的相互影响及联系的节点,像地图一样把它们标记出来(即知识地图),以展示知识的有机结构,为人们直接提供所需要的知识。
基于网络的超文本的实现在一定程度上已经实现了布鲁克斯“知识地图”的设想。然而,目前所达到的水平与布鲁克斯的知识地图还有一定的差距,其本意是分析文献中的逻辑内容,找出人们进行创造和思考的知识节点和相互之间的联系,从而形成和展示知识的有机结构。但目前我们还没有找到知识的恰当表达和计量方法,尽管我们利用超文本技术形成了一个庞大的网状结构,但其中的各种元素基本上还是停留在文献层,准确地说是运用知识组织的思想进行的文献组织与仅描述信息的一些特征不同,在知识组织时代,人们对知识的描述已渗透到知识本身。因为科学知识本身是在认识中获得的,如实反映自然界、社会和思维现象及规律,并用于社会和历史的逻辑知识。由于科学自身的整体性、综合性、继承性、累积性,使得科学知识间有着很强的相关性,这种相关性决定了深层次进行知识描述和组织,并以此进行知识创新的可行性,所以人们对信息知识的描述已经深入到知识本体。
显然,现有的组织知识方式(如题录、索引、文摘、文献数据库等)存在两大缺陷:一是组织是知识载体——文献,而不是知识本身;二是检出的文献只含已有的知识,未能揭示其间的内在联系,为产生新知识提供营养土壤。因此,知识组织在较长的一个时期内将成为图书情报学的首要研究课题。
4.1 网格知识表示
信息网格是应用层的软件基础设施,各行各业都有将该行业的数据信息发布到网格上的需要,因此出现在信息网格上的信息种类是多种多样的,包括结构化、半结构化和非结构化的数据。信息网格的目标之一是实现信息的连通,也就是说信息的一体化。要实现这个目标,就必须对目前Internet上的各种信息资源进行统一的表示和封装。
(1)基于XML的知识表示。XML即可扩展置标语言,它是SGML的一个子集。XML实现了Web文件的内容和数据表示形式的分离,是一种有效的数据页面表示和描述语言。XML与元信息的结合将使界面表示和数据存储统一起来[4]。
XML文档以树形结构包含和描述数据、数据类型(数据结构)以及文档结构。它可以包含语义,也就是说能够给一个置标赋予确定的语义。像逻辑、语义、产生式、框架等这些知识表示方法在形式上都具有良好的结构,都可以用巴克斯范式(BNF)来描述。通过运用namespace及URI(Uniformed Resource Identifier)给XML的某个置标定义确定的语义,所以就能够为一段具有确定功能的代码(即过程)定义置标,从而把过程知识表示法融合进来。XML文档可以通过超链接实现一对多和多对多的对应,从而大大扩充了对知识的表达能力。此外,XML能够直接描述各种图结构。这样由XML所表示的属性和语义再加上XLink,就可以完整地描述任何语义网络。
可见,XML提供了一种统一的形式来描述逻辑、产生式、框架、过程、语义网络等多种类型的知识表示方法,这样就能够把不同类型的知识融合在一个完整的知识库中。基于XML的元数据描述使界面表示和数据存储统一起来,而利用SOAP的对象访问方式可以解决信息在表达和传输方面所遇到的问题。
(2)基于XML Topic Maps的知识表示。XML主题图(XML Topic Maps,XTM),是关于一定主题领域的概念体系,可以是叙词表或分类表,也可以是一定资源集合主题内容的结构化表现。主题图独立于技术平台,描述主题、主题关系以及主题与具体资源的联系,可“标引”信息资源并建立相应索引、交叉参照、引文体系等,可链接复杂主题范围的分布资源来建立虚拟知识体系,可通过主题概念与资源的不同链接在同一资源集合上定制面向不同用户的界面。XML基于ISO13250标准,定义了用XML描述和标记主题图的方式。由XML标记的主题图是XML文件,称为XML主题图,可开放地标记叙词表和语义网络。
(3)基于RDF的知识表示。RDF(Resources Description Frame)资源描述框架控制如何在各个域中表达元数据的语义、句法和结构,以至使得为某个领域开发的元数据格式能够与第二个领域开发的格式相融合,并且还可用于第三个领域而不失掉原语句的清晰性。RDF具有混合框架与语义网络的特色,这里知识是以物件-属性-值(Object-Attribute-Value)结构表达的,包括有序对表示、图形表示和XML文件表示3种方式。RDF是对数据语义的表达,通过XML namespace机制,可以将所表示的某个领域的知识与之相应的语义相联系,从而解决了领域知识的语义问题。在RDF技术的基础上,W3C又提出了资源描述框架定义集(Resource Description Framework Schema,RDFS)。RDFS就是将实例信息种概念与概念之间的关系抽取出来,表示为知识库中的本体。它允许用户自定义除了RDF基本描述集合以外的特定领域的概念元数据集合,即本体(ontology)。目前,已有一些通过RDFS来定义的通用知识库概念集合,如Dublin Core、Ontology Inference Layer等。
(4)基于本体的知识表示。本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇和术语,从不同层次的形式化模式给出这些词汇(术语)和词汇间相互关系的明确定义,通过概念之间的关系来描述概念的语义[5]。
基于本体的知识表示方法认为任何复杂的知识都由最基本的概念构成,这些最基本的概念称为本体;本体是基本概念的详细说明。本体是用节点表示概念的有向图,将概念分成3个方向:对象、事件、属性;节点间的连接表示概念间的关联。应用本体可以很好地解决信息语义异构问题。
(5)集成知识表示方法。采用单一的表示方法时往往描述限制较多,知识形式过于单一,无法满足多种发现任务的需要;很难直观、高效地体现知识的普遍关联。因此有关专家提出了一些综合知识表示方法,主要有对象的知识表示和混合知识表示等[6]。
元数据抽象化了数据对象的描述,使得各种信息可以通过元素属性与值之间的关系对来表达。我们将这种元数据叫做数据表示的中间层。一般来说,数据的表示可以建立多个中间层,在各个应用程序逻辑层中都有相应的数据中间层。
目前分布式异构信息集成的方式主要有两种:结构方法和语义方法。采用结构方法的著名项目是Standford大学开发的TSIMMIS系统,采用语义方法的著名项目有MOMIS系统。结构方法的主要特点是实现比较简单、信息源相对比较固定。其缺点是扩展性差,不提供语义级的检索。语义方法的主要特点是扩展性好、适应动态信息源、支持语义级查询、使用本体作为语义层集成手段。其缺点是实现比较复杂,牵涉到本体的创建。本体的创建涉及到领域专家建模、概念提取,概念分类等相关的处理。
网格上数据所固有的异构性、分布性、增长性和变化性决定了结构方法不适应Web信息集成。语义方法成为当前Web信息集成研究的重点。语义集成主要有两种方式:自顶向下和自下向顶。自顶向下方法是在领域专家参与下,建立本体,由本体来统一底层各信息源的语义。自下向顶的方法首先提取底层各信息源的局部数据模式,其次在局部数据模式上抽取局部概念模式,最后在局部概念模式上构造全局概念模式(即本体)。
4.2 网格知识组织
信息网格是由“知识结构”、“知识单元”、“知识元”采用关联和链技术组成的层次知识链网状知识关系图。“知识元”构成了知识网络的最小单位,是求解问题的证据,是信息网络的核心。知识元具有独立性、封装性、继承性、被消息通讯性等特点。“知识元”不是孤立的,它们之间必然存在一定的联系,这种联系体现“知识元”之间的逻辑依存关系,我们把这种关系用“知识链”表示。分析“知识链”的构成规则,由知识链构成一个文本的“知识单元”。建立“知识元”与“知识单元”之间的对象关联关系。信息网格通过网格计算实现知识动态调用,达到知识动态利用效果。
构建起“知识网络”的框架的难点在于,我们需要对人类迄今的全部知识成果进行全面的梳理与组织,构建起知识体系的框架,并确定各个知识单元之间的逻辑关系。
5 结语
如果说在手工操作时代,对海量的文献信息管理深化到“知识单元”层次只是一种无法实现的理想的话,那么,网格技术的发展,已经从技术手段上为人类的这一梦想提供了实现的可能性。我们有理由相信网格的发展必然像当初Internet和Web一样在对传统的信息组织和管理方法和理念提出挑战的同时推动知识管理学研究再一次飞跃。