网络主题图的原理及应用,本文主要内容关键词为:原理论文,主题论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 网络主题图的发展和特点
主题图经历了一个发展变化过程。它最早可以追溯到20世纪90年代初,开始的思想是希望建立起智能化电子索引并能支持这些索引间的相互融合。近年来主题图成为一种功能更为强大的模型,而且它已经不再局限于索引领域。1986年SGML正式成为国际标准(ISO8879),它具有跨平台、可移植、结构化、重复使用等特性,为制作电子文件提供了国际标准。为了提供SGML的多媒体与超级链接功能,1992年开发出HyTime,并成为国际标准(ISO10744),此标准于1997年修正为第二版。由于HyTime过于复杂,因而导致“主题导航地图”(Topic Navigation Maps)的产生,这也就是主题图的前身。为了更加便于专业信息的组织和顺应跨学科领域的发展趋势,后来提出了主题图(Topic Map)的概念,并于1999年获得国际标准组织的认证,2000年成为国际标准(ISO/IEC 13250:2000 Topic Maps)。2001年3月2日发布XTM(XML Topic Maps)第一版,2001年10月,XTM DTD被ISO13250所采纳。XTM标准详细规定了用于创建主题图的XML标签集和相应的语法规范,由于采用HyTime标准来定义主题图的语法,因此又被称为HyTM,2002年由TopicMaps.Org负责修订第二版(ISO/IEC 13250:2002)。ISO/IEC 13250主题图为网络信息的组织和利用提供了规范。
主题图在ISO/IEC13250中被定义为:“是一套用来组织信息的方法,使用这种方法可以提供最佳的信息导航”。主题图将所有可能的对象,例如人、事、时、地、物等,不论其是一具体存在的物质或是抽象的概念,皆统称为主题。从描述主题本身的属性开始,进而组织与此主题相关的所有资源,对这些资源进行定位,最终将所有相关的主题,依据彼此间的关系及相对与该关系的角色,建构出一个信息主题图。网络主题图则利用了网络浏览的特性,可以直接联结到所需资料的所在之处,却又不会跳出某一主题的信息组织架构。因此,主题图可以说是将主题、关联性及资源实体三者利用主题索引的概念及网络的特性加以结合。主题图类似语义网络的知识表示法,在语义网络模型中,主要利用节点与链接进行知识架构的组成,节点可表示对象、概念或特定领域中的情境,而链接则用来表示与定义节点间的关联。主题图综合了传统索引、图书文献组织与人工智能等领域知识的优点,可以更加有效地组织信息知识,有利于解决大量无序信息所带来的问题。主题图提供一个网络信息交换的模型,它是沟通信息和知识的桥梁,帮助用户浏览信息资源。利用主题图可以组织大量信息资源,建立起结构化的语义链接网络。主题图是信息领域的“资源定位系统”。它允许简单地有选择性地导航到所需信息,可以定位某一知识概念所在的资源位置,也可以表示知识概念间的相互联系,因此主题图实际上也就是知识表示和组织的一种基本技术。
2 网络主题图的构成
客观事物往往具有其某些特征,如名称、位置、存在的特定范围以及某一事物和其他事物之间的联系等,这些事物在主题图中的反映就是一组主题。这些主题同样也包含自身的特征集合,基本的特征是主题的名称,主题所在的资源实体以及它与其他主题间的关联。一个主题图就是一个由主题、关联性以及资源实体组成的集合体。因此,主题图的架构可分为3部分,即TAO。
1)T——Topics(主题)。根据XTM标准,主题就是现实事物的具体化,主题可以是任何的名词,如名称(Name)、基本名称(Base Name)、显示名称(Display Name)和排序名称(Sort Name)。其中基本名称是必须的,而显示名称和排序名称则可根据需要设置,但不允许在同样的环境中出现两个不同的主题具有同样的名称。主题图标准并没有将所有主题可能用到的名称都罗列出来,而只是选择了几个有代表意义和特殊用途的作了规定。主题类型(Topic Types)是主题所归属的类别,是典型的分类实例关系,它们能够自定义为主题,允许主题图自我编制。一个主题可以归属一个以上的同类型主题类型;主题类型在主题图中也被认定为一个主题。它可以是表示任何事物对象的名词。
2)A——Associations(关联)。关联是一个描述两个或多个主题间相互关系的连接元素,表示主题间的语义关系,将具有相同关系的主题汇集成群。这种主题图与信息资源的分离性,还使得同一个主题图可以被用于多个不同的信息资源,就像一个信息资源可以拥有多个主题图一样。关联同样具有不同的类型,关联类型本身也是以主题的方式定义的。这种为关联赋予不同类型的做法使得主题图的功能更加强大,它可以将给定的主题按照关联类型进行聚合。关联自身具有多方向性,因此在创建关联时,应确切地知道谁是影响者,谁是被影响者。很多情况下,同样的两个主题间可能会存在多个不同的关联类型范围。主题间不同的关联类型是由于它们位于不同的上下文环境中,而“范围”就是用来描述上下文环境的概念。
3)O——Occurrences(事件或资源实体)。主题链接的一个或多个可寻址(Addressable)的信息资源,可以是内部或外部链接,如同资源指引类型的资源指引角色(Associations Role),也被视为主题。
TAO以主题描述知识架构及其关联性,主题则又可以被对应到其他主题或现实世界中的媒体对象,而资源指引则是指引到一个属于该主题资源的可识别载体。一个主题可能和一个或多个信息资源相关联,这些信息资源就是主题图中的资源实体。这些资源实体一般都是独立于主题图文档之外的。一个资源实体可以是关于某一主题的专论,也可以是描述某一主题的图像或视频,甚至只是简单地提及到该主题的一段文字。正是因为资源实体具有如此多样的类型,主题图标准中才设置了资源实体角色和资源实体角色类型这两个概念,用来区分不同类型的资源。
3 网络主题图的建立
建立网络主题图主要是根据XTM的规范来进行。XTM定义了主题图的抽像模型和XML语法,可以描述信息资源的知识特性,能够方便地进行信息与知识管理,便于在Web环境下应用,对查找和浏览网络信息起到很大的作用。下面是XTM语句的样例:
<topic id=“t-italy” types=“tt-country”>
<topname><basename>Italy</basename></topname>
<occurs><locator role=“or-webpage”
href=“http://www.travel.it/”/>
</occurs>
</topic>
<topic id=“t-milano” types=“tt-town”>
<topname><basename>Milano</basename></topname>
<occurs><locator role=“or-webpage”
href=“http://www.traveleurope.it/milano.htm”/>
</occurs>
</topic>
要建立网络主题图,首先要将各种不同的资源进行主题内容分析,以找出可代表各资源之主题,定义出主题图中的T(Topic);其次,针对各主题之属性及特色找出其中的关联处建立其相关性,进一步定义出各主题之间的关系,加以串连形成关联,即为主题图中的A(Association);最后,为便于使用者利用资料,可以直接链接到有关网页,即主题图中的O(Occurrence)。上述3个步骤的整合,表现出主题图中TAO的观念。应该将所有可能获得的信息进行元数据分析,再遵循ISO13250的架构,并以XML方式呈现,建构成完整的主题图。
目前已经出现了一些建立和管理XTM的工具。如Ontopia主题图引擎是一种软件开发工具包,它贯彻了主题图标准描述的内容,包括了通用的主题图导航、通用的主题图编辑器、通用的主题图需求引擎、特定应用程序的导航器、编辑器与检索工具、从其他种类的数据源中创建主题图的工具、主题图内部知识挖掘的特定项目工具等。使用引擎软件能够获取与管理主题图的结构。有了这种引擎就可以直接从交换格式中下载一个主题图,通过它的惟一的ID定位一个主题,并且列出与它有直接联系的所有主题。Ontopia引擎以一种普遍的方式实现,不依靠任何特定的程序,使用它既可以开发特定项目,也可以开发通用功能的主题图应用程序。除了完全支持主题图标准之外,Ontopia主题图引擎还对主题图标准进行了一些拓展。
4 网络主题图的应用
1)网络信息检索。由于主题图采用XML语言编写,实现了知识概念的内容与知识表示方法的分离,因而可根据用户的不同需要提供各种不同的信息浏览与检索模式。XML标记明确地表达了它的涵义,搜索引擎就可以按关键词和内容之间的关系对特定的信息进行准确定位,从而能根据用户所提供的关键词,清楚地知道用户表达的语义而返回正确的结果。由于XML的语义结构化,可将其作为结构化数据的交换标准,改善信息检索的效果,使得代理信息检索变得更加个性化。同时主题图具有良好的网络特性,能解决网络信息资源的检索问题,以帮助使用者有效地浏览电子信息资源。可以预见在不久的将来,主题图将成为信息处理的基础,能为各种类型的信息资源实体创建虚拟的知识地图,形成全球范围的信息组织与检索系统。
2)网络信息组织。随着网上信息的内容及应用快速增加,实现网络信息管理自动化是非常必要的。主题图是一个用来有效组织与管理大量信息资源的机制,其最终目的在于建立一个个性化与最佳化的信息接口,并提供使用者能快速掌握与轻松学习知识的操作接口。通过XTM则能通过浏览器提供综合服务,采用XTM进行数据的描述和接口格式的定义,并进行目录等信息的交换和自动更新,以实现自动分类处理。利用具有语义的XTM标记数据,可以较好地解决网络信息组织管理问题。
3)网络信息挖掘。XML具有语义性,便于进行信息提取分析。XML能够使不同来源的数据很容易地结合在一起,使检索多个不兼容的数据库成为可能,从而为解决网络的数据挖掘带来新的途径。XML的扩展性和灵活性允许描述不同种类应用软件中的数据,从而能搜集网页中的数据记录。同时,由于XML的数据是自我描述的,其标签具有语义性,数据不需要有内部描述就能被交换和处理。因此,XML可以容易地将XML的文档描述与关系数据库中的属性对应起来,进行信息查询与抽取。随着XML作为交换数据中的一种标准方式出现,网络的数据挖掘和知识发现将会变得容易实现。XTM把知识撷取和知识推论技术应用于网络信息里所记载之各个主题间的关系上,将可以发现更多内隐的知识。
4)网络信息资源的整合。在网络环境下,由于存在着异构的操作系统平台和数据库,导致信息交流和共享困难。异构系统之间数据交换的办法之一是采用统一的信息交换格式。XML因其具有自定义性及可扩展性等优势,便于表达各种类型的数据,可作为异构数据库之间的中间件,解决数据的统一接口问题。面对网络信息多元化的挑战,多方位的跨越便是其中一项重要的研究课题。跨越实体馆藏与建立虚拟馆藏主要是定位问题,也就是如何对网络信息进行集成的问题。XML可以用来构造数据集成的中间层,将源数据转换成集成数据,简化集成系统的查询转换,为用户提供涉及多数据源的统一查询机制,用统一的方式使用来自不同数据源的各种各样的数据,屏蔽各数据源在结构、运行环境上的差异。主题图标准规范是被应用在建置网站资源的知识管理整合的技术。网络上经过筛选整理的网络资源及每个主题图之间的链接,可以建置整合的信息管理引擎,从而集成网络各类信息资源。
5)网络信息过滤。网络信息过滤是根据一定的标准和利用一定的工具从动态的网络信息流中选取或剔除相关的信息的一系列过程。它有助于减轻用户的认知压力,提高获取信息的效率;在保护用户免受不良信息侵扰方面发挥了很好的作用。网络信息过滤的方法较多,从过滤的手段来看,可以分为基于内容的过滤、基于网址的过滤和混合过滤三种。基于内容的过滤是通过文本分析和图像识别等方法阻挡不适宜的信息。要对信息内容分析,就要对有关的主题以及联系进行把握,主题图提供信息之间的语义联系,容易发现相关主题的内容,因此便于进行过滤。
6)数字化资源的知识管理。主题图里所储存的信息资源主要包括了使用者感兴趣之主题领域(Subject),各类实际存在的人、事、时、地、物等主题词(Thesaurus),或是概念上或形式上的词汇术语(Ontology)。这些有意义的词汇统称为主题(Topics),构成了主题图里一个节点(Node)。每一个主题所拥有的相关事件(Occurrence),指的是某一主题本身所具有的表征(Character)或所有物(Property)等资源,以及任何与该主题有关的信息。主题、关联、事件就像是三度空间里的点、线、面,都是用来将一特定知识领域具体化。也就是说,抽象的知识经由主题图这种知识呈现机制的描述与组织后,将可形成一个有如地理空间的地图,具体地建构出一个知识地图(Knowledge Map)。使用者将可依据个人对与某一特定知识领域的认识与了解,从他所熟悉的或有兴趣的主题方向出发,利用主题图的导引,将可清楚地、快速地掌握整个庞大且复杂的知识地图。主题图就是利用一定方式控制信息获得及浏览,详细叙述各种浏览层级,并仿真复杂的知识管理关系,为建构知识管理系统而发展的一套方法论。应用主题图处理方法,能为全球信息网络创造虚拟的知识地图。依据XTM来建构一个有效组织与明确呈现知识的结构化知识管理模式,以便于储存、获取与推导知识,达到知识共享与知识创造的最终目的。本文写作过程中,研究生严贝妮协助整理了部分资料,特此表示感谢。