语义Wiki特性分析与应用研究,本文主要内容关键词为:语义论文,特性论文,Wiki论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
【分类号】G250
1 引言
Web2.0理念和技术给知识服务的发展带来了前所未有的机遇,这种以用户为中心并充分重视和利用集体力量的服务理念,使得知识的获取、交流都发生着重大的变化。各种个性化、交互式、自由开放的系统应运而生,它们能够很好地支撑用户以协作方式处理和交流知识,即建立泛在用户知识环境[1]。Wiki作为Web2.0的标志性代表,在知识服务领域有着广泛的应用前景,它的操作性、协作性和开放性使之成为知识交流和共享的平台。语义Wiki是近几年Wiki发展过程中的一个重要发展方向,随着语义Web技术和Wiki技术的成熟,语义Wiki的研究也逐渐成为一个热点方向。
2 语义Wiki特性分析
在知识服务快速发展的过程中,各种知识环境正在逐步形成,各类知识对象(数据、文献、设施、过程、机构、人员、政策、项目等)正在被逐步数字化、网络化。这些信息资源通常以不同的组织方式分散在各种不同机构。在这样一种新的数字知识环境下,利用语义Wiki快速构建知识服务平台,帮助用户动态地发现、查找和获取知识成为新的亟待解决的问题[2]。利用语义Wiki的特点,将Wiki设计成为语义本体呈现的工具,能够将信息变为知识,同时知识及知识之间的关系能够被计算机所获取和处理。由于语义Wiki的各种信息以及超链接等显性知识的背后蕴含着大量的隐性知识,使得知识个体能够形成新的隐性知识,然后通过文本等显性知识的形式发布到Wiki上,形成新的知识群体,进而可以利用语义Wiki构建用户知识环境,如图1所示。
图1 语义Wiki构建知识环境
语义Wiki的特点主要体现在以下几个方面:
(1)通过知识模型获取、描述和表示知识,能够给出知识之间相互关系的明确定义,减小问题域中概念和逻辑关系可能造成的误解,降低知识的不确定性。
(2)通过语义相关技术,如RDF、OWL和主题图或概念图对Wiki内容进行标注以及结构化描述,并使用描述语义含义的链接进行语义标注。
(3)通过本体组织Wiki内容,使得Wiki知识关系随着超链接的增多,其整体知识结构被清晰地呈现出来。
(4)通过Wiki页面链接增强Wiki上下文信息的语义表达能力,并提供相关信息增强导航能力和语义检索能力。
3 语义Wiki理论研究
通过对Science Direct、ACM、IEEE等数据库及相关国际大型项目的研究与分析发现,截至2009年底,关于语义Wiki的理论研究,以学术著作形式发表的研究成果居多,期刊论文较少,而在学术论文中,以IEEE论文居多,但包含不少学术会议论文。这说明语义Wiki的研究已经逐渐成为热点,但是就期刊论文少,也说明了语义Wiki的研究实时性并不佳,其应用研究方面仍有待进一步深入和发展。对于知识环境中语义Wiki的研究,主要包含有语义Wiki整体模型设计与实现的研究,也有针对语义Wiki某一方面功能的研究,比如,针对语义Wiki内容和本体进行语义标注;利用语义搜索技术进行语义Wiki检索研究等。目前国外针对语义Wiki的研究主要集中在以下几个方面:
3.1 语义Wiki标注机制
Wiki系统页面语义标注是用户向Wiki页面添加语义信息的过程,主要包括元数据方式的语义标注和RDF描述方式的语义标注。
(1)元数据方式的语义标注
元数据方式的语义标注是通过人机交互界面提供用户和Wiki页面进行交互的方式。Wiki页面由主题、内容和链接构成,页面与页面的关系通常是主题与主题之间的链接关系,对Wiki页面进行语义标注的对象是Wiki中每个页面的链接。语义标注内容主要针对页面链接的属性及属性值,标注后所产生的属性元数据信息用来描述页面与页面间的链接关系,即相当于给链接赋予了一定的类型说明,而属性值元数据信息则是对属性元数据信息的进一步解释说明[3]。按照这种方式对Wiki页面进行的语义标注,需要参照一些元数据标准,如DC2 Education或IEEE LOM等。
在语义Wiki系统中,用户除了可以对当前Wiki页面中的条目进行编辑、修改之外,最重要的一点就是可以对当前页面中所感兴趣的条目进行语义标注。例如美国旧金山州立大学的学者研发出一种协作式标注工具Annotizer,能够帮助用户群以协作方式对页面内容进行语义标注[4]。用户可以在网页中自己选择相关内容,并用元数据词汇方式进行语义标注,被标注的网页被存储在数据服务器中,群体中其他用户都可以分享这些标注内容。德国卡尔斯鲁厄大学信息技术研究中心FZI也进行了语义标注的相关研究,并提出创建基于组建、关系型元数据的标注框架(Crewing RElational,Annotmion-based Metadata,CREAM)[5]。该框架将标注信息看成一套从特定环境中抽取的实例,同时以基于图形用户界面的方式进行网页标注,帮助用户使用简单的“拖曳”方式进行元数据创建和更新。
(2)RDF描述方式的语义标注
RDF描述方式的语义标注是运用RDF三元组来规范化描述页面元数据信息的方式,通过定义每个页面的主体、客体以及谓词关系,从而进行语义标注。在语义Wiki中,一个Wiki页面代表一个Wiki资源,以页面的主题作为RDF的主体,页面中的元数据信息作为谓词和客体[3]。在用RDF对资源进行描述的基础上,这些资源主体之间的关系是可以被机器所理解和处理的,运用RDF定义的元数据模型,能够制定属性和相应的值,从而描述元数据之间的关系。在RDF中,用属性和值代表RDF所描述的谓词和客体。
韩国科学技术学院等的研究人员分析了本体映射方式后提出实现语义Wiki自动在线标注语言资源的方法,其核心思想是用户输入术语以后,使用预定义的模型映射表创建三元组,通过RDF三元组来实现语义标注[6]。在这个过程中,如果输入无法辨别的术语,系统将提示通过同义词表进行术语转换。通过本体映射将RDF描述的三元组转换成为后台的本体数据,从而生成高效的语义Wiki网页内容,而这些语义Wiki的标注词汇都来自于本体数据。按照这种方式,在语义Wiki中能够帮助用户群实现对本体数据的单独使用并作相应的修改,消除用户群对概念理解的差异,从而达到合作编辑的目的。
3.2 语义Wiki导航机制
语义Wiki系统的导航机制,即通过链接进行标注,为Wiki系统页面提供信息导航服务。在系统中沿着链接方向进行跳转导航的基础上,提供描述链接关系的附加关联信息,通过这些信息提供更加复杂精确的导航。
在语义Wiki系统中,导航功能主要体现在导航链接框和导航图。导航链接框由导航链接组成,主要分为两大类,包括导出链接和导入链接,即对应导航链接框中的“导出”和“导入”。导出链接是指链接的起点是本页面,而链接的终点是其他页面的链接;而导入链接是指链接的起点是其他页面,而链接的终点是本页面的链接[7]。导航链接框在一个独立的链接框中显示与当前页面所有语义相关的页面,并将属于同一层次结构下的内容以图形树的形式显示在导航图中。导航链接框的主要作用是对当前语义Wiki页面内容结构进行更为清晰的表达,主要利用语义标注信息来对页面内容进行结构化呈现。
系统将具有相同类型的链接集合起来并以图形树的形式显示在导航图中。语义Wiki系统中默认的链接类型通常是“Untyped”,即用户没有给链接添加任何标注信息;当用户给某一链接添加标注后,链接类型即会反映在导航树形结构中。用户点击这些链接可以跳转到相应的页面中。除此之外,导航图还会对导航链接进行图形化显示,以使得当前页面中的超链接关系能够更为直观地被显示出来。德国弗里德理西—席勒·耶拿大学进行的一项浯义Wiki研究中,重点研发了能够同时创造和产生语义Wiki内容和本体的Maariwa系统[7]。该系统利用本体构建语义Wiki文本内容的同时,采用了链接方式集成语义Wiki的内容来增强语义导航功能。
3.3 语义Wiki检索机制
通过语义Wiki系统的检索功能,使得每个查询都在本体的上下文范围内执行,通过本体关联提高检索的准确性。用户能够从Wiki知识库存储的知识信息中获得额外的、潜在的知识,从而提高检索的精度和覆盖率。语义Wiki的检索机制主要使用的是概念匹配,即自动抽取文档的概念,加以标注,用户在系统辅助下选用合适的词语表达自己的信息需求,然后在两者之间执行概念匹配,即匹配在语义上相同、相近和相包含的词语。
悉尼科技大学与法国国立工程师学院等的研究学者研究了基于网站本体数据的建立和管理方法,提出了利用语义Wiki在知识资源环境中快速、动态、灵活地发现、查找、获取所需知识资源的方法[2]。以本体作为数字知识资源的基本知识组织形式,根据不同的应用环境,按照用户需求进行知识挖掘和知识发现。同时,对一些关键问题包括可用性、数据可靠性和数据质量等做出了详细的分析。最终通过关键问题的研究,使得语义Wiki经过有效的推理,达到并实现语义检索的目的。德国人工智能研究中心等研究团队在进行语义Wiki相关研究的过程中,也提出了一种思想,以文件为向导的环境中运用语义特性,通过文件向导发挥智能检索的优势,并将这种技术运用在协助知识用户进行知识发现、知识检索等工作方面[8]。这种以文件为基本形式结合知识库的方式能够充分挖掘隐性知识,有助于隐性知识的检索。该研究团队采用基于语义Wiki系统构建的Mymory工作平台作为调查和研究的基础,同时支持手工化和自动化的Wiki文档标注,在工作环境中能够自动获取信息模型,同时能够建立以具体环境为导向的相关语义检索服务。
4 语义Wiki项目分析
随着支撑语义Web技术的日趋成熟,语义Wiki系统的发展也愈加迅速。这些系统在设计理念、体系结构、采用标准、实现技术、系统规模以及数据组织形式、发布方式等很多方面都不尽相同。
4.1 语义Wiki项目介绍
本文重点对比国外三个有代表性的、具有较好应用基础和应用成效的语义Wiki系统,分别是Semantic MediaWiki系统、PAUX系统和IkeWiki系统,从系统和语义特性两个方面,对三个系统行进分析和比较。
(1)Semantic MediaWiki系统
MediaWiki是运行于PHP环境的著名Wiki知识库引擎,从2002年2月25日被作为维基百科全书的系统软件进行运用。Semantic MediaWiki(简称SMW)则是MediaWiki的再扩展,为能够更好地搜索、整理、标注、浏览、评价和分享Wiki的内容提供有力支撑[9]。不同于传统的Wiki只包含计算机不能理解和评价的文本内容,SMW增加的语义注释使原来的Wiki成为协作数据库。2005年,SMW首次发布,目前已有超过10个开发商投入其中,并且已经在数百个网站上运行。
(2)PAUX系统
PAUX是一款较有特点的语义Wiki软件,通过可重复使用的语义内容对象来管理和发布动态的个人内容信息[10]。它是一个比较好的知识内容管理系统,通过语义内容对象的概念来实现语义Wiki的功能。PAUX系统独特的模式在于通过链接,例如单词、句子、图片、任务等单一内容,来实现知识挖掘和知识发现。
(3)IkeWiki系统
IkeWiki是由奥地利萨尔茨堡大学主导研究的语义Wiki系统,该系统通过Wiki添加语义元数据,允许用户对网页间的页面和链接添加语义标注。添加的信息内容能够被机器所理解,从而增强了Wiki内容在复杂情况下的使用率[11]。目前,IkeWiki系统能够通过结构化的RDFS和OWL Schemas来增强语义导航功能,尽管IkeWiki在很多方面看起来与Wikipedia或者MediaWiki相似,但事实上IkeWiki与它们是完全不同的系统。
4.2 项目功能比较分析
从特征方面对三个系统做了详细的分析比较,如表1所示。
通过对以上语义Wiki系统的分析和比较,可以看出这些系统都具有比较好的应用性和扩展性。SMW和IkeWiki均为开源软件,被广大研究人员和用户群体大量使用;而PAUX虽然作为商业运营的语义Wiki软件,也并不是严格意义上的非开源软件,PAUX对合作伙伴提供免费服务。通过对三种语义Wiki系统的深入比较研究,三者在Wiki服务方面的功能都较为全面,并且有很多相似之处。
4.3 项目语义特性分析
三者在语义方面也表现出各自的特性:
(1)在SMW中,每一个语义标注通过属性链接到页面的另一些数据,包括另一些页面或者数据值,通常这些属性通过三元组的方式实现,即主体、谓词和客体。SMW具有以下三个特性[12]:
①自动性
Wiki往往包含许多信息列表,需要经常手动更新,所以很容易出错。此外,用户感兴趣的信息列表数目庞大,系统不可能提供所有的新信息。在SMW系统中能够自动产生信息列表清单,并且总保持最新信息,这样可以很容易地进行定制,以进一步取得准确资料。
②增强性
SMW系统将Wiki语义标记存储在模板中,被称为语义模板。通过使用这些语义模板,系统可以很容易地获得增强的数据结构。同时扩展的语义形式能够让用户添加和编辑语义模板的数据内容,从而使得增加语义信息变得更加容易,比普通Wiki文本形式更为简单。
③重用性
SMW的数据不需要保留在Wiki页面中,它能够很容易地以CSV、JSON和RDF等格式导出,这使得SMW能够成为其他应用系统的数据源,特别是在企业级的系统应用中,能够扮演相关数据库系统的角色,同时也能够使用其他系统的数据,通过三元组存储器组件从远程系统查询语义数据并反馈其他应用系统的查询结果。
(2)PAUX系统在浯义特性方面使用PAUX对象来定义规则,PAUX对象可以是词、句子、标题、图片、人物等规则,词、句子和其他数据库对象被独立链接,PAUX系统不存放HTML页面,而是通过独立的语义数据库对象进行存储,被称为PAUX-Links。PAUX对象用来描述事物内容本身并被作为独立的数据对象进行存储,由于描述内容具有高粒度性,因此这些内容具有复用性(可重复使用的对象)。同时PAUX对象还有一种对象,称为容器对象(Container Objects),它能够包含另外一些PAUX对象。PAUX系统最为重要的对象关系图部分示例如图2所示[13]。
图2 PAUX系统对象关系图示例
(3)IkeWiki作为Java开发的Web应用程序,使用的是层架构。当资源被请求时,XML页面内容和相关RDF数据在翻译通道里面被检索,并转换成XML描述[14]。XML描述主要应用在两个方面,包括Web服务的内部格式转换和被转换成HTML格式在用户浏览器进行呈现。页面存储组件负责从数据库存储和检索页面内容,并支持版本控制。页面内容被描述成XML格式,被称之为WIF(Wiki Interchange Format)。其中翻译通道是一个重要的概念,它将页面内容和语义标注结合起来,输出WIF文档,包含相关的语义标注(例如链接类型,上下文适配)。其中文档由很多Wiklet组成,每个Wiklet向WIF文档添加特定的信息片段,同时可以根据权限来设置用户访问权限,从而控制不同用户的视图。IkeWiki系统架构如图3所示[15]。
图3 Ike Wiki系统架构[15]
5 结语
近年来,国外的大学、研究机构、公司企业对语义Wiki研究的关注程度越来越高,语义Wiki与语义技术一起成为各国重点研究的新兴技术之一。将Wiki的开放性、自组织性和协作性与语义技术结合起来,充分发挥两者的优势,借助群体的力量不断完善知识信息的发展和更新,促进知识的不断演变和优化,使得科研环境中的知识服务系统能够积聚智慧,并激发新知识的产生。语义Wiki的研究已经不再局限于理论探讨上,而且在语义Web等相关技术的发展之上开展了大量的实证研究并取得了一定成果。语义Wiki技术将随着本体、逻辑推理等关键技术和各层支撑技术的发展,逐步改善现有的Wiki模式,并最终创造和实现真正的全球化语义Wiki。
收稿日期:2010-02-10
收修改稿日期:2010-04-09
标签:元数据论文; rdf论文; 大数据论文; 语义分析论文; 用户研究论文; 用户分析论文; 数据检索论文; mediawiki论文;