典型标签本体模型的比较分析研究,本文主要内容关键词为:分析研究论文,本体论文,模型论文,典型论文,标签论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
近年来,随着Del.icio.us、flicker等Web2.0网站的普及,一种新型的网络信息分类法——Folksonomy开始应用到越来越多的网络系统中,Folksonomy的重要组成元素——自由标签以其自由而开放的标注方式而备受网络用户的青睐。但是目前的自由标签还存在诸多缺陷,如标签的多样性、模糊性和组织方式的非等级性等,这不仅有碍于网络系统之间的交互和代理软件的自动化处理,同时也引发了一系列检索方面的问题。本体可实现对某一领域知识的共同理解,并能从不同层次的形式化模式上明确词汇间的相互关系,使知识能够在人与人之间、人和系统之间以及各种异构系统之间进行广泛的共享和交流。因此,引入本体可有效克服自由标签的多样性、模糊性等缺陷。在这一思路的指引下,国内外越来越多的学者开始关注自由标签与语义网、本体结合的研究。
2 典型标签本体模型分析
近年来,许多学者都致力于自由标签与本体的结合研究,先后创建了Tag Ontology、SCOT、MOAT、NAO等标签本体模型,其中Tag Ontology、SCOT和MOAT知名度较高,应用较广,具有一定的典型性。下面将具体分析上述三大典型标签本体模型的构建原理。
2.1 Tag Ontology
Tag Ontology模型由Newman等于2005年提出,该模型利用三元组Tagging(User,Resource,Tag)表示标签标注行为,并描述了用户、资源和标签三者之间的关系[1]。
Tag Ontology的简化模型如图1所示,它通过定义一个中间节点tags:Tagging连接标签、标引者和资源,并分别用属性associatedTag、taggedBy、taggedResource将标签、标引者、资源与标注操作(即中间节点)连接起来。另外,Tag Ontology除了定义自己的命名空间外,还引用外部本体词表来表示相关内容,如用FOAF词表的foaf:Person类代表执行标注操作的标注者、用SKOS的skos:Concept属性规范标签和标签类之间的关系、用都柏林核心元数据的子属性dc:date表示标注操作的日期。在Tag Ontology模型中,每个标签都被分配一个URI做标识,这种方式便于语义地表达标签之间的联系;为了克服标签的多样性缺陷,该模型还通过定义属性tags:related和tags:equivalent连接含义相同或相关的标签[2]。
图1 Fag Ontology模型图
Tag Ontology模型已通过OWL实现并在实际中得到应用,如用户评论网站Revyu便采用了该模型[3]。与Del.icio.us、flicker等类似网站不同,Revyu基于语义网架构用FOAF词表描述评论者、用Tag ontology模型标注评论内容。Tag Ontology模型的使用使得Revyu上的资源具有丰富的语义信息,更便于用户浏览和搜索[4,5]。
2.2 SCOT(Social Semantic Cloud of Tags)
SCOT是Social Semantic Cloud of Tags的简称,由爱尔兰国立大学数字化企业研究所、首尔大学生物医学知识工程实验室和SCOT-Devd语义网研究小组共同研究完成。SCOT为协作标签提供了一种基于语义层面、能被机器理解的一致性框架,它不仅描述单个标签的标注操作,也描述了协作标签的标注操作,即多个标签之间的交互过程[6]。
SCOT的简化模型如图2所示[6],它包含3个类以及35个属性,其中Tagcloud和Tag是两个核心类:Tagcloud类表示标注操作中产生的标签集合、Tag类则表示标注操作中的某个具体标签。SCOT借鉴了Tag Ontology中描述单个标签标注操作的部分(见图右端);此外,它用scot:contains属性描述了类TagCloud与scot:Tag之间的关系,即Tag属于TagCloud;用scot:hasUsergroup表示参与标注活动的用户组;同时,为了克服标签的多样性缺陷,SCOT还定义了scot:spellingVariant和scot:delimited等属性用以连接含义相同的标签。与Tag Ontology类似,SCOT引用了DC、SIOC、FOAF和SKOS等外部本体词表中的某些类和属性。例如,利用SIOC描述站点信息、站点—站点之间、站点—资源之间的关系,利用FOAF的类表示参与标注的人或机器,利用SKOS的概念和属性明确标签间的语义关系[2]。
图2 SCOT简化模型图
目前,SCOT已被应用到int.ere.st、relaxseo等网站中[7]。int.ere.st是一个专为SCOT而建立的网站,它可以聚集、检索和共享多个标签站点的SCOT本体[8]。通过int.ere.st,用户可以保存、标注和共享他们的SCOT本体;同时,它还可以帮助用户自动创建语义数据,如FOAF和SIOC等[9]。
2.3 MOAT(Meaning Of A Tag)
MOAT是Meaning Of A Tag的简称,由爱尔兰国立大学数字化企业研究所、法国电力公司研究与发展中心和LaLIC研究所共同研发而成。MOAT的目标是借助于一个语义网模型提供一种便于机器理解的标签定义方式。为此,它定义了两种标签含义类型:全局含义和局部含义。全局含义代表Folksonomy网站中与某一标签有关的所有含义的列表,如“长城”可以代表“万里长城”、“长城牌电脑”、“长城牌香烟”、“长城牌汽车”等;局部含义则指该标签在某一特定环境下的含义,如“长城”用来标注“中国文化遗产”相关内容时则代表“万里长城”。为了形式化地表示新添加的“含义”维度,MOAT将Tag Ontology的三元组模型扩展为四元组形式,即Tagging(User,Resource,Tag,Meaning)。另外,为方便机器识别同一标签的不同含义,MOAT引用知识库中的URIs来表示这些含义,同时引用SIOC和FOAF等外部本体词表中的相关属性来定义标签[10]。
MOAT的简化模型如图3所示[10],该模型分为全局含义和局部含义两部分。在全局含义部分,MOAT用moat:hasMeaning关系属性将标签的所有含义与标签本身进行连接,用moat:meaningURI属性将每个moat:Meaning与知识库中已存在的URI进行连接,用foaf:maker属性将moat:Meaning与其创建者进行连接;在局部含义部分,MOAT借鉴Tag Ontology的某些类和属性,用以标注局部含义下标签的创建者、站点和资源等。
图3 MOAT简化模型图
在实现上,MOAT的框架结构由MOAT服务器和MOAT客户机两部分组成。MOAT服务器主要为用户提供标签的含义列表,方便用户选择与标签匹配的含义;为方便用户定义和选择标签URI,MOAT客户机提供了一个接口,用户只需在博客工具上装一个客户插件即可。用户创建的内容一经保存,客户机便会立即向服务器提出请求,列出所有与该标签有关的概念URIs,如果用户没有找到相关的URIs,可以定义一个新的含义并提交,MOAT服务器中的全局含义便会随之更新[11]。目前,MOAT已经被应用到LODr[12]、Openlink Virtuoso[13]等网站中,用户可以在这些网站中为其编辑的内容添加语义标签。
3 典型标签本体模型比较
创建标签本体的目的在于通过提高标签的语义表达能力以克服其模糊性、多样性等缺陷,这要求相应的模型能语义地表达标签的单个与协作标注操作。Hak Lae Kim等认为标签本体模型应包括如下元素:标签集、用户组、来源、频度和标签标注,其中标签标注又包括资源、标签和标引者三个子元素[14]。本文认为,一个完备的标签本体模型还应包括“含义”这一元素,因为只有对标签的含义进行限定才能有效消除标签的模糊性。下面以上述元素为标准,分别从基本信息、类、属性三个方面比较分析Tag Ontology、SCOT、MOAT三大典型标签本体的语义表达能力和适用性。
3.1 典型标签本体模型基本信息的比较
Tag Ontology、SCOT、MOAT三种标签本体模型的基本信息如表1所示。
从表1中的比较可以发现:
(1)三种标签本体都是通过将本体引入标签这一方式来解决标签的模型性、多样性等问题,但是在实现的功能上,三者各有所长。Tag Ontology主要用来描述单个标签标注操作,而SCOT在此基础上进一步描述了协作标签的标注操作,在一定程度上克服了标签的异构性缺陷,因而更适合于社会化网络环境下的标注行为。MOAT侧重于为标签添加语义含义,并引入知识库的URIs予以限定,因而在一定程度上解决了标签的模糊性问题。
(2)三种标签本体除了定义了各自的命名空间外,都在一定程度上引用了其他本体词表,引用较多的有SKOS、FOAF、DC、SIOC等本体词表。例如,利用SIOC描述站点信息、站点—站点之间、站点—资源之间的关系,利用FOAF的类表示参与标注的人或机器,利用SKOS的概念和属性明确标签间的语义关系。
(3)三种标签本体在社会网络中都得到了一定应用。如评论网站Reyvu使用Tag Ontology模型丰富了Revyu上数据的语义信息,方便了用户的使用;网站LODr采用MOAT模型使用户可以方便地为其编辑的内容添加语义标签。尽管如此,这三种标签本体在社会性网络中的应用范围还不够广泛;加之当前许多网站仍处于试运行期间,功能不够完善,因而它们的应用也难以深入。
3.2 典型标签本体模型类的比较[14~16]
类是对现实世界中个体的抽象,是本体的重要构成元素,类的完整性体现了本体的完备性。本文认为,一个标签本体模型应包括标签集、用户组、来源、资源、标签、标引者和含义7个基本类,表2从类的角度比较了三种标签本体的完备性。
从表2中的比较可以发现:
(1)核心类各不相同。前文已提到,三种标签本体在实现的途径和效果上各有侧重,因而它们的核心类也各不相同。Tag Ontology的核心类是资源、标签和用户,SCOT的核心类是标签和标签云,而MOAT的核心类则是标签和含义。
(2)具有相同的基本类。三种标签本体都有资源类、标签类和标引者类,这表明资源、标签和标引者是构成标签本体模型的基本类;另外,因Tag OnTology能充分表达单个标签的标注操作,所以SCOT和MOAT都直接予以借鉴复用,只是它们的命名不同:SCOT引用SIOC的Item类表示“资源”,而在Tag Ontology和MOAT中用rdfs的Resource类表示;SCOT引用SIOC的User类表示“用户”,而Tag Ontology和MOAT则用foaf的Agent类表示。
(3)类的完备性存在差异。Tag Ontology只有资源、标签和标引者三个类,而不具有描述协作标注的用户组、标签集和来源类;MOAT虽然扩充了Tag Ontology的三元组形式,增加了一个“含义”维度,但是也不具有描述协作标注的相关类;与Tag Ontology和MOAT相比,SCOT的类比较完备,它对用户组、标签集合、来源都定义了相应的类予以表示。
3.3 典型标签本体模型属性的比较[14,15]
属性是本体另一个重要的构成元素,也是本体的优势所在,通过属性可以充分表达类与类之间的关系。属性有两种类型:对象类型和数据类型。对象类型属性主要用来描述对象与对象之间的关系,如用tags:taggedBy描述标签与标引者之间的关系;标签本体模型除了能够表达用户、资源、标签等概念属性外,还应该能表达某些非概念的属性,如时间、日期和数量等,这类属性就是数据类型属性。由于Tag Ontology、SCOT和MOAT三种模型的目标和功能各有差异,因此属性也存在许多不同之处,表3比较了三者的代表性属性。
从表3中的比较可以发现:
(1)Tag Ontology和MOAT的数据类型属性较少,只有表示标签名称和创建日期的数据类型属性,而SCOT在此基础上提供了多个描述标签和标签集的属性,如scot:ownAFrequency、scot:ownRFrequency属性分别表示某个标签在标签云中出现的次数和出现频率的百分比,scot:totalTags则表示某一标签集中标签的个数。与Tag Ontology和MOAT相比,SCOT的数据类型属性更加丰富。
(2)Tag Ontology和SCOT都有描述标签与资源之间关系的属性,并且是逆属性,而MOAT则没有这种属性。例如,在Tag Ontology中,属性tags:taggedWithTag表示与某一资源相关的标签,定义域是资源,值域是标签;而属性tags:isTagOf表示该标签是某资源的标签,定义域是标签,值域是资源,因此tags:taggedWithTag与tags:isTagOf互为逆属性。同样,在SCOT中,scot:hasTag与scot:tagOf也互为逆属性。这种定义逆属性的方式可以更加明确标签本体模型中各个类之间的关系。
(3)三种标签本体在属性定义方面存在很大的差异,其能实现的功能也各不相同[17]。Tag Ontology定义属性tags:equivalentTag和tags:relatedTag连接相同标签和近似标签,用以解决标签的多样性问题;而SCOT提供的属性更加丰富,如用scot:spellingVariant属性连接拼写变化的标签,并将scot:spellingVariant进一步细分为scot:acronym(首字母变化)、scot:plural(复数变化)、scot:singular(单数变化)和scot:synonym(同义词变化)等。与前两种模型不同,MOAT侧重于标签模糊性问题的解决。它定义moat:hasMeaning属性将标签和它的多种含义进行连接,并且MOAT中的每个含义都引用了知识库中概念的URIs进行限定,这种方式为MOAT的标签与知识库的概念二者之间建立了某种联系,使得知识库中现有的概念组织方式可以间接用于相关标签的组织,因此MOAT在一定程度上可解决标签组织的扁平性问题。
4 总结与展望
通过对Tag Ontology、SCOT和MOAT三种典型标签本体的比较分析发现,虽然它们的最终目标都是为了提高标签的语义表达能力,但在实现的功能上却各有侧重:Tag Ontology主要描述了单个标签的标注操作,并在一定程度上解决了标签的多样性问题,但它没有充分考虑标签的模糊性、组织的扁平性等问题;后起之秀SCOT充分借鉴了Tag Ontology的长处,在描述单个标签标注操作的基础上,进一步描述了协作标签的标注操作,并且还提供了丰富的类和属性予以表达,因此SCOT有效地克服了标签的多样性与异构性缺陷,但是它却无法解决标签的模糊性问题;MOAT侧重于为标签添加语义含义,并引入知识库的URIs予以限定,有助于解决标签的模糊性和组织的扁平性等问题,但MOAT并没有解决标签的多样性和异构性问题。由此可见,虽然三种模型从不同角度解决了Folksonomy中标签的局限性,但功能都不够全面,而未来的互联网必定是以精准的查询、个性化的服务和智能的搜索为目标,因此,有关标签本体的研究还需要在下面几个方面进一步拓展。
(1)三种典型模型的整合研究。上文的总结表明,Tag Ontology、SCOT和MOAT三种典型标签本体各有优劣势,而单一的标签本体模型并不能完全满足标签的语义标注需求。鉴于此,有学者提出整合三种标签本体、取长补短、创建一种新的标签本体模型的研究思路,并进行了初步的模型设计。但由于三种标签本体的设计理念互不相同,对类和属性以及它们之间关系的表达方式也存在很大差异,因此,新模型的整合难度大,需要学者们就兼容性等问题做进一步研究。
(2)基于多语种的标签本体模型构建研究。社会网络系统中的标签包含多种语言形式,目前大多标签本体模型基于西文语言特点开发而成,其他语种如中文在语言结构、标注方式、本体知识库上与西文存在很大的差异,这势必影响标签本体模型的应用范围和在其他语种上的应用效果。因此,构建多语种的标签本体模型显得尤为必要,将是今后的研究重点之一。
(3)多领域在线本体库的构建与更新。虽然在线本体库增长很快,但仍存在“知识稀疏”现象,即在线本体库在某些领域覆盖面广,但在其他领域覆盖面窄,如社会网络系统中新出现的专业术语{ajax,css}或行业术语{佳能,d50,照相手机,特写}等。在线本体库的“知识稀疏”性使得很多标签类别无法从在线本体库中找到匹配的概念,妨碍了标签本体在社会网络中的广泛应用。因此,如何构建多领域的在线本体库、实现现有本体库的及时更新,也是学者们需要着重解决的问题。
总之,将本体引入标签,可有效地解决标签的模糊性、多样性和组织的扁平性等问题。尽管现有的标签本体还存在许多不足,应用范围也不够广泛,但随着自然语言处理、人工智能等相关技术的不断进步和研究的持续深入,标签本体必将克服它的缺陷而日趋完善,并在网络应用中发挥出越来越重要的作用。
收稿日期:2010年3月16日