基于在线词表的民间分类语义关联识别方法研究_聚类论文

基于在线词表的folksonomy语义关联识别方法研究,本文主要内容关键词为:在线论文,词表论文,语义论文,方法论文,folksonomy论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

folksonomy是Web2.0社会性软件工具应用的典型代表,Thomas Vander Wal于2004年首次提出并将其定义为:使用人们自己的词表描述网络资源的机制[1]。folksonomy作为一种自底向上的公众分类方法,具有简单、丰富、流行和多样的特点。但随着标签数量的增加,folksonomy的进一步应用出现了一些制约因素,如标签的歧义、平面延展的标签等级结构、标签之间的潜在语义关系识别等。其中,folksonomy的语义关联识别研究,尤其是folksonomy同在线词表之间的关联方法研究已经成为国内外研究人员关注的热点问题。

1 研究的现状

1.1 利用已有的聚类方法挖掘folksonomy的语义关系

现有的研究通过标签共现分析和相似性测度等方法将语义相关的标签聚类,并以一定的等级结构显示出来。Cattuto等人指出标签共现可以用语义描述,标签的相似性被认为是标签之间的一种语义关系,可通过标签之间的相对共现进行评价,使用Jaccard相似性系数进行测度[2];Schmitz P使用一个基于包容算法的模型,抽取标签的共现关系,聚类共现标签[3];Heymann P根据标签的向量相似度确定相关标签,将del.icio.us上相关标签连接成无权重的无向图,采用相关算法将无向图转换为具有层次结构的分类树[4]。

我国学者王翠英探讨了基于共现信息的标签聚类方法,并试图通过标签的聚类研究标签的本质[5];曹高辉等人探索采用凝聚式聚类算法进行标签的聚类,实现对标签的重新组织并通过实验对标签聚类方法进行验证[6]。

虽然在标签聚类过程中,能够根据标签之间的相似性聚类相关概念,但是不能很好的体现出概念之间的关系。因此,需要借助于已有的概念体系,即利用词表中明确的概念关系为用户使用的标签赋予一定的语义关联。

1.2 社会标注与网络语义资源的关联研究

目前国外研究人员积极探索社会标注同网络语义资源如WordNet、Wikipedia、Google、Swoogle等的关联。David Laniado等人描述了将标签聚类成由WordNet驱动的等级结构,通过Wordnet的词表语义功能,为每一个标签界定可能的意义[7];Freddy Limpens等人介绍了SweetWiki及其应用,通过SweetWiki用户能够编辑并修订页面,标注Wiki上发表的任何文档,所有的用户能够组织标签并进行编辑,能够建立同义词之间的关系并合并类目[8];Maria Grineva等人使用基于维基百科处理一词多义现象,并利用维基百科对标签进行聚类[9];Martin Szomszorl等人使用Google、Wiki和Wordnet的方法联合进行标签过滤,实现标签的消歧[10];Mauricio Espinoza等人使用语义搜索引擎Swoogle抽取社会标注的语义关系[11]。

我国学者黄建年、侯汉清指出tag处理对象、用户、同现率和后续处理方法的研究目前已成为tag研究的基本课题[12];周鑫、王军提出通过界定概念外延挖掘tag间语义关系的方法,对tag间的语义关系挖掘进行研究,并在del.icio.us真实数据上进行实验验证该方法的可行性[13];朱晓晨、高飞提出要在协作标签系统中实现较高的查准率和查全率,逐步消除模糊语义,为资源和标签对应关系找到合适的上下文环境[14]。

目前,标签同已有概念体系之间的关联研究主要是通过已有的概念体系发现标签之间的语义关联,但是现有的研究还没有提出有效的标签同已有概念体系之间的映射规则、语义关联识别规则等。因此,本研究以在线词表作为社会标注语义关联识别的语义基础,通过同在线词表概念体系之间的映射进一步明确标签之间的语义关系,实现丰富词表、扩展检索的目的。

2 社会标注潜在的语义关系分析

利用在线词表作为语义基础,能够发现社会标注包含的大量的潜在语义关系。QinJian等人将标签对之间的关系定义为is-a-measure-of、is-located-in、induces、is-induced-by、is-style-of、is-of、is-for和is-a-method-of 8种类型[15]。本研究中将标签之间的关系界定为下面6种:

·同义关系。标签对中的两个标签是同义词关系,用is synonyms of来表示。如education与instruction和teaching是同义词关系,表示为education is synonyms of instruction and teaching。

·包含关系。标签对中的一个标签是另一个标签的子类,用is subclass of来表示。如Adult education 是education的子类,表示为Adult education is subclass of education。

·通用关系(generic relations)。两个标签之间包含一个通用的关系,如范围、地点、领域、色彩、名称等,用hasRange、is located in、hasDomain、has color等表示。如Zinfandel有一个属性是颜色(color),属性值为红色(red),标签Zinfandel和red之间的关系为has color,能够表示为Zinfandel has color red。

·同源关系(sibling relations)关系。标签对共享一个上位概念或有共同的祖辈概念,包括三种关系:①标签对共有同一个父类,可以用has the same parent表示。如apple和orange都有共同的父类fruit,表示为apple and orange has the same parent fruit;②标签对有同一个祖辈概念,用has slibing relation来表示。如assembly的祖辈概念是building和construction,而formation的祖辈概念是fabrication和construction,能够表示为assembly;③标签对有同一个祖辈概念,但是在不同的等级。如chapterhouse的祖辈概念是building(第一级)和construction(第二级),而edifice的祖辈概念是construction(第一级)。

·实例关系。用instance of来表示。如university是school的一个实例,表示为university instance of school。

3 基于在线词表的社会标注语义关联识别方法

3.1 基于在线词表的社会标注语义关联识别的总体思路

基于在线词表的社会标注语义关联识别方法引入关联词典机制,即通过利用关联词典已有的概念之间语义关系以及社会标注的标签同关联词典概念之间的关系,识别社会标注的语义关系,如图1所示。

图1 基于在线词表的社会标注语义关联识别的总体思路

3.2 基于在线词表的社会标注语义关联识别方法

基于在线词表的社会标注语义关联识别方法,引入关联词典机制,通过识别标签集中的标签同在线词表概念体系之间的关系,进而识别出标签之间的语义关系,实现标签语义空间语义丰富及词表丰富的目标,使用户在使用语义丰富的标签空间及增加了新概念的词表检索信息资源过程中,检索到更多具有语义关联的资源,促进网络资源的利用和共享,如图2所示。

图2 基于在线词表的社会标注语义关系识别方法

图2中,标签集A为标签语义空间中能够同在线词表通过语义和词形直接映射的标签,即标签集A中的标签是在线词表中某一节点的概念,可能是根节点也可能是叶子节点。标签集B为标签语义空间中不能同在线词表通过语义和词形直接映射的标签,即标签集B中的标签不是在线词表中某一节点的概念,但可能是能够添加到在线词表的新词或者可能是同标签集A中的标签具有一定关联关系的标签,标签集B是进行标签语义关系识别的重点。

3.3 基于在线词表的社会标注语义关联识别步骤

基于在线词表的社会标注语义关联识别的步骤为:①将初步聚类的标签集同在线词表进行映射;②将能够直接进行语义和词形映射的标签归入标签集A,将不能直接进行语义和词形映射的标签归入标签集B;③将标签集A中标签同ERIC词表中的概念建立语义关联,构建出与该标签有相同、相关、上位、下位关系的语义关系网络;④利用标签集B中的标签同标签集A中标签的共现矩阵及语义相关性,构建出标签集B中的标签同标签集A中的标签的等级关系,根据B集标签同A集标签语义关系,发现B集标签同在线词表概念的语义关系;⑤根据②的结果,丰富标签集A及标签集B中的标签语义关系,如相关关系、等同关系、整体部分关系等;⑥根据③的结果,将学习者使用频率较高的新词添加到在线词表的准确位置,丰富词表。

4 基于在线词表的社会标注语义关联识别规则

4.1 基于在线词表的直接关联关系识别规则

标签之间的关系能够通过与其对应的在线词表概念之间的关系识别,直接将标签同在线词表的概念体系进行映射,找到与标签对相对应的概念,通过确定概念之间的关系,将概念关系转换为标签之间的关系。具体关联识别如下:

4.1.1 标签对之间直接的包含/同源关系识别 如果标签对中的标签A能直接映射到在线词表中的概念A',标签B能直接映射到在线词表中的概念B',通过在线词表的语义关系可知概念A'由概念B'组成或者概念A'是上位概念,概念B'是概念A'的下位概念,即A'是B'的父类,那么通过关联分析可以判断出标签A是标签B的父类,标签A和标签B是父类和子类的关系。如果在概念体系中,已知概念A'是概念B'的一个部分或者概念A'是概念B'的下位概念,即概念B'是概念A'的父类,那么可以判断出,标签B是标签A的父类,标签A和标签B是子类和父类的关系。

4.1.2 标签对之间直接的相关关系识别 如果标签对中的标签A能够直接映射到在线词表中的概念A',标签B能够直接映射到在线词表中的概念B',通过在线词表的语义关系可知概念A'和概念B'之间是相关关系,即概念B'是概念A'的相关概念,那么通过关联分析,能够判断出标签A与标签B具有直接的相关关系,即标签B是标签A的相关标签。

4.1.3 标签对之间直接的同义关系识别 如果标签对中的标签A能够直接映射到在线词表中的概念A',标签B能够直接映射到在线词表中的概念B',通过在线词表的语义关系可知概念A'和概念B'是同义词关系,即概念B'是概念A'的同义词,那么通过关联分析,能够判断出标签A与标签B是同义词关系。

4.1.4 标签对之间直接的未知关系识别 如果标签对中的标签A能够直接映射到在线词表中的概念A',标签B能够直接映射到在线词表中的概念B',但是在线词表中概念A'和概念B'之间的关系是未知的,即可认为概念A'和概念B'相互独立,没有关联或者关联度很小。但是由于标签A和标签B存在着共现的关系,因此能够判断出标签之间的关系是直接未知关系,并且需要进一步分析两者的关联,判断是否为非直接关联或者两者具有通用或实例关系。

4.2 基于在线词表的非直接包含/同源关系识别规则

对于给定的标签对中的标签A和标签B,如果不能直接同在线词典的概念体系进行映射,则使用非直接的包含/同源关系识别规则。通过标签对同在线词表中未直接映射的概念体系之间的关联关系的确定,从而确定标签之间的包含/同源关系,并且能够将标签同词表中的概念体系建立起关联,起到丰富词表的作用。首先确定标签同在线词表中未直接映射的概念之间的关联关系规则:

·当一个术语同另一个术语相同时,较长的术语被分类作为较短术语的一个部分,两者之间的关系是包含关系。如标签“credit card”和概念“card”之间的关系为is-parent。

·一些社会标注的标签可能由两种不同类型的事物组成,通过使用“and”或“or”作为一个独立的标签。如果标签A为NP1,NP2,…,(and | or)NPn,在线词表的概念为C=NP1或者C=NP2,…,或者C=NPn,则可以确定标签A和概念C之间的关系为isparent(A,C)。例如,标签A为“Business Intelligence and Data Warehousing”,概念C为“Data Warehousing”,能够判断出标签A和概念C之间的关系为is-parent。

基于在线词表的folksonomy标签之间非直接的包含/同源关系的确定具体规则如下:

5 基于教育领域在线词表的社会标注语义关联试验

5.1 教育在线词表ERIC的结构

ERIC(the Education Resources Information Center)是教育领域的在线数字图书馆,由美国教育部的教育科学机构(Institute of Education Sciences,IES)发起并建立。ERIC叙词表是由教育相关的词和短语组成的受控词表,按照学科组织,能够使其更易于检索,通过描述符检索能够提供来自这个受控词表的相关术语的选择,包括近1万个教育领域的主题词。ERIC词表将资源按照学科分为41个大类(category),每一个大类下面划分为若干个子类(main),子类下面是具体的概念或术语(term)。ERIC在线词表能够反映概念之间的语义关系,包括上位术语(broader terms)、下位术语(narrower terms)和相关术语(related terms)等,同时还包括记录的类型(record type)、范围注释(scope note)及使用范围(used for)和使用术语(use term)等。

为了实现标签集同ERIC在线词表的映射,按照ERIC在线词表的语义关系将其转换为数据库能够处理的树型结构,如图3所示。

图3 ERIC在线词表的树型结构

在该结构中,education所属大类为educational process:societal perspectives,下位概念有academic education、adult education等,education没有上位概念,包括89个下位概念。每个下位概念又包括三级概念,这样生成由概念的上下位关系、相关关系、等同关系构成的词表结构,能够作为标签语义关系识别的语义基础。

5.2 社会标注语义关联识别的结果分析

本研究的数据选自于学术资源标注网站CiteULike的current数据集,经过标准化处理的标签数据集,共检索到标签education 标注的资源3 089条,与education共现的标签684条,去重后的资源数量为237条。在与education共现的标签集中,分别将标签与对照词表进行映射,识别出与对照词表相同的标签,构成已存在标签集,在40个高频标签中,22个标签能够同对照词表进行映射,18个标签在对照词表中按照指定的检索方式没有直接检索到。对于已存在的标签集合,直接同在线词表的相应概念进行映射,如标签education对应于在线词表概念education的指定位置,通过在线词表的上下位等级关系,能够确定education的上位、下位及相关关系,如图4所示。

图4 直接映射的语义空间标签集(以education为例)

对于不能同在线词表直接映射的标签,根据标签之间的共现关系和相似性测度确定出的初步语义关系,通过同已存在标签集合中的标签之间的关系及已存在标签集合中的标签与在线词表之间的关系,利用上文中制定的标签语义关联识别规则,进一步识别出未存在标签集合中的标签同已存在标签集合中的标签之间的语义关系。如eucational management在在线词表ERIC中没有作为main节点出现,ERIC中使用eucational administration作为概念词。因此,判断出educational management和eucational administration之间是同义词的关系,根据education administration的上下位及相关关系,能够确定出标签edcation management在ERIC中的位置和语义关系。

当用户使用标签educational management进行检索时,能够为用户提供同义词检索、上位词检索、下位词检索和相关检索的途径,同时相关标签作为用户使用的高频词,能够添加到在线词表中,促进词表的丰富,见图5。

图5 社会标注语义关系识别

识别出的部分语义关系见图6(以deucation management和education method为例)。图中实线为在线词表中已有的语义关系,虚线为通过语义关联识别规则识别出的语义关系,包括同义、上位、下位、相关等关系。在上例中,crisis、control、instruction三个标签在词表中没有出现,但是通过标签之间的语义识别,能够发现crisis、control与management之间的上下位关系,通过management与administration在词表之间的同义关系,能够识别出crisis、control与administration之间的上下位关系。图中的标签crisis、control和instruction为通过标签同已有概念体系之间的关联规则自动添加到在线词表中的概念体系。通过该方法能够实现标签之间的语义关联及在线词表的丰富。

图6 以education management和education method为例的语义关系识别(部分)

本研究以education为例进行了小范围的标签语义关联识别的试验,试验结果表明本研究提出的基于在线词表的folksonomy语义关联识别方法能够很好地识别标签之间的语义关联,并起到丰富词表的作用。但是,由于试验数据的有限性,还需在更多领域进一步深入研究。

标签:;  ;  ;  ;  

基于在线词表的民间分类语义关联识别方法研究_聚类论文
下载Doc文档

猜你喜欢