基于概念格的Folksonomy知识组织研究——Tag Spam过滤指标权值配置,本文主要内容关键词为:概念论文,指标论文,组织论文,知识论文,Spam论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 研究背景与相关工作
自2004年8月“Folksonomy”[1]这一概念诞生以来,其作为以用户为核心的知识组织方式开始逐渐在互联网上流行。此后的几年间,学术界和产业界都对Folksonomy给予了极大的关注,一些关于Folksonomy的研究和应用的成果纷纷涌现。由于Folksonomy能够通过用户标注Tag的形式对网络资源进行组织,揭示网络社群的兴趣热点,构造理想的虚拟社区和细分市场,因此在Web2.0应用模式的驱动下,Folksonomy成为互联网上最流行的知识组织形式,并且被越来越多的网站用于知识资源的组织与管理。然而,随着Folksonomy在实际应用中的不断升温,其应用中存在的问题也显露出来,其中一个主要问题就是如何过滤Folksonomy中的Tag Spam,因为对用户检索行为无效或低效的Tag Spam严重地影响了Folksonomy的实际应用效果。一方面,高聚集的人气与潜在的商业价值令垃圾信息制造者趋之若鹜,以营利为目的误导用户的恶意标签开始在Folksonomy中滋生。另一方面,由于用户标注行为的非权威化也使得Folksonomy在Tag的语义模糊性、词汇可控性、感知有用性等方面出现良莠不齐的尴尬局面。因此,Folksonomy中Tag Spam的过滤问题主要分为狭义和广义两个层面:在狭义层面上,主要是主观上基于商业目的恶意使用Tag,误导网络用户;在广义层面上,除主观恶意标注外,还包括由于用户标注行为的非权威化在客观上造成的语义模糊性、词汇可控性等问题。即主观恶意和客观无意都会产生Tag Spam,影响和降低Folksonomy的实际应用效果。这使得如何对Tag Spam进行过滤成为Folksonomy知识组织中亟待解决的问题。
国际学术界对Tag Spam过滤相关问题的研究主要是从主观恶意和客观无意两个方面展开的。在针对主观恶意的Tag Spam过滤研究方面,斯坦福大学的Koutrika等研究人员对以凸显某些特定资源或故意迷惑用户为目的恶意Tag进行了研究,提出了标注系统和用户标注行为的建模框架,并基于Tag的可靠性建立了文档资源与Tag的匹配方法[2]。而Markines等则从垃圾标签产生的动机出发,在TagSpam、TagBlur、DomFp、NumAds、Plagiarism、ValidLinks六个维度上对Tag Spam进行了探测尝试[3]。Sheth等采用有指导的机器学习方法,通过对语义行为和用户行为的考察,构建了一个侦测用户垃圾标签的分类法[4]。Neubauer构建了基于文档、用户和Tag的“超图”概念,并通过由用户/文档图的连通性所揭示的结构特征帮助Tag Spam的识别和过滤[5]。Bogers和Antal van den Bosch认为相似的用户会使用相似的语言,通过两级粒度的语言建模,采用对抗性信息检索方法自动探测垃圾内容[6]。Krause等则将拓扑学、语义学等应用于垃圾识别,对传统的机器学习甄别方法进行了改进,构建了更为精细的Tag Spam识别机制[7]。国外针对客观无意的Tag Spam研究主要集中在语义消歧方面。Marchetti等从模糊Tag产生的原因入手,通过为用户提供规范词表影响用户的标注行为,增加用户使用Tag的规范性和可控性,从标注行为的源头消除Tag语义模糊现象[8]。Weinberger等利用不同语境中的Tag共现现象,基于概率统计确定存在歧义的Tag,从而帮助用户在执行标注行为时添加没有歧义的标签[9]。Mika对于语义模糊的Tag采用数据挖掘的方法进行聚类分析,由类的语义推导确切的Tag语义[10]。Limpens等则利用形式语言和Tag间关系构建语义Web本体,通过丰富Folksonomy的语义丰富度,整合标注行为解决Tag的不确定性[11]。
与国外的研究成果相比,国内学术界关于Folksonomy中Tag Spam的问题目前尚鲜有研究。国内大多数关于网络垃圾信息问题的研究文献主要集中于搜索引擎和电子邮件的垃圾处理研究,仅有北京大学的学者提出了更新颖的Tag Spam探测算法,但主要限于对主观恶意Tag Spam的过滤[12]。对于客观无意的Tag Spam相关问题国内学术界目前尚没有研究。
综上可以看出,国外学术界对于Folksonomy中Tag Spam过滤相关问题的研究开展得较好,相关成果也比较丰富。遗憾的是其中大多数研究都没有充分考虑Folksonomy中Tag使用的复杂情况,而是建立在事先假定了某一类Tag对于Tag质量产生固定影响的基础上,而针对Tag Spam的过滤指标权值的动态配置问题则缺少研究。国内在这一领域的研究则几乎是空白。由于Folksonomy中的Tag Spam比搜索引擎或电子邮件中的垃圾信息更为隐蔽,因此无论采取何种方法探测和处理Tag Spam,都需要首先确定Tag Spam过滤的评价标准和尺度,所以建立Tag Spam过滤指标权值配置方案成为Folksonomy中Tag Spam相关问题研究的前提条件。本文依托概念格的理论与技术,在传统AHP法构建的Tag Spam过滤指标权值基础上,针对评价结果构建了Tag Spam过滤指标概念格,并通过基于概念格的关联规则的挖掘对Tag Spam过滤指标的权值配置进行验证,从而实现Tag Spam过滤中指标权重的动态合理配置。对构建科学客观的Folksonomy中Tag Spam过滤指标权值配置方案进行了探索。
2 Tag Spam过滤动态指标体系构建模型
Folksonomy中Tag Spam过滤指标动态权值配置方案的构建是一个多目标、多层次的建模过程,研究中以层次分析法(AHP)[13]的思想为基础,引入建立在形式概念分析(FCA)[14]基础上的概念格关联规则挖掘技术,把兼顾过滤指标权值的科学性与客观性作为目标,动态地解决Tag Spam的过滤指标权值配置问题。构建模型如图1所示。
图1 Tag Spam过滤指标体系构建模型
在图1中,首先基于AHP法利用专家智能针对初始的Tag Spam过滤指标体系中的相关过滤指标构造两两比较判断矩阵,从而确定各过滤指标的重要程度;再以此计算特征矢量,即各指标的权值;若一致性检验失败则需要返回专家智能重新修改判断矩阵,如果能够通过一致性检验则认为判断矩阵是合理的,进而由特征矢量所反映的过滤指标权值也是合理的。至此,传统AHP法下指标权值配置方案完成。
然而,Folksonomy中Tag Spam的产生情况是极为复杂的,既包含主观恶意的Tag Spam,也包括客观无意的Tag Spam,且每一种Tag Spam中各判定指标的作用和影响程度也不尽相同,甚至还会随着用户行为偏好的转移而不断变化。因此这就需要构建一种动态的Tag Spam过滤指标权值配置方案。传统AHP法下的指标权值一旦通过一致性检验就会被相对固定,不能适应Folksonomy复杂多变的应用环境。研究中引入概念格理论和技术,在以AHP法配置指标权值的基础上,针对各过滤指标权重在实践中的评价结果构建概念格;基于概念格进行关联规则挖掘;然后利用关联规则对Tag Spam过滤指标权值进行验证,并根据验证结果调整过滤指标权值;直到关联规则验证通过,输出验证后的过滤指标权值到Tag Spam过滤指标体系;获得验证的过滤指标体系可以作为对Folksonomy中Tag Spam的探测和识别的评价依据。实践中,一旦用户行为偏好等因素发生较大变化,上述指标权值则无法通过变化后关联规则的检验,相关指标权值则再次依据关联规则进行调整。从而实现在应用中随环境变化而可以不断调整的动态指标权值配置放案。
3 Tag Spam初始过滤指标权值的分配
研究中针对Delicious、Metafilter、Flickr、BibSonomy、Connotea、CiteUlike、Amazon七家外文网站以及360个人图书馆、狗狗数字内容评价两家中文网站的用户标签使用情况进行收集整理,建立了初始过滤指标集。在此基础上根据德尔菲法(Delphi Method)[15]以征询问卷形式进行多轮专家咨询,结合领域专家的意见建立了如图2所示的初始Tag Spam过滤指标体系。
图2 初始Tag Spam过滤指标体系
从图2可以看出,通过对调查问卷的分析和专家智能的介入,初始的Tag Spam过滤指标体系由目标层(S)、准则层(S1、S2、S3、S4)和方案层(S11~S14、S21~S24、S31~S34、S41~S43)构成了AHP法的三个决策层次,但是没能确定各个过滤指标的权重。而事实上,在各级过滤指标中各个指标对Tag质量影响的重要程度是不尽相同的。Tag Spam过滤指标体系要应用于实践则必须对各个指标的权值进行科学的配置。
采用Saaty的AHP法对Tag Spam过滤指标进行初始权值配置步骤如下:
RI为平均随机一致性指标,可从RI取值表中查取[16]。当CR<0.1时,判断矩阵的不一致程度是可以接受的,或者说具有满意的一致性。
据此借助yaahp0.5.2AHP工具软件分别构建四个一级指标及其下属的二级过滤指标判断矩阵,得到各级指标的权值以及一致性检验数据。具体情况如表1所示。
由表1可以得到AHP法下四个一级过滤指标及其下属的各二级指标的权值。且由各判断矩阵最大特征值
所得到的一致性比例CR都小于0.1,通过了一致性检验,权值配置合理。然而根据AHP方法得到的各过滤指标的权值配置方案大量依赖领域专家的知识和经验。虽然一致性检验结果表明该权值配置方案是可以接受的,但并不能保证在Folksonomy复杂多变的环境中这一指标权值配置方案就一定是最科学与最客观的。因此,有必要借助更为有效的数据分析理论与技术对根据AHP法获得的初始指标权值配置方案进行验证。
4 基于概念格的Tag Spam过滤指标权值的验证
4.1 基于评价结果的概念格构建
研究中从前述9家网站抽取11类Tag的使用情况作为研究对象。设为第x个一级过滤指标,
为第x个一级过滤指标下属的第y个二级过滤指标;
代表第u类标签。依据上述由AHP法获得的过滤指标初始权值配置方案,按照判定为Tag Sapm的情况“十分恶劣”=A、“中等干扰”=B、“普通泡沫”=C(对Folksonomy使用效果的影响程度依次递减)进行实际评价,得到11类标签的初始评价结果如表2所示。
表2作为Tag Spam评价结果的原始数据呈现为多值二维表格,但若以此数据采用形式概念分析(FCA)的方法构建11类Tag的过滤指标概念格,则需要先将其转化为形式概念分析所要求的单值形式背景。一个形式背景K=(G,M,R)是由两个集合G和M以及G与M间的关系R组成。G的元素称为对象,M的元素称为属性。(g,m)∈R表示对象g具有属性m[17]。本研究以11类Tag为对象,先抽取一级过滤指标S3及其所属二级过滤指标S31-S34为属性构建单值形式背景。由表2中初始评价结果得到的形式背景如表3所示。其中,T9行S32A列的交叉点是“1”,则表示T9类Tag具有“正确理解性”(图2)评价为“十分恶劣”的属性。
上述形式背景上的一个形式概念是二元组(T,S),其中T代表形式背景中的对象,且TG,S代表形式背景中的属性,且S
M,而且满足f(T)=S,g(S)=T。则称T是概念(T,S)的外延,S是概念(T,S)的内涵。若(Tp,Sp),(Tq,Sq)是某个背景上的两个概念,而且Tp
Tq,则称(Tp,Sp)是(Tq,Sq)的子概念,(Tq,Sq)是(Tp,Sp)的超概念,并记作(Tp,Sp)≤(Tq,Sq),关系“≤”称为是概念的“层次序”。(G,M,R)的所有概念用这种序组成的集合称为形式背景(G,M,R)上的概念格[17]。由表3形式背景借助ConExp1.3建格工具软件生成的过滤指标概念格Hasse图(图3)。
图3 S3及其所属二级指标的概念格Hasse图
由图3可以看出,Hasse图中概念节点揭示了形式概念的内涵与外延关系,如“S3A\S31A”节点表明属性指标“S31A”与“S3A”属于同一个形式概念节点,即,属性指标“检索兼容性=十分恶劣”(S31A)与其上级指标“感知易用性=十分恶劣”(S3A)具有相同的内涵和外延。同时Hasse图还揭示了概念间的关联关系,如“S31B”与“S3B”两个概念节点之间的连线表明,“检索兼容性=中等干扰”与“感知易用性=中等干扰”两个属性指标之间具有一定的关联关系;同理,“S31C”与“S3C”两个概念节点之间的连线表明,“检索兼容性=普通泡沫”与“感知易用性=普通泡沫”两个属性之间也具有一定的关联关系。此外,概念格Hasse图还呈现出形式概念的层级关系等内容。
4.2 基于概念格关联规则挖掘的权值验证
利用已构建的S3及其所属二级指标的概念格,针对所属二级指标对一级指标的关联影响,对二级过滤指标S31、S32、S33、S34及一级过滤指标S3进行关联规则挖掘。设置最小支持度为25%,置信度为60%,挖掘得到单一二级指标与单一上级指标的关联规则如表4所示。
表4所列示的关联规则挖掘结果表明:4个二级过滤指标中,S31与上级指标S3具有很强的关联性,而S32、S33、S34与上级指标关联性很弱,这与图3概念格Hasse图中所呈现的概念节点及概念节点间关系相符合。进一步由表4可知:S31二级过滤指标的3个等级“A”、“B”、“C”都对应其上级指标S3的相应等级,并且具有很高的置信度。即,“具有‘检索容错性=十分恶劣’属性的Tag同时具有‘感知易用性=十分恶劣’的属性,该规则的最小支持度为27.3%,信度为100%”;“具有‘检索容错性=中等干扰’属性的Tag同时具有‘感知易用性=中等干扰’的属性,该规则的最小支持度为36.4%,信度为100%”;“具有‘检索容错性=普通泡沫’属性的Tag同时具有‘感知易用性=普通泡沫’的属性,该规则的最小支持度为27.3%,信度为75%”。这说明,实际应用中“检索容错性”(连词符、单复数、错误拼写等)对其上级指标“感知易用性”的影响程度很高,因此在“感知易用性”所属二级指标的权值配置方案中,指标“检索容错性”应被分配更高的权值。采用同样的思想和方法,可以对其他3个一级指标及其所属二级指标进行关联规则挖掘,也可以对总目标指数与一级指标进行关联规则挖掘。
上述基于概念格的关联规则挖掘所获得的相关规则可以被用于辅助专家智能,重新调整Tag Spam过滤指标的权值配置方案。即使应用环境发生变化,关联规则也会随之发生变化,进而对过滤指标权值产生新的影响,近而动态地构建科学客观的Tag Spam过滤指标体系,为更有效地在Folksonomy中进行Tag Spam的探测和识别奠定基础。
5 结论与展望
综上所述,以概念格的理论与技术为基础,在传统AHP法构建的初始Tag Spam过滤指标权值基础上,针对初始评价结果,通过构建Tag Spam过滤指标概念格进行关联规则挖掘,能够揭示各指标间的关联关系。将所获得的相关规则用于验证指标的权值配置,进而可以对指标权值配置方案进行调整,从而动态实现Tag Spam过滤指标权值的合理配置,有助于构建更为科学客观的Tag Spam过滤指标体系,为更有效地探测和识别Tag Spam奠定了基础。
随着Folksonomy在实际应用中的不断发展,Tag Spam的相关变化也会更加复杂。本文对TagSpam过滤指标权值配置方案的研究才仅仅是一个初步的尝试。随着相关理论的不断成熟和技术的不断进步,Tag Spam的相关问题研究也会更具有针对性和实证性,这些问题都有待于我们在未来的工作中进一步努力研究。