基于微本体构建的微博信息管理机制研究_语义分析论文

基于微本体构建的微博信息管理机理研究,本文主要内容关键词为:本体论文,机理论文,信息管理论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

微博核心价值是建立在独特的信息发布机制、信息获取机制及信息传播机制基础上的,这些机制满足了用户及时、简单沟通的需求,迎合了网络社会中“碎片化”的生活方式。发现微博发展的规律和模式,帮助微博用户充分且全面的理解微博媒体的性质和功能,对微博信息进行有效的筛选与甄别,对微博的信息传播特征进行准确的判断和认知,可以避免由于微博使用不当而造成的危害,成为微博信息管理的主要内容。

1 微博信息管理国内外研究综述

国内外关于微博信息管理的研究泾渭分明。国外在微博信息管理方面的研究以应用为主,笔者在CALIS外文期刊网等英文数据库中,使用microblog、information management等主题词进行交叉搜索。发现在2006-2012年,CALIS外文期刊网篇名中包含微博信息组织或者微博信息传播的文章共293篇,其中有247篇的篇名中同时提到了Twitter。由此可见,国外Twitter就是微博的代名词。由于Twitter在国外的微博领域一家独大,Twitter成为微博的代名词,Twitter的信息管理也是学术界的直接研究对象,这些研究鉴于Twitter在互联网舆情中充当的角色越来越重要,加强微博舆情的预警和管理势在必行,其针对Twitter自身的特点,建立一套Twitter专用的舆情监测指标体系,迅速捕获到Twitter中扩展迅速的敏感舆情信息,将负面的网络舆情影响控制在警戒线以下,便于管理者针对敏感舆情信息早作决策[1-7]。国内对于微博信息管理的研究真正起始于2010年,关注点集中在微博信息传播与引导两个方面,其中在微博信息传播研究方面的成果占了大多数,其中具有代表性的有田占伟等人[8-13]。尽管国内外关于微博信息管理的研究取得了很多成果,但是这些研究中存在着明显的不足,很多实质性的问题并没有解决,最突出的就是微博信息组织管理方面的研究严重匮乏,微博信息管理主要包括两个方面的内容,即微博信息组织管理与微博信息传播管理。国内外对微博信息管理的内因——微博信息组织架构的研究少之又少,研究重点本末倒置。微博信息内容及组织架构是微博信息传播的基础,可目前国内外的研究几乎全部集中在微博信息传播的分析与仿真上,研究多是在传播学的视角关注规范微博用户的使用和进行信息引导从而实现微博信息的管理,微博信息组织管理方面却很少涉及。

2 Folksonomy与Ontology的融合及微本体

Folksonomy(自由分类法)以标签来标注资源信息,可以满足用户个性化需要,是目前微博信息组织的基本方式,基于标签的方法能够简单有效地实现同类资源的聚合,但语义控制和类目间关系的缺乏给微博信息管理带来了不便。Ontology(本体)作为一种有效表现概念结构形式化的语义模型,被广泛地应用在知识发现、知识组织、知识推理、知识检索等多个领域,本体具有很强的语义性,可弥补Folksonomy信息组织方法的不足。但是本体的构建却相当复杂,首先通过获取相关领域的知识加以规范,形成形式化的定义,提供对该领域知识的共同理解,为建模提供明确定义。当前,Ontology与Folksonomy的融合研究是发展的必然趋势,已成为国内外学界所广泛关注并深入研究的热点之一。国外学者提出可以通过对Folksonomy进行统计分析,抽取潜在语义关系[14-15]。国内的张云中等人剖析Ontology与Folksonomy间的异同,寻找两者融合的机理,提出一种结合FCA和Folksonomy的本体构建方法[16];张有志、滕广清尝试从Folksonomy框架中提取语义构建相关本体片段,从而提出解决Folksonomy信息组织方法缺失的问题[17]。

微本体又称局部本体、轻型本体,其本质上是一种Folksonomy和Ontology融合下的产物。微本体是在本体构建技术遇到瓶颈的时候,有关学者提出利用Folksonomy广大用户参与的特点,利用群体的力量构建本体的一种技术框架。利用微本体的特性提高微博信息组织的语义性是本文的主要研究思路,可以想象,经过本体技术规范化的微博信息,具有明确的含义和结构化的特点,不仅有利于信息的组织和检索,更利于微博信息的监管。本文研究中为了满足利用Folksonomy构建微本体的需要,笔者对本体的架构进行了简化,只保留概念、属性、实例及相关的语义信息,这种基于Folksonomy构建的微本体结构只能保证微博信息这种小规模语段的语义性,被笔者称为“微博微本体”。

3 微博信息组织中的微本体构建研究

目前的微博在技术上采用自由分类法对微博信息进行组织,自由分类法通过Tag(标签)技术帮助用户存储和管理自己的微博信息,这样的信息组织方式具有两个明显的特征:一是在对微博信息添加Tag的过程中,用户不需要遵循任何事先制定的分类法或者词表;二是每个用户的活动空间不是孤立、封闭的,而是开放、共享的,因此也是互相影响的[18]。诸如语义模糊、一词多义、同义词、概念的专指性、语法错误、多语种交互等问题将不可避免,微博微本体的构建就是为了克服这一点。

3.1 微博信息组织中微本体构建原理

微博信息组织环节的微本体构建的主要思路是通过基于相同信息的标签进行聚类,把一组标签映射成由“概念、属性和实例”组成的本体架构,从而首先呈现标签间的语义关系,使得标签结构化,进而从微博信息的具体内容中抽取其他信息进行本体填充。微本体是本体与Folksonomy两种信息组织方式在微博中应用的折中,作为一种中间产物,既有利于本体构建,又增强了Folksonomy的语义。

笔者构建的微博微本体为了达到信息管理的目的,以事件为本体架构基础对微博平台的各类信息进行有效组织,由此构建的微博微本体包括六个组成部分:(1)事件主体:某则微博的执行者和参与者;(2)事件类型:根据不同微博描述行为对应的类型;(3)事件发生时间:微博描述行为发生的时间;(4)发生地点:微博描述行为发生的具体地点;(5)信息单元内容:每个主体发布的信息内容,对应用户发布的每条微博;(6)关联资源:微博信息单元中引用的各类资源的总称。

图1描述了笔者所提出的微本体架构,这种微本体架构主要包含主要语义信息、补充语义信息和推理规则三个部分。(1)主要语义信息包含所构建微本体的属性信息,主要包含Objectproperty和Datetypeproperty两组信息,可由RSS推送直接得到;(2)语义补充信息则由信息内容单元里的文字内容和关联资源提取而成,将在下文中进行较为详细的描述;(3)推理规则只保留Oneof、daterange、disjiontwith、equivalentclass和rdfs:subclassof。这种本体架构能够提取微博的主要信息,并能够利用简单规则进行推理归类,与正常的本体架构相比,只是一种局部本体,无论在语义信息内容还是在推理规则上简化了很多,正常的本体架构可参考笔者2012年发表于《情报科学》第12期的文章——《基于改进LDAP的网格本体的自动构建研究》。这样得到的微本体原型虽然丧失了部分语义功能和大部分的推理能力,但是对于不超过140字的微博信息描述来说,其功能足以满足具体需要。

图1 微本体信息架构

3.2 微博信息组织中微本体构建过程

3.2.1 微博标签信息的本体化

在具体实现上,首先用户通过Folksonomy对自己或者他人的微博信息进行标注,即为微博信息资源加上Tag,这些Tag能够在一定程度上反映微博信息资源的属性和特征,因此它实质上是一种由用户产生的元数据,并且具备多种类型元数据的功能,包括资源的描述、定位、权限管理等,只是这种信息既不规范又缺乏结构性。

微博微本体的构建具体方法如下:

首先进行标签的清洗。因为用来描述微博信息的Tag数量众多且不断变化,每一个Tag都参与到微博微本体构建中是不可能的,只能优选那些热门的标签,这是因为自由分类法的运行机制使标签在使用量上呈现出无标度现象,即标签的添加和使用遵循幂律分布:热门微博使用的标签被多数用户使用,并能成为热门类目被“推荐”给更多的用户,而那些冷门微博信息标注和检索价值低的标签只用来满足用户的个性化需求,可以被用户以协作的形式“过滤”,从而实现标签的清洗[19-20]。

其次,标签的优化是重要的环节。标签的优化主要是解决标签的重复、包含等问题,现有很多方法可以有效解决这个问题,如利用FAC(形式概念分析)技术[21],笔者在后文实验中使用WordNet来处理微博标签中的包含关系,利用哈工大的LTP自然语言处理软件进行词性处理。在词性处理的过程中,对于单个词汇可以利用标注软件对各个词汇的词性进行标注。

最后,微本体框架的构建。利用微博标签构建本体框架的主要方法是通过统计方法、聚类工具等技术对标签进行聚类,获取标签之间类层次关系,并选择合适的、有代表性的标签为聚类后的概念命名,最后标签成为微本体的主要框架,即微本体中的类及属性。标签语义关系抽取是采用一定的方法生成标签间等级结构,主要的方法包括聚类分析、概率模型和网络分析等。

3.2.2 微博信息内容的本体化

微博信息内容中含有大量语义信息,本环节就是按照3.1节中的信息架构对类的属性和实例进行确立,根据实际需求,补充上节中标签不能提供的属性,以信息内容对类的属性、属性值和其他语义关系进行补充。具体来说,其内容中的名词插入到类结构中充当属性;形容词和数字充当属性值;动词抽取为具体关系,得到微本体原型。微本体的构建过程如图2所示。

图2 微博微本体的构建过程

3.3 微博信息组织中微本体的更新

目前网络环境下本体获取概念时存在概念更新的时滞问题,使得本体构建与本体使用相分离,无法形成有效的反馈。微本体的出现将有效地解决这一点,微本体的更新由RSS来实现[22]。由于RSS提供的信息是动态的,一般按照信息发布时间进行排序,保证了微博信息的最新汇聚,形成了真正意义上的实时性。微博微本体关注的是社会的热点话题,基于某个社会热点新产生的微博信息无外乎两种情况:一种是对已有的子主题(话题)进行讨论;一种是热点发展产生了新的子主题。对于第一种情况,只需找到新产生消息所属于的微本体并在其基础上增加一个微博微本体实例即可;对于后一种情况,我们需要创建新的子微本体,然后把这些新的子微本体插入到已有的父类微本体中,并且可能需要对总体的层次结构进行调整。至于新的热点话题,则需要构建新的微博微本体。这一过程让微本体架构聚合的内容不断地被打破重组,构成了持续优化和改进的内容组织形式,实现了微本体的优化更新。

4 基于微本体架构的微博信息管理机理

微博信息管理受信息组织技术的影响,微博信息组织技术与方法可以促进微博信息分享、信息挖掘、舆情分析等,对微博信息生态链动态生成以及生成之后的平衡和净化都具有重要影响。

系统科学认为任何系统都存在一个“临界点”,微博系统更是如此,在以临界点为中心的附近区域内,微博上各种操作行为变化对传播范围的影响很大,即在临界点附近,传播范围对微博上的各种操作行为变化的灵感度较高,因此,在临界点附近通过控制微博上相关事件的演化,或实施有效的网络传播控制措施,将更容易达到事半功倍的微博信息管理效果。从上面可以看出,微博信息的传播一旦超越临界点便难以控制,因此在临界点产生前对传播信息进行分析和鉴别,可以做到对恶性信息传播的规范和抑制。笔者从信息建模的角度,通过对微博信息抽取而成的微博微本体进行监测从而达到对微博信息传播进行预警的目的。

在微博信息传播环节,为了实现对微博信息传播管理的需要,笔者把微博信息的发布、转发、评论、回复作为主要的监测对象,构建不同的微博微本体,在保留微博信息组织中微本体主框架不变的基础上,重构四种微本体,其主要语义信息如下:(1)发布微本体:主体、时间、地点、信息单元、资源列表;(2)转发微本体:主体、时间、地点、信息单元、参考信息单元;(3)评论微本体:主体、时间、地点、信息单元、参考信息单元、资源列表;(4)回复微本体:主体、时间、地点、信息单元、参考信息单元、资源列表。

以上四种微本体是微博微本体的一个子本体,可在微博微本体架构的基础上利用类的衍生构造。在RSS推送技术的支持下,微博微本体的更新也较好保持了实时性。新的微博信息出现后,首先通过微本体架构抽象成微本体实例,通过本体匹配技术与微博微本体映射解析出来的四种子微本体,即发布微本体、转发微本体、评论微本体和回复微本体进行匹配,具体匹配过程可参考文献[23]。在以上背景下,笔者提出的对微博信息传播的监管转化成对微博微本体库中的四种子微本体实例进行监测,对任意子微本体实例中原有实例个数、新增实例个数和实例快速增加的累积时间(存储在微博微本体实例统计库中)进行监控,尤其是对单位时间内暴增实例的微本体实例进行关注,一旦发现其有突破临界点的趋势便予以报警。基于微本体的微博信息监管机理如图3所示。

实际上,根据微博信息传播的特点,对于网络信息传播的非热点问题,无需去监管,毕竟其所受的关注度有限,而对于微博信息传播的热点才是需要应该控制和预警的内容。上文已说过,热门话题必然形成热门标签,热门标签与微博信息在上节的讨论中已抽象成微本体实例,所以我们只需要对微本体在一定时间内实例的增加数进行检测就可以知道微博信息的传播情况,从而可以有效地监管热门微博信息的传播,并采取相应措施,如减少RSS信息推送等,在技术层面控制微博信息的传播。图3是本文构造的微博信息监管模型,此模型提出了在技术层面监管微博信息的模式和方法,把微博信息传播的管理转化为对微博微本体实例统计库的监测来实现,技术上有很强的可行性。

图3 基于微本体架构的微博信息管理机理

5 验证与结语

笔者利用本体建模思想对微博信息的组织和传播进行了规范,有效地提高微博信息描述的规范性,同时利用自由分类法和本体技术构造的微本体来组织微博信息,实现微博信息组织和传播中的可检测性和可控性,为微博信息管理在信息内容层面上提供了具体的实现方法。

笔者为了验证上述思想的可行性,依托教育部人文社会科学研究规划基金项目——“高能耗行业碳排放预警指标体系及对策研究”构建了一个低碳频道的网站,并在网站上构建了一个微博模拟系统,利用WordNet、Galicias[24-25]等作为构建的辅助工具,对标签词与微博信息进行词汇处理、词间关系处理等,由于在构建微本体的时候最大的障碍就是确定标签词间的关系,而WordNet已经提供了非常严格和良好的词语关系构架,因此,可以借助于WordNet来进行标签词间关系的构建。实验中创建了一种应用的微本体形式——碳排放指标本体,从低碳参与者对预警体系的描述中抽取碳排放预警的相关信息并构建碳排放预警指标本体,并以分层指标的形式反应在网站上。在具体实现上,引导碳排放领域专家在低碳频道网站的模拟微博上对自己支持的碳排放指标作出评论,并以标签形式加以标注。把低碳专家提供的具体指标名称作为微博微本体的名字(简单以类处理),利用RSS推送专家编号作为Objectproperty属性,提取微博时间和类型作为Datetypeproperty属性,从而构成主要语义信息;利用统计方法对其指标所做的标注进行净化,清洗掉重复率低于20%关注的标签,利用WordNet梳理标签间的关系作为第一次补充语义信息;利用WordNet对低碳专家的微博信息内容进行分析,其内容中的名词插入到类结构中充当属性;形容词和数字充当属性值,忽略掉动词信息作为第二次语义补充信息;推理规则只保留Oneof、disjiontwith、equivalentclass和rdfs:subclassof。利用本体构建工具——protege构建微博微本体,构建后的指标微本体用OWL语言存储,利用Galicias再次呈现到低碳网站上,对于专家关注比较高的指标排序在前列,如图4所示。由于实验过程中所使用的几种软件不兼容,数据在不同软件之间的转移由人工实现。由于技术的局限性,笔者在微博信息传播的管理上还没有做实证研究,这将是今后的研究方向。

标签:;  ;  ;  ;  

基于微本体构建的微博信息管理机制研究_语义分析论文
下载Doc文档

猜你喜欢