“小生境专家”的特征识别:基于MetaFilter的实证分析_复杂网络论文

“小众专家”特征识别——基于MetaFilter的实证分析,本文主要内容关键词为:小众论文,实证论文,特征论文,专家论文,MetaFilter论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       分类号:G350

       1 引言

       随着市场细分程度的不断提升和互联网经济时代长尾效应的影响,用户需求的多元化和个性化使得“小众”越来越受到大家的关注,如“小众电影”、“小众音乐”、“小众软件”、“小众图书出版”等。不同于上述经过市场包装过的互联网产品,“小众专家”是伴随着社交问答平台的兴起而传播开来的,它具有两个特征:“小众专家”发源于社交平台,也绑定于社交平台,其必须依赖社交平台开展活动;新媒体时代,BBS、社交博客、微博等社交平台将现实中不同身份、不同知识结构的用户连接,形成一个基于多维语义关系(如问答、评论、转发等)的虚拟社区,使得社区内每个用户都有可能成为领域内的“小众专家”[1],如Q&A系统(百度知道、Yahoo!Answers等)中的多数用户在现实生活中可能只是普通人,但在Q&A网络中却可能是中心性极高的答疑专家。相较人们传统认知上的学术专家、技术专家,“小众专家”借助社交平台与外界进行沟通和交流,而非学术或技术资源平台、人际网络等;沟通内容多为用户提交的主题、评论、问答及标注等语料,而少见文献资源和技术文档。但随着传统专家沟通方式的拓展,二者的交集将越来越大。综上可知,“小众专家”是对传统专家集合的一种有效扩展和补充,是利用社交平台资源,通过社会网络及复杂网络等分析方法分层识别出的核心用户。

       之前研究中,廖开际等[2]借助语义网络对专家知识发现及表示方法进行研究,有效地解决了专家识别过程中特征揭示简单、推荐结果不准确等问题;Lin等[3]将文本分析和社会网络分析相结合,构建专家搜索软件SmallBlue以辅助企业进行专家特征识别;李纲等[1]也借助由学术资源链接起来的引文网络生成了专家引文特征向量。但归根结底,无论是语义网络、文本网络,还是引文网络,都只是学术资源的不同分面(一般划分为个人分面、文本分面和引文分面)[4],最终识别出的专家也大多来自科研院所。为此,本文舍弃由学术资源链接起来的网络,选取用户活跃度较高、开放性较好、社交和语义功能完善的社交平台中的资源来识别“小众专家”。目前该主题研究主要集中在意见领袖[5]挖掘,如尹衍腾等[6]提出一种结合用户关系和用户属性的意见领袖挖掘方法,并通过数据验证该方法的准确性和高效性;蒋翠清等[7]从影响力、支持力等方面刻画意见领袖,构造话题参与者的属性矩阵,通过加权平均得到各用户的综合评价,最后发现了话题的意见领袖;Xu等[8]尝试利用内容和网络分析相结合的技术方法,对Twitter平台上政治行动网络(Political Activism Network)中的意见领袖进行识别,并以Wisconsin Recall Election事件为例说明该方法的有效性;Zhang等[9]设计了一种基于K派系聚类的社群抽取及意见领袖挖掘的算法,并以天涯社区为例,通过实证证明该算法的可行性。总之,新媒体环境下,有关意见领袖识别的研究不一而足,但少有研究将意见领袖同“小众专家”关联起来,二者识别方法存在较大重叠,可相互参照,但也存在一定差别,主要表现为:

       (1)主题领域差异:意见领袖识别常见于传播学、政治学等研究中,而“小众专家”识别大多涉及知识组织、管理咨询等学科领域。

       (2)应用场景差异:意见领袖识别主要目的在于引导和控制舆情发展,可体现在如应急事件处置[10]、竞选辅选等活动中,而“小众专家”识别多用于内网知识分享、专家系统构建等方面,如为提升内网的知识复用率,西门子ShareNet系统依社会网络用户角色提出的共享激励措施[11]。

       本文以知名社交博客MetaFilte①为平台,提取其不同版块用户的属性信息及关系信息,借助复杂网络、社会网络等统计分析工具,通过空间和时间对比方法,分析和判断社会网络中扮演“小众专家”角色的用户及其群体特征。

       2“小众专家”特征识别概述

       社会网络中用户之间的语义关系是多样的,以MetaFilter为例,其用户之间的关系包括comment、favorite、Q&A等多种形式,而comment关系按照版块差异又可细化为music_comment、meta_comment、mefi_comment、askme_comment等,除了上述有向联系之外,不同用户之间还存在着用户Tag标注耦合等无向联系,据此可判定用户所在网络是基于多维语义关系连接而成的异质网络。在对异质网络用户关系数据统计的基础之上,辅以用户属性数据,将用户分层聚类后,提取不同用户及其群体的特征,并分析和判断其角色,本文所研究的“小众专家”就是其中角色之一。由此及彼,可推知“小众专家”特征识别过程如图1所示。图1识别过程是意见领袖识别方法在“小众专家”应用场景下的改造,二者识别数据源均为由用户活动数据连接而成的异质网络(关系数据与属性数据的集合,本文以关系数据为主要参考数据,属性数据为辅助校验数据),分析指标为中心度、聚集系数和平均路径长度等,差别在于分析方法:考虑到“小众专家”相比意见领袖在整个节点集合中显现程度较低,时变性相对较强,故在意见领袖常用识别方法(如复杂网络及社会网络分析方法、聚类分析方法)的基础之上,引入时序分析细化“小众专家”集合,探讨其角色的迁移过程。

      

       图1 “小众专家”识别过程

       图1识别过程的实现需要经过三个阶段的对比:

       (1)纵向空间对比:比较任选节点的基本网络结构指标与其所在语义网络的平均网络结构指标,从而判别任选节点在当前网络中的空间分布(核心—边缘结构)及可能角色。如以中介中心度为评测指标,通过表1可知,MetaFilter中userid为19344的用户在favorites网络、music版块用户评论网络、askme版块用户评论网络中的中介中心度都远低于平均值,这说明userid对整个网络资源的控制能力有限,对相应语义关系网络的连通贡献较少,同时考虑到该节点的聚集系数也低于全部节点聚集系数平均值,则判定该节点处于上述三类网络的边缘区域,即非“小众专家”。

      

       (2)横向空间对比:比较任选节点在不同语义网络中的基本结构指标,分析和判别其在不同语义网络中的特征及可能角色,并评估不同语义环境下用户隶属于“小众专家”的程度。如由表1可知,MetaFilter中userid为19344的用户的聚集系数在不同网络中存在较大区别,说明该用户相邻的用户相互关注或评论的程度存在差别,在favorites网络中最弱,在music版块用户评论网络中最强,这与中介中心度排名相逆。综合各指标意义可知,该用户在favorites网络中隶属于“小众专家”的程度最高。

       (3)时间对比:无论是空间横向分析还是空间纵向分析,都需要统计一段时期内用户的基本网络结构指标,如中介中心度、点度中心度、接近中心度、聚集系数、平均路径长度等。构建用户空间分布坐标,通过设计相应的聚类方法,将这些用户聚成不同的类群,并判别用户角色。但社会网络中用户的组织架构相对实体机构(学术专家、技术专家的来源单位)较松散,总体上并不一定具有明晰的架构,多数都以一种模糊的、网状的、重叠的软性架构存在,同时用户角色与其发布资源的数量和质量存在很大关联[11-12],因此“小众专家”群体集合的稳定性不如学术专家、技术专家,其特征会随着时间、社交博客主题等因素的变化而变动。基于此,还需要以时间为轴,分析“小众专家”及其群体特征及角色的迁移过程。

       3 “小众专家”识别实验

       MetaFilter是美国著名的社交博客网站,成立于1999年,每天有大量的用户在上面发帖、评论等。不仅如此,其数据可开源获取①,且实时更新(本文所用分析数据截至2013年11月1日),为社会网络中“小众专家”的识别研究提供丰富的素材。

       3.1 数据源分析

       MetaFilter是社交博客数据集,包括27个表,涵盖mefi、music、meta、askme等不同版块中的user、post、comment、favorite、tag、contact等数据。以music为例,该版块数据表与公共表(如username、favorites)之间的参照关系如图2所示。

      

       图2 MetaFilter中music版块数据表参照关系

       由图2数据表字段间的参照完整性可推知MetaFilter的语义结构。社会网络中用户关系的形成依托于多种资源(图2中的外键),其中post是最主要的一种资源,一个用户对其他用户post所做的评论(comment)、关注(favorites)、标注(tag)等构建了用户之间的关联,因此在社会网络分析中,要获取相应版块的用户关联信息,需要将二模网络(单表数据)转换为一模网络(多表连接数据)。

       3.2 用户空间分布态势

       通过数据库表之间(即二模网络)的多表连接操作,可获取用户关系网络(即一模网络)。以2009年music版块数据为例,其关系网络实现语句可描述如下:

       SELECT commentdata_music.userid,postdata_music.userid

       FROM postdata_music,commentdata music

       WHERE postdata_music.postid=commentdata_music.postid AND Year(commentdata_music.datestamp)=2009

       由关系网络获取的关系数据是用户空间分布及“小众专家”特征识别的主要参考指标,其具体应用过程如下:

       (1)选取2009-2013年music版块的用户评论数据,逐年生成用户关系网络,各年度网络规模如表2所示。

      

       (2)空间分布坐标设计:关系数据是进行用户特征识别及角色判断的主参考指标,其揭示了节点在整个网络中的各项统计指标,如中介中心度、聚集系数、点度中心度、接近中心度、平均路径长度等。这些指标从不同角度揭示了节点的网络属性,结合MetaFilter,本文选取中介中心度和聚集系数作为空间分布的坐标。

       (3)解读坐标

       ①聚集系数描述了一个节点周围的其他节点相互结成团的程度,表明某用户周围节点的密集程度,其数学含义为待分析节点周围节点的实际连边数与最大可能连边数的比值,该比值越大,表明周围节点相互联络得越紧密,但也可能存在过分的相互关注或评论,而这对于待分析节点是不利的[6];

      ②中介中心度描述了一个节点控制网络资源的能力大小,其对节点关系的达成具有重要影响,其值可通过删除待分析节点前后网络连边的变化情况简化呈现,变化差值越大,表明节点控制资源的能力越强,对网络连通的影响越大。

      (4)统计music版块各年度关系网络及单个节点的网络指标值:由第2节中纵向空间对比可知,三类网络的平均指标是进行纵向空间对比的基准,是节点空间分布的参考坐标。以2009年music版块用户关系网络为例,其平均指标值与单个指标值纵向对比的空间分布态势如图3所示,其中节点被平均指标坐标轴(x=0.2983,y=0.0946)切分为4个区域,由此可粗略判断出每一区域节点的密集程度和可能的角色。按照第3节空间分布坐标设计中的特征指标的指示,该年度用户关系网络中聚集系数小于0.2983,中介中心度大于0.0946的节点数只有一个,则该节点可能就是需要识别的“小众专家”。上述情形较为特殊,但当符合条件的节点数目相对较多时,可能还需要进行二次筛选。

      

       图3 空间纵向对比态势图

      除了纵向空间对比之外,横向空间对比也有助于了解节点在不同语义环境下的角色,如图4所示。图4以累计条形图的形式对比了2009年music版块、askme版块中重合节点(624个,横轴未完全显示)的中介中心度,借此可粗略判断出用户在哪种语义环境下控制资源的能力更强,对用户间语义关系的达成影响较大。但横纵向空间对比还无法完全实现量化分析,因此还需结合时序分析和聚类分析。

      

       图4 空间横向对比

       3.3 用户时序分布态势

       本文中聚类分析指通过预定义的聚类算法量化一段时期内社会语义网络中的各个类群的过程,其预设算法涵盖系统聚类算法、层次聚类算法以及复杂网络中社团发现算法等,其聚类结果可视化呈现方式包括树状图、冰柱图、战略坐标图等。本文采用复杂网络及其可视化工具进行聚类分析,其分析步骤如下:

       (1)获取基准数据:选择2009年music版块用户关系数据为基准数据,主要考虑以下两个方面:

       ①由表2可知,2009年用户关系网络规模较大,共包括711个节点,6448条连边;

       ②以2009年music版块用户聚类结果为基准,借助时序分析,有助于笔者了解在时间推进过程中用户特征及角色的迁移过程。

       (2)生成复杂网络:利用txt2pajek格式转换工具(将线性数据处理成网络数据的工具)将数据库导出的记录形式的文本数据转换为复杂网络分析的.net文件,实际上完成了从邻接表到网络的转化,其网络“核心—边缘”结构利用复杂网络分析工具Pajek③自带的可视化工具可大致呈现,如图5所示。

      

       图5 music版块2009年用户关系网络“核心—边缘”结构

       (3)筛选“小众专家”:根据学术专家、技术专家可推知,“小众专家”是其对应研究领域内最具创新性的个体集合,其比例相对较小。笔者设计以下三种方式遴选“小众专家”集合:

       ①依据占年度用户集合的比例来遴选;

       ②设置用户间关联强度的阈值;

       ③通过普赖斯公式[13]遴选(确认年度集合中节点度分布符合幂律的前提下)。

       考虑到不同年度用户关系网络的差异,通过阈值设置普适性不强,通过普赖斯公式[13]遴选节点数量又过多,本文依托第一种方法遴选,因此“小众专家”集合遴选的关键就在于比例的设置(可理解为滑动变量),比例设置越低表明“小众专家”集合遴选越严格,但查全性可能越差。这也就意味着选定的比例在保证“小众专家”集合数量适中的同时,还要尽量使得“小众专家”集合内部具有一定的细分度。假定“小众专家”集合占对应年度用户集合的比例为1%。利用可视化分析工具VOSViewer④,通过不断调整用户关联强度阈值,可获取2009-2013年的“小众专家”集合,如表3所示,集合大小分别为7、6、4、4和3。

      

       (4)属性指标校验:获取的“小众专家”是否准确,还需要提取各关系网络用户的属性数据进行校验。结合MetaFilter数据集,设定提取的属性指标为:平均注册时长、平均提交主题个数、平均被评论次数,对比统计结果如表4所示。

      

       由表4可知,各年度“小众专家”的平均注册时长略高于整体均值(除2009年外,但二者相差较小),平均提交主题数和发表评论数远高于整体均值,说明通过用户关系网络获取的“小众专家”是该年度整体用户集合中最为活跃的群体,这符合公众对于“小众专家”的认知,达到了校验的目的,证明了比例设置为1%假设的合理性,对本文研究方法的论证也起到了良好的支撑作用。当然,笔者还可以作出更多的假设,以寻求比例设置合理范围的大致边界,但这并非本文识别方法设计的初衷,不再赘述。

       (5)特征及其角色迁移分析

       由表3可知,部分用户在2009—2013年各个时期都隶属于“小众专家”集合,稳定性比较强,而有些用户是随着时间而不断变化的,只在某些时期属于“小众专家”集合,且连续性不强,跃迁现象比较明显。为弄清楚“小众专家”的迁移行为,本文在考虑时间因素的基础之上,结合聚类分析对获取的“小众专家”进行更为深入的划分。分析步骤如下:

       ①统计表3中“小众专家”在各个年份是否出现,出现的标记为1,不出现则标记为0,这样就构成了“小众专家”的年份特征向量。

       ②直接对上述特征向量进行聚类,获取的结果无法完全体现用户的连续性,故在步骤①中特征向量的基础上,定义的两个变量:出现频率,用于表征用户出现年份与总年份的比例,如userid为91502的用户有4年出现在“小众专家”集合中,则其出现频率为0.8;连续频率,用于表征用户连续出现的年份占总年份的比例,如userid为91502的用户连续4年出现在“小众专家”集合中,则其连续频率为0.8。再如userid为17479的用户虽有2年出现在“小众专家”集合中,但不连续。则其连续频率为0。由出现频率和连续频率共同构成新的用户特征向量。

       ③采用系统聚类法进行聚类,获取不同类群成员,结果如图6所示。

      

       图6 “小众专家”聚类细分结果

       图6中,“小众专家”被细分为三类:第一类为通识型“小众专家”,如userid为91502和25653的用户,他们长期活跃于社会网络中(连续4年隶属于“小众专家”集合),其角色能够适应主题和时间的变化;第二类是专业型“小众专家”,如userid为21223,7418,49344,36374和39010的用户,他们在一段连续时间内(最少为两年)比较活跃,角色适应性较好;第三类是主题型“小众专家”,如userid为92048,84790和17479的用户,他们稳定性较差(不超过两年,且非连续),角色随时间和主题变动比较大,迁移性比较强。

       4 结语

       新媒体环境下,随着专家与外界沟通方式的日益多元化,“小众专家”与传统学术专家、技术专家的交集越来越大,其是对现有专家集合的一种有效扩展和补充,是利用社会网络资源,通过社会网络及复杂网络统计指标分层识别出的核心用户。为加深对“小众专家”的认知,笔者对“小众专家”特征进行识别研究。识别过程围绕知名社交博客网站MetaFilter展开,利用用户提交的主题以及主题所引发的评论、关注、标注等社交活动数据,构建2009年music版块和askme版块的社会语义网络。在此基础上,以两类关系网络为主体,统计2009年的每个节点基本网络结构指标(中介中心度和聚集系数)和网络的整体指标,绘制用户空间横纵向分布的态势图。以music版块2009年用户评论数据为基准数据,通过复杂网络分析获取“小众专家”集合,并利用用户属性指标(平均注册时长、平均发表评论数、平均提交主题数等)校验该集合的准确性。以此类推,获取从2010—2013年的“小众专家”集合,利用时序和聚类相结合方法分析用户角色迁移的过程和细化“小众专家”的类型。同时需要注意的是,本文研究还可进一步拓展,主要表现为:

       (1)该识别方法受限于平台,MetaFilter是社交博客平台,与博客、微博等社交平台在用户活动数据上还存在一定差异,因此本文的识别过程适用于社交博客类网站中“小众专家”的遴选,在应用于其他平台(如博客、微博)时可能需要进行适当修正和补充。

       (2)只对music版块评论关系进行角色判别及迁移分析,未来将扩展至更多版块,对比分析不同语义环境下“小众专家”类群“稳定—变化”特点。

       作者贡献声明:

      李纲:提出研究思路,论文最终版本修订;

       叶光辉:负责实验,论文撰写;

      张岩:数据搜集及整理。

       收稿日期:2014.11-17

       收修改稿日期:2014-12-11

       ①http://www.metafilter.com.

       ②http://stuff.metafilter.com/infodump/.

       ③Pajek是一款开源程序,可用于大型复杂网络的指标统计和可视化呈现,由Batagelj、Mrvar等共同开发。

       ④VOSViewer是一款开源程序,用于以地图方式可视化呈现网络数据文件和文献题录信息的计量分析。

标签:;  ;  ;  ;  ;  ;  ;  

“小生境专家”的特征识别:基于MetaFilter的实证分析_复杂网络论文
下载Doc文档

猜你喜欢