社会网络分析与焦点分类融合机制研究_关联关系论文

社会网络分析法与分众分类法融合机理研究,本文主要内容关键词为:分类法论文,机理论文,分析法论文,分众论文,社会论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      1 引言

      Web 2.0环境下,众多社会化标注网站,如豆瓣、Del.ici.ous、Flicker、Citeulike应运而生,这些网站允许用户根据自身的认知水平和情感体验为网络资源添加特征标识,从而赋予了用户较大的使用权限和高度自由化的信息标引(极大的自由)。由于用户知识结构、认知能力、情感体验等方面的差异,导致标签资源呈现出无序化、非形式化、语义模糊和关联度低等特征,如何实现社会化标注系统资源的有序化,实现资源间的广度关联与深度挖掘,使社会化标注系统资源开发利用效益最大化是目前亟待解决的问题。

      2 相关研究工作回顾

      随着数字资源的不断增加,数字资源的有效管理和使用遇到瓶颈,如何实现数字资源的优化管理成为业界关注的研究点,“数字资源聚合”随之进入学者们的研究视野。作为数字资源再组织的一种重要模式,数字资源聚合强调深度上的语义性和广度上的关联性的统一,“资源聚合”一经提出,就备受国内外学者的关注。目前,国内外学者提炼出数字资源聚合的方法主要包括分类法、主题法、分众分类法(folksonomy)、社会网络分析、文献计量、本体、关联数据等,聚合技术主要包括云计算、可视化、数据挖掘、概念格、网格等。国内外学者已经较为详细的阐述了这些方法和技术的原理[1][2]、应用[3][4]等,其中,一个非常重要的研究趋势是数字资源聚合方法的结构融合与性能互补,如本体与分众分类法[5]、分众分类法与主题词表[6]、主题词表与本体、文献计量与本体[7]、文献计量与社会网络分析等的互补与融合研究[8][9]。梳理分析国内外研究现状,可以发现,目前还鲜见有学者将分众分类与社会网络分析结合起来,形成二者综合运用的数字资源聚合模式。社会网络分析法能剖析社会结构,明晰关联关系,适用于社会化标注系统的资源聚合研究,故本文尝试弥补这一研究缺憾,从资源聚合方法的融合互补入手,探索社会网络分析和分众分类的融合互补机理,并分析两者融合在实现社会化标注系统资源聚合过程中所具有的重要作用。

      3 分众分类法与社会网络分析在资源聚合中的优劣势分析

      3.1 分众分类法的资源聚合

      3.1.1 分众分类法结构

      分众分类法是Web2.0时代新兴的资源聚合方法,是社会化标注系统中最常用的资源聚合方法,其强调用户认知和情感对资源标注与检索的重要性。马费成等[10]深入剖析了分众分类法的基本结构,指出“分众分类法是由用户、标签、资源及三者的交叉关系构成的分类体系”,据此我们可以得出,分众分类法的三个重要组成部分是用户、标签和资源。用户是数字信息资源的生产者、组织者、利用者和共享者,是分众分类法的主体,分众分类法满足用户自主性和交互性的行为要求,使用门槛低,故其主体范围更广阔。标签是资源的特征标识,是分众分类法中用于联结用户与资源的纽带。资源是分众分类法的客体,是指存在于社会化标注系统中能为用户所利用的一切有效信息的集合,图1揭示了三者的关系。

      图1清晰的显现出分众分类法的三个关键要素(资源、标签、用户)及其关系。三个要素之间相互关联、相互影响,形成关联复杂的社会化标注系统。三者之间的关联关系主要包含两种,一种是显性关联(标签和资源、用户和标签、用户和资源),另一种是潜性关联(用户与用户、标签与标签、资源和资源)。需要指出,用户与资源之间的关系较为复杂,存在“多对多”、“一对一”、“多对一”、“一对多”等现象。①一对一:一个用户仅为一个资源添加过一个或多个标签,标签名称不同,但必然存在联系,甚至很可能类似;②一对多:一个用户为多个信息资源添加标签,标签可能相同,可能不同,但均与用户认知相关;③多对一:多个用户赋予同一资源标签,标签重复几率很大,相似度很高;④多对多:多个用户赋予多个不同资源多个相同或不同的标签,关系网络较为复杂。

      

      由于上述复杂关系的存在,致使标签之间关系也极其繁乱,使得利用分众分类法实现资源聚合时存在很多问题,但看似杂乱无序的标签背后,却蕴含着一定的语义关系,并与用户的认知特征紧密相关。因此,为了提升资源聚合的层级和语义效果,深入挖掘标签间的潜性关联关系就显得尤为重要。

      3.1.2 分众分类法资源聚合的优劣势分析

      与传统的资源聚合方法相比,分众分类法资源聚合具有某些明显的优势特征。

      (1)类目体系的扁平化

      分众分类法摆脱了传统等级化的分类体系,打破固化的逻辑体系,将标签资源放于平等的层面,标签之间不存在等级和隶属关系,用户不必通过多次点击找到需要的资源,节省用户的检索时间,同时,标签的重要程度由用户的标注频次来决定,最重要的标签资源通常都会显示在网页上,有利于实现资源自动聚合,用户可根据标签检索到自己感兴趣的数字信息资源或与自身兴趣爱好相类似的用户。分众分类法将喜好相同资源的用户聚集在一起,形成兴趣小组,并促进兴趣小组内用户间的信息交流与共享。此外,网站设计者会利用统计上浮的原理,绘制标签云图,通过大小、颜色等属性显示标签的热门程度,形象生动地为用户进行热门推荐服务。

      (2)资源揭示的多维化

      分众分类法允许普通大众依据自身的认知能力、情感体验、兴趣爱好等对数字资源进行标注,这种基于用户认知的分类方法并未规定用户标注的范围,用户可以利用资源的内容特征、外部特征或者与资源完全无关的信息对资源进行标注,这就为数字资源的揭示、组织、管理和利用提供了多维视角。研究者可根据标签间的多维关联关系,开展相关性分析,实现标签聚类,在此基础上实现资源多维挖掘和聚合,同时,此时的标签聚类结果既能突显用户的个性化特征,又能反映用户的某些共性,标签的多维度关联聚合也有利于实现用户资源的个性化挖掘和多维度聚合。分众分类法从用户、资源、标签三个维度揭示资源及其属性特征,有助于实现多维度的关联聚合。

      (3)用户的广泛性和自由性

      分众分类法的使用主体是普通大众,用户不需要具备任何分类专业知识就能完成数字资源分类的全过程,分众分类法操作简单、无使用门槛限制等优势吸引了众多的用户。分众分类法用户广泛性特征不仅仅体现在数量上,用户主体的知识背景、教育水平、兴趣爱好、认知情感的多样性也是用户广泛性的体现。分众分类法是以用户为中心的资源聚合方法,用户在分众分类系统和网站拥有绝对的自由。非受控语言的使用大大契合了用户的认知程度,减轻了用户的认知负担,口语化的表达和标注方式便于快速检索。分众分类法倡导用户参与信息组织和分类过程,用户的信息行为对分众分类结果有重要影响。

      (4)标签的及时性和动态化

      标签的及时有效更新有赖于用户标注的及时性、动态性和高频率。在资源组织过程中,一个用户创建的标签可被其他用户随意更改,随着网络信息环境的动态变化和用户标注结果的积累,许多标注频次较低的标签就会淡出用户的视野,而标注频次较高的标签则会以标签云或者热门标签推荐的形式展示在首页,呈现给用户,分众分类网站总是试图将当前的最受关注的热点呈现出来以吸引更多的用户,那么标签的及时动态更新则是其必须具备的功能。

      尽管分众分类法在数字资源聚合上较传统分类法存在明显优势,但随着网络信息环境的发展和用户信息需求的变化,分众分类法的弊端开始显现。

      (1)非等级化的类目体系

      分众分类法平面化的类目体系结构虽然能突显重要资源并节省用户时间,但非等级化的类目体系容易造成标签体系混乱不易管理。传统的分类法是对资源自上而下的层级组织,词与词之间有明确的关系,如隶属、包含、同义等,而分众分类法则没有对标签之间的关系做出事先、明确的定义,一方面,增加了标签组织管理的难度和成本,另一方面,因为信息较为分散的缘故,用户在检索标签的相关资源时会十分困难,影响信息的交流与共享。此外,平级化的类目体系也有可能隐藏重要的信息,标注频次较高的标签固然重要,但在浩如烟海的标签体系中仍有许多重要的标签资源。

      (2)语义模糊,缺乏关联

      分众分类法以标注频次为依据分类组织信息资源,分类标准较为单一,是基于语法层面的标签资源的简单聚合。标签是用户个人认知的产物,反映用户的认知结构,不同用户对同一标签的理解可能相去甚远,标签语义模糊现象较为严重,同时,由于不同地区的文化、习俗、语言等的不同,导致用户理解标签存在语义差异。分众分类系统对标签资源没有系统的控制体系,同一标签的表现形式可能多样,如标签“语义网”,许多用户也标注成“语义web”或“semantic web”等,造成标签数量多且关联关系不明确的现状,未能深入挖掘标签间层级和语义关系是分众分类法在资源聚合过程中存在的问题。

      (3)标签冗余与标签垃圾

      由于用户认知能力、教育水平、主观情感的不同,使得对同一资源的理解和揭示层面存在差异,在分众分类系统中,不同用户对同一资源的标注结果可能千差万别。随着用户标注次数的增加,标签数量更是以幂次方的节奏增长,极易造成标签冗余。而用户标注动机的不同则使得在这些标签中有许多无用标签和低效标签(使用频率很低的标签),用户可能出于吸引他人注意力、自我表现等标注动机,标注一些较为“标新立异”的标签,这些标签几乎不能为其他用户使用,但却占据了非常多的系统存储空间,不便于标签的检索和利用。

      (4)检索效果不理想

      标签垃圾、冗余、语义模糊、缺少关联,这些问题都影响了用户使用分众分类系统时的检索效果,增加了用户检索的时间、经济成本,降低了检索效率,使用户满意度下降。分众分类法平级化的类目体系虽然在一定程度上扩大了资源的检索范围,提高了检全率,但语义模糊、标签冗余等问题也降低了检索的准确率。此外,信息环境、知识结构、认知水平等因素影响用户检索时对标签的理解和选择,从而影响检索效果。

      (5)适用范围的局限性

      分众分类法适用范围的局限性是分众分类结果很难跨系统、跨领域使用。标签形式、内容等的不规范导致分众分类系统的标签很难被复用,系统间的信息交流和共享存在障碍。分众分类法非层级化、语义化、形式化、规范化等特征同样使得其在专业领域的应用推广受到限制。目前,分众分类法大多应用于社会化标注系统、商业网站等,未被用于领域学术研究、人际关系分析等。

      3.2 社会网络分析的资源聚合

      3.2.1 社会网络基本结构

      社会网络是通过网络节点之间的连接形成的社会组织,它没有明确的边界或秩序,网络成员通过良性互动维持稳定关系。社会网络的构成要素有三个:资源个体、关联关系和资源群体。资源个体是指存在于社会网络的活动个体,关联关系是联结资源节点的稳定的社会联系,资源聚落是由资源节点构成的具有稳定联系的小团体。图2形象地展现了社会网络的基本结构。

      如下页图2所示,三者之间交错相融、相互关联,而不同资源节点、资源聚落之间的错综复杂的关联关系则形成多维立体的资源网络。与分众分类法构成要素之间的关联关系不同,社会网络中资源节点和资源聚落不是主客体的关系,而是包含关系。资源个体之间通过相互关联构成资源聚落。资源群体之间通过相互关联构成社会网络整体。与分众分类法构成要素之间的关联关系相同,关联关系与标签的地位相同,均是连接资源节点和资源聚落、资源和用户的重要桥梁。

      

      3.2.2 社会网络分析资源聚合的优劣势分析

      社会网络分析是随着研究者对社交网络平台人际关系的研究分析而兴起的重要的聚合方法。后被应用于学术资源、网络资源聚合领域,与分众分类法相比,社会网络分析法在资源聚合上具有明显优势。

      (1)层级化的类目体系

      社会网络分析实现数字资源聚合的结果是形成结构化、层级化的类目体系,通过层级目录的形式展现标签资源及其关联关系。不同于分众分类法,社会网络分析更加注重网络资源间关联关系的挖掘,各种性质的关联关系是社会网络分析法的核心。层级化的类目体系有助于资源的规范化管理,提高资源的利用效率,管理刚性大。此外,通过标签层级归属的判断可以剔除无用、同义的标签,减轻标签冗余和杂乱现象,节省网络存储空间。

      (2)关系清晰,结构明确

      社会网络分析依据关联性、群聚性等指标将数字资源整体划分成不同的子群,再借助可达性、距离等指标剖析子群的逻辑架构,识别重要节点和关联关系。分众分类法以标注频次来判定标签的重要程度,实现标签资源聚类。社会网络分析的资源聚合维度更显多维化,除了词频统计之外,社会网络分析还从关联关系视角挖掘标签之间的潜在关系。通过标签间语义关联关系挖掘,规范标签语义,实现标签的层级管理。

      (3)检索准确度高,可视化效果好

      社会网络分析用于数字资源聚合需要研究人员具备相应的专业知识,掌握计算机数据处理和分析能力,同时能驾驭可视化软件,从侧面保障了网络资源聚合的准确度和专业化。用户借助资源聚合成果,能够快速且准确地定位所需要的资源。社会网络分析实现网络资源聚合借助Ucinet、Pajek等社会网络分析工具,以知识图谱的形式生动形象地展现标签的重要性、关联度等,这些工具还具备改变标签大小、颜色分布等属性和功能,可视化效果较标签云图强大许多。

      (4)适用范围广

      社会网络分析是信息科学、社会学、通信科学、人类学、数学和心理学等学科交叉延展出的重要分支。社会网络分析最初用于社交平台人际关系分析,近年来,学者们已经将社会网络分析法应用于舆情热点、竞争情报、合著团体、引文分析、资源聚合和知识管理等领域。此外,社会网络分析的资源聚合成果能够被复用且成为其扩展应用的重要基础。随着社会网络分析研究的深入,其应用领域将会进一步扩展到商业智能、物联网等新兴热门领域。

      诚然,社会网络分析的资源聚合仍存在诸多不足。

      (1)标签语义挖掘不深

      依据资源聚合的最终目的和效果,可将数字资源聚合方法具体分为两类:关联广度类和语义深度类。关联广度类主要包括分众分类法、关联数据等,语义深度类主要包括主题词和本体,而社会网络分析和文献计量法则属于既能实现广度关联又能用于深度语义聚合。文献计量法从外部特征和内部特征实现资源聚合,兼顾了资源间的外部关联和内容关联、广度关联和深度语义。社会网络分析注重资源间关联关系的挖掘,通过关联关系聚合实现资源关系和内容的聚合。虽然两者在资源的广度关联和语义深度上都能发挥作用,但从语义挖掘深度视角分析,两者的语义聚合效果不如本体和主题词表,均属于浅语义挖掘,若要实现深度语义挖掘,需要借助主题词表。

      (2)资源覆盖面窄,更新周期长

      社会网络分析实现资源聚合的目标是构建层级化、结构化的类目体系,便于用户使用。科学合理的类目体系构建必然要舍弃无用、同义或者利用率较低的标签,从某种意义上讲,降低了资源聚合的全面性。此外,类目体系的层级数不应太多,这样会增加用户使用资源的时间成本,降低用户黏度,这就需要精简标签层级,舍弃多余标签,而这些标签可能是揭示资源重要特征的标签,丢弃这些标签在一定程度上影响了资源的覆盖面。分众分类法允许用户随时随地为资源添加标签,标签更新速度快,社会网络分析法的标签体系更新则需要专家的重新分类和整理,更新速度慢。

      (3)资源聚合专业性强,难度大

      社会网络分析属于专家分类法,追求资源聚合的专业性、层级性、关联性和语义化。为实现预定的聚合效果,社会网络分析要求聚合主体是某一领域的专家,需要具备相应的专业知识和计算机能力,熟练使用可视化的软件,这增加了资源聚合的难度,普通大众不具备的这种能力和素养。社会网络分析实现资源聚合需要编程抓取和处理数据、构建矩阵,这对研究人员的统计、计算机能力有较高的要求,挑战较大。

      综上分析,不难发现,社会网络分析与分众分类法作为Web2.0环境下的两种新兴的知识组织方式各自具有不可替代的优势,却又不可避免地存在着不足。社会网络分析与分众分类法的融合是专业性和普适性的互补、检全率和检准率的互补、平面化和层级性的互补。

      4 社会网络分析与分众分类法的结构整合机理与性能互补方向

      基于上述分析,根据社会网络分析与分众分类法实现资源聚合各自所具有的优劣势,本文尝试将两种方法结合起来,形成二者综合运用的资源聚合模式。本文借鉴张云中[11]在分析本体与分众分类法的融合机理时采用的方法,将社会网络分析和分众分类法的优劣特征放置于坐标轴,形成四个象限,如图3所示。

      

      由图3可知,分众分类法和社会网络分析的结构整合与性能互补融合可以分成四个象限。第一象限是社会网络分析和分众分类法的双向互补融合,以充分发挥两者的优势为目标,两者地位相同,不分主体与受体。第二象限是社会网络分析向分众分类法的融合,借助社会网络分析的优势弥补分众分类法的劣势,此时社会网络分析和分众分类法分别为主体和受众。第三象限是利用其他的聚合方法、技术和工具,弥补分众分类法和社会网络分析的不足。第四象限是分众分类法向社会网络分析的融合,借助分众分类法的优势弥补社会网络分析的劣势,此时分众分类法和社会网络分析法分别为主体和受众。这四个象限均能阐明一个融合机理,具体分析如下:

      (1)优势区,社会网络分析与分众分类法的双向优势融合(如图4所示)

      

      在此融合机理下,社会网络分析与分众分类法处于同等层面,社会网络分析不作为融合的落点,分众分类法也不是融合的受体,利用两者的优势,将两者的应用提升到更高的层面,实现资源聚合实用性与专业性、检全率与检准率、适用性与规范性的结合。两方法融合的具体方向至少包括以下几个:

      ①知识组织的双向融合。在数字资源的获取、采集、加工、整理、检索、存储、利用等多个方面,充分利用两者的优势,实现知识管理高效化。

      ②资源聚合的互补融合。在资源聚合过程中,实现优劣互补,主要的思路是利用分众分类法提取高频标签,再利用社会网络分析法,挖掘高频标签之间的关联关系,构建标签层级体系,形成结构化、等级化的标签标注和检索系统。这种融合是分众分类法与社会网络分析的性能互补融合,既能较大程度地贴近用户的需求,也有利于标签的规范化管理。

      ③综合运用社会网络分析和分众分类法的知识推荐系统研究。将分众分类法易用、实时、动态、知识收录全面等优势与社会网络分析的规范化程度高、关联性强、语义较清晰等优点结合起来,既能满足知识组织的基本要求,又能满足用户的个性化特征,综合运用社会网络分析和分众分类法的知识推荐系统具有广阔的应用前景。

      (2)互补A区,社会网络分析向分众分类法的融合(如下页图5所示)

      

      在此融合机理下,分众分类法融合受众,通过利用社会网络分析的优点完善分众分类法,两种方法融合的具体方向可从以下几个视角考察:

      ①标签的规范化研究。利用社会网络分析实现资源聚合成果规范化的特征解决分众分类法标签体系结构化、缺少等级的问题。有人曾经指出[12],分众分类法并非毫无体系,用户标注存在内在规律,只是没有人注意到自己的标注体系而已。社会网络分析法通过标签间潜在关系的挖掘,寻找标签资源体系的内在规律,从而构建规范化的标签体系。

      ②标签语义增强研究。分众分类法存在语义模糊的问题,社会网络分析资源聚合的语义化程度虽然不及主题词和本体,但其也属于浅语义挖掘,在一定程度上能有效改善语义稀疏的问题。

      ③聚合维度的扩展。分众分类法从资源、用户和标签三个根维度以及词频子维度实现资源聚合,聚合维度较为多样,但与社会网络分析法相比,却略显单一。社会网络分析法既能从资源、用户、标签等一级维度指标实现资源聚合,其还下设了中心度、关联度、群聚度等二级指标,点度中心度、中介中心度、可达性、距离等三级指标,有助于为研究者提供多维视角,实现资源的多维度聚合。

      ④标签检索系统优化。社会网络分析资源聚合能有效提高资源检索的准确率,改善分众分类法检索准确性不高的问题。利用社会网络分析处理标签资源,能有效解决标签冗余、同义、无用等问题,构建科学合理的标签检索系统。

      (3)劣势区,利用相关理论、工具、方法弥补社会网络分析和分众分类法的不足,尽量减少两者融合带来的负面影响(如图6所示)

      

      在此种融合机理下,又将分众分类法与社会网络分析法置于同等层面,两者融合是利用相关的理论、方法、技术去解决两者都共同存在的问题,或者是弥补一方的缺陷,这种缺陷是仅依靠另一方无法弥补的,必须借助其他方法来完善的缺陷。两种方法融合的具体方向主要包括以下几个:

      ①借鉴和运用分类法、主题法、关联数据、形式概念分析、本体等相关方法完善社会网络分析与分众分类法在结构和性能两个层面的融合,如借助本体、主题词表等方法解决两者深度语义挖掘的问题,借助形式概念提升两者概念分析的准确性和完整性,利用关联数据等方法高效提取资源之间的关联规则等。形成多种方法互补融合综合运用的资源聚合模式。

      ②使用相关技术促进社会网络分析和分众分类法的融合。在社会网络分析和分众分类法融合过程中,技术起着重要的支撑作用。将数据仓储、数据挖掘、URL建模等技术应用到两者的融合中,能有效解决语义挖掘、关联规则提取等问题。

      (4)互补B区,分众分类法向社会网络分析的融合(如图7所示)

      

      在此融合机理下,社会网络分析成为融合受众,通过利用分众分类法的优势来完善社会网络分析方法,两者融合的应用方向至少包括以下几个:

      ①聚合过程和效果的优化。分众分类法全面性好、时效性和实用性强、贴近用户等特征能克服社会网络分析全面性、时效性差,自由度低等问题,能吸引更多的用户,提高网站的用户黏度。分众分类法实现资源聚合过程简单,易于理解,能降低聚合难度。

      ②分众分类法用于社会网络分析过程中。分众分类法在两者互补融合中的重要价值在于为社会网络分析提供新的研究视角,将分众分类法应用到社会网络分析中不仅能解决由于用户参与过少导致资源聚合效果实用性差的问题,而且将群体智慧引入社会网络分析过程,贴近用户需求。分众分类法在社会网络分析的全过程均能发挥作用。数据获取阶段,分众分类法提供的标签资源能够充分反映用户的真实需求,是社会网络分析的数据来源集。关系挖掘阶段,分众分类法通过词频统计实现对标签资源聚类。实践应用阶段,分众分类法依据用户的切实需求,推荐个性化信息和服务。

      ③催生新的研究方向。分众分类法在社会网络分析全过程均能发挥作用,且尚未有学者将分众分类法应用于社会网络分析,笔者认为,此研究方向是聚合方法研究的新的突破点,有待学者们的后续开发和研究。

      5 结语

      随着网络信息环境和用户信息需求的不断变化,资源聚合方法的整合与创新将是一个非常重要的研究趋势。Web2.0的产生、发展和不断推广,使得标签技术、网络书签、博客等成为互联网中的热门应用或服务,与此同时,社会化标注网站也正在不断优化资源聚合过程,多视角考察社会化标注网站资源聚合的方法与模式,不仅有利于丰富社会化标注系统的语义关系,拓展社会化标注系统的资源聚合维度,而且有利于形成多种方法融合互补的资源聚合模式。本文分析了社会网络分析和分众分类法的资源聚合的优劣势,探索了两者融合的机理,提出了实现两者融合的主要方向。诚然,从理论转向实际应用过程中,两者的互补融合要视具体问题具体分析,结合不同的情境选择不同的互补融合模式。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

社会网络分析与焦点分类融合机制研究_关联关系论文
下载Doc文档

猜你喜欢