基于语义共词分析的我国人际情报网络研究探析,本文主要内容关键词为:语义论文,探析论文,人际论文,情报论文,我国论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
1 引言
人际情报网络(human intelligence network)是应情报活动的需要而构建的一种人际网络,其已经成为竞争情报工作和竞争情报系统的重要组成部分[1]。作为竞争情报系统的三大支持网络(组织网络、人际情报网络和信息网络)之一,人际情报网络对情报从业者获取、分析和传播非公开信息和隐性知识起着非常重要的作用:在情报搜集中,通过人际交流,可以充分获取、挖掘正式交流中难以获得的情报信息,可以实现隐性知识的转移和传递;在情报分析中,分析人员通过相互配合、协调,各抒己见,取长补短,可以出色地完成情报分析任务;在情报服务中,通过人际情报网络可以及时有效地将情报提供给情报需求者。鉴于人际情报网络以上的作用和价值,自20世纪90年末我国学者将发源于社会学的人际网络理论系统地引入我国情报界以来,有关人际情报网络的研究一直为国内相关领域的研究人员所关注,并逐渐成为研究热点之一,涌现了大量的研究成果[2-10]。然而,人际情报网络作为一个新兴的跨学科的研究领域,其研究方向呈现多元化,加之当前少有研究涉及人际情报网络研究的宏观层面,使得研究者们很难把握该领域的研究状况。因此,科学揭示人际情报网络的研究现状、重点及发展趋势对于科研人员开展该领域的研究具有重要的现实意义和价值。为此,为理清人际情报网络这一研究领域的发展现状,探讨其研究结构及发展方向,本文采用一种改进的共词分析法(语义共词分析法),对人际情报网络中已有的研究成果进行内容分析,以得到一些有用的结论,进而为从事人际情报网络研究的科研人员提供有意义的参考。
2 语义共词分析法
共词分析法(co-word analysis)作为内容分析法的常用方法之一,主要是通过专业术语共现来判断学科领域中各主题间的关系,进而展现该学科的研究结构[11]。共词分析法认为作者选择的词汇能够在一定程度上反映主题内容,能够揭示某一主题的两个专业术语若在同一文献中出现,说明它们之间存在一定的内在关系,它们共同出现在不同文献中的次数越多,表明关系越密切。当前共词分析法已被广泛应用到研究热点分析[12]、学科结构揭示[13]和信息检索[14]等领域。然而,从对共词分析法的这些应用来看,共词分析主要停留在语法层面上,还未能深入到语义层次上来,没有考虑语词之间的概念与逻辑关系。由于作者对词的选择具有很强的主观性和随意性,加之汉语词的一词多义和多词一义现象的普遍存在,使得同一主题往往会由不同的词表示或者同一词表示了不同的主题内容,并且汉语词汇本身又具有语义模糊性以及词之间关系的不确定性。因此,如果内容分析法仅停留在语法层面上,会致使在使用共词分析法进行分析时出现以下几个问题:
(1)共词分析过程中词频和共现频率统计不准确,进而造成共词分析结果的失真。这主要是由于以下几个原因造成的:首先作者对词的选择具有很强的主观性和随意性;其次汉语词中普遍存在一词多义和多词一义现象。这些因素使得同一主题往往会由不同的词表示或者同一词表示了不同的主题内容,进而使得词频和共现频次统计不准确,造成共词分析结果失真。
(2)聚在同一类团中的语词未必都能表达同一主题。这是因为两个语词共现就一定相关的假设并不是一定成立,共现的词有时并不相关,或者相关性非常小。如在一篇文章中,作者使用了“科技咨询、专家库、可视化、社会资本、人际网络、构建”作为关键词,很显然有些关键词是相关的,如“社会资本”和“人际网络”,而有些是不怎么相关的,如“科技咨询”和“可视化”,因此在聚类过程中,只简单地通过两个语词的共现来决定语词的相关性,会导致在聚类时将一些概念不太相关或根本不相关的主题词聚集在一起的现象。
为克服共词分析法存在的以上问题,本文提出一种基于主题图的语义共词分析法。主题图(topic map)可以用来描述任何主题以及主题之间的各种关系。它是一种用来描述信息资源知识结构的数据格式[15]。将主题图所揭示的各主题词的语义关系集成到共词分析的过程中,能在一定程度上有效提高共词分析的准确性和科学性。基于主题图的语义共词分析法的基本思路如图1所示,其整个过程主要包括以下几个步骤:
(1)明确研究的问题。明确所要分析的主题领域,及通过共词分析所要最终达到的目的。
(2)数据源选择。依据所选主题领域及要实现的分析目标,选择相应的数据源作为共词分析的基础。
(3)关键词抽取与处理。在主题图的指导下从数据源相应字段中抽取关键词,而后对这些关键词进行加工处理,映射到与其相关的主题词上,最终生成用于标识文档的主题图词条目。
(4)高频主题词选择。对主题词进行词频统计,选定一定数量的出现频次超过一定阈值的主题词。
(5)高频主题词对相关性分析。两两选取高频主题词,在主题图中进行检索,判断两者是否相关。如果相关,在相关矩阵中对应位置上赋值1;如果不存在则认为是不相关,在相关矩阵中对应位置上赋值0。
(6)高频主题词对共现统计。将相关的主题词对与用于标识文档的主题图词条目进行匹配,统计这两个主题词在文档中的共现频次,以该共现频次作为相关矩阵中两相关主题词的关系强度,最终生成一个共词相关矩阵。
(7)数据分析。依据生成的共词相关矩阵,根据分析目标进行相应的分析,如主成分分析、聚类分析、多维尺度分析等。
图1 语义共词分析
从上述的语义共词分析法的整个流程可以看出,该方法将主题图融入了共词分析法中,这样做可以有效解决共词分析法中存在的上述两个问题。一方面以主题图指导关键词的抽取和处理,将关键词映射到主题图中各主题词上,使得共词分析能够以规范的主题词作为分析单元,这样做能够提高词频和共现频率统计的准确性。另一方面借助主题图揭示的各主题词之间的相互关系,分析主题词对的相关性,可以解决共现词对虚假相关的问题。综上所述,该方法既发挥了共词分析法客观性的优点,又弥补了共词分析法过于依赖数据统计的不足,将人类知识集成到共词分析法中,因而基于语义的共词分析法可以有效提高分析结果的准确性和科学性。
3 国内人际情报网络研究分析
3.1 数据源选择
为了对国内人际情报网络的研究进行探讨,本文选取CNKI期刊全文数据库作为数据源。具体来说,于2011年4月16日在CNKI期刊全文数据库中检索有关人际情报网络的相关文献。用于检索的检索式为:(社会网络and情报)or(人际网络and情报)or人际情报网络。由于国内第1篇有关人际情报网络的研究成果出现在1999年,因此检索年限范围限定在1999-2011年。通过检索,共获得185条记录,去除不相关记录之后,共获得相关记录155条。
3.2 数据抽取与处理
从检索到的155条相关记录中的标题、摘要和关键词字段中抽取能够用来标识文档的关键词,然而由于作者用词的随意性以及汉语的一词多义和多词一义现象的普遍存在,使得基于关键词的词频统计和共词频次的统计与实际存在偏差,进而影响到共词分析的结果,而主题词由于其具有规范性和可组配的特点,使得其成为理想的共词分析单元。为提高共词分析的准确性,本文对关键词进行了处理,将关键词统一用某一主题词来代替,并作为最终的数据分析单元。数据的抽取与处理是在主题图的指导下进行的。主题图为我们描述了人际情报网络研究领域涉及的各类事务。由于每个事务可能有多个名称,为揭示这些同义关系,主题图规范为人们提供了两类名称标识:Base Name和Variant Name。Base Name只有一个,一般由受控的主题词充当,而Variant Name可以有零个或多个,用于描述不同背景下的事务的别名,这些别名与基本名都是同义关系。这样在数据抽出和处理时,以主题图做指导,不仅可以提高抽词的准确性,而且可以有效地将各类关键词映射到受控的主题词上。比如将直接抽取的“社会网络”、“人际网络”、“社会关系网络”和“人际关系网络”等关键词统一映射到了受控的主题词“人际网络”上。通过数据抽取和处理,最终得到用于标识每个文档的主题词条目,以作为主题词词频统计和共现主题词频统计的基础。
3.3 高频主题词选择
通过数据抽取与处理,最终共获得321个主题词。统计各主题词出现的频次,按照频次的大小从高到低排序,本文将累计出现频次达到46%的前25个主题词作为高频主题词,来研究国内人际情报网络研究状况(见表1)。这些高频主题词在一定程度上代表了该领域的研究热点。作为对比,本文将直接抽取的高频关键词及其词频也统计在表1中,这些关键词不是在主题图的指导下抽取的,是非受控的自然语言词汇。从表1可以看出,无论从高频词的成员组成上还是高频词的频次上都存在很大差别。如在高频关键词列表中出现了“社会网络”,而在高频主题词列表中却没有该词;在高频关键词列表中“人际网络”的词频为51,而在高频主题词列表中却是76,这主要是由于未对关键词进行规范处理造成的。因为与“人际网络”同义的被作者用来表达同一意思的关键词还有“社会网络”、“社会关系网络”和“人际关系网络”等,如果不对这些词加以规范化处理,直接进行词频统计,很显然会降低高频主题词选择的准确性,进而使得分析的结果失去科学性。
3.4 高频主题词对相关性分析
在共词分析中一般都假设共现的两个主题词一定相关,然而这个假设条件在很多情况下并不是一定成立的。因此在聚类过程中,只简单地通过两个语词的共现来决定语词的相关性,会导致在聚类时将一些概念关联不太相关或根本不相关的主题词聚集在一起的现象。为解决这一问题,本文将知识管理中的知识组织方法引入到共词分析中,以主题图来描述各主题词之间的语义关系,在对高频主题词进行共现频次统计之前,首先通过检索主题图来判断两个主题词是否相关,如果相关则统计这两个相关主题词的共现频次,如果不相关,则直接将两个主题词的共现频次设置为0。这样就可以避免一些共现但不相关的主题词对共词分析的影响,能够在一定程度上提高共词分词的准确性。
3.4.1 主题图
本文使用主题图来描述用于标识人际情报网络研究领域相关文献的各主题词以及它们之间的关系。主题图的构建由领域专家借助ontopia[16]提供的主题图编辑工具ontopoly来实现。人际情报网络领域的主题图详见图2。
图2 人际情报网络主题图
需要指出的是,主题图网络仅描述了各主题词之间的关系,但无法通过其分辨出网络中哪些主题词能组成类团。在这里主题图主要是被用来作为判断两个主题词是否相关的依据。若要想了解人际情报网络领域的研究状况,还需要借助共词分析中的聚类分析法、多维尺度分析等做进一步的分析处理。
3.4.2 相关性分析
主题图实际上是一种网状的索引结构,可以通过主题图引擎对其进行高效的检索和主题图维护工作。在进行高频主题词对相关性分析时,首先从高频主题词集合中提取一对主题词,而后在主题图中检索该主题词对,并判断该主题词对是否为某个关系所链接,如果存在则认为是相关的,在相关矩阵中对应位置上赋值1,如果不存在则认为是不相关,在相关矩阵中对应位置上赋值0(见公式(1))。这样通过高频主题词对的相关性分析就得到了一个高频主题词的相关矩阵。
3.5 主题词对共现统计
通过相关性分析,已经得知两个主题词是否相关,而其相关性强度则不得而知,这需要通过主题词对共现频次的统计来获得。在对相关主题词对进行共现统计时,首先从相关矩阵中依次提取相关的主题词对,而后在标识文档的主题图词条目中进行匹配检索,统计该主题词对共现的次数,以这两个主题词的共现频次值作为这一主题词对在相关矩阵中的关系强度值。这样,相关矩阵就转化为共词相关矩阵了。然而,由于两个主题词共现频次的多少,直接受到这两个主题词各自出现频次的多少的影响,也即使用主题词共现绝对值,难以真正反映主题词间的相互依赖程度。因此,为真正揭示主题词共现关系,须用相对共现强度这一指标来表示两个主题词的共现强度,消除因共词频次差异对分析结果的影响。此外,由于在共现相关矩阵中0值太多,统计时容易造成误差过大,影响分析结果,为更好地符合聚类分析的条件,需要首先将共词相关矩阵转化为相异矩阵。本文采用Ochiia系数法将共词相关矩阵转化为相异矩阵。具体过程是:
其次,用1与共词相关矩阵上的数据值相减,得到表示两个主题词相异程度的相异矩阵。在相异矩阵中,值越大,两个关键词的距离越远,因此也就越不相关,反之则结果相反。由共词相关矩阵转化得到的相异矩阵详见表2(由于版面限制,只给出了部分相异矩阵)。为进行对比,本文也将关键词的共词矩阵转化为相异矩阵,以用于共词分析(但限于篇幅就不再展示),进而对比基于语义共词分析方法和基于一般共词分析方法的异同。
通过上述过程,就得到了用于数据分析的相异矩阵。此矩阵是进行共词分析的基础矩阵,共词分析中的主成分分析、聚类分析、多为尺度分析等都是在此矩阵的基础上进行的。
3.6 数据分析
3.6.1 聚类分析
本文采用SPSS17.0提供的系统聚类法(hierarchical cluster),对两个相异矩阵采取相同的方式进行聚类分析。类间距离的测量方法采用的是常用的组间链接法(between-groups linkage),点间距离的测量方法采用的是针对离散数据的chi-square measure测距方法。它们聚类结果的对照图如图3所示。
从图3可以看出,通过聚类分析,主题词集合和关键词集合都主要聚成了5个类团。通过对比分析,不难发现:子图a中的5个类团主题比较明确(各类团所代表的研究主题将在下文详细论述),各类团中包含的主题词密切相关;而子图b中5个类团主题则不鲜明,这主要是因为相关的关键词未被聚集在一起,而不相关的关键词却被包含了进来。比如在类团3中仅包含了两个关键词“信息网络”和“竞争策略”,从这两个关键词我们很难判断其研究的主题是什么,通过对这两个关键词共同出现的文章的内容分析我们发现,包含这两个关键词的文章主要是围绕竞争情报系统这一研究主题的,研究的主要内容包括竞争情报系统的构成(三大网络:信息网络、组织网络、人际情报网络)以及竞争情报系统的功能(获得企业竞争情报以支持企业竞争策略的制定)等。由此可见,关键词“竞争情报系统”和“企业竞争情报”应该与它们聚集在同一类团中,然而这两个关键词却被聚集在类团1中了。而这两个关键词“竞争情报系统”和“企业竞争情报”与类团1并不是非常相关,通过对包含类团1中的其他3个关键词的文章的分析发现,其研究的主题主要是围绕情报分析这一主题的,主要研究情报人员借助人际网络理论和方法对竞争对手进行的情报分析,进而提高企业竞争的能力。图b中其他类团也存在类似的问题,在此就不再一一解释了。由此可见,我们提出的语义共词分析方法与一般的共词分析方法相比能够使类团成员更加合理,类团主题更加明确,因此,基于语义共词分析法得到的分析结果具有更高的准确性和科学性。接下来,本文将借助于子图a中的聚类结果对国内人际情报网络领域的研究状况加以详细分析。
子图a展示了一棵高频主题词的聚类分析树,从图中可以看出,高频主题词共被聚成了5个类团,这5个类团能较好地揭示当前有关人际情报网络的研究现状,反映了人际情报网络研究的5个热点领域。
(1)类团1。从类团1中所包含的4个相关主题词我们可以看出,该类团所反映的研究热点是“情报分析”。研究内容主要包括情报人员借助人际情报网络各种相关理论(如结构洞理论等)和分析方法(如网络密度,中心性等)对竞争对手进行相应的情报分析,进而提高企业竞争的能力。
图3 聚类结果对比图
(2)类团2。根据对类团2所包含的主题词的分析可知其所揭示的研究热点是“竞争情报系统”。研究的主要内容包括竞争情报系统的构成(信息网络、组织网络和人际情报网络),主要是将人际情报网络集成到竞争情报系统中;人际情报网络在竞争情报系统的功能,研究其在搜集企业竞争情报、制定竞争策略的过程中所发挥的重要作用。
(3)类团3。类团3中所包含的主题词比其他类团都要多,说明其是研究热点中的热点。其包含的主题词所反映的研究主题可以概括为“人际情报网络”,是关于人际情报网络自身的研究。人际情报网络是人际网络在企业中的应用,有关研究主要集中在引入其他相关理论(社会资本理论、结构洞理论等)和技术(可视化技术、人际网络分析技术、web2.0技术等)为自己所用,以形成自己的理论体系和方法论。
(4)类团4。聚集在类团4中的主题词所揭示的研究热点可以用“人际情报网络构建”来概括。研究的内容主要包括对人际情报网络本质的分析,研究人际情报网络是什么(它是人际网络在企业的应用,是企业获得竞争情报的一种有效途径),有哪些构成要素,以作为人际情报网络构建的基础;对人际情报网络的构建方法的研究,主要是将知识管理的思想(如本体)集成到人际情报网络的构建方法之中。
(5)类团5。类团5中包括4个高频主题词,这些主题词共同揭示了人际情报网络研究的又一研究热点“情报收集”。研究的内容包括研究如何利用人际情报网络以及虚拟的人际情报网络SNS进行情报收集;研究在利用人际情报网络进行情报收集时的影响因素,主要是借助“小世界理论”和“嵌入理论”对其影响因素进行分析。
3.6.2 多维尺度分析
图4 概念空间图
为了进一步以可视化的方式揭示各主题词之间的关系,本文对人际情报网络领域高频主题词进行了多为尺度分析(Multidimensional Scaling),将它们在多维空间中的位置关系反映在二维空间中,分析结果如图4所示。
通过对图4的分析,可以得出以下几个方面的结论:
(1)类团1、类团2均位于概念空间的左半部分,且位置比较邻近,说明两类团之间的关系比较密切,它们主要研究人际情报网络在企业中的具体实践应用,是关于人际情报网络的实证研究;而类团3、类团4和类团5均位于概念空间的右半部分,且位置比较接近,类团之间具有较强的相关性,它们均是关于人际情报网络的理论与方法研究,属于基础性研究。
(2)类团3和类团5位置比较接近,说明两者比较相似。尽管两者研究的主题不同,但两者研究的内容所依据的理论和方法有重叠,都是人际网络的相关理论和方法。
(3)类团1、类团2和类团4包含的主题词相对比较松散,说明有关它们的研究虽然是研究热点,但不是很成熟;而类团3和类团5所包含的主题词则相对比较集中,说明有关它们的研究相对比较成熟。
(4)类团3中主题词“人际网络分析”和主题词“人际竞争情报”几乎重叠,说明两者关系非常密切。事实上人际网络分析是获得人际竞争情报的重要手段,因此两者关系必然会比较密切。
4 结语
为理清人际情报网络这一研究领域的发展现状,探讨其研究结构及发展方向,本文采用语义共词分析法对人际情报网络中已有的研究成果进行内容分析,得到一些有用的结论。本文的贡献主要体现在两个方面:(1)对共词分析法进行了优化,将语义引入到共词分析法中,提出了语义共词分析法,该方法克服了在第2小节中指出的共词分析法存在的问题,并通过实验证明了该方法能够使类团成员更加合理、类团主题更加明确,因此其在一定程度上能够提高分析的准确性和科学性;(2)对人际情报网络领域的研究进行了聚类分析和多维尺度分析,得出了一些有价值的结论。当然,需要指出的是,由于本文所开展的研究尚属于探索性研究,因此难免存在一定的局限性,仍存在一些问题需要进一步解决,如主题图的更新问题(将新出现的主题词及其关系及时集成到主题图中)、共词分析的排斥性问题(一个主题词只能聚集在一个类团中)等。
标签:主题词论文; 相关性分析论文; 语义分析论文; 统计分析法论文; 相关矩阵论文; 信息搜集论文; 情报搜集论文; 关系处理论文;