用共关键词网络揭示领域知识结构的实验研究,本文主要内容关键词为:知识结构论文,实验研究论文,关键词论文,领域论文,网络论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
doi:10.3772/j.issn.1000-0135.2012.12.002
1)本文系国家自然科学基金项目(7001017006和71173187)资助成果。
1 引言
随着知识管理在情报学领域的流传和深化,如何用现有研究信息的方法来研究知识成为情报学界面对的重要学术问题。通过采用适当技术方法把知识关系用信息关系反映出来是值得探讨的一种途径,其重要连通环节是信息共现[1,2]。作为文献信息中的基本现象之一,共现包括共引[3,4]、共作者[5,6]和共词[7~10]等基础关系。伴随网络分析[11,12]近年来成为研究复杂关系的有力工具,运用网络方法探索共现关系成为可能。其中,共关键词网络(Co-keyword networks)使用文献关键词或主题词构建共现关系网络,可望构成连通知识的桥梁,具有探索价值。根据近年研究进展[13~17],本文尝试以数学、电化学、信息计量学和传播学4个分布于文、理不同学科领域的共关键词网络为例,探索通过共关键词网络研究领域知识结构的方法。
2 方法与数据
共现中常见对偶关系,在论文层次上存在三组代表性对偶:作者耦合与共作者、引文耦合与共引、关键词耦合和共关键词,如图1所示。
图1 论文层次上三组代表性对偶共现
其中,共关键词与关键词耦合构成一组典型的对偶共现关系。在共关键词网络中,以关键词为节点,若两个关键词同时用在同一论文中,则两个关键词节点之间形成连接(边)。而在关键词耦合网络中,以论文为节点,若两篇论文用了同一关键词,则两个论文节点之间形成连接(边)。本文只考虑共关键词网络,其原理适用于关键词耦合网络。
关键词网络与知识系统的关联逻辑是:关键词体现概念,而概念是知识的基元;共关键词网络体现概念关系,故能反映知识的基元结构。依此逻辑推理,可用特定知识领域的核心关键词及其共现网络来表征领域核心知识及其结构。
在各知识领域中,领域核心知识主要由领域内核心概念及相互关系表述,而能表示核心概念的关键词通常以高频词形式出现,因此共关键词网络构建和分析从高频词着手。同时,网络分析方法中源自社会网络分析的核心/边缘模型(core/periphery model)[18]为我们提供了有效辨识核心关键词的工具,并在情报学中得到有效应用[19~21]。该方法根据节点之间的连接紧密程度,可将一个网络内的节点分为核心节点与边缘节点两个群体。核心节点之间保持了相对密切的联系,在网络中处于重要地位,通常为值得重点分析的对象。而边缘节点与包括核心节点在内的其他节点之间的联系相对稀松,在网络中处于次要地位。核心/边缘模型的概要计算过程是:依据各节点的核心度(coreness),对原有节点进行分组运算,以非标准化的皮尔逊Pearson相关系数判断模型拟合程度,使得核心节点之间的关系强度高,而边缘节点之间的关系强度低。
基于上述理论和方法,我们利用Web of Science(WoS)数据库、网络分析工具和自编程序,构建了数学、电化学、信息计量学和传播学4个学科领域的共关键词网络。数据处理过程如下:
(1)分别选择4个领域公认的各3种核心期刊作为原始数据来源(从理论上讲,选取的核心期刊数量越多越接近领域知识,但共关键词网络会伴随关键词数量的平方增大而很快超越微机处理能力,故这里仅各选3种核心期刊进行实验,选取依据综合考虑较高专业认可程度和较高期刊影响因子),包括:
·数学:Annals of Mathematics;Communication on Pure and Applied Mathematics;American Journal of Mathematics.
·电化学:Electrochemistry Communications; Electrochemica Acta;Journal of the Electrochemical Society.
·信息计量学:Journal of Informetrics;Journal of the American Society for Information Science and Technology;Scientometrics.
·传播学:Journal of Communication;Communication Research;Communication Theory.
(2)下载以上期刊于2005~2009年的全部文献题录数据(Journal of Informetrics的数据为创刊至2009年的文献),使用Delphi自编程序从该数据中提取并计算关键词频次(含“Author Keywords”和“Keywords Plus”),并做单复数合并处理。最后保留各自领域中词频位列前15%的关键词作为研究对象。
(3)将各领域的关键词按频次位列前1%、2%、3%、……、15%分别列为15组(每组均按1%的量级递增),使用Visual Basic自编程序和网络分析软件UCINET(Version 6.288)将4个领域共计60组数据转换为共关键词网络。运用核心/边缘模型对60个网络进行核心边缘分析,结果如表1所示。
由表1可见,随着共关键词网络规模的扩大(从前1%高频词到前15%高频词),表征核心知识概念的核心关键词增长速度慢于关键词总量增速,这说明领域知识中的核心概念总体上保持相对稳定。利用以上基础数据,我们将具体探索核心/边缘比的变化规律及与其他网络参量之间的实证关系。
3 结果与讨论
图2是本文网络的代表性数据可视化示例之一。
用核心关键词数量除以边缘关键词数量,可得到各网络的核心/边缘比,具体数据如表2所示,各领域整合趋势如图3所示。
我们也计算了各网络的其他基础参数,以前5%关键词为例的代表性结果如表3所示。结合表3和图3可见,虽然4个网络的领域性质、规模和结构都存在较大差异,但随着关键词总量的增加和网络规模的扩大,4个网络的核心/边缘比下降趋势都一致地变得缓慢和平稳。4个网络的结果相互验证了同一经验性结论:知识领域中的核心概念及其结构保持相对稳定。这样,表征概念关系的共关键词网络也就在一定程度上反映了相应领域的知识结构。=。
此外,我们还发现,至少在本文样本中,较高的平均节点度会导致较低的核心/边缘比。两者的负向关系在前5%共关键词网络中体现如图4所示。由于共关键词网络是复杂网络的一种形式,这一结果对于其他类型网络也可能具有参考意义。
图4 平均节点度与核心/边缘比的关系
本文的探索性研究获得的主要参考性结论如下:
(1)表征领域核心知识概念的核心关键词相对稳定。因此,可用核心关键词所代表的核心概念来揭示学科领域内相对稳定的知识内核。
(2)共关键词网络提供了一种有效的研究知识结构的方法。通过共关键词网络揭示出的知识概念之间的关联,可以了解知识概念结构及其分布状况。
(3)以高频关键词作为研究样本可以大幅度缩小共关键词网络规模。这提供了一种以损失低频关键词信息为代价获取易于分析研究的样本的途径。
此外,由于用本文方法建立的共关键词网络是一种反映学科领域知识结构的网络,这也为通过学科关键词构建和生成领域本体提供了一种可能和可行的途径。
4 小结
以上研究表明,在共关键词网络中,核心关键词即核心概念的增长速度慢于关键词总量的增速,反映了核心知识概念相对稳定;而通过共关键词网络揭示出的概念联系,在一定程度上展示了领域知识结构。本文的工作也启示了一种研究知识结构的可能方法——用核心关键词表征核心知识概念,以共关键词网络作为知识结构的一种表达。当然,本文只是用共关键词网络探索知识结构的基础性工作,其结果依赖于社会网络分析中的核心/边缘模型这一特定方法,是为方法上的局限;此外,本文仅考虑了高频词而忽略了低频词,是为样本选择上的局限。后续研究可通过其他具体网络检验或改进本文研究设计。关键词分析是传统信息计量学方法,而字词网络则是复杂网络关注的重点实例之一,我们也希望两者的结合能促进信息计量、复杂网络及相关研究领域的交叉融合和共同发展。
致谢 本文以叶鹰2010年访问德国期间的研究成果为基础合作完成,得到Humboldt大学经费资助和 iFQ资源支持,Stefan Hornbostel教授、Sybille Hinze博士、Haiko Lietz先生,William Dinkel先生和Pei Shan Chi女士提供了研究建议并协助数据处理,特致谢意。