从共词分析和可视化的角度绘制我国档案学学科知识图_档案学论文

我国档案学研究主题的知识图谱绘制——以共词分析可视化为视角,本文主要内容关键词为:图谱论文,可视论文,视角论文,我国论文,知识论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

       1 引言

       通过绘制科学知识图谱能够将某一学科领域的研究主题及其演变趋势形象化地展现出来。贺颖等[1]以CNKI数据库中1998-2008年档案学基础理论研究论文为研究对象,利用科学知识图谱方法探讨了我国档案学基础理论研究的热点问题,梳理了档案学基础理论研究的发展脉络。林强[2]以CSSCI数据库中1998-2010年档案学CSSCI来源期刊文献为研究对象,利用CiteSpaceⅡ软件工具绘制了1998-2010年我国档案学研究知识图谱,分析了1998~2010年我国档案学研究的热点领域和前沿主题。本研究以2002~2012年《档案学研究》和《档案学通讯》发表的全部文献为研究对象,通过共词分析、社会网络分析、多元统计分析和战略坐标分析等研究方法,从绘制科学知识图谱的角度探讨我国档案学学科的研究主题及其演变趋势,以期从系统和科学的视角展示并分析我国档案学学科的研究现状和发展趋势。

       2 数据来源与研究方法

       2.1 数据来源

       本文使用的数据为CSSCI收录的具有学科代表性的两种档案学期刊《档案学研究》和《档案学通讯》发表于2002-2012年的全部文献,其中《档案学研究》共计1,340篇文献,《档案学通讯》共计1,879篇文献,两种期刊合计3,219篇文献;检索数据库为:《中国期刊全文数据库》(CNKI);检索时间为2013年3月30日。删除通知、简讯、评论等不相关的非学术文献,同时删除不包括作者关键词的学术文献以及只包括一个作者关键词的学术文献,共计得到了2,704篇我国档案学领域研究文献。

       2.2 研究方法

       共词分析(Co-word Analysis)的思想来源于文献计量学的引文耦合与共被引概念,当两个关键词同时出现在一篇文献中时,则称这两个关键词存在共现关系(co-occurrence)。共词分析的主要前提假设是:文献的关键词能够代表文献研究内容的主题,如果两个关键词共同出现在许多文献中,不仅表明这些文献的内容是关联的,而且表明这类关键词之间的“距离”也是接近的。利用因子分析、聚类分析和多维尺度分析等多元统计分析技术,可以进一步按照这种“距离”将一个学科领域内的核心关键词加以分类,从而归纳出该学科领域的研究热点与知识结构[3]。利用近年来兴起的社会网络分析方法,可以将关键词共现网络直接展现出来,通过对关键词二值网络进行K-核分析,也可以确定该学科领域内的核心关键词。通过在聚类分析基础上绘制战略坐标图,可以描述某一研究主题的内部联系情况,以及与其他研究主题之间的相互影响情况,从而获悉各研究主题的发展状况及其演变趋势。

       3 数据处理与结果分析

       3.1 数据处理

       在上述2,704篇文献中共计出现了4,388个关键词,从中选取词频≥9的高频关键词81个(见表1)。

      

       分别统计这81个高频关键词在2,704篇文献中共同出现的次数,得到一个81×81的高频关键词共词矩阵

(co-word matrix),并将其导入社会网络分析软件Ucinet6.2,然后通过Ucinet的绘图软件工具Netdraw直接展现其关键词之间的共现关系(见图1)。图中的节点大小与该节点的度数成比例,连线的粗细与节点之间的关联强度(即关键词之间的共现频次)成比例。

      

       图1 我国“档案学”研究论文的高频关键词共现网络图谱

      

       图2 高频关键词二值矩阵的K-核分析结果

      

      

       图3 高频关键词相关矩阵的系统聚类分析树状图

       3.2 结果分析

       3.2.1 K-核分析 通过对高频关键词二值矩阵进行K-核分析有助于确定该研究领域内的核心-边缘关键词[4]。K-核(K-core)是一个建立在节点度数基础上的凝聚子群概念,K-核的定义是:对于所有的节点ni∈Ns来说,如果ds(i)≥k,则称子图Gs是K-核,其中ds(i)是指与节点ni相邻接的节点数[5]。一个K-核是一个最大子图,其中每个节点都至少与其他k个节点邻接,即K-核中所有节点的度数都至少为k[6]。在原始共词矩阵中非零元素的平均值约为2.12,因而将共现频次的阀值设定为2,通过Ucinet6.2 将原始共词矩阵转换为二值矩阵(binary matrix)并进行K-核分析,分析结果如图2所示。其中,19个红色节点表示核心关键词(K=3),18个蓝色节点表示次级核心关键词(K=2),20个灰色节点表示边缘关键词(K=0),24个黑色节点表示次级边缘关键词(K=1)。

       3.2.2 聚类分析 本研究采用聚类分析中最常用的系统聚类法对高频关键词相关矩阵进行聚类分析。系统聚类(Hierarchical Cluster)的主要思想是:首先将每一个关键词都看作一类,然后将相近程度最高的两类进行合并,使其组成一个新的大类,再将该新类与相似程度最高的类进行合并。如此不断重复合并,直到将所有的关键词都归为一类。最后将整个分类系统形成一张树状图(Dendrogram),把各个高频关键词的亲疏关系展示出来[7]。将上述原始共词矩阵通过Salton指数法转换为相关矩阵(correlation matrix)。Salton指数法的计算公式是:

分别表示关键词i和关键词j的词频,Cij表示关键词i与关键词j的共现频次。通过SPSS 17.0对高频关键词相关矩阵进行系统聚类,“聚类方法”选择“组内联结”,“度量标准”选择“平方Euclidean距离”,分析结果如图3所示。可见,全部81个高频关键词可以分成16类,其中聚类6中包含的关键词数目较多,可进一步分成两类:聚类

和聚类

。3.2.1中K-核分析所确定的19个核心关键词已用红色字体标出,18个次级核心关键词已用蓝色字体标出。由图3可见,两者在16个聚类中的分布是极不均衡的,核心关键词主要分布于聚类2、11、15、16中,次级核心关键词主要分布于聚类1、10、13中;两者中的绝大部分集中于聚类1、2、10、11、13、14、15、16中。

       3.2.3 战略坐标图 战略坐标图是基于研究主题或聚类基础上的一种研究方法,可以用来描述各研究主题的发展状况和演变趋势。战略坐标图以向心度为横坐标,以密度为纵坐标,以两者的中位数或均值为坐标原点,将研究主题簇表示在平面直角坐标系中(见图4)。密度指标反映了一个研究主题簇的内部聚合能力,向心度指标反映了一个主题簇与其他主题簇的连接能力。一个研究主题簇的密度指标越大,说明该研究主题簇的内部结构稳定性越高,其所代表的研究领域发展越成熟;一个研究主题簇的向心度越大,说明它与其他研究主题簇的连接能力越强,在整个研究领域中越处于中心地位[8]。

       研究主题簇在战略坐标图中分布在4个象限,第Ⅰ象限的主题簇为“核心,成熟类”(Central and Developed),是学科领域研究的热点和重点,受到广泛关注,内部结构稳定;第Ⅱ象限的主题簇为“边缘,成熟类”(Peripheral and Developed),内部结构稳定,但与其他主题联系松散,可能被边缘化;第Ⅲ象限的主题簇为“边缘,不成熟类”(Peripheral and Undeveloped),内部结构松散,研究不成熟;第Ⅳ象限的主题簇为“核心,不成熟类”(Central and Undeveloped),也是学科领域研究和关注的活跃领域,但内部结构不稳定[9]。

      

       根据图3所示的系统聚类分析所确定的16个聚类,计算其密度和向心度的均值分别为0.1247和0.0028,通过Excel散点图的形式绘制2002-2012年我国“档案学”研究主题簇的战略坐标图(见图5)。

      

       图4 战略坐标图的四个象限[10]

      

       图5 2002-2012年我国档案学研究主题簇的战略坐标图

       4 结论及建议

       本文以共词分析可视化为研究方法绘制了我国“档案学”研究主题的知识图谱,以下结合高频关键词的系统聚类分析结果(图3)和在此基础上绘制的研究主题簇的战略坐标图(图5),具体分析2002-2012年我国档案学研究的16个重要主题的研究状况及其演变趋势:

       其一,从图5所示的研究主题簇的战略坐标图来看,第Ⅰ象限中包括以下4个研究主题:2(档案信息资源整合与共享)、13(电子文件管理)、15(档案开放)和16(专门档案管理),这些研究主题的密度高说明这些研究主题的内部联系紧密,向心度高说明它们与其余研究主题之间具有广泛联系,它们处于所有研究主题的核心位置,受到学者们的关注比较多,并且其研究状况也比较成熟;

       其二,第Ⅱ象限中仅包括1个研究主题:1(档案学基础理论),其密度较高但向心度较低,处于所有研究主题的边缘位置,但其研究状况还是比较成熟的,已经自成一体地被深入研究过;作为一个相对独立的研究主题目前表现不活跃,由于缺乏后续进展目前其所受到的关注已较少;

       其三,第Ⅲ象限中包括以下7个研究主题:3(档案网站)、4(档案保护技术)、6[*](档案学研究)、6[**](档案学教育)、7(档案编研)、8(档案信息服务)、10(档案鉴定)和14(档案立法),这些研究主题的密度和向心度都比较低,说明这些研究主题的内部联系松散,它们处于所有研究主题的边缘位置,并且其研究状况也不够成熟,受到学者们的关注比较少,这些主题还有待于进一步研究;

       其四,第Ⅳ象限中包括以下4个研究主题:5(数字档案馆)、9(档案管理模式)、11(档案信息化)和12(文档一体化),这些研究主题的密度较低但向心度较高,说明它们虽处于所有研究主题的核心位置,但其研究状况目前尚不成熟,还具有较大的发展空间,与其余研究主题之间的联系也比较广泛,但由于其内部联系松散、不稳定,在后续发展过程中容易分解或演化为相关主题。

       通过上述对于我国档案学研究主题的知识图谱分析,本文提出以下建议:

       第一,主题2(档案信息资源整合与共享)、13(电子文件管理)、15(档案开放)和16(专门档案管理)是2002-2012年档案学学科领域发展成熟度和活跃度都很高的研究主题,为了维持其目前的研究地位,需在研究的深度和广度上取得进展,即这些研究主题需做更深层次的研究,并注重与其他相关研究主题的结合;

       第二,主题1(档案学基础理论)的研究相对独立且比较成熟,这一研究主题需要拓宽其目前的研究范围,寻找与其他研究主题合适的契合点,从而形成新的研究前沿与热点;

       第三,主题3(档案网站)、4(档案保护技术)、7(档案编研)、8(档案信息服务)、10(档案鉴定)和14(档案立法)是结合社会需求而发展起来的研究主题,这些研究主题需要加强自身的理论研究,并寻找与发展成熟的研究主题的结合点,努力成为档案学学科领域未来的研究热点;

       第四,主题5(数字档案馆)、9(档案管理模式)、11(档案信息化)和12(文档一体化)与其他研究主题结合非常紧密,但因其内部联系松散易分解或演化为相关主题,因此在其研究过程中应注重保持研究主题的一致性,尽量围绕研究主题的共性去展开研究,促使研究主题内部形成稳定结构,从而促进这些研究主题的成熟发展。

标签:;  ;  ;  ;  ;  ;  ;  ;  

从共词分析和可视化的角度绘制我国档案学学科知识图_档案学论文
下载Doc文档

猜你喜欢