我国图书情报科研机构研究领域中的视觉挖掘_情报学论文

国内图书馆学情报学科研机构研究领域的可视化挖掘,本文主要内容关键词为:情报学论文,图书馆学论文,科研机构论文,研究领域论文,国内论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

长期以来,文献计量学的研究者大多是从发文量与被引次数的角度来评价特定学科领域的研究机构,而较少对科研机构的研究领域进行内容分析。例如,陈传明和刘海建对2005年至2006年CSSCI收录的管理学研究领域的论文进行统计分析,找出发文量最多的59所机构与被引次数最多的68所机构,分析了各机构的学术影响[1]。还有些学者将某学科领域划分为一些子领域,分别识别各子领域的优秀研究机构。例如,Foster等人对2005—2009年Web of Science收录的清洁能源领域的论文进行了计量分析,识别出美国与加拿大在该领域各20所优秀的科研机构,利用论文数量、平均相对引文(ARC)与平均相对影响因子(ARIF)这三个指标对这些机构进行了评价[2]。

近几年来,越来越多的学者采用可视化的分析方法,如多维标度(MDS)、交叉图、等级聚类、自组织映射等方法来揭示科研机构的研究领域特点。例如,杨良斌、杨立英和乔忠华对Web of Science中基因组学领域的论文进行了统计分析,识别出20所发文量最多的研究机构,根据机构合作矩阵与机构—关键词矩阵分别进行多维尺度分析,分析了机构合作模式与机构研究领域相似性之间的关系,并利用机构—研究主题交叉图考察了机构在研究主题方面的参与情况[3]。

由此可见,现有的研究要么是以某个特定的子领域(如清洁能源、SOFC)为例,分析该子领域的主要研究机构、发文量以及基于引用或链接的学术影响,要么是涉及许多学科,观察多个学科中科研机构的数量与主题变化,少数研究虽然以特定学科领域(如基因组学)为例,但是其主要目的在于探索研究机构合作模式与机构研究领域相似性之间的关系。而本文旨在揭示国内图书馆学情报学研究机构所涉及的热点研究主题及其在所有研究领域上的分布与主题构成,分别利用自组织映射(SOM)和多维标度(MDS)方法对热点关键词与研究机构进行可视化分析,探索热点关键词与被调查机构按照其研究领域的分类。其研究发现将有助于理解国内图书馆学情报学研究的发展现状,了解该领域主要研究机构的类型与研究主题的分布情况,为国内相关科研机构及其研究人员掌握该领域的研究主题构成,并据此制定相应的研究领域发展与合作计划提供有效的数据支持。

1 研究方法

1.1 数据收集方法

本文根据《中国研究生教育及学科专业评价报告:2011—2012》[4]中发布的最新图书馆、情报与档案管理专业综合排名确定47所普通高校相关院系作为研究对象。这些高校院系在图书馆、情报与档案管理的研究方面成果较多,质量较高,处于学科领先地位,具有很强的代表性。鉴于目前我国图书馆学情报学研究人员在国际期刊上发表的研究论文还相对较少,因此,我们选择国内的中国知网(CNKI数字图书馆)为数据来源,以作者单位作为检索途径,检索2001—2011年之间的各研究机构发表的论文及其关键词作为原始数据。

由于选定的时间范围较长,在此期间内存在部分高校或院系更名、合并等情况,为使数据更加完整准确,本文在收集数据时遵循以下规则:

(1)部分高校院系有多种表述方式,有些作者在标署单位时使用院系名称的简称,例如将“南京农业大学信息科学技术学院”简称为“南京农业大学信息科技学院”,本文在检索时将“南京农业大学信息科学技术学院”与“南京农业大学信息科技学院”都作为检索词,之间用“或含”连接。

(2)近年来,部分高校院系纷纷改名,例如,2011年南京大学信息管理系更名为“南京大学信息管理学院”;中山大学资讯管理系于2010年12月更名为“资讯管理学院”,而“资讯管理系”的前身则是信息科学与技术学院的信息管理系。针对这种情况,本文将这些高校的所有相关院系的名称都作为检索词,之间用“或含”连接。

1.2 自组织映射方法

自组织映射(Self-Organizing Map,简称SOM)是一种无监督学习的人工神经网络方法,能够将高维数据显示在低维的SOM空间,同时保留数据的拓扑结构[5]。本文首先构造一个关键词—科研机构矩阵M1作为SOM算法的输入矩阵,如等式(1)所示。其中,每一行代表一个关键词,每一列代表一个被调查的科研机构,元素代表第i个关键词出现在第j所科研机构发表的论文中的次数。

在生成的SOM输出中,映射到同一结点或相邻结点的关键词所对应的科研机构集合较为相似,而映射到距离较远的SOM结点中的关键词所对应的科研机构之间存在较大差异。由此,可形成关键词聚类。

1.3 多维标度分析

多维标度分析(Multi-Dimensional Scaling,MDS)是以空间分布的形式表现研究对象之间相似性(或相异性)关系的一种多元数据分析方法,其主要结果以偏好图(又称多维尺度分析图)的形式表现。

多维标度分析兼有因子分析和聚类分析两项功能,并在其基础上进行发展和改造。对因子分析而言,将变量分类后可以找出变量之间存在的潜在结构,但却无法对观测值进行分类;而聚类分析虽然可以对观测值分类,却无法找出观测值分类之间的潜在结构。因此,Torgerson[6]于1952年提出了一种既可以用来对观测值进行分类,同时又可找出分类之间潜在结构的分析方法,称之为多维标度(MDS)分析。应用该技术,可以解决因子分析无法对样本进行分类的问题,同时解决聚类分析无法找出分类结果中潜在结构的问题。因此,MDS也是多变量分析中具有对样本“分类”功能的多维统计分析方法,可以根据观测值的相似性进行分类和解释。

本文将前述构造的关键词—研究机构矩阵M1转化成泊松相关矩阵,作为MDS所需的相似性矩阵M2,如等式(2)所示。

M2共有n行与n列,即维数与机构数量相等,其中表示第i所机构与第j所机构之间的相似性,其计算方法如等式(3)所示。

其中X,Y分别代表两所机构,Xi,Yi分别代表这两所机构发表的论文中出现第i个关键词的次数,r表示这两所机构的泊松相关系数,填入矩阵M2中第X行第Y列以及第Y行第X列。

1.4 分析方法

本文分别利用SOM Toolbox和SPSS 17.0软件作为SOM和MDS的分析工具。首先通过确定关键词出现次数的阈值,识别热点关键词,然后对热点关键词进行SOM分析,确定其形成的主要聚类。接着,对被调查的科研机构进行MDS分析,在MDS输出中,位置相近的科研机构其发表论文的关键词较为相似,从而形成一个聚类;距离较远的科研机构其论文关键词差异较大,属于不同的聚类。根据各机构在MDS输出中的邻近程度,结合各机构所发表论文的主要关键词,将各科研机构划分为不同的类别。最后,利用前述识别的热点关键词聚类揭示各类别科研机构的研究领域主题特点。

2 国内图书馆学情报学科研机构研究领域的可视化挖掘实验与分析

2.1 数据描述

本文收集了47所国内图书馆学情报学科研机构在2001—2011年之间被CNKI收录的论文,共计102 454篇,涉及关键词1017个。

2.2 热点关键词的识别与聚类分析

为了识别热点关键词,首先统计各关键词在此期间在所有被调查机构发表的论文中出现的总次数,将总次数高于100次的关键词确定为热点关键词,共有108个。为了避免数值范围较大的属性可能在SOM输出中占据统治地位,首先将输入矩阵M1用“var”方法[7]进行规范化。然后采用线性初始化和批学习算法对输入数据进行训练,并采用超环面的SOM输出形状,其结果如图1所示。

根据SOM的原理,映射到相同或相邻结点的输入数据的属性较为相似,于是根据各关键词在SOM输出中的位置,结合其语义含义,将这些关键词分为四类,如表1所示。

表1显示,被调查机构主要涉及四类热点关键词:(1)与情报学核心领域相关的关键词(K1);(2)与经济管理领域相关的关键词(K2);(3)与公共管理领域相关的关键词(K3);(4)与计算机相关的关键词(K4)。

2.3 科研机构研究领域的聚类分析

利用SPSS 17.0软件对科研机构的相似性矩阵M2进行MDS分析。通过度量多维量表统计分析发现,二维空间模型和三维空间模型都能较好地显现各个科研机构的研究领域相似性。通过比较拟合度值,三维空间模型相对来说能更好地显示这种结构,但是由于通过空间分布图进行聚类分析时,对三维及以上的空间分布图难以进行聚类分析[8],因此本次分析采用二维MDS分析。

在对二维空间图分析时共进行了4次迭代计算,从而达到收敛的标准,最终以Young的第一型力系数(S-stress formula 1)为判断准则,因为两次S-stress的差异小于0.001达到收敛的标准。二维空间拟合优度的检验结果提供应力系数(Stress)和决定系数(RSQ)两个检验值。由MDS分析后输出结果显示,Stress值为0.12378,根据拟合量度值与拟合优度间的关系标准(见表2)判断,以二维空间表征来描述47个高校图书情报院系研究领域的空间关系,达到尚可(fair)的标准;其次,决定系数(RSQ)为0.937 19,表示用二维空间表征可以解释47所高校图书情报院系间差异的变异量的93.71%。一般而言,RSQ值大于0.6表示可以接受。从模型拟合统计数值上来看,各项考核指标均达到标准,表明模型拟合良好。

被调查机构在二维坐标系中的具体显示如图2所示。

根据各机构在MDS输出中分布的邻近程度,结合各机构发表论文所涉及的关键词,我们将被调查的研究机构按其研究领域的侧重点划分为四大类,对这些机构发表的论文总量与在图书馆学情报学领域的发文数量进行统计,并列出各机构的前五个高频关键词及其出现次数(在括号中显示),如表3所示。其中,“发文量”列为被调查的研究机构在2001—2011年之间的发文总量,而“LIS数量”列为在图书馆学情报学领域的发文数量,其统计方法为在发文总量的基础上,通过“按学科类别分组”排序,查找并记录属于“图书情报与数字图书馆”的论文数量。

表3显示,第一大类(C1)是以武汉大学信息管理学院为代表,以图书馆、情报与档案管理核心领域为主要研究领域的科研机构,如北京大学信息管理系、南京大学信息管理学院、中山大学资讯管理学院等21所科研机构。其高频关键词为图书馆、数字图书馆、知识管理、档案管理、电子商务及情报学等,与表1中图书馆学情报学核心领域的热点关键词聚类K1相对应。

第二大类(C2)是以南开大学商学院为代表,大多以与经济管理相关的名称命名的院系,包括华南师范大学经济与管理学院、华东师范大学商学院、南京理工大学经济管理学院等18所科研机构,它们主要是研究与经济管理相关领域的科研机构。其高频关键词包括公司治理、经济增长、跨国公司、供应链、对策等,与表1中的经济管理类热点关键词聚类K2相对应。

第三大类包括四川大学公共管理学院、云南大学公共管理学院、广西民族大学管理学院、苏州大学社会学院以及浙江大学公共管理学院这5所科研机构,这些机构的研究主题具有一定的地域特点,如“成都市”、“广西”、“苏州”、“民族自治地方”、“云南”、“少数民族”、“佤族”等关键词在这些机构发表的论文中出现次数较多。虽然这些机构在图书馆、情报与档案管理方面的研究相对较多,但主要研究和谐社会、社会保障、政府政策及公共服务等公共管理领域,与表1中的公共管理类热点关键词聚类K3相对应。

第四大类则是一些与其他机构的研究领域相差较大、有各自独特的研究重点的研究机构,包括南昌大学信息工程学院、中国农业大学经济管理学院及华中科技大学公共卫生管理学院这三所机构,这些机构在MDS输出中没有特定中心,呈现分散分布的状态。其中,华中科技大学医药卫生管理学院的高频关键词显示,其研究领域着重在医学领域,而在图书情报方面研究较少;南昌大学信息工程学院的高频关键词则显示出其研究重点集中在计算机和通信领域,与表1中的计算机类热点关键词聚类K4相对应;中国农业大学经济管理学院虽然也有关于经济管理领域的研究,但其关键词显示其研究的重心是在农产品、质量安全、消费及农业发展等方面。

根据热点关键词聚类与科研机构聚类之间的对应关系,可以发现,这四个热点关键词聚类可以较好地用于揭示科研机构聚类的研究领域侧重点,但是与医学、农业管理相关的关键词出现次数较少,不属于热点关键词,因此,华中科技大学公共卫生管理学院和中国农业大学经济管理学院的研究领域侧重点未能体现在热点关键词中。

需要说明的是,这四类科研机构之间并不互相排斥,有些机构介于两者之间,如吉林大学管理学院与西安电子科技大学经济管理学院虽然被划分为类别一,但在MDS输出中距离类别二的边缘较近,其高频关键词也包含了企业、供应链、对策等经济管理类研究领域。而华南师范大学经济与管理学院虽然被划分为类别二,但在MDS输出中距离类别一的边缘也较近,其高频关键词也包含了图书馆、知识管理等图书情报类研究领域。这与Sugimoto等人[9]的研究发现相吻合,他们指出图书馆与情报学(LIS)与管理信息系统(MIS)这两个学科领域既存在不同又密切联系,通过对各自领域的48种领先期刊的共引分析,结果发现MIS对LIS的影响大于LIS对MIS的影响,而且这种共同影响日益显著,这两个领域的交叉处主要在于技术系统与数字信息。

2.4 科研机构在LIS领域的发文分析

关于各研究机构的发文数量与LIS论文数量,表3显示,被调查机构的科研论文发文量相差较大。就总体的发文数量来看,类别二中的科研机构大多发文量较大,如天津大学管理与经济学部、西安交通大学管理学院、中南大学商学院、同济大学经济与管理学院等,而类别一、三、四中的科研机构分别只有武汉大学信息管理学院、四川大学公共管理学院、中国农业大学经济管理学院的发文量较为领先,这说明以经济管理类研究领域为主的科研机构在发文方面呈现强势。

从图书馆学情报学领域的论文数量来看,发文量较多的科研机构大多属于类别一,其中武汉大学信息管理学院、南京大学信息管理学院、北京大学信息管理系、中山大学资讯管理学院等机构,发展历史悠久,资源丰富,在科研方面,已经形成了完善的“研究机构—研究者—研究配套资源—研究成果”的科研体系[10]。而类别二和类别三中分别只有南开大学商学院、四川大学公共管理学院的发文量较为领先,类别四中只有南昌大学信息工程学院以微弱优势处于同类机构的前列。

需要指出的是,有些科研机构在图书馆学情报学领域发表的科研论文数量不容乐观,例如中国农业大学经济管理学院在过去11年内在中国知网“图书情报与数字图书馆”学科类别中的论文数量为0,天津工业大学管理学院、福建师范大学社会发展学院及复旦大学管理学院等院系在该类别中的发文量也不足5篇。当然,本研究中所采取的CNKI划分的“图书情报与数字图书馆”学科类别并没有完全覆盖图书馆学情报学领域,这些机构可能在“出版”、“新闻与传媒”、“档案及博物馆”、“信息经济与邮政经济”等相关类别中发表了论文,也可能在CNKI未覆盖的相关期刊中发表了一些论文。

3 结语

本文通过分析与图书馆学情报学相关的科研机构发表论文的关键词,发现热点关键词主要分为四类,即图书馆学情报学核心领域、经济管理类、公共管理类与计算机类热点关键词。该学科领域的研究机构也可分为以上四个类别,但稍有不同的是,第四类科研机构还包括医学、农业管理以及以地方特色主题为侧重的相关学院。这充分体现了国内图书馆学情报学的发展趋势:由核心的图书馆学情报学研究领域向经济管理、公共管理等领域拓展,与计算机与通信、农业、医学等学科交叉,形成有地方特色的信息研究领域。

从发文数量和研究领域的分析来看,我国图书情报研究领域的研究力量既有产出稳定的核心研究机构,它们在图书馆学情报学核心领域处于优势,又存在着大量竞争力日趋增强的其他研究机构,并且以经济管理类研究领域为主的科研机构在发文方面呈现强势,这种竞争越来越激烈的状况有利于国内图书馆学情报学研究的健康发展。但是,某些高校相关院系在图书馆学情报学领域的科研产出情况和增长趋势不容乐观,只是从事信息管理与信息系统、电子商务等相关专业的本科教育,如何促进这些院系对图书馆学情报学领域学术研究的重视,提高其科研产出,使图书馆学情报学与经济管理、公共管理等领域交叉整合,是一个值得深入探讨的问题。

标签:;  ;  ;  ;  ;  ;  

我国图书情报科研机构研究领域中的视觉挖掘_情报学论文
下载Doc文档

猜你喜欢