我国情报学领域文献计量学研究_情报学论文

国内情报学领域文献计量研究,本文主要内容关键词为:情报学论文,文献论文,领域论文,国内论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

引言

我国情报学历经50多年的发展[1],逐步建立了较为完备的学科体系和理论体系,形成了一定规模的科技情报系统,培育了一批以学科带头人为主体的专业从事情报学科研究的机构和梯队状况良好的情报研究人员[2],为情报学的研究发展提供了极为有利的客观人才环境。随着Web2.0时代的来临,依托计算机网络的情报内涵不断延伸,相关从业人员极大拓展,情报来源更趋多元化,情报分析方法也不断丰富,应用范围涉及商业、教育、科技、公安、外交、社会管理、国防军事等社会的各个部门和行业。面对海量的情报学科信息,对于长期从事情报学科与正欲从事该学科研究的科技工作者来说,传统的综述性小范围的研究方法面临较大困难,如何以宏观角度从海量的学科信息中较为完整的获得该领域内活跃的研究专家、核心研究团队、学科领域研究热点及学科成果的网络传播模式等有效信息,对初步涉足该领域和其他广大情报科技工作者的进一步研究工作无疑是有益的。

国内外对于某学科领域有效信息挖掘都有较为深入的研究,一种是从综述角度通过跟踪该领域内的核心作者的相关文献,获取该领域的最新学科动态和研究进展;另一方面是基于计算机技术的大数据量学科数据统计分析,挖掘其中的有用信息。邱均平等[3,4]以《情报学报》20年发表文献量数据作为研究对象,从发文的栏目设置、来源、时滞、作者队伍的生产率与分布状况、引用文献的数量、语种、类型、年代分布、学科分布、来源期刊、自引等情况做了深入统计分析;杨华等[5]对《情报杂志》、施必青[6]对《情报理论与实践》、王芳等[7]对《情报学报》不同时间段内所发表的文献量从引文率、引文类型及研究方法等方面做了相关分析;邓辉[8]利用“中文科技期刊数据库”的标准检索所得的303篇文献从发表年代、来源期刊及主题内容三个角度分析竞争情报领域的研究现状;化柏林[9]从维普数据库中人工选取了部分情报学科文献标题,从标题长度,标题句型两方面进行统计分析。可以看出国内情报学科文献研究数据对象主要针对特定的刊物和特定的时间段,数据量一般较小,此外也少有情报文献从复杂网络角度对情报文献引用关系进行测量分析。国外则侧重于学科领域的可视化研究,Reid等[10]对反恐学科研究领域、Eggers等[11]对医学领域分别从基本分析、内容图分析、共引网络分析三方面通过领域可视化技术和自组织图(SOM)技术挖掘相关研究领域内的核心作者、研究热点、引用关系,并通过内容图,引用拓扑等直观形式表现;Xia Lin等[12]设计实现了一种基于作者共引关系分析的文献搜索系统(author link),这种系统能够从海量文献数据库中自动形成有共引或共同作者(co-author)关系的学科作者群图,分析作者之间的协作关系;本文借鉴以上学科领域研究的部分方法,从数据统计分析、网络测量、协作可视化几个方面来分析国内情报学领域的研究现状。

1 数据获取与预处理

1.1 数据源的选定和爬行策略

国内某大型电子数据库网站是国内最大的电子学术资源网站,涵盖并收录了国内绝大多数的情报学期刊和会议学术资源,本文以该典型的深度数据库网作为数据对象采集源,用C++语言编写了一个针对该网站页面特点的深度网爬行器。深度网是爬行器采用垂直搜索的重要数据来源之一,在采集深度网信息的时候,基于Web页面对象分析方法,可以设计隐藏Web页面中信息的检测和索引方法。在Web页面分析中,加入页面对象分析技术,从页面表单对象中发现可能构成隐藏Web的数据类型,提取这些数据类型的属性,获得属性关系描述,进行索引标注,并将该页面加入隐藏Web索引库中,作为采集的查询入口。

本文编写的爬行器以“情报”关键词作为查询条件,并采取相关度优先的策略,网站返回大约12万条“情报”相关信息,通过提取第一条查询结果的URL作为查询入口,模拟人工的一系列查询操作:如查询、翻页、查看具体的结果信息,从而获取查询结果。在具体实现过程中,借助网站本身的搜索引擎,利用特定关键词“情报”和站内搜索采集其他符合条件的数据信息,分析页面板块的特点,对每条信息的具体内容,按照标题、作者信息、参考文献进行结构化板块抽取并存储。该部分学术信息的抽取、存储的具体形式,在数据采集完成后再分别对三个板块信息再做进一步的数据解析,根据具体分析内容的不同,调用不同的属性列表,数据具体存储格式见表1。

1.2 解析数据的调用

本文将数据分为基本数据信息(Title和Author表)和引用数据信息(Content表),设想通过对这些情报相关文献的分析,从不同角度来反映该学科的发展状况。因此,针对不同侧重点的研究,对应的调用表1中的数据属性也有所不同。此外在具体应用中,通过定义数据有效性及用途,将对涉及数据属性做进一步处理,见表2。

2情报文献基本分析

2.1 情报学文献的数量增长情况

鉴于社会网络规模的巨大性和结构的动态性,在学科领域测量研究和其他社会网络中想要获取整个网络的拓扑数据是十分困难的,因此在实际研究中,通常都会对所研究的对象做一定的简化,希望通过较小样本的获取与分析研究,能够很好地反映研究对象整体的特性和特质。本文所采数据采取基于相关度大小的策略获取,随着获取数据和网页深度的不断增加,所获取数据与“情报”学科相关度也越来越小,在该网站所返回的总计12万条查询结果中,采集到了约1/6的数据,且所采数据中的引用数据有部分也属于该学科类。因此本文认为,针对所采集的20 383条相关“情报”文献数据(包括162 603条引用文献数据,本文于2011年2月采集数据,因此所采数据中包含极少一部分2011年的数据,该部分数据也一并做统计分析)做有针对性的研究,能够反映该学科的现状与结构特性,揭示整体范围内一些有用信息。

情报学文献量的增长情况最直观反映出该学科的发展情况。本文将所采的20 383条数据及其引用数据均定义为与情报学科相关的文献,通过对数据做数量统计,按照年份显示如图1左。截取分析了1978~2011年时间段的文献数量,观察该直方图可以发现,在2006年前,文献量增长情况良好,但从2006年开始,数据量有一定的下降,但量上还是保持较大的数值。分析造成这种结果的原因有以下几点:一是有效统计数据定义过于宽泛,没有对该部分数据进一步处理;二是大量的引用文献中包含部分与情报学科相关性较小的文献也统计进来;三是近几年内所发文献的引用还没有达到一个峰值,存在滞后效应。为了更准确了解情报学科文献的增长情况,本文将有效数据范围进一步缩小,在所采20 383条基本文献数据中,规定标题或者关键词中均须含有“情报”关键字,且在此部分处理得到的文献的对应的引用数据中,将标题不含“情报”关键字的引用文献也过滤(我国情报学科归属在图书馆类学科下,因此该部分剔除数据中包含大量此类文献,另外也包含国外文献和中文文献中正文出现“情报”关键字,但标题和关键词中没出现的文献),最后得到有效基本数据信息共20 603条(包含基本数据和与之对应的引用文献,该部分引用文献已作去重处理,对于多次被引用的文献,将多个引用关系同时映射到该引用文献上),再通过对20 603条文献按年份统计,显示如图1右,通过该图可以明显看出,情报学科文献的数量呈现良好的增长趋势,也反映出情报学科在国内的良好发展状况,此外左图出现的2005年后情报相关文献急剧下降的问题也得到了较好的解释,进一步印证了对左图的分析。

图1 情报文献数量统计图

2.2 情报学关键作者和论文的确定

以科技信息资源中的学术文献资源为主要对象,运用社会化智能采集科技工作者发表的学术文献信息,对该领域人员、机构资料信息尽可能搜集,通过定义相关概念,统计文献发表数量和相互引用情况,挖掘特定学科领域内核心人物以及核心研究团队,及时发现新兴的研究团队和核心人物之间的关联网络变化情况。本节的关键作者和文献以上述定义有效数据为基础,根据发表文献的数量和被引用次数来确定,为了体现引用关系,将 2.1部分20 603条数据做进一步处理,将基本数据中孤立文献节点(2.1节处理后无引用的文献)剔除,得到11 329条数据信息,其中包含4 424条去重基本数据信息,6 905条去重引用数据信息,该部分数据包含1 124条重复信息(即发表同时也被引用),处理后确定10 205条唯一数据(基本数据中标题和关键词、对应的引用数据中标题均含有“情报”关键字)。发文数量根据10 205条数据按照人名出现次数统计排序,对于一篇文献中出现多个人名,本文视为同时归属多人,对作者排名做均等处理,结果如表3;被引次数统计在保留了引用关系的6 905条引用数据基础上做统计,结果见表4。

通过对两个表的观察,可以很清楚地看到发文数量排名前5的科技人员与文献被引次数排名前5的科技人员有王知津、包昌火、马费成3位重叠,说明在本数据集中这三位科技工作者既是高产作者,同时也是具有较高学术影响力的作者;在被引用的前20名作者中,还有谢新洲、梁战平、邱均平、赖茂生四位同时也表现出这种特征,其他的作者在本数据集中均只表现为单一特征,该领域还有哪些数量多同时影响力较高的作者,是下一步数据完备后待研究的问题。同时通过引用表4也可以初步了解这些具有较高影响力文献作者的大致研究方向,如严怡民侧重于情报理论方面的研究;包昌火、谢新洲倾向于人际网络情报、竞争情报与企业商界的系统结合研究;闫晋中主要研究军事领域中情报的学科地位、作用、应用等方面;赖茂生则研究如何通过计算机技术来更好的处理大规模的情报信息和有效提炼分析。了解这些具有较强方向性且有影响力的文献作者,可以更加快速的把握该领域内更精细研究方向的核心圈子,使得广大的情报科技工作者能够紧跟国内先进水平,也能够使不同研究方向的初入门者在选择参考文献时能够有的放矢。此外,还可将表4初步分为理论研究类、竞争情报类、图书馆类、计算机类、人际网络类、军事类六大应用类别,这也一定程度反映目前情报研究主要涉及领域、热门方向与其学科地位(图书馆)和实际应用密切相关(商业、计算机、人际、军事)。

3 情报文献引用复杂网络拓扑分析

近年来,复杂网络作为重要的研究热点,广泛受到来自科学与工程各个领域研究者的强烈关注。通过研究学科文献引用关系网络的平均路径长度、聚集系数、节点度分布等物理性质,从而得到情报领域学科文献之间相互引用网络的基本属性,能够为该实际复杂网络整体拓扑的生成与相关应用研究奠定基础。

3.1 小世界效应

小世界效应普遍存在于各种真实复杂的网络中,如通信网、互联网、人际关系网等。其主要特征表现为该网络拓扑具有较小的平均路径长度[13](也有文献认为还需要具备较大的聚集系数[14]),具有这类性质的网络就被称为小世界网络。那么情报学科研究领域文献之间的引用关系网络这一特定对象是否也存在这种小世界效应现象?它们之间的拓扑结构如何?为了解答以上问题,本文首先对第2节数据处理后的10 205条基本数据进行最大连通图的提取,通过聚类分析,该部分文献节点共划分为837个子团,提取其中最大一个连通团包含8 007个文献节点,并将此子团作为该复杂网络的研究基础,运用Pajek软件提取其拓扑结构如图2所示。

图2 情报文献引用网络拓扑图

平均最短路径长度(average short path length)是指网络中所有节点对之间最短路径的平均值,而网络直径则是指网络中任意节点对之间最短路径的最大值。网络的平均最短路径长度和网络直径与网络的连通性、可达性以及传输延迟等特征密切相关,是用于研判该网络小世界特性的主要属性;平均最短路径长度的计算采用如下公式:

集聚系数(clustering coefficient)用于描述一个节点邻居之间的相互连接的紧密程度,即网络的集团化程度,是网络拓扑的重要参数之一。集聚系数的计算方法包括局部集聚系数、平均集聚系数与全局集聚系数,由于全局集聚系数能够最准确地从全局刻画网络的集聚特性,因此,本文采用与文献[13]相同的全局集聚系数来描述网络集聚性能,其计算公式如下:

根据公式(1)、(2)定义,通过MATLAB编程,网络参数计算结果如表5。

从表5可以看出,该复杂网络的平均最短路径较小,其数值与同等网络规模的对数结果处于同一个数量级,且大致相等。根据文献[13]的定义,表明情报文献引用网络也具有明显的小世界特性。这一方面解释了随着近年来情报科研人员队伍迅速扩展,但研究的应用领域却相对集中的现象;另一方面也有利于国内情报学科的最新成果与理论方法在整个学科领域内的迅速传播和普及,加速向应用转化。

一般来说,当网络规模充分大时,SW模型和BA模型的集聚系数趋向于零,而许多大规模的实际网络通常都具有明显的聚类特性,他们的集聚系数尽管远小于1,但是却比[14]要大得多。而通过本数据集得到的全局集聚系数却与大致相等,且每个节点含边数仅为1.604 3,结合表4,说明该数据集网络不具备明显的聚类特性,不具备全局的相互引用关系,文献与文献之间相互引用抱团效应不是很明显,反映该领域学科存在着极小部分有影响力的相互引用圈子,其他学者主要关注此类核心作者,对其他科研人员成果引用相对较少,具备典型的短路径、低聚集系数科研引用网络特性,而这种情况是否在更大的数据集中仍能表现出来,这种学科内存在的小部分抱团现象对情报学科发展有何影响,是下一步需要研究和验证的工作。

3.2 节点度分布

在情报文献引用关系网络中,节点之间的连接关系可表示为两类:“引用”和“被引用”,其对应的网络关系表现为文献节点的“出度”和“入度”关系。网络中节点度是指与该节点相关联的边的条数,而度分布函数为网络中度数为k的节点的个数占节点总个数的比例,即在随机一致的原则下挑选出的节点其度数为k的概率。在分析情报文献引用关系网络节点度分布时,分别对节点的出度和入度概率分布通过MATLAB编程进行了计算,如图3所示。

从图3中可以看出,前两个图像曲线尾部明显向右倾斜,这表明其分布的右边尾部较长且其值远大于平均数,说明网络的出入度分布均具有明显幂次分布特征。在图3:indegree中,其度分布函数幂指数为-2.098,其拟合曲线表达式为:

可以看到该曲线拟合情况良好,这种现象再一次表明在情报学科引用网络关系中,存在着一小部分核心的文献,具有量小被引次数多的特征。

在图3的outdegree中,通过最小二乘法对曲线进行拟合,发现拟合度不是很高,且出度曲线上出现了“平头”现象,出现这种非随机现象的原因一方面可能是文献在发表后,通常都会将所参考的一些文献列为引用;另一方面一些杂志在发表文章时对引用参考文献有一定的要求,规定须引用一定数量期刊文献,可能导致曲线出现“平头”现象。本文将出度曲线中的“平头”部分忽略,对曲线尾部用最小二乘法再次进行拟合,表达式见式(4),得到拟合度良好的图3:outdegree-2,该图表明曲线尾部具有明显的幂率特征。

4 情报学科研究团队地理分布、演化与协作分析

4.1 协作关系的定义与数据预处理

按照时间序列,结合地理信息系统进行空间分布及其协作关系的研究,不仅能够直观表现出情报学科研究机构的具体分布以及变迁情况;通过协作关系的定义分析,还能够更好的解释学术交流的不断增多对合作研究的促进作用。本节所采用数据仍以所采集的20 383条基本数据为基础,大部分数据中包含作者单位或者城市,或者两者兼有,此外在数据集中同时也包含一部分缺失地理信息或者地理信息在国外的数据,因此在做可视化展现时,本文将该部分数据剔除,最后得到包含地理信息有效数据为18 275条。

该部分数据集中文献包含从1996~2011年的文献,为了更好的展示情报学科动态变迁,将该部分有效数据按照每三年一个阶段划分为五个部分:1996~1998年;1999~2001年;2002~2004年;2005~2007年;2008~2011年。有效数据文献在不同期刊上所包含的地理信息也通常有差异,会出现大学名、研究机构名、城市名或者兼有几个,为了将该部分地理信息转换成统一的可利用的格式,本文将大学、机构所在的地点用所在城市代替,并结合已经表示为城市的数据,按照编号、年份统一转换成对应的经纬度坐标。

在地理可视化实现过程中,本文定义两个规则以区别和突出重点区域和联系。规则一:对于某一个时间段内的同一个地理坐标,可能重复出现多次,按照次数划分为三个等级:①出现次数少于10次,用小号图标表示;②出现次数介于10~100之间,用中号图标表示;③出现次数大于100次,用大号图标表示,此规则主要是为了能够更好的突出重点研究地域的分布。规则二:对于同一条数据信息中出现不同的地理信息,将其定义为一种协作关系,在地理展现上就表现为两地之间有一条边,若出现两个以上地理坐标,就表示为两两协作关系,如图4(b)、(c),并同时归为不同城市中的有效信息,线的粗细度由共现次数决定,如图4(a),此规则主要是为了能够更好的表现不同研究单位之间的协作关系及紧密度。

4.2 情报学科研究团队地理可视化分析

在本文中,情报学科文献机构的地理空间可视化采用了谷歌地图(Google Map)[15]技术。通过谷歌地图提供的免费地图应用接口服务Google Map API,使用Google Map API可以在JavaScript和XML的基础上开发各种地理信息应用。

通过应用Google Map技术以及图4定义的规则,对国内多个不同时间段内发表的有关情报学科文献的地理分布和覆盖网进行可视化分析。图5是在五个不同时间段内,对国内发表文献地理坐标进行处理后的可视化结果,图标表示研究机构的地理位置,连线表示研究机构的协作关系。

从图5可以看出,本文所采的数据反映出情报学科良好的发展情况,随着时间的推移,文献的数量和协作关系呈现出迅速增长的趋势,并表现出以下几个特征:

(1)情报文献数量伴随社会经济的发展表现出持续稳定的增长。在所采数据中,五个阶段的文献量从第一阶段的346条增长至第五阶段的6957条,增长近20倍。基于本文所采数据策略是基于相关性优先的原则,从文献数量产出上可以看出该学科良好的发展情况。

(2)情报学科不同研究机构之间的合作交流日益增多。按照图5的顺序可以看到,各个不同城市之间的协作研究随时间发展不断增多,相比通过共同作者角度来表现其协作关系,通过地理可视化的方式能够更加直观地反映出不同研究机构之间的协作及其紧密度。在图5(a)、(b)地理表示中,20世纪末情报学科研究大部分表现为各个机构的各自为战,而21世纪的10年,协作研究表现出迅速增长的态势,反映出学术交流、人才交流的增多对于学科发展的重要性。

(3)情报学科研究中心的相对稳定。将图5中节点数排名靠前的城市列入相对应的表6~10中,通过观察这些表,可以发现在表中排名前五的城市,随着时间的推移,其作为研究中心的地位保持相对稳定,尤其是北京作为全国性的研究中心地位得到不断巩固和增强。

(4)全国性研究中心之间协作研究的增多和区域性中心城市之间合作的抱团效应增强。通过图5(d)、(e)中连线的粗细度可以看出,节点数排名靠前的北京、西安、武汉、南京、上海、广州几个城市之间的直接联系(线宽)也同样靠前,说明全国性区域内主要的几个情报研究机构非常注重保持学术沟通,同时也导致学术资源进一步向这几个城市聚拢。在图中还可以看出,根据我国的地理区域,以北京为中心,根据交流紧密度(线宽)可以将全国划分为三条主线,六个抱团区域。西线:北京—西安—成都;中线:北京—武汉—广州;东线:北京—南京—上海;这三条主线将国内的几个主要研究机构以北京为中心串联起来。同时,在区域性地域上,也形成了区域性的抱团现象,从图中可以看出六个区域:京津地区、西安成都重庆地区、武汉长沙中部地区、广州深圳珠海珠三角地区、南京上海杭州长三角地区、吉林哈尔滨长春东北三省地区。这些不同层次的地域划分表明我国情报学科的研究既注重全国范围内的合作研究,同时也包含区域性的中心带动辐射作用,而且这些区域同时也是我国经济较为发达的地区,客观上也保证了学科研究的必要资助和研究成果的实际推广应用。

(5)西部新疆和台湾有关情报研究成果也开始在国内出现,从图中可以看到国内西部新疆的情报研究也开始得到发展,进入20世纪以来,以乌鲁木齐、昌吉回族自治州、柯坪县、阿克苏地区为代表的新疆地区推动了西部情报学科的良好发展;同时台湾地区的情报学研究学者的研究成果也开始出现在大陆地区的刊物上,表明情报学科研究开始出现两岸交流。

5 情报学科研究基金资助情况分析

国家和地方对于学科研究的资助,往往具有学科导向作用,或是体现了当下该学科的最前沿性理论研究,或是有重大的实际应用需求,两者都代表了该学科的发展方向。通过对情报学科领域科研支持辅助信息如基金、专利等信息进行广泛搜集,通过有效的聚合和分析,能够有效的把握该学科领域的发展动向。本文所用数据中部分文献包含资助情况信息,通过对该部分数据的提取,对资助量上按照国家和地方两个层次按照年份分别进行统计,如图6。从图中可以直观看出,在本数据集内不管是国家层面或是地方层面,情报资助量都保持了较好的增长态势,充分说明了国家和各级地方政府对情报学科的重视,同时结合目前社会管理的现状,也表明了在商业和政府社会管理中,对各类情报成果有着急切的应用需求,迫切需要理论上、获取方法上、分析手段上的创新。

针对包含基金资助文献的数据做进一步处理,将每年含有资助的文献中的关键词提取出来,按照年份和关键词出现次数,对近十年来的关键词做一个统计排序,结果如表11。从该表中可以看出以下几个特征:一是热点关键词和我国情报学科门类的归属密切相关(图书馆类);二是基于计算机技术的情报管理,信息检索,有用信息提炼分析,海量数据统计结合数学模型在情报学科研究中越来越得到重视(知识管理、情报检索、信息服务、文献计量、引文分析、数据挖掘、指数分析等);三是互联网成为情报的一个重要来源(网络环境);四是竞争情报在情报学的研究中始终保持较高的热度,主要是通过和商、企业的实际结合应用(企业、竞争情报)。本文只是针对部分包含基金资助的文献关键词做了一个简要统计,并对该部分热点关键词做初步的分析,如何通过提取文献摘要,结合自然语言处理技术,更加精准的提炼目前情报学科研究的重点、热点是下一步的研究内容。

6 结束语

本文主要是针对国内某电子数据库网站中情报学科文献数据的客观统计和计量分析。主要包括:①区别于国内其他情报领域学科研究数据获取的相对单一和被动,本文选取了一个特定的数据库网站作为数据源,并针对该网站特定的页面格式和有效页面信息,设计并实现了一个特定结构网站数据爬行器,可以为情报学科研究方向不同的科研人员应用需求提供针对性的数据获取方式和渠道。②发文数量和核心作者的统计分析,可以反映出国内情报学科发展情况以及研究的主要核心力量。③通过对情报学科引用网络拓扑的测量分析,从复杂网络的角度对该网络的参数进行计算,验证了该网络的小世界特性以及出入度分布符合幂率分布的特点,入度表明该网络中大部分节点主要引用领域内的经典文献,不具有很强的抱团效应;此外文献发表时总是存在主动或被动添加一定数量的引用文献,导致出度分布曲线出现“平头”现象。④定义研究机构之间的协作关系,分析共同作者所属机构地理位置之间的连接关系,直观的表现出协作关系的演化和学科研究学术交流的发展水平,确定国内情报领域研究的主要中心机构和协作紧密度。⑤基金资助及其文献关键词的统计分析,可以从一定程度上反映学科研究内容的发展变化,反映国家对该领域学科研究的引导作用,突显当前社会应用中对学科研究的重大理论和现实需求。

收稿日期:2011年10月12日

标签:;  ;  ;  ;  ;  ;  

我国情报学领域文献计量学研究_情报学论文
下载Doc文档

猜你喜欢