近五年来我国情报学研究方法应用的统计分析_聚类分析论文

近五年我国情报学研究方法应用的统计分析,本文主要内容关键词为:情报学论文,五年论文,统计分析论文,我国论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:G250.2 文献标识码:A 文章编号:1007-7634(2014)04-77-08

1 引言

20世纪80年代以来,我国情报学界兴起了关于情报学研究方法论体系的讨论,比较公认的和成熟的有“三层次说”、“四层次说”等[1]。近年来,随着文献计量学等定量方法的兴起,一些学者运用文献统计分析的方法对情报学研究方法的应用情况进行了研究。例如宛玲、邹琳通过对《情报学报》、《情报理论与实际》、《图书情报工作》等期刊2000~2008年所刊载的论文进行统计分析,根据“三层次说”探究了情报学方法研究与应用的发展状况。张源通过对《情报学报》、《情报理论与实践》和《情报资料工作》等期刊2005~2009年的数据进行统计分析,对我国情报学研究方法应用的现状进行了调查。还有一些学者根据相关数据库的检索结果对情报学的研究方法进行了统计。例如秦金聚依据王崇德教授的理论,通过2000~2004年《全国报刊索引》,并结合中国学生期刊网的检索结果,对图书情报学方法论进行了梳理与总结。

然而针对2009年之后的文献进行统计分析以探究近年来我国情报学研究方法应用情况的论文比较少见,因此,本文希望通过对2008~2012年的文献进行统计分析,来研究近五年来我国情报学研究方法的应用情况。

2 数据来源与研究方法

2.1 数据来源

仅根据检索结果来探究情报学研究方法应用情况具有随机性与主观性,因为检索结果受到检索策略和检索词的影响较大,而检索策略和检索词又受到检索者主观的影响。另外,仅通过影响力较大的几个期刊作为统计数据的来源,虽然体现了我国情报学权威期刊中情报学研究方法的应用情况,却丧失了数据的全面性与完整性。因此本文根据《北大中文核心期刊目录(2012年版)》图书情报类的19种期刊2008~2012年的所有论文信息作为统计分析的基础数据来探索近五年我国情报学研究方法的应用情况,将避免上述两种方式所产生的弊端。同时诸多学者为了研究情报学研究方法近年来的应用与发展状况,利用了“三层次说”、“四层次说”等情报学方法分类体系理论。但是研究方法的分类具有很大的主观性,例如宛玲、邹琳将内容分析法划分为专门方法[2],而刘伟、王传清则将其划分为一般方法中的其他学科引入方法[3];谢威、徐睿、蒋玲将新旧三论视为一般方法[4],而宛玲、邹琳则将其划为哲学方法[2]。由于划分标准与原则的不统一,虽然都是基于“三层次说”、“四层次说”理论,其结果却不尽相同。为了避免引入情报学研究方法分类而面临分类标准不统一的问题,本文沿用了样本论文作者对所使用方法的表述,只是将同义不同名的方法进行了相应的统一,从而能够更科学、客观、全面地反映出我国近五年来情报学研究方法的应用情况。

本文选取了《北大中文核心期刊目录(2012年版)》中“图书馆事业,信息事业类”中的19种期刊从2008年至2012年所有的论文,共计32427篇。其中只有《情报学报》的论文是从万方数据库中摘录下来的,其他18种期刊的论文从CNKI数据库中导出。通过数据清洗,删除了编者按、书评、会议通知、征文通知等非学术论文,然后以谭蕙莉提出的“情报学核心研究领域九个研究方向的主要研究内容”[5]为依据区分情报学与非情报学的论文,并对其中非情报学论文进行剔除,剩余15935篇论文。最后将情报学论文中题目、关键词与摘要中没有体现任何研究方法的论文剔除,剩余5866篇论文作为本文统计分析的样本数据。由于许多作者在关键词中并没有提到论文所应用的研究方法,但对于在摘要、关键词中能明显看出该论文所应用某种研究方法的论文,本文在数据清洗时人为标注了论文的研究方法,以便于更全面、客观地统计分析情报学研究方法的应用情况。

2.2 本文的研究方法

本文利用文献计量学方法对上述的5651篇论文进行统计分析:为了解近五年来我国情报学研究方法应用的期刊与作者分布、研究方法应用的情况与发展趋势,用EXCEL软件实现对相关项目的频数统计;为了解研究方法应用与研究领域的耦合情况,构建基于研究方法应用的研究领域关键词的共现矩阵,同时构建研究方法应用与研究领域的耦合矩阵,并利用SPSS 19.0进行聚类分析和对应分析;最后,为了解作者应用情报学研究方法的偏好,针对作者与研究方法应用的耦合矩阵,进行因子分析中的主成分分析,并将分析结果中的结构矩阵导入Netdraw中进行可视化分析。通过上述多种研究方法的应用,以揭示近五年来我国情报学研究方法应用的情况。

3 结果分析

3.1 留录比分析

本文中的留录比是指最后留取的应用情报学研究方法的论文数与删除非情报学论文后的所有情报学论文数之比。根据不同年份样本论文的留录比数据绘制出留录比时间分布图,如图1所示。从中可以看出,近五年来留录比随着时间的推移而不断上升。由于留录比反映了应用情报学研究方法的论文占总体情报学论文的比例情况,因此可以看出近五年来,我国应用情报学研究方法的论文占总体情报学论文的比例越来越大,说明我国情报学领域对情报学研究方法的应用越来越重视。

图1 留录比时间分布图

3.2 期刊分布

样本论文在19种期刊中的分布很不均匀,基本呈现的态势是:除了《情报资料工作》与《图书与情报》所收录的相关论文较少以外,其他以“情报”命名的期刊收录的相关论文篇数较多,如表1所示。从总体上看,应用情报学研究方法的论文刊载在以“情报”命名的期刊的比重为86.9%,说明以“情报”命名的期刊是情报学研究方法应用的重要刊载阵地。同时也可以看出,《情报学报》、《图书情报工作》、《情报理论与实践》、《情报科学》等高影响力的期刊在情报学研究方法的应用领域占有重要位置。

3.3 作者分析

在样本论文中共有7050位作者,其中有4853位作者近五年只发表过1篇应用情报学研究方法的论文,占全体作者群的68.8%。若将论文篇数在15篇以上的作者视为高产作者,共有36位作者符合条件,如表2所示。

这说明情报学研究方法应用的作者群中大多数作者都是很少使用这些方法,只有少数作者属于情报学研究方法应用的高频者,这对于情报学研究方法的推广、创新与发展很不利。若将近五年发表过3篇以上的作者视为情报学研究方法的积极应用者,共有1100位作者,占全体作者群的15.6%,这说明还有84.4%的作者不积极使用情报学研究方法。这也反映了我国情报学研究方法的应用、推广还有很大的空间。

3.4 研究方法应用的频次分析

本文将使用频次在20次以上的研究方法视为高频方法,然后对高频方法进行了统计,可以看出情报学研究方法应用的频次存在着很大的差距,如表3所示。样本论文中应用的研究方法共计1973种,每种方法应用频次均值为5次,而实验法、实证研究与统计分析这三种方法的应用频次都超过500次,说明情报学研究人员对研究方法的应用偏好比较集中。

同时根据研究方法频次统计还可以看出诸如实证研究、统计分析等定量方法,对比分析、比较研究等定性方法,问卷调查、调查研究等数据收集方法,聚类分析、因子分析等数据分析方法,以知识图谱为代表的可视化方法,实验法、实例验证等证明方法是近五年情报学研究中经常使用的方法。

同时本文还专门针对样本论文中所使用的研究工具进行了统计分析,并将使用频次大于等于3的研究工具视为高频工具,绘制出高频研究工具统计表,如表4所示。

从中可以看出:因子分析、聚类分析与多维尺度分析等数据分析工具——SPSS,可视化的知识图谱绘制工具——CiteSpace、Pajek、Netdraw,社会网络分析工具——UCINET,实证研究的结构方程工具——AMOS,模拟仿真工具——Vensim、Netlogo、Matlab,一般常用工具——Excel、Bibexcel,网络信息搜索工具——网络蜘蛛、网络爬虫与编程工具——JAVA等,都是情报学研究方法应用过程中经常伴随使用的工具。

与样本论文中研究方法的应用一样,工具的使用也呈现出很大的波动性:大家所熟知的工具SPSS、CiteSpace等的使用率是普通工具使用率的十几倍甚至几十倍,这说明研究者工具使用偏好的集中性。高频工具主要是SPSS、CiteSpace与UCINET,这也从侧面证明了数据分析方法、可视化方法与网络分析法等研究方法在近五年中使用频率很高。

3.5 研究方法应用的时间分布统计

为了分析情报学高频研究方法的时间演化,本文选取了应用频次在30次以上的高频研究方法,构建了情报学高频研究方法从2008年至2012年的分布表,如表5所示。矩阵上部(左边上部)说明该方法呈现逐年递增的趋势明显;位于矩阵中部(左边下部、右边上部)说明该方法最近五年使用频率逐年递增趋势较为平缓,甚至不是很明显;位于矩阵末端(右边下部)的方法呈现降多升少的趋势了。从表5中可以看出:从模拟仿真等仿真方法到h指数为代表的文献评价方法呈现逐年递增的趋势,而从聚类分析的分析方法到影响因子的期刊评价方法呈现有升有落的较为平衡状态,最后模糊综合评价等评价方法到比较研究方法大体呈现升少降多的趋势。

从表5中分别选取了位于表上端的“模拟仿真”、“知识图谱”,表中上端的“复杂网络”、“相关性分析”,表中下部的“聚类分析”与“结构方程”与表下端的“层次分析”与“问卷调查”,绘制了高频研究方法的时间演化图,如图2所示。

可以看出“模拟仿真”与“知识图谱”的频次随着时间逐年增加,表明这些方法越来越受到研究者重视;“复杂网络”、“相关性分析”的频次总体是逐年增长的,只是某一年频次下降,其他年份都是上升的;“聚类分析”的频次呈现上升趋势,而“结构方程”的频次大体呈现回落趋势。最后“层次分析”与“问卷调查”的频次只是某一年上升,其他年份都是下降趋势。这说明诸如模拟仿真、复杂网络等新兴方法、可视化方法越来越受到重视,聚类分析、相关性等数据分析方法总体呈现不断上升趋势。

图2 高频研究方法时间演化图

3.6 研究领域与研究方法应用的聚类分析和对应分析

为了进一步探索近五年来情报学研究方法应用与具体研究领域之间的耦合状况,本文进行了研究领域与研究方法的聚类分析和对应分析。

首先对样本论文中能够反映论文研究领域的高频关键词进行聚类分析,具体步骤为:本文将关键词中出现的英文缩写统一转换为中文关键词,例如中文社会科学引文索引(CSSCI)、技术接受模型(TAM)、复杂适应系统(CAS)、结构方程模型(SEM)、平衡记分卡(BSC)等。然后将处理过的关键词进行计数统计,根据Donohue于1973年提出的“高低词频分界公式”计算出关键词的高低词频阀值。由于本文中的=7643,代入公式得出高低词频阀值为123.13,向下取整为123。而满足123的高频词只有“竞争情报”、“数字图书馆”、“知识管理”三个,无法从高频词中发现规律。因此本文选取频数大于19的关键词为高频关键词,结果得出如表6所示的高频关键词表。

将高频关键词构建成一个69*69共词矩阵,然后计算其Ochiia系数,将共词矩阵转化为相关矩阵,最后用1减相关矩阵中的数据,将相关矩阵转化为相异矩阵。此时相异矩阵中的数据为对应行列中关键词的距离。将求得的相异矩阵导入到SPSS 19.0中进行层次聚类分析,选择Ward(离差平方和法)得到69个高频关键词的聚类树状图,如图3所示。

图3 高频关键词聚类树状图

从中可以看出,这69个高频关键词可分为十大类:一类是文本分类与算法;二类是信息检索与查询扩展;三类是中国与美国;四类是绩效评估、政府网站与电子政务(稍微宽泛的分类可将三、四类合并);五类是大学生与信息素养、信息系统、信息行为、信息服务、信息需求与高校图书馆;六类是电子商务与推荐系统、关键词、相似度、搜索引擎、网站与标签;七类是竞争情报、企业与信息可视化、指标体系、网络舆情、信息资源、网络、评价指标与信息化、网络信息资源、研究进展、服务质量、评价模型、数字资源、绩效评价、图书馆、知识服务、开放存取、数据库、分析、专利、技术创新、评价、模型、知识组织、数字图书馆与知识产权;八类是影响因素、虚拟社区、知识共享、隐性知识、知识管理、知识转移与知识创新;九类是中文社会科学引文索引、学术评价、引文、期刊评价、期刊、学术影响力;十类是情报学、图书馆学、研究热点与研究前沿、核心期刊与图书情报学。这十类正是情报学领域运用研究方法最多的十大领域。

图4 二维对应分析图

然后,根据聚类分析得出的研究领域作为矩阵的行,以具体研究方法的应用作为矩阵的列,构建了研究领域与研究方法应用的耦合矩阵,然后对耦合矩阵进行处理,最后将其导入SPSS 19.0中进行研究领域与研究方法应用的对应分析,如图4所示。

从中可以看出,第一类领域从维度一角度看与其他类领域分离较大,所使用的研究方法主要是实验法、向量空间模型等,侧重的是数据处理与结果验证,这与该类领域的研究内容较为贴切;第二类领域的研究方法主要是实验法、K-means、领域本体与PageRank等,这些研究方法也是信息检索和信息查询常用的方法;第三类和第四类领域的研究方法主要是实证分析、社会网络与数据挖掘等;第五类领域的研究方法主要是网络调查、案例分析、实证研究、模糊综合评价、数据包络、调查研究等;第六类领域的研究方法主要是专利分析、层次分析、实例验证、链接分析等;第七类领域的研究方法主要是文献分析、对比分析、因子分析、内容分析等;第八类领域的研究方法主要是访谈法、影响因子、结构方程、问卷调查、回归分析、实证分析与模拟仿真等;第九类领域的研究方法主要是引文分析与共引分析;第十类领域的研究方法主要是共引分析、知识图谱、相关性分析等。

其中,许多领域的研究方法的应用聚类成为两大类:一类主要包括如词频统计、计量分析、定量分析、主成分分析、可视化、统计分析、共词分析、多维尺度分析、聚类分析与内容分析等统计分析的方法;另一类主要包括如回归分析、案例分析、实证研究、模糊综合评价、数据包络、调查研究、网络调查、文献调研、SWOT分析、实证分析等实证研究的方法。

3.7 作者与研究方法应用的因子分析和可视化分析

为了探究近五年来高频作者对于研究方法应用的偏好,本文首先构建高频作者与所应用研究方法(使用频率大于等于3)的耦合矩阵,将耦合矩阵导入SPSS 19.0中针对高频作者进行因子分析中的主成分分析(其中KMO统计量为0.717大于0.7,说明可以接受因子分析),并对其进行了直接斜交旋转。然后,将分析结果中的结构矩阵导入Netdraw中进行可视化分析,绘制出高频作者与研究方法应用的因子分析结果图。如图5所示。

图中节点的大小反映的是该节点在图中的综合显著性的近视指标[6]。其中作者用红色方块代替,所应用的研究方法因子用蓝色圆圈代替,因子节点的大小表示所有作者对该因子的载荷总值,作者节点的大小代表所有因子对该作者的载荷总值,作者与因子节点之间的连线粗细表示作者对该因子的载荷大小。

综合上述,可以看出近五年来我国情报学研究方法的应用表现为以下四个方面的特征:第一,存在这样一种趋势,即将研究方法应用的结果用可视化的方式呈现出来。随着近年来可视化工具的兴起,研究人员越来越倾向于将文献计量分析的结果用可视化的方式呈现出来,尤其是将利用聚类分析、共词分析、引文分析、社会网络分析等研究方法分析的结果用SPSS、CiteSpace与UCINET等工具实现可视化,使分析结果更直观,更有说服力。第二,近年来我国情报学的研究越来越多地借鉴与应用了经济学、运筹学、统计学、心理学、社会学等其他学科的研究方法,体现了情报学科越来越注重跨学科研究方法的借鉴与融合。如统计学中的聚类分析、因子分析是情报学研究中应用的高频方法;运筹学中的博弈论模型,经济学中边际分析方法等更多地应用于竞争情报与信息价值评价中;心理学模型在研究特定人群的信息需求与信息行为中也越来越扮演着重要角色;社会学中的社会网络方法在情报学的研究中也越来越广泛地使用了。这些方法的引入让情报学的研究范围更为宽广,研究手段更为多样。第三,互联网与计算机技术的发展与崛起,为情报学研究的信息获取、信息分析提供了巨大的便利。越来越多的情报学研究人员积极地利用、探索用计算机与互联网技术解决情报学问题,并提出了一系列基于此的新方法、新工具,例如云计算、SOA等。第四,网络分析、模糊数学、模拟仿真等新兴方法得到更加积极地运用与发展。以社会网络为代表的网络分析方法逐渐成为情报学研究方法中的热点;模糊数学方法在情报学评价研究中起到巨大的作用;模拟仿真方法进一步丰富了情报学研究人员探究复杂系统、验证研究结论的方法与手段。这些新兴方法将在情报学今后的研究中越来越凸显其重要作用。

4 问题与建议

4.1 情报学研究方法应用中存在的问题

本文通过对样本论文中相关数据的统计分析,发现我国情报学研究方法的应用方面存在以下不足。

(1)数据收集方法不规范。情报学论文数据收集方法的不规范严重影响了其研究结果的科学性。在许多情报学论文中并没有提到采用了哪种数据获取方法,而有的论文针对某省某个特定群体的信息需求调查仅仅只收集了一百多份调查问卷,样本数量太少影响了论文结论的科学性;另外,绝大多数论文中没有标明调查问卷的发放方式,一些论文中虽然标明了是抽样调查,但并没有具体标明是采用哪种抽样调查方式;此外,一些论文的随机抽样过于随意,缺乏数据获取的科学性,并且在论文中也没有必要的信度和效度的检验。由于情报学论文研究结论的科学性与否与数据获取是否规范依赖性较大,因此需要进一步规范情报学论文中数据收集方法的使用。

(2)缺乏方法创新与科学逻辑意识.在样本论文中,提出新方法、新模型的论文共有1409篇,占全体样本论文的24%。说明我国情报学研究方法的应用还是以简单方法、常规方法和现有方法应用为主,缺乏研究方法的创新与创新方法的应用。另外,在样本论文中,提出了新方法、新模型又提到用实验、实证等方法来证明其结论科学、合理的,符合科学逻辑意识的论文篇数为815篇,占全部提出新方法、新模型论文的57.8%,占样本论文总体的13.9%。同时,在这些论文中,提到证明数据、证明方法、证明过程与证明结果等真正体现证明规范性、严谨性的论文只有144篇,占提出新方法、新模型论文的10.2%,占全体样本论文的2.5%。由此反映了我国情报学研究方法的应用缺乏科学逻辑意识。因为,只有在论文中通过实验、实证等方法证明其结论是可重复、可验证的,才能说明该论文符合科学逻辑意识。

(3)研究方法概念的滥用、错用。随着近年来计量方法、新兴方法的应用成为趋势,许多研究人员为了迎合这种趋势,在没有弄清楚这些方法的概念、具体内涵及其深层次的逻辑、方法论范式之前就使用这些方法,结果出现了许多方法概念、名称的滥用、错用,其中比较典型的方法有“实证”方法。在样本论文中使用了“实证研究”、“实证分析”、“实证验证”的论文有748篇,其中有293篇论文从摘要上就可明显看出是对实证研究的错用与滥用。而在剩下的455篇“实证”论文中,在摘要中标明数据来源、研究假设、使用方法、分析工具并得出结论的规范的实证性论文只有161篇,占总体使用“实证”方法论文的21.5%。这说明在实证方法的应用方面,研究人员存在很严重的实证方法概念的滥用、错用的现象。从使用实证研究的常用工具AMOS低频次与实证研究方法的高频次的巨大差距也说明了这一点。有些论文甚至还出现了将案例或实例研究法当作实证研究方法的概念性错误。

(4)缺乏研究方法的协同应用。在样本论文中,同时应用三种及以上研究方法(本文将应用三种及以上研究方法视为研究方法的协同应用)的论文有1135篇,占总体的19.3%,如图5所示。

然而,通过对国外同期样本论文的统计分析表明“SSCI等期刊上有超过一半以上的学术论文使用了多种研究方法”[7]。由此可见,我国情报学研究方法的协同应用比例较小,研究方法的协同应用能力不足。

图5 研究方法应用的协同情况

4.2 改进建议

针对上述的诸多问题,本文提出了以下两点建议与措施,希望能够针对情报学研究方法应用中存在的问题加以改善。

(1)加强研究方法及方法论的教育。通过国内外的情报学教育课程的对比与调查统计发现,我国情报学的研究者对研究方法的重要性认识不够,这与我国情报学对研究方法的教育不够重视有关。方法论是处理问题的一般途径和程序,而方法指的是具体做法[8],因此对方法论的教育能够从根本上对研究方法的应用产生促进作用,对我国情报学研究人员今后对情报学研究方法的应用起到深远的影响。因此,进一步加强对情报学研究方法论开展系统而全面的教育尤为迫切。通过情报学研究方法论、研究方法教育能避免研究者在研究方法应用中出现的多种问题,如能够增加研究方法的创新,能够让研究方法创新和应用更加符合科学逻辑意识,同时能够提高研究方法应用过程中数据收集的规范性与科学性,还能够避免对一些研究方法概念的错用或滥用现象。

(2)鼓励研究人员跨领域、跨学科研究。近年来我国情报学的研究越来越多地借鉴与应用其他学科的研究方法,越来越注重跨学科研究方法的借鉴与融合。因为单独使用某种方法存在一定的弊端,例如单独使用定性方法“会使研究结果带有很大程度的模糊性、不确定性和主观性”,而单独使用定量方法“会使研究过程缺乏一定的理论基础”[10]。通过鼓励情报学研究人员跨领域、跨学科开展研究工作,能够让其它学科的研究方法更广泛地应用于情报学领域,对于促进研究方法的协同应用,情报学研究方法应用的多样性、多元化,强化情报学研究方法的创新和创新方法的应用都具有十分重要的意义。

标签:;  ;  ;  ;  

近五年来我国情报学研究方法应用的统计分析_聚类分析论文
下载Doc文档

猜你喜欢