近十年我国图情领域科学计量可视化的研究特点剖析,本文主要内容关键词为:近十年论文,领域论文,科学论文,国图论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
[中图分类号]G353 [文献标识码]A [文章编号]1003-2797(2015)01-0086-09 DOI:10.13366/j.dik.2015.01.086 1 引言 科学计量可视化,即知识图谱,是起源于20世纪60年代,是用可视化技术描述知识发展进程与结构关系的一种科学计量研究方法。随着引文分析理论与方法及可视化技术的不断完善和发展,知识图谱的相关研究受到了国内越来越多学者的关注和广泛的应用。图书情报领域(以下简称图情领域)作为文献计量学的发源地,近年来涌现出大量的关于科学计量可视化的研究成果。而现有研究多以某一领域或某一主题为例绘制知识图谱,分析研究进展,鲜有从宏观角度对科学计量可视化的整体研究特点和现状进行总结和归纳。为揭示科学计量可视化在我国图情领域的应用特点,发现现有研究存在的问题,笔者选取了近十年来图情领域发表在核心期刊上的科学计量可视化相关研究文献,从数据选取、数据处理、数据展示与写作体例四个方面进行统计分析,以期为科学计量可视化的研究提供新的视角。 2 数据来源与总体情况描述 2.1 数据来源 本研究的数据来源为CNKI数据检索平台,选择高级检索,内容检索条件为:(主题或关键词或题名=“知识图谱”)与(主题或关键词或题名=“科学计量”+“可视化”)的并集,选择时间段为2004年1月~2013年12月。检索时间为2013年12月23日。文献来源选择CSSCI图情领域的18种来源期刊。共检索出186条结果,在检出的结果中按照下面两个条件对数据进行筛选和清洗:①去掉会议论文、硕博士论文、征文启事、期刊目录等非期刊论文;②对文章内容进行筛选,去掉科学知识图谱综述类文章、对知识图谱原理进行探讨的文章、单纯介绍可视化软件的文章以及各类软件之间对比分析的文章。经过数据清洗,本文最终选出159篇文章作为研究的数据样本。 2.2 发文量统计 由图1可以看出,近十年图情领域关于知识图谱的发文量总体呈上升趋势。研究始于2006年,在2010年开始大幅度的增加,2012年到达巅峰状态,2013年又有下降的趋势,说明图情领域对知识图谱的关注度开始降低,但是与2010年之前相比,依然保持较高的水平。这说明知识图谱依然是图情领域的研究热点。 图1 近十年知识图谱研究文献的发文量统计 3 科学计量可视化在我国图情领域的应用研究特点 科学计量可视化的呈现一般包括数据选取、数据处理、数据展示和分析及撰写报告等四个步骤。这四个步骤又涉及数据来源、数据时间跨度、文献数据规模、指标数据规模、分析指标频次统计、共现矩阵的指标应用、预处理软件的应用、可视化展现软件的应用、可视化的展现形式、应用场景和写作体例11个基本问题。下文将所选定的159篇文章数据作为统计分析样本,从这四个步骤涉及的11基本问题进行统计和分析。 3.1 数据选取 3.1.1 数据来源 对这159篇文章所用的数据来源进行统计分析,得到的结果如表1所示,数据来源的选取总体分为三类:数据库、特定期刊和未知来源。由于有部分期刊论文在研究时,选择了一个以上的数据来源,如中外对比类型的研究论文。因而159篇文章的数据来源统计数量为196个。本文对这两个数值加以区分,以体现不同的分析意义。其中,以本文所设计的分析维度与文章总数的比值,揭示不同的分析维度在调研的159篇相关文献中的应用情况,并将之简称为“篇数应用比例”;考虑到一篇论文会同时应用本文所设计的多个分析维度,即分析维度的数量与篇数并不是一一对应的关系,为了进一步反映不同分析维度的应用差异,本文还将计算在159篇文献中,某一分析维度的总应用次数与所有分析维度的总应用次数的比值,并将之简称为“次数应用比例”。 在篇数应用比例方面,近90%的文章选择了以数据库为数据源,只有9.4%的文章选择的是特定的某一种或是某几种期刊作为数据源。在次数应用比例方面,出现次数最多的数据来源为美国汤姆森公司开发的综合性核心期刊引文索引数据库Web of science,其中来源于SCI数据库的文章有8篇,来源于SSCI数据库的文章有6篇,来源于SCI-E数据库的文章有3篇。其次是由南京大学中国社会科学研究评价中心开发的“中文社会科学引文索引”CSSCI。排在第三的是中国知网CNKI。 除了CSSCI、WOS、CNKI这几个所占比例较大的综合性数据库外,还有由专利文献信息出版机构推出的专利信息数据库德温特数据库(DII)、中文科技期刊数据库引文版(CCD)、自然科学基金资助数据库、中国农史论文全文数据库、维普(VIP)、万方等数据库。可见国内作者在进行科学计量可视化研究时,对于数据来源的选择上倾向于使用数据量较大且类别较丰富的综合性数据库,比较注重数据检索的查全率,而较少使用专业特色数据库获取数据。 3.1.2 时间跨度 时间跨度指作者所选取数据的起止时间,可帮助读者明确作者所使用数据的时效性。由表2可以看出,有35.2%的文章所选择的数据时间跨度为10~20年,是所占比例最大的。此外,选择5~10年的和20年以上的分别占到了22.6%和23.3%,而所选数据时间跨度小于等于5年的只占10.7%。可见多数作者倾向于选取较长时间跨度的数据样本。造成这种结果的原因可能有以下几点:一是由于科学计量可视化软件的运行需要一定规模的数据量,有的研究主题相关研究较少,只选择5年的数据量太小,使用可视化软件的处理结果并不是很理想,不足以为研究提供足够的依据;二是研究相对较长时间跨度的数据,更方便从宏观角度探测出所研究主题的演进轨迹、知识基础、核心作者等内容。这个结论与上文中国内学者在数据来源的选择上的偏好有共同之处,都显示出在科学计量可视化研究时,国内学者比较注重数据选取的全面性,因而会偏好选择数据量更大门类更丰富的数据库和较长的时间跨度。另外有8.2%的作者未对所选择的数据时间跨度作明确的交代,导致读者无法进行数据核实和结论验证,其所得结论也缺乏严谨性和可靠性。 3.1.3 文献数据规模 本文对图情类159篇文章的所使用的数据样本规模进行了统计,结果如表3所示,有41.5%的文章所采用的数据样本量在1000~5000(篇)之间,18.9%的文章所选取的数据样本量只有不到500(篇)。数据量较大的(10000篇以上)所占比例较小,只有6.3%。而有9篇文章并没有对文章所使用的数据样本量进行说明,占到文章总量的5.7%。统计数据中,数据量在5000篇以上的文章所占比例较小(17.6%),但这并非是因为作者有意选择小规模数据样本,而是因为大部分作者所研究的主题本身数据总量有限,仅有少数主题的数据量可以达到5000篇以上,因此虽然国内学者对科学计量可视化的研究注重数据的全面性,但是所选取的数据样本量的大小受所研究主题的限制,所以数据样本量5000篇以上的只是少数。 3.1.4 指标数据规模 对数据进行筛选是数据选取的重要环节,对数据进行有针对性的筛选可以在一定程度上提高运行结果的准确性,降低结果的偏差。由于并非所有文章都对指标数据进行筛选或者一篇文章中对多个指标数据进行筛选,故指标数据筛选的应用次数(123次)并不与文章数(159篇)对等。 在本文所统计的159篇文章中(见表4),有42.1%的文章对关键词的数据矩阵进行了筛选,有11.9%的文章对作者的数据矩阵进行了筛选。而有37.7%的文章都没有对所使用的数据矩阵进行筛选或是没有明确写出此步骤,说明国内图情领域学者对数据的筛选和前期处理并不严谨。这个结论也与前文中国内学者在科学计量可视化研究的数据选取方面更重视数据的大而全的结论一致,注重数据的全面性,而忽视了数据的准确性。而数据的前期选取的严谨性对于得出结论的准确性有着直接的影响,这是国内学者在研究时需注意的方面。 3.2 数据处理 3.2.1 分析指标频次统计 对文章所使用的计量指标进行频次统计可以揭示研究的总体概貌,也是构建科学计量可视化分析所需的原始数据矩阵的主要依据。 一篇文章若使用某一个科学计量指标进行频次分析,则将指标应用次数计为1。如果某一篇文章同时使用作者、关键词、期刊等三个指标来统计频次,那么这篇文章的指标应用频次将计为3。通过对159篇文献的分析调研,指标应用次数共计490次,平均每篇文章使用3次。如表5所示,77.4%的文章使用了关键词作为分析指标,有47.8%的文章选用了作者作为分析指标。年份分布、引文和机构也是比较热门的分析指标。相比之下,学科、主题词、来源出版物等分析指标应用率则较低。学者们更倾向于选择关键词和作者作为分析指标,是因为作者和关键词相对于年份、学科等指标,能更准确的揭示文章的主要属性和特征,通过这两个指标所分析出的数据结果,更具有普遍性。 3.2.2 共现矩阵的指标应用 共现矩阵的指标应用是指在构建共现矩阵中,所使用的数值来自哪些科学计量指标。目前,主要有同共现和异共现两种类型。同共现即一种计量指标的共现,常见的同共现有关键词共现、作者共现等。关键词共现表示当两个能够表达某一学科领域研究主题或研究方向的关键词在同一篇文献中出现时,表明这两个词之间具有一定的内在关系,并且出现的次数越多,表明关系越密切、距离越近。利用因子分析、聚类分析和多维尺度分析等多元统计方法,可以进一步按这种“距离”将一个学科内的重要主题词或关键词加以分类,从而归纳出该学科的研究热点、结构与范式[1]。作者共现即作者合著分析,指的是当两位或多位作者共同发表一篇文献,则被界定为他们之间存在联系。作者之间的合著关系是社会关系中很重要的一种,根据作者共现矩阵可以构建合著网络模型,其中,节点代表合著论文的作者,联系代表作者之间的合著关系[2]。异共现是不同的计量指标的共现,如作者与机构共现,年份与关键词共现等。年份与关键词共现是指不同年份的关键词共同出现的现象。在一个数据集合内,如果一个关键词持续出现在多个年份,那么就表明它是一个受到研究人员持续关注的研究主题;再比如作者与关键词共现是指不同作者的论文使用了共同的关键词,在一个数据集合内,如果两个作者共同使用的关键词数量越多,则表明其研究内容相似度越高;如果一个关键词只是在某个作者使用,则其研究内容可能比较特别[3]。由于并非每篇文章都使用共现的分析方法且部分文章在一篇文章中使用多种共现类型,故应用共现这种处理方法的次数(164)与文章总数(159)在数量上并不对等。 由表6可知,在所统计的159篇文献中,有117篇文章都使用了共现分析的方法,占所有文章的73.6%。在这117篇使用了共现分析的文章中,同共现的使用占总应用次数的95.1%,异共现的使用次数只占4.9%,应用普及率远远低于同共现。在同共现的使用统计中,使用最多的是关键词共现,排在第二、第三的分别是文献共被引和作者共被引,而机构共现和期刊共被引则是应用相对较少的共现类型。说明学者们更关注的是研究热点,知识基础和核心作者。在异共现的使用统计中,8种不同异共现类型仅各出现一次,都只占异共现应用总次数的1/8。 3.2.3 预处理软件的应用 在科学计量可视化的研究中,由于可视化软件的兼容性、使用的局限性等原因,很多文章借助了数据预处理软件,先对数据进行格式转换、字段抽取、频次分析、共现值生成,才使用可视化软件进行分析计算。本文统计结果显示(见表7),有48篇文章提到了作者使用数据预处理软件对数据进行了处理,即预处理软件应用次数为48。对数据的预处理主要分为两种类型:第一种类型是运用数据预处理软件提取共现矩阵,此类软件代表性的有excel、bibexcel、bicomb、endnote、SATI等,此外还有3.1%的作者使用了VBA自编程序来提取共现矩阵;另一种类型是因为可视化软件与所下载数据的格式不兼容,需要先用数据预处理软件转换格式,此类软件最具代表性的是学者刘盛博开发的专门针对Citespace的数据格式转换软件CSSCIREC,解决了Citespace不能处理CSSCI数据的问题。还有2.5%的文章使用的是作者自编的软件或程序进行数据格式转换,多为java程序。 3.2.4 可视化展现软件的应用 可视化展现软件的应用是科学计量可视化研究的核心部分,对可视化展现软件的选取直接影响了数据分析所采用的算法、可视化效果和所具有的分析功能。由于部分文章同时选取了多个可视化展现软件经统计,所调研的159篇文献,应用可视化展现软件的总频次为180。 在图情领域进行知识图谱研究的主流可视化软件有6种(见表8),即CiteSpace、Ucinet、SPSS、Pajek、Netdraw和Vosviewer。这6种软件的使用次数占到了总应用次数的95%,而剩余的4款非主流可视化软件,使用次数只占到了总应用次数的5%。而在主流的可视化软件中,应用最普遍的是由美国德雷赛尔大学信息科学与技术学院陈超美学者用Java语言开发出来的软件CiteSpace。在所统计的159篇文章中,有60.4%的文章使用了CiteSpace,其应用特点是通过绘制聚类视图和时区视图,显示一个学科或知识域在一定时期发展的趋势与动向,展示若干研究前沿领域的演进历程[4]。排名第二的是SPSS。SPSS最初是美国斯坦福大学的Norman H.Nie为解决社会学研究中的统计分析问题,和其他两位合作者一起开发的一个软件包,原意为“社会科学统计软件包”,现在已演变成一款在调查统计行业、市场研究行业、医学统计、政府和企业的数据分析应用中久享盛名的统计分析工具,是世界上最早的统计分析软件。排在第三位的是Ucinet软件是由加州大学欧文(Irvine)分校的一群网络分析者编写的。该软件包有很强的矩阵分析功能,如矩阵代数和多元统计分析。它是目前较为流行的社会网络分析软件。Ucinet网络分析集成软件包括一维与二维数据分析的NetDraw,还有正在发展应用的三维展示分析软件Mage等,同时集成了Pajek用于大型网络分析的Free应用软件程序[5]。排名第四的Netdraw是由美国肯塔基州立大学Gatton商学与经济学院管理系Steve Borgatti开发的,是较有代表性的一款社会网络分析软件,以形象直观的图形化显示功能,简单易学的操作性,优秀的开放兼容性,被广泛的应用于社会网络分析研究。排在第五的Pajek是大型复杂网络分析工具,是用于研究目前所存在的各种复杂非线性网络的有力工具。排在第六位的Vosviewer是荷兰莱顿大学学者设计的计量分析程序,该软件在密度视图技术及其数学算法上达到了国际先进水平,能够被广泛应用于各类共现分析,例如可以在共引网络基础上构造出版物、作者图谱,相比Pajek等软件而言,Vosviewer在国内受到的关注较少,然而Vosviewer在图谱展现,尤其是在聚类技术等方面有着独特的优势[6]。 除了上述6种主流可视化软件以外,还有Popcite、TDA、Histcite、和Prefuse也有少量文章使用。但由于软件的功能、可视化效果、兼容性等方面原因,在使用率方面明显低于前6种软件。 由统计数据可以看出,经过十年的发展,国内图情领域学者对于科学计量可视化软件的研究和应用存在软件应用种类少而集中,且新软件开发能力弱的问题。与国外学者相比,国内学者更多的是使用已有的可视化软件进行应用和展示,而缺乏独立、自主地开发科学计量可视化软件的能力,鲜见有学者开发应用满足个性化需求的可视化软件。当前我国学者在科学计量可视化软件的应用研究上呈现出重复性高、缺乏创新性和开创性成果等特点。 3.3 数据展示及分析 3.3.1 可视化的展现形式 可视化效果图即知识图谱(mapping knowledge domain),也被称为科学知识图谱、知识域可视化或知识域映射地图,是显示科学知识的发展进程与结构关系的一系列各种不同的图形,是用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系[7]。包括传统科学计量图谱、三维构型图谱、多维尺度图谱、社会网络分析图谱、自组织映射图谱、寻径网络图谱、共被引网络图谱等多种类型[8]。 在统计时,为了更纯粹地分析数据的可视化效果,如果一篇文章中出现多次同一类型的图谱,在可视化展现形式上,本文只按1次计算。而部分文章出现多种类型的可视化展现形式,则分别统计。因此,在所调研的159篇期刊论文中,应用不同可视化展现形式的次数共达到350次,平均每篇文章大约有2种形式的知识图谱展示。 本文将这350种图谱分为14个类,如表9所示。其中,出现次数最多的可视化展现形式是社会网络图谱,占所有可视化展现形式被应用总次数的29.7%;其次是Citespace默认的星形聚类图谱,占18.3%;用来表示历史受引轨迹和发文量变化趋势的折线图和Citespace的时区图(Timezone)的出现率均为11.1%。其余的10种可视化效果出现率均不到10%。其中标签视图、散点视图、碎石图、关系图和径向图出现率均不到1%。从可视化展现形式被应用总次数的分布可以看出,图情领域科学计量可视化的学者对于数据的可视化效果主要偏好于社会网络图和星形聚类图。此外,统计结果发现,部分文章在文字描述部分所展示的图谱实际形式与作者所标注的可视化类型不符,例如,作者在文字描述中提及的是时区图,却将图的名称标注为聚类图。这样会对读者造成误导,说明国内部分作者对可视化展现形式的界定并不够严谨,对知识图谱的基础理论掌握不扎实。 3.3.2 应用场景 科学计量指标的应用场景指的是文献中作者利用科学计量指标,如关键词、作者、篇名和引文等,通过科学计量可视化软件的分析,以揭示特定研究主题的前沿、热点、进展核心作者(群)和知识基础等。通过期刊论文所使用的科学计量指标与分析方法可以判断科学计量指标的应用场景。比如,基于文献关键词进行共词分析或是聚类统计分析,可以揭示该研究领域的研究热点;通过软件中提供的膨胀词探测算法,从题目,摘要,关键词和文献记录的标识符中提取出的突变专业术语可以确定某一领域的研究前沿;而研究前沿的知识基础则是其在科学文献中(即由引用研究前沿术语的科学文献所形成的演化网络)的引文和共引轨迹;通过对某一领域的高产研究机构,高产地区等指标,可以确定该领域的核心研究力量;通过对高频被引作者、高产作者和作者共被引等指标的应用分析,可以确定该领域的核心作者或是核心作者群体;通过统计年度发文量可以分析研究的热点演进等。由于许多文章同时使用多个科学计量指标来分析多种应用场景,故159篇文章中涉及应用场景分析的总次数达到520次。 由表10可知,科学计量指标应用最广泛的就是用来分析某一领域的研究热点,在所统计的159篇文章中,有130篇文章都分析了所研究主题的研究热点,是所占比例最多的应用场景。之后依次是核心作者、研究力量分布、知识基础、研究前沿等。说明图情领域研究科学计量可视化的学者多数偏好通过科学计量指标与计量方法的应用与可视化处理,以揭示某一领域的研究热点,核心作者和研究力量分布。这个结论与前文“分析指标频次统计”所得的结论相关,因为作者分析最多的指标是关键词和作者,其最为对应的指标应用场景即为研究热点和核心作者。 3.4 写作体例 通过对图情领域的159篇科学计量可视化文章进行研究,发现此类文章的写作体例具有明确的特点。如表11所示,有22.0%的文章采用的写作体例都是引言、数据来源与研究方法、结果分析和结论四部分的写作方式。另外有17.0%的文章将结果分析部分拆成几个子部分来写。还有17.0%的文章没有引言,而只有数据来源与研究方法、结果分析和结论三部分,或者将结果分析拆成几部分来撰写(16.4%)。有2.5%的文章既没有引言部分也没有结论部分,有1.9%的文章没有数据来源与方法和引言,只有结果分析和结论部分。上述几种写作体例形式占到159篇期刊论文的76.7%。剩下只有23.3%的文章未遵循上述五种写作体例。综上,72.4%的文章都介绍了数据来源与研究方法、结果分析和结论的部分,写作体例较为规范。而也有少部分文章在写作体例上缺少必要的研究步骤阐述,影响了读者的阅读学习,也使文章结论的严谨性受到影响。 4 结语 通过对图情领域科学计量可视化的文章进行梳理、统计和分析,本文发现国内图情领域现有的研究成果数量较多,发展迅速,且日益受到关注。然而,还存在一些问题,需要进一步完善,包括:①研究内容的重复性严重;②研究所使用的计量指标单一;③缺乏对所应用的可视化展现软件的新功能的挖掘与应用;④数据选取时忽视数据的准确性,只关注数据的全面性;⑤研究思路和模式单一老套,缺乏新意;⑥写作存在不规范现象,部分文章缺少必要的部分,影响阅读;⑦存在对于知识图谱基础理论知识认识不清晰的现象,混淆概念和定义,导致应用错误。总的来说,国内学者在科学计量可视化软件工具的自主研发与个性化分析与展示方面,依然有很长的路要走。标签:可视化论文; 科学论文; 大数据论文; 可视化管理论文; 知识图谱论文; 数据库软件论文; 矩阵管理论文; citespace论文;