国内外大数据工具学术论文比较研究,本文主要内容关键词为:学术论文论文,国内外论文,工具论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G250.2 文献标识码:A 文章编号:1007-7634(2016)06-133-05 1 引言 近年来,随着新兴IT技术的快速发展,数据规模呈几何级数上升,人类已跨入大数据(Big Data)时代[1]。思科发布的“2014~2019全球移动网络用户白皮书”显示,2014年产生的移动端网络数据达到300亿GB。未来5年,移动端网络数据可能达到300艾字节[2]。大数据时代引爆生活和商业的革命性颠覆,大数据是“未来的新石油”,这对未来的科技与经济发展必将带来深远影响[3]。 为了挖掘大数据的价值,我们需要工具和平台来感知、获取、处理、分析大数据。然而运用文献计量学方法对国内外大数据工具学术论文进行比较研究的成果相对较少。因此为了解大数据工具领域的国内外学术论文研究现状和发展趋势,以期促进我国大数据工具理论研究向纵深化、国际化发展,本文以Web of Science和中国学术期刊网络出版总库的大数据工具学术论文为数据源,使用Citespace工具,采用文献计量学方法进行统计分析,并试图回答以下3个方面的问题:①国内外大数据工具领域的学术论文年代分布特点、国家(地区)、期刊及学科分布情况如何?②近三年国内外大数据工具领域研究热点有哪些?③国内大数据工具未来的研究方向是什么? 2 数据来源与研究方法 2.1 数据来源 2.1.1 国外数据来源 本文选择Web of Science(简称WOS)中的子库SCIEXPANDED、SSCI、A&HCI、CPCI-S和CPCI-SSH数据库,以“big data”&“tools”作为主题检索词,时间范围选定在1991年至2015年,文献类型选择“article”和“review”,检索时间截止到2015年12月31日,最后选择497篇文献作为国际学术论文的研究样本。 2.1.2 国内数据来源 国内数据源选择《中国学术期刊全文数据库》(简称CNKI),以“大数据”+“工具”作为主题检索词,时间范围选定在1984年至2015年,数据库来源为“全部期刊”,检索时间截止到2015年12月31日,共检索到601篇期刊文献作为中文学术论文的研究样本。 2.2 研究方法 2.2.1 文献计量法 文献计量法运用数学和统计学的方法来对文献信息进行统计分析,研究者可以使用文献计量方法来研究科学文献的增长和分布,揭示文献的数量特征和变化规律,也可运用于研究单一作者的影响或多个作者的作品差异,是同行评价的一个有力支撑工具[4-6]。 2.2.2 CiteSpace 本文使用的研究工具是基于JAVA平台开发的引文分析可视化工具CiteSpace,CiteSpace是知识图谱的可视化工具,可通过对科学文献的分析,展示若干研究前沿领域的演进历程,识别学科领域新动态和新趋势。 3 国外论文统计分析 3.1 时间序列文献分布特点 论文时间序列分布图可以直观地反映出研究主题在某时间段的动态变化,据此可以推测未来的发展趋势[7]。 依据检索条件,本文得到国际上大数据工具研究论文共计497篇。从年代分布来看,2006年~2011年发文量逐步增长,2012~2015年发文量大幅攀升呈现爆发式增长趋势(见图1)。可见,大数据工具研究在近几年成为国际上的研究热点。
![](/public/uploads/article/2019/12/19/2da89296ab69752b90dbd37a.jpg)
图1 SSCI中大数据工具文献的年代分布图 3.2 国家统计分析 论文国家/地区分布统计分析可以在一定程度反映各国学者对该领域的关注程度、科学前沿及最新研究动向[7]。本文通过对文献第一作者所属的国家,地区进行分析,发现美国作者的发文量占所有发文量比率高达39.44%,远远高于其他国家和地区,可见美国在大数据工具领域的研究处于领先地位。中国排名第二,发文量52篇,占比10.46%,说明中国虽同美国有一定差距,但同其他国家相比处于领先地位。大数据工具研究领域文献作者的国家/区分布如表1所示。
![](/public/uploads/article/2019/12/19/935704095ad37ffa70cba71b.jpg)
3.3 期刊分布 学科核心期刊是期刊中学术水平较高的刊物,核心期刊论文数占该学科论文总数33%[8]。国外大数据工具文献期刊TOP10如表2所示。这些期刊涉及计算机科学、卫生事务、生物信息学、生物医学等不同领域,涉及学科较多,反映了大数据工具研究呈现多学科交融发展态势。经计算,排名前10的国际期刊发文94篇,占比仅为18.91%,说明大数据工具领域,文献较分散、学科成熟度不足,还没有形成稳定的核心期刊。 3.4 学科统计分析 大数据工具国际期刊论文的学科分布如表3所示,其中计算机科学学科的大数据工具期刊论文数量较多,占比高达50.10%,这主要是由于大数据工具的理论建立在计算机科学基础之上。工程学在此领域的研究成果也较多,表明大数据工具研究具有更多的技术属性,同时它在环境生态学、信息学及图书馆学等多个学科领域受到关注,存在多学科交融特征。
![](/public/uploads/article/2019/12/19/61a5c1f0ba43225044e367bb.jpg)
4 国内论文统计分析 4.1 时间序列文献分布特点 本文以检索条件得到大数据工具领域学术论文共计601篇。文献时间序列分布情况如图2所示。从这601篇文献的年代分布来看,1984年以来发文量逐步增长,在1997~2003年期间论文数量小幅上升,2004~2011年期间论文数量平稳维持在6篇/年左右,2012~2015年论文数量倍增,在2014年达到顶峰(247篇)。这反映出国内大数据工具研究在近几年处于高速发展阶段,其关注度在最近几年提升较快。
![](/public/uploads/article/2019/12/19/9054199137c68344381213b2.jpg)
图2 CNKI中大数据工具文献年代分布图 4.2 期刊分布 通过对CNKI数据库中大数据工具论文的出版机构分布进行统计,得到各期刊发文量及排序,发文5篇及以上的共4个期刊,共发文22篇,占比3.66%。详细数据见表4所示。从表4中可以看出,《互联网周刊》、《IT经理世界》发表文献较多,从表中数据来看,虽然计算机类期刊稍多,但从总体来看,文献期刊分布较为分散。说明我国各类期刊对大数据工具的研究均较为关注,但尚未形成稳定的核心期刊。
![](/public/uploads/article/2019/12/19/f2dad43cb0371566880aa59b.jpg)
4.3 学科统计分析 国内大数据工具论文的学科分布情况如图3所示,其中计算机软件及计算机应用学科领域的研究论文高达178篇,占29.62%。在一定程度上反映了大数据工具研究主要集中在计算机技术和应用层面。信息经济与邮政经济、自动化技术、互联网技术在此领域的研究成果也相对较多。从排名前十的学科分布来看,大数据工具的研究以技术及应用研究为主。
![](/public/uploads/article/2019/12/19/0b107b5a50efd05961274fd0.jpg)
图3 CNKI中大数据工具文献学科分布图 5 研究热点及趋势 5.1 近三年国外研究热点 为对国外近三年的研究热点进行分析,本文在SSCI数据库中以“Big data” AND “Tools”为主题检索词,时间跨度为2012~2015年,共检索到79篇文献。以上述文献为数据源,本文进行了研究热点统计分析(见表5),发现近三年研究热点主要集中在信息学及图书馆学、计算机科学、社会学三大领域。尤其是从信息学及图书馆学角度的研究已成为国际大数据工具研究关注的热点。
![](/public/uploads/article/2019/12/19/2f4e6e12972b8814bfef5c5a.jpg)
关键词也可以反映该领域研究的热点主题,本文使用Citespace,选中热门关键词绘制了大数据工具关键词热点可视图(见图4),可以看出国际大数据工具研究中出现是多的热点词汇是“big data”、“hadoop”、“systems”、“cloud computing”、“mapreduce”,进一步说明了国际研究的热点领域和关键主题集中在计算机科学,特别是大数据平台工具、大数据处理系统等研究方向。
![](/public/uploads/article/2019/12/19/df9cadf300631de75ea1e486.jpg)
图4 SSCI大数据工具研究关键词热点可视图 5.2 近三年国内研究热点 为对国内近三年研究热点进行分析,本文将文献类别选择为“CSSCI”,主题设定为“大数据+工具”,时间跨度设定为2012~2015年,共检索到152篇文献。为进一步排除不相关文献,将“学科”检索条件设定为信息科技,得到31篇文献。上述文献研究热点统计分析结果如图5所示。本文发现,近三年国内大数据工具的研究主要集中在计算机软件及应用(38%)、图书情报与数字图书馆(30%)、新闻与传媒(23%)三个方面。从整体来看,国内近几年从技术角度进行大数据工具研究的成果相对较多,从情报学角度的研究也占据较大比重。
![](/public/uploads/article/2019/12/19/c30eb838553ee883849cd85b.jpg)
图5 CNKI中近三年大数据工具研究热点图 关键词也可以反映该领域研究的热点主题,本文使用Citespace,选中热门关键词绘制了CNKI大数据工具关键词热点可视图(见图6),可以看出国内大数据工具研究中出现是多的热点词汇是大数据、情报研究、信息需求、图书情报服务和情报分析等,说明国内学者主要从应用大数据工具出发,研究如何利用大数据工具进行情报分析及为情报人员服务,从技术角度对大数据工具平台开发、关键技术研发进行研究的成果相对较少。
![](/public/uploads/article/2019/12/19/f15a378c3e9fe9a68f8bfeea.jpg)
图6 cnki大数据工具研究关键词热点可视图 5.3 研究动态述评 本文利用CitespaceⅢ并结合国内外研究热点,对此领域的发展趋势进行分析,国内外此领域的研究趋势及研究特点总结如下: (1)从研究成果时间阶段分布来看(见图1、2),大数据工具论文数量逐年递增,国内可划分为3个阶段,国外呈现2阶段特征,国内大数据工具研究起步较早,国内第3阶段和国外第2阶段时间跨度完全一致,学术论文数量均呈现爆发增长特点。虽然比较而言,中国作者在SSCI期刊上发表文章26篇,占全部文献的8.03%,仅占美国的20%,在一定程度上说明我国大数据工具领域的国际化研究论文数量和质量差距。但随着我国对大数据工具领域的研究资助力度加大,我国学者所发表的学术论文数量和质量将进一步提升。 (2)从研究成果的发展趋势上看(如图7、8),国外此领域的研究起步较早,并从宏观的大数据研究逐步向细分领域研究拓展。由图7可见,研究热点最初围绕大数据系统、大数据工具、大数据预测,随后逐渐扩展到大数据可视化、新媒体时代背景下的大数据、Hadoop大数据技术平台等新时代背景下的细分领域大数据研究。国内此领域的研究由最初围绕大数据的相关综述性理论研究,逐渐延伸到大数据挖掘、数据分析、可视化及多学科交叉的应用型研究。相比之下,从大数据技术平台、大数据存储和处理进行研究的成果较少,尤其是更能适应大数据时代要求的大规模图数据算法和认知计算的大数据技术工具研究成果缺乏。
![](/public/uploads/article/2019/12/19/cd6ba824551a53ac6410bf79.jpg)
图7 国外大数据工具领域研究趋势演进图谱
![](/public/uploads/article/2019/12/19/7d481c462fcc243a48f6e6a7.jpg)
图8 国内大数据工具领域研究趋势演进图谱 (3)从研究成果未来发展方向来看。国际大数据工具研究的热点领域将集中在计算机科学,关键主题集中在大数据平台工具、大数据处理系统的细分领域,国际研究将会更注重如何从技术角度建立大数据平台工具,如何对大数据进行数据的并行处理、实时处理,如何进行可视化处理等。国内学者在关注大数据、云计算、数据挖掘、数据分析的同时,也将重视如何从技术角度对大数据进行数据处理、数据挖掘及可视化处等方面,如何从应用层面运用大数据工具进行大数据的数据挖掘和可视化是未来主要的研究方向。比较而言,虽然国内从技术角度开展研究的成果相对较少,但近几年大数据工具技术的研究正呈现逐步上升的趋势。展望未来,大数据工具作为一门新兴的研究领域,其发展的过程涉及计算机科学、图书情报学等不同的学科领域,必将成为各个学科未来研究的热点。 6 结语 展望未来,大数据作为未来国家战略的新石油,大数据工具研究具有重要的研究意义和实际价值,其发展过程涉及计算机科学、图书情报学等不同学科领域,具备多学科交融特征。各学科应抓住机遇,加强国际化交流和合作。各基金资助机构应加大基金资助力度,推动我国大数据工具国际化高水平研究成果产出、推动我国大数据核心作者群、核心期刊的建立,最终形成大数据工具研究科学共同体,从而进一步促进国际大数据工具研究领域的不断完善。
标签:大数据论文; 论文; citespace论文; 科普论文; 热点论文;