大数据环境下科技期刊同被引文献数的学术评价功能
——基于与引证文献数的对比研究
陈 辉
(广东工业大学期刊中心,广东广州 510090)
摘要: 基于科技创新成果评价与管理的视角,研究科技期刊论文同被引文献数的科学内涵和学术价值。通过频数分析、回归分析与变异系数的差异性分析,对比研究引证文献数和同被引文献数的特征及评价功能。研究发现,引证文献数与同被引文献数既有正相关性,又有显著差异性,同被引文献数的内涵更为丰富。大数据环境下同被引文献数在时间上的反应速度比引证文献数快,且具有客观性、科学性和有效性等优势,具有很强的学术评价功能,涉及到期刊、论文、作者的学术影响力以及学科或选题的热度,可以作为学术评价的重要补充手段。
关键词: 科技管理;学术评价;科技刊期刊;同被引文献数
1相关理论与文献研究
党的十九大精神中特别强调了要积极推动“创新驱动发展”战略,要着力提升我国科技创新的传播能力。实施创新驱动发展战略,就是要推进以科技创新为核心的全面创新,这其中学术出版担当着增强科技传播的社会重任,同时也给大数据时代创新的科技管理带来了巨大挑战。借助网络、计算机技术与一些统计方法对包括科技论文在内的科技创新成果进行评价分析,探索科技管理新视点、新方法具有长远的战略意义。
网络的发展使得数据的来源更为丰富,数据获取也更为便捷,从而激发了对科学传播和科学评价研究的新热潮,相应地对于科技期刊和论文学术影响力的评价也势必要有新的思考和研究。引文分析一直被作为揭示科技期刊及论文的内在特征和规律的手段,目的在于评价科技期刊及论文的学术影响力,预测相关学科发展的趋势。作为主要评价指标的影响因子的计算变量中最重要的是期刊的引证文献数,许多学者对引证文献数及影响因素做了一些相关分析和研究[1-8]。而从知网给出的引文网络数据可知每一篇文献的传播数据,其中除了引证文献数之外,还有同被引文献数等,这些数据是否可能隐含着更为丰富和有用的信息,值得重视。
1)自然景观资源丰富。森林古道的山地森林景观游赏价值高。大多数森林古道两侧植被丰富,色叶树种丰富了森林古道周边的景观色彩。像朱锡岭古道、车慈岭古道,破岗岭古道等枫香树(Liquidambar formosana Hance)连片分布,大大提高了游憩观赏性。
从定义来看,引证文献是指引用某论文的文献,反映的是该文研究工作的继续、应用、发展或评价;同被引文献是指与某论文同时被作为参考文献引用的文献,反映的是与该文共同作为进一步研究的基础。显然两个变量内涵既有相似性又各具特征,它们在知网显示的数值差别却挺大的。两者之间存在怎样的关系,需要通过挖掘它们所具有的不同数据特性进行对比分析研究。从定义内涵看,利用同被引可以建立起一个特定研究领域文献和学者的“聚类”或 “核心”,可以在一定程度上反映该领域的研究“概貌”,由此成为科学发展指标管理系统的基础,也是科技创新优势资源高效整合[9]的重要参考。同时,对同被引的研究也可以应用于对相关学科专业结构的评估研究。应该说,这也是对同被引研究的特殊意义所在。
综上所述,考虑到传统档案管理方案较为陈旧,而且整体实施已经不符合现阶段工作节奏,所以必须要使用新型档案管理方式才能确保档案管理工作顺利完成。办公自动化是一个新型概念,结合互联网和计算机技术,通过信息共享的方式让档案管理更加科学合理,而且缩短了工作流程,将档案管理的利用率得到有效提升。而且随着办公自动化的不断普及和完善,医院内部已经出现了相应的档案管理制度,确保工作能正常运行。通过制定档案管理标准等多种手段来促进医院档案管理整体水平高度提升,满足医院工作需求,为医院的大力发展做出卓越贡献。
频数分布图主要用以分析数据的分布形状,对比引证文献数与同被引文献数的数据分布形状。从表1可以看出,同被引文献数的峰度为34.8,而它的偏度为4.6。引证文献数的峰度24.5,偏度为4.1,在峰度与信度值上比较接近,这表明两者的分布形状相似。为了进一步分析两个变量的分布特征,分别画出两个变量的频数图:根据变量的最大值,最小值,均值等特征,确定引证文献数的区间间隔为3,而同被引文献数的区间间隔为35,得到两个变量的频数分布如图1、图2所示。
2引证文献数与同被引文献数相关性与差异性分析
全面地分析引证文献数与同被引文献数这两个变量的关系和作用,以便挖掘如何能更全面地评价期刊和论文的学术影响力。主要研究包括借助数据分析手段对比分析引证文献数与同被文献数的特征,以及在利用它们作为评价因子时体现的作用。
考虑到论文发表在5~6年时引证数据进入稳态期,因此数据的采集是通过爬取某综合性科学技术类期刊2013年的数据(截止于2018年3月),主要涉及的字段有:论文题目、作者、基金资助情况、学科分类、下载数、同被文献数与引证文献数。以单篇论文作为最基本的记录单元(即一条记录表示一篇论文的数据),共收集数据311条。对数据进行处理得到引证文献数与同被引文献数的数字特征如表1所示。
表 1两个变量的数字特征
时至今日,“泰诺”投毒案仍未告破,强生公司的10万美元奖金还无人领取。但我们相信在安保体系更加完善的今天,恐怖袭击的阴霾终将消散。
其中:
2.1 两个变量频数分布的形状对比分析
同被引(Co-citation)分析早在1973年就由美国情报学家Henry Small[10]提出,用同被引文献数表示同被引强度,强度越大,说明文献的关系越紧密,表明它们在研究的基础、主题、理论等方面上具有较强的相关性。一些学者曾就同被引分析做过一些有益的研究(早期同样的含义也被称为 “共引”,并非目前知网所指共引文献的概念)[11-16],主要集中在对同被引分析的发展历程分析、不同分析对象的应用研究,认为同被引分析在揭示文献的科学性等方面是值得探究和运用的手段。这也进一步说明了同被引文献数在学术评价中是一个不容忽视的重要因素。但相比于对引证文献数及影响因子的研究力度来说对同被引的分析和研究就显得比较薄弱。随着数字化网络环境的发展,传播技术的变革带来了学术传播秩序的重构[17],在数据的易获得性和大数据分析手段多样化的背景下,重视并且深度分析和挖掘同被引文献数的科学价值具有显著意义。本文拟采集某综合性科学技术类期刊的数据,从频数分布、线性回归、变异系数等方面对比研究引证文献数与同被引文献数的相关性和差异性,并分析同被引文献数在反映科技期刊论文的学术影响力及学科热度、关联性等方面的学术价值。
图 1引证文献数的频数分布
图 2同被引文献数频数分布
从表1与图1、图2可以看出,引证文献数与同被文献数虽然均值与标准差有较大的差异,但是反映它们频数分布的峰度与偏度较为相似,频数分布图以及它们趋势曲线的形状相似,这表明两者的分布形状是接近,也说明两者可能存在的相关性。下面具体给出这两个变量的线性回归方程。
2.2 两个变量的线性回归分析
两个变量的散点图以及线性回归方程的直线关系图如图3所示,这说明两个变量有着很强的相关关系。
y =0.881 270 237+0.026 439 847×x +ε
(1)
其中,x 表示同被引文献数,y 表示引证文献数,ε 表示估计误差。
通过对两个变量进行线性回归分析,R2值是0.75,F检验与t检验均是显著的,它们的回归方程为:
图 3引证文献数与同被文献数的散点图以及趋势直线
从图3可以看出,引证文献数与同被引文献数是正相关的,反映两个变量的回归方程为图中的直线。回归分析结果表明两者的正相关关系是显著的。
从而得到:
病例1 男性,79岁。因“持续上腹疼痛伴气促11 d”入院 ,外院诊断“AP”,但治疗后症状改善不明显而转入我院。入院后检查,患者血清胰酶升高超过正常值3倍,并有胆囊结石,但腹部体征不明显,胰腺影像改变与患者呼吸道症状和低氧血症不相符,随即行胸部增强CT(CECT)检查,结果提示右侧肺血管内血栓形成(图1),修正诊断为肺栓塞,予溶栓抗凝治疗后症状改善。
2.3 两个变量的变异系数差异分析
引证文献数与同被引文献数虽然是线性相关的,但从数据的样本可以看出,引证文献数的变化较小,同被引文献数的变化范围较大,这表明两个变量的数值波动情况不一样。当需要比较两组数据离散程度时,如果两组数据的测量尺度相差太大,或者数据量纲不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数(Coefficient of Variation)可以做到这一点,变异系数是一个与单位和均值均无关的统计量,它是原始数据标准差与平均数的比。变异系数没有量纲,这种比较分析是客观的。事实上,可以认为变异系数和极差、标准差和方差一样,都是反映数据离散程度的绝对值,所以选用变异系数的差作为差异性分析的统计量,来对比分析引证文献数与同被引文献数的差异显著性。
变异系数差异的假设方法采用Bartlett卡方检验方法。
假设有k 个不同的样本,记:
n i (i =1,2,…,k )表示样本数,表示样本的均值,
表示样本的方差,常数C 值为:

(2)
则Bartlett卡方统计量为:
The acoustic impedance of the perforated plate is related to the acoustic resistance and mass reactance of the orifice on the assumption that the interaction between the orifices,if they are sparsely distributed,can be neglected.

(3)
在大型猪场以及散养户中,仔猪白痢均有发生,该病是在仔猪哺乳期致病性大肠杆菌引起的肠道传染病。仔猪白痢病的发病率以及死亡率较高,同时也是一种影响生猪养殖效益、导致仔猪成活率低的主要疾病。

根据采集的数据,进行引证文献数与同被文献数的Bartlett卡方检验,计算引证文献数与同被文献数的Bartlett卡方统计量如下:
从描述性统计数来看,两个变量的均值、标准差等差别非常大。引证文献数的均值是5.6,而同被引文献数的均值是150,是引证文献数均值的25~30倍。引证文献数文献的标准差是7.9,而同被引文献数的标准差却高达224.6。从统计数据上看,两者的差异是明显的。对于它们之间隐含的相关性和差异性,将通过频数分布研究分布特征与形状,通过线性回归分析研究线性关系,通过变异系数研究它们数据波动性及其差异,进行深度挖掘。
k =2,n 1=310,n 2=310,∑n i =620

两个变量是否可以互相取代,或者仅仅使用引证文献数,来评价论文影响力,信息是否足够,两者在计算时间上是否有区别,都值得进一步研究。为了分析两者的区别,拟通过变异系数的Bartlett卡方检验来研究两个变量的数据波动性问题。
χ 2=1 643.039>χ 2(0.05,2-1)=3.841
从Bartlett卡方检验表明,两个变量变异系数的差异是显著的。引证文献数的变化小,同被引文献数的变化较大,这表明同被引文献数可能隐含更为丰富的信息。
1.3.1 灵芝多糖的酶解 使用复合酶(木瓜蛋白酶∶纤维素酶=2∶1)在56℃、pH 7.0条件下水解灵芝子实体多糖,多糖酶解液经8 000 r/min离心10 min后,上清液储存于4℃下备用[18]。
3同被引文献数的科学内涵及学术评价功能
以上分析得到的结论是,引证文献数与同被引文献数具有显著正相关的线性关系,分布形状是相似的,但是两者又具有显著的差异性(变异系数值的差异是显著的)。正相关性表明两个变量都可以用以评价论文的学术影响力;而变异系数的差异表明两个变量内含不同的信息量。下面将进一步研究同被引文献数体现论文作者的学术影响力与学科或选题的热度等方面的情况。
研究的思路是选取引证文献数相同的论文来分析它们的同被引文献数带来的不同表现。在采集的311篇论文样本中,引证文献数都为4的论文共有22篇,限于篇幅选择其中5篇来分析(见表2)。
表 2引证文献数相同的部分数据样本
引证文献数为4的论文中,同被引文献数最小是14,最大是247,这种差异性也反映引证文献数的内涵更为宽泛。从论文的同被引文献数出发可以考虑以下几个方面的影响:(1)作者的学术影响力;(2)学科或选题的热门程度;(3)期刊的影响力。从论文同被引延伸到期刊同被引的研究在文献[11]中有过一个案例的计量分析研究,本文就不做进一步论证,仅讨论论文同被引对作者的学术影响力与学科或选题的热门程度的评价功能。
3.1 同被引文献数对作者的学术影响力的评价功能
通过百度学术,可以查询到5篇论文第一作者的是H指数与G指数,如表2所示。
H指数是2005年由美国加利福尼亚大学圣地亚哥分校的物理学家乔治·希尔施提出的一个混合量化指标,H 指数“质”与“量”兼顾的先进评价理念,目前已被广泛应用到评价学者、科研机构、期刊等许多领域学术影响力的评价[18-20]。G指数是H指数的衍生指数,主要是弥补H指数不能很好反映高被引论文的缺陷提出的, G 值越大, 表明学者的学术成就越大[21]。
从表2可以看出,引证文献数相同的5篇论文和作者的学术影响力其实是不同的,而同被引文献数与H指数、G指数反映的学术影响力是基本一致的。也就说明,用引证文献数来评价论文和作者的学术影响力是不够充分的,而同被引文献数恰恰可以弥补这个缺陷,其数据具有易获取性、客观性、有效性的特征。
5)信任——信任是销售的前提,无信任,不销售;店家通过提供零缺陷、零投诉、安全、有效的产品和体验服务来赢得消费者的心;注重长期利益,抛弃急功近利、杀鸡取卵(例如低价折扣)的短视行为,才能赢得消费者(粉丝)的长期信任。
3.2 同被引文献数对选题的热度情况和学科结构发展的反映
选取表2中的论文1和论文5进行选题热度对比研究,如图4、图5所示,数据和图形来自百度学术。论文1的选题主要是“运动条件”,该选题从1955年开始出现相关研究,2015年达到最热,至今共有136篇相关论文。论文5的选题是“降水模型”,该选题从1970年开始出现相关研究,2014年达到最热,至今共有249篇相关论文。对比可知,两个选题的热度与它们对应的论文同被引文献数的差异性表现一致。
无论从同被引的定义还是以上案例研究都发现,同被引文献是被共同作为进一步研究的基础,体现研究主题和理论基础的相关性、一致性、规律性,同被引文献数的大小反映的是这些特性的强度,也反映了论文选题热点程度和学科渗透程度。这也体现了同被引文献数在评价方面的优势。同被引的相关论文之间可以建立起专业领域的研究结构、地图以及发展路径,由此可以认为对同被引数据结构及变化的研究结果,甚至可以提供监测学科领域发展及关联度的评估手段和工具。
2.2.4 其它约束以上各参数变量均为非负。同时也要考虑到当地山塘安全现在、投资整修、农业政策、以及当地的种植习惯等。
新课标对小学低年级写话的建议是:写话有兴趣,写自己想说的话,写想象中的事物,写出自己对周围事物的认识和感想。对于二年级孩子的写话训练,很多老师将精力放在看图写话的练写上。诚然,这样的练写和指导必不可少。其实,苏教版教材中不乏优质的、可供孩子借鉴练笔的文本,不妨让孩子们仿照着文本去找找习作的感觉。
图 4论文 1选题热度 图 5论文 5的选题热度
4结论
本文从引证文献数和同被引文献数的定义和数值出发,通过统计计算、频数分布、线性回归、变异系数等数据分析手段对两个变量做了对比分析,得到以下结论:(1)引证文献数与同被引文献数在均值、最大值上差异非常大,它们的频数在峰度、偏度等分布特征上却是相似的,通过线性回归方程验证了二者具有显著的线性正相关关系。(2)引证文献数与同被引文献数的变异系数的差异是显著的,引证文献数的变化小,同被引文献数的变化较大,表明同被引文献数的内涵更为丰富。(3)相同引证文献数论文的同被引文献数表现出程度不同的差别,通过结合案例的H指数与G指数以及学科热度分析,这种差别可以反映论文、作者乃至期刊的学术影响力。(4)从数值上来看同被引文献数在时间上的反应速度比引证文献数快(论文发表即可获取),并且数据具有客观性、科学性和有效性等优势,可以作为对科技期刊论文、作者及期刊学术影响力评价的重要补充。在计算学术影响力指数可以考虑使用同被引文献数作为补充的自变量。
科技期刊是科技成果集中记录和交流传播的重要载体,也是国家科技软实力的重要标志[22]。同被引表明了论文研究主题相似性或学术思想上的共现。对同被引的研究可以用于反映某一领域重要知识上的关联性,也可以应用于科技文献的检索利用和延伸、推荐,尤其是生成同被引论文中高被引文献的二次索引,合理引导了科技创新成果的良好传播和利用。此外,同被引的研究对相关领域和学科发展指标系统的建立和完善提供了有效的基础,也可以作为一种检测学科领域发展、专业之间关联深度的评估工具。随着技术的发展,数据的采集手段更多样化,数据分析方法更具有科学性与针对性,从而能够深入窥探同被文献数在科技管理与评价等方面的多元科学影响和作用。
参考文献:
[1]刘筱敏,张建勇.数字资源获取对科学研究的影响:电子期刊全文下载与引用分析[J].大学图书馆学报,2009(1):60-63.
[2]万锦堃,花平寰,孙秀坤.期刊论文被引用及其Web全文下载的文献计量分析[J].现代图书情报技术,2005(4):58-62.
[3]杜秀杰.学术论文的下载频率与被引频率的相关性分析[J]. 编辑学报,2009,21(6):551-553.
[4]刘雪立,方红玲,苗媛,等.五种综合性眼科学期刊论文下载量与被引量的关系及部分论文的量引背离现象[J].中国科技期刊研究,2010(5):629-632.
[5]丁佐奇,郑晓南,吴晓明.科技论文被引频次与下载频次的相关性分析[J].中国科技期刊研究,2010(4):467-470.
[6]张小强.期刊下载频次与被引频次及影响因子相关性:以中国知网CSCD与 CHSSCD刊物为样本的计量分析[J]. 情报理论与实践,2011(8):36-40
[7]王海涛,谭宗颖,陈挺.论文被引频次影响因素研究:兼论被引频次评估科研质量的合理性[J].科学学研究,2016(2):171-177.
[8]谢娟,龚凯乐,成颖,等.论文下载量与被引量相关关系的元分析[J].情报学报,2017(12):1255-1269.
[9]朱斌,任大帅.创新驱动视域下科技发展能力的多指标可拓综合评价[J].科技管理研究,2017(17):85-92.
[10]SMALL H. Paradigms,citations,and maps of science: a personal history[J].Journal of the American Society for Information Science and Technology,2003(5):38-46.
[11]耿海英,肖仙桃.国外共引分析研究进展及发展趋势[J]. 情报杂志,2006(12):68-69,72.
[12]邱均平,赵为华.期刊同被引的实证计量研究[J].情报科学,2008(10):1447-1450.
[13]朱大明.某作者多篇文献同被引现象简析][J].编辑学报,2012(1):53-54.
[14]郭彬,杨振中.基于SCI的科技创新领域文献同被引分析[J].现代情报,2016(10):164-170.
[15]曾润喜,王琳,杜洪涛.基于知识管理视角的大数据研究网络与结构研究[J].情报学报, 20165(11):1173-1184.
[16]陈超群,邓三鸿,刘思远.人工智能论文作者同被引分析[J].中国科技资源导刊, 2018(1): 57-65.
[17]朱剑.传播技术的变革与学术传播秩序得重构[J].北京联合大学学报(人文社会科学版),2017(3):36-49.
[18]赵基明,邱均平,黄凯,等.一种新的科学计量指标:h指数及其应用述评[J].中国科学基金, 2008(1):23-32.
[19]周志峰,曾尔雷.国内h指数和h型指数研究文献综述与计量分析[J].情报杂志, 2009(06):52-57.
[20]隋桂玲.g指数与h指数、e指数的关系及其文献计量意义[J]. 图书情报工作,2013(23):90-94.
[21]姜春林,刘则渊,梁永霞.H指数和G指数:期刊学术影响力评价的新指标[J].图书情报工作,2006(12):63-65.
[22]白雪娜,陈夏,张辉玲.广东省农业类科技期刊学术影响力动态评估[J].科技管理研究,2017(7):248-254.
The Academic Evaluation Function of Co -cited References Number of Scientific Journals under the Big Data Environment :A Comparative Study of Citation Frequency and Co -cited References Number :
Chen Hui
(Periodical Center, Guangdong University of Technology, Guangzhou 510090, China)
Abstract :Based on the perspective of evaluation and management of scientific and technological innovation achievements, this paper studies the scientific connotation and academic value of co-cited references number of articles in scientific and technological journals. By frequency analysis, regression analysis and variance coefficient analysis, the paper compares and analyzes the features and evaluation functions of co-cited references number and citation frequency of papers. The citation frequency and co-cited references number have both positive correlation property and significant differences. Selecting representative examples for further study, it illustrates that the connotation of co-cited references number is more abundant. From the perspective of scientific communication and evaluation, the time response rate of co-cited references number is faster than that of citation frequency, and the data has the advantages of objectivity, scientificity and validity under the big data environment. Co-cited references number contains a strong evaluation function, involving the academic influence of journals, papers, authors, as well as subject or topic heat. It can be an important supplement to academic evaluation. It can be used as an important supplement to academic evaluation .
Key words :scientific and technological management; academic evaluation; scientific journals; co-cited references number
中图分类号: G237; G206
文献标志码: A
文章编号: 1000-7695( 2019) 22-0221-06
收稿日期: 2018-12-23,修回日期: 2019-03-25
基金项目: 广东省哲学社会科学“十三五”规划2016年度学科共建项目“大数据环境下的用户行为与信息传播关系研究——面向广东省学术期刊传播能力的相关研究”(GD16XGL01)
项目来源: 广东省科学技术期刊编辑学会基金资助项目“广东省科技期刊网络传播现状与发展研究”(201806)
doi: 10.3969/j.issn.1000-7695.2019.22.029
作者简介: 陈辉(1965—),女,湖南郴州人,《广东工业大学学报》常务副主编,主要研究方向为科技期刊出版与评价。
标签:科技管理论文; 学术评价论文; 科技刊期刊论文; 同被引文献数论文; 广东工业大学期刊中心论文;