基于超效率DEA的科学家学术影响力分析论文

基于超效率DEA的科学家学术影响力分析

陈清文1,郭 强 1,刘建国2

(1.上海理工大学复杂系统科学研究中心,上海200093;2.上海财经大学金融科技研究院,上海200433)

摘 要: 评估科学家学术影响力的传统方法只考虑科学家的产出(论文数量、引用总数等)而不考虑科学家的投入。提出一种基于超效率DEA的科学家学术影响力模型,将合作科学家数量和合作机构数量作为产出要素,论文总数和引用总数作为投入要素。在APS数据集上的实验结果表明,诺贝尔奖科学家的学术影响力比非诺贝尔奖科学家的学术影响力高,超效率DEA模型计算出的AUC值为0.795 6,比传统指标中最高总引用量指标提高了8.75%,对评价科学家的学术影响力有十分重要的借鉴意义。

关键词: 学术影响力;H指数;总引用量;超效率DEA

0 引言

评价科学家的学术影响力,对科学家的职称评定、科研奖励具有重要指导意义。计量科学家学术影响力有许多方法[1-2],如发表论文数[3]、引用量[4]等。2001 年,学术信息出版机构美国科技信息所(ISI)提出一种衡量科学家、学术机构、国家/地区科研水平及影响力的重要评价方法——ESI[5-6]。2005 年,Hirsch 教授[7]提出了基于科学家引用论文和数量引用的 H指数。2006年,Egghe[8]在 H指数上进行改进,提出了G指数。2011年,谷歌提出了I10指数,I10指数表示科学家超过 10次被引用的文章数量[9]。然而上述方法仅考虑科学家的产出,通常无法准确计量科研背景不同、投入资源不同的科学家。本文提出一种基于超效率DEA的科学家学术影响力模型,通过合作科学家数量、合作机构数量、论文总数和引用总数评估科学家的学术影响力。首先计算每个科学家的投入(科学家数量、合作机构数量)和产出(发表论文数和引用量),然后利用超效率DEA模型计算每个科学家的学术影响力。本文采用美国物理学会(American Physical Society,APS)的数据,以获得诺贝尔奖的科学家为测试数据集,以非诺贝尔奖的科学家为非测试数据集,用AUC值表示算法的准确性。在APS数据集上的实验结果表明,诺贝尔奖科学家的学术影响力比非诺贝尔奖科学家的学术影响力高,超效率DEA模型计算的AUC值为0.795 6,比传统指标中最高的总引用量指标提高了8.75%。

在对于医疗卫生基本公共服务均等化中,地区医院床位数这一因素在回归结果中并未显示对被解释变量医疗卫生基本公共服务均等化具有显著影响,但从理论上说,当地的医疗设施条件的好坏直接决定了医疗卫生条件水平,因此我们尝试换一个指标重新进行检测,本文选择卫生人员数占当地年末人口的比值rthnb作为替代地区床位数thnb的指标,重新对被解释变量进行回归分析,模型如下:

当前,田园综合体的建设是解决城乡二元矛盾,推动乡村振兴战略的重要创新和具体实践。充分利用现有的农业资源,借助“农业+互联网”,统筹兼顾,实现多元化、全面性协调发展。充分调动农民的参与积极性,以解决“三农”为主要目标,坚持以科技创新为核心,不断优化升级产业结构,大力推动田园综合体的发展,实现产品及产业的更好发展,进一步带动乡村经济的增长,让生活环境优美,农民增收致富,建设一个要素齐全、功能多样、稳健可持续的田园综合体。

据了解,现在的汪记,占地面积达到30000平方米,固定资产5000万元,员工300余人,其中专业技术人员50余人。拥有现代化生猪屠宰流水线一套,1000吨污水处理设施一套,排酸冷库四座面积达1000平方米,500吨储藏库两座。班产屠宰能力2600头,现日屠宰生猪1500余头。今年公司又新增现代化分割流水线一套,占地13000平方米,投资1100万元,建成30吨速冻库一座,储藏库2000平米,日分割量达500头。

1 科学家学术影响力模型

1.1 模型构建

DEA是一种评价同类型多投入、多产出决策单元相对效率的非参数分析方法[10]。CCR为DEA的基本模型,可用来同时评价DMU的技术有效性和规模有效性[11-12]。在CCR模型中,当评价DMU的有效值为1时,称之为DEA有效,但同为DEA有效的单元之间无法进行效率比较[13]。为解决 CCR 模型的这一不足,Andersen&Petersen[14]在基本模型基础上提出了超效率DEA模型,其基本思想是,对某一单元进行评价时,在参照单元组合中将这一单元排除在外。对第j个DMU进行评价时采用的超效率DEA模型如下:

H指数既能反映科学家vj(j=1,2,…,n)发表的论文数量 Nj,又能反映每篇论文被引用的次数 cij(i=1,2,…,Nj)。H指数表示一名科学家发表了h篇论文,且每篇论文至少被其它论文引用了h次,则科学家vj的H指数为Hj=h。

1.2 科学家投入产出要素选取

本文采用美国物理学会(APS)的数据。APS数据包括美国物理学会1893-2009年248 738名科学家发表的463 348篇论文,其中包括35名获诺贝尔物理学奖的科学家。数据集包含唯一的文章编号、文章标题、出版日期(年-月-日),科学家姓名和每位科学家的隶属机构,另一个数据集利用文章编号提供了超过470万条引用关系。

I10指数 2011年 7月由 Google推出,作为 Google学术搜索的一部分[9]。I10指科学家vj发表的文章中被引用次数 cij(i=1,2,…,Nj)超过 10次的文章数量 m,记为Ij=m。

图1 科学家投入和产出的关系

2 学术影响力指标

2.1 发表文章数

本文将科学家排名结果与传统的科学家学术影响力指标排名结果进行对比分析,以验证基于超效率DEA的学术影响力模型能更准确地从248 738名科学家中识别出获得诺贝尔奖的 35名科学家[20],结果如图2所示。横坐标表示排名靠前的n名科学家,纵坐标表示前n名科学家中获诺贝尔奖的科学家数目,如前10 000名科学家中,发表文章数指标、I10指标、H指数指标、总引用量指标、学术影响力指标分别包含了25位、30位、31位、35位获诺贝尔奖的科学家。从图2可以看出,本文提出的超效率DEA模型对科学家排名的准确性比传统指标高。

2.2 总引用量

科学家 vj(j=1,2,…,n)发表了 Nj篇文章,且每篇文章被引用次数为cij(i=1,2,…,Nj),则科学家vj的总引用量为 Cj,即

2.3 I10指数

他们虽然分手了,但是许元生还是会在如芸上晚班的时候,等着她一起下班,跟在她身后,偷偷送她回家。看她上了楼,窗口的灯亮了,他才走。

2.4 H指数

式(1)中:θ为评价值,λi为相对于 DMUj重新构造一个有效DMU组合中第i个决策单元的组合比例;S-、S+为松弛变量。①当θ≥1且S-=S+=0时,称 DMUj为DEA有效;②当θ≥1且 S-≠0或S+≠0时,称 DMUj为弱 DEA有效;③当θ<1时,称 DMUj为非 DEA有效。

3 数值实验

3.1 数据集

在科研网络中,科学家间的合作能促进科研成果的产生[15-16],科研合作对论文质量有正向影响,合作者的合作程度对论文投入产出绩效存在显著相关性[17],研究机构合作次数与被引频次呈正线性相关关系,合作作者合作机构规模有助于提升论文的被引频次[18-19]。图1是科学家投入(合作的科学家数、合作机构数)和科学家产出(发表论文数、文章引用量)的关系柱状图;图 1(a)、图 1(b)的横坐标表示合作的作者数,纵坐标表示发表文章数、文章引用量,将合作的作者数分为12个区间,计算每个区间发表文章的平均值;图 1(c)、图 1(d)的横坐标表示合作机构数,纵坐标表示发表的文章数、文章引用量。将合作机构数分为10个区间,计算每个区间发表文章的平均值。从图1可以看出,科学家合作机构数(合作科学家数)与科学家发表的文章数(文章引用量)存在正向关系。因而,本文选取科学家合作机构数、合作科学家数为投入要素,选取发表文章数、文章引用量为产出要素,计算每个科学家在全局中的学术影响力。

3.2 实验结果

科学家 vj(j=1,2,…,n)发表文章数量为 Nj,Nj是传统用于评价科学家学术影响力中最具代表性的指标。

本文采用 AUC(the area under a receiver operating characteristic curve)评价指标评价超效率DEA模型的准确性。将数据集中所有科学家分为两类:测试集合和非测试集合,其中测试集合是获得诺贝尔奖的科学家。从测试集合和非测试集合中分别随机选取一位科学家,计算他们的学术影响力值。n次比较之后,从测试集合中取出学术影响力值高于非测试集合中科学家的学术影响力值,将其次数记为n1,从测试集合中取出科学家的学术影响力值和非测试集合中科学家的学术影响力值次数相同的记为n2,AUC值计算公式如下:

图2 超效率模型与传统指标结果对比

当AUC=1时,说明计算得到的所有测试集合中取出的科学家学术影响力值高于非测试集合中取出的科学家学术影响力值,当AUC=0.5则说明计算得到的科学家学术影响力是随机的,AUC值越接近1说明计算得到的科学家学术影响力越准确。在AUC值计算中,参数n的值越大,AUC值越准确稳定。实证数据取n=105计算结果如表1所示,超效率DEA模型计算的AUC值为0.795 6,比传统指标中最高的总引用量指标提高了8.75%。

表1 各指标的AUC值

4 结语

本文提出一种基于超效率DEA的科学家学术影响力模型,该模型以科学家合作人数和合作机构数作为投入要素,以发表论文数和文章引用次数作为产出要素。综合考虑投入和产出,对科学家的绩效进行评价和排名。在APS数据集上的实验结果表明,获诺贝尔奖的科学家学术影响力比非诺贝尔奖科学家的学术影响力高,超效率DEA模型计算的AUC值为0.795 6,比传统指标中最高的总引用量指标提高了8.75%。

尽管本文提出的模型实证结果较引用量等指标有所提升,但仍存在不足。由于APS数据集的学科领域局限性,本文提出的方法只在物理学领域得到验证,未在其它科学领域验证。此外,基于超效率DEA的科学家学术影响力模型取决于投入要素和产出要素的选取,还需研究更多投入要素,使科学家排名更为准确。在未来工作要考虑加入主题进行科学家学术影响力研究。

参考文献:

[1] 曹志梅,刘伟辉,杨光.高校 ESI潜势学科排名提升策略探讨[J].情报探索,2017(4):44-47.

[2] 王露,郭强,刘建国.基于加权方法的节点重要性度量[J].计算机应用研究,2018(5):1426-1428.

[3] PETERSEN A M,WANG F,STANLEY H E.Methods for measuring the citations and productivity of scientists across time and discipline[J].Physical Review E,2010,81(3):36-114.

[4] 杨帅,潘云涛,王海燕,等.引用次数、相对影响力和社会网络在论文评价中的应用[J].中华医学图书情报杂志,2016,25(7):1-9.

[5] FITZPATRICK R B.Essential science indicators.[J].Medical Reference Services Quarterly,2005,24(4):67-68.

[6] 曹志梅,刘伟辉,杨光.高校 ESI潜势学科排名提升策略探讨[J].情报探索,2017(4):44-47.

[7] HIRSCH J E.An index to quantify an individual"s scientific research output[J].Proceedings of the National academy of Sciences of the United States of America,2005,102(46):65-69.

[8] EGGHE L.Theory and practise of the g-index[J].Scientometrics,2006,69(1):131-152.

[9] 曹丽江.基于Altmetrics的学者影响力综合评价研究[D].苏州:苏州大学,2017.

[10] CHARNES A,COOPER W W,RHODES E.Measuring the efficiency of decision making units[J].European Journal of Operational Research,1978,2(6):429-444.

[11] 马占新.数据包络分析方法的研究进展[J].系统工程与电子技术,2002,24(3):42-46.

[12] 马璐,高李昊.带负值的 Hybrid DEA模型研究及其应用[J].中国管理科学,2016,24(3):149-158.

[13] 魏权龄.评价相对有效性的数据包络分析模型:DEA和网络DEA[M].北京:中国人民大学出版社,2012.

[14] 李倩.基于超效率DEA模型的高等教育效率评价[J].黑龙江高教研究,2015,36(9):153-156.

[15] 王文娟.论文合作的效率——从合作者数量与论文发表速度角度研究[D].济南:山东大学,2016.

[16] 苏芳荔.科研合作对期刊论文被引频次的影响[J].图书情报工作,2011,55(10):144-148.

[17] 李文聪.国际科研合作的网络演变及其对科研产出的影响研究[D].北京:中国科学院大学,2016.

[18] 王文平.基于科学计量的中国国际科技合作模式及影响研究[D].北京:北京理工大学,2014.

[19] 张冬玲.中国科学论文产出与合作状况的计量研究[D].大连:大连理工大学,2009.

[20] SHEN H W,BARABÁSI A L.Collective credit allocation in science[J].Proceedings of the National Academy of Sciences,2014,111(34):12325-12330.

Research on Academic Influence Analysis of Scientists Based on Super Efficiency DEA

CHEN Qing-wen1,GUO Qiang1,LIU Jian-guo2
(1.Complex Systems Science Research Center,University of Shanghai for Science and Technology,Shanghai 200093,China;2.Institute of Financial Technology Laboratory,Shanghai University of Finance and Economics,Shanghai 200433,China)

Abstract: The current methods of quantifying and assessing academic Influence Analysis of scientists only take into account the outputs of scientists,regardless the fact that the input factors are different for each scientist.In this paper,taking into account the input and output factors measured by the number of cooperating scientists,the number of cooperating institutions,total number of papers and total number of citations,we present a model to evaluate the performance of scientists.The method on the APS dataset can more accurately identified Nobel Prize-winning scientists than the published articles,total citations,I10 index,and H index.The AUC value of this model was 0.7956,which was 8.75%higher than total number of citations.The work of this paper is of great significance for quantifying the academic influence of scientists.

Key Words: Academic influence;H index;total citations;super efficiency DEA

DOI: 10.11907/rjdk.182555

中图分类号: TP319

文献标识码: A

文章编号: 1672-7800(2019)005-0155-03

收稿日期: 2018-10-15

基金项目: 国家自然科学基金项目(61773248)

作者简介: 陈清文(1993-),女,上海理工大学复杂系统科学研究中心硕士研究生,研究方向为社会网络分析;郭强(1975-),女,博士,上海理工大学复杂系统科学研究中心教授,研究方向为复杂网络;刘建国(1979-),男,上海财经大学金融科技研究院教授,研究方向为在线社会网络分析。

(责任编辑:杜能钢)

标签:;  ;  ;  ;  ;  ;  

基于超效率DEA的科学家学术影响力分析论文
下载Doc文档

猜你喜欢