ha指数:对h指数的修正——“金牌优先”法则的启示,本文主要内容关键词为:指数论文,法则论文,金牌论文,启示论文,ha论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
h指数[1]是J.E.Hirsch教授于2005年提出的一项旨在评价科学家个人绩效的新指标。由于这项指标富有创意地将“质”与“量”、影响力和生产力巧妙结合,突破了传统文献计量学指标用一个数值只能描述一种数量指标的束缚,因此,该指标一经问世,立即引起了学界的高度关注,Nature和Science都作了相关报道[2-3],许多学者也积极投入到h指数的理论和应用研究中[4-11]。但随着研究的逐步深入,人们逐渐发现h指数也并非完美,还存在一些缺陷,如缺乏灵敏度,缺乏区分度,缺乏波动性等。尤其是缺乏区分度,这一缺陷极大地限制了h指数的应用,影响其评价功能的有效发挥。因为对于绝大多数普通科研工作者来说,由于偏斜分布的影响,大多数普通科研人员的h指数可能会聚集在一个有限的水平上,会出现多人具有相同h值的情况,这时就会导致指标失灵。本文拟针对h指数的局限性,尝试引入体育竞赛的“金牌优先”法则,探索对指数进行修改,以提升指数的精准度,力求使h指数这一新指标在更广阔的领域得以应用。
1 “金牌优先”法则
1.1 “金牌优先”法则
奥运金牌榜是一种非正式的对国家与地区运动成绩进行排名的方法,源自1924年巴黎奥运会[12]。其排名方法是先按照金牌数排序,金牌数多的排列在前;金牌数相同时,依次比较银、铜牌的数目。我们可以将金牌榜所遵循的排名规则称之为“金牌优先”法则。
由于金牌榜是以最高水平的运动成果来代表该国家或地区的水平,能真实客观地反映各代表团顶级运动项目和运动员总体水平和实力,因此,它也成为衡量各个国家与地区对奥林匹克体育项目的贡献标尺。尽管是非正式的排名,但各国代表团、观众都非常关注,金牌榜也成为比赛期间人们瞩目的焦点[13]。按照这种排名方法,在2008年北京奥运会上虽然中国代表团的奖牌总数比美国的110枚少了10枚,但金牌数达到了51枚,领先于美国的36枚,所以在金牌榜上则位居第一,取得了历史性的突破。
1.2 “金牌优先”法则的启示
“金牌优先”法则的最大特点就是尽量以最高水平的成果来代表被评价对象的水平。分析其排名规则可以发现其包含两层意思:①最高级别的奖牌即金牌数是首要关注的对象,是排名的首要依据。金牌数多的排列在前面,体现出以最高水平的成果来代表被评价对象水平的排序理念,这与h指数以质量为重的价值取向不谋而合,因此,新的指数应该将h值作为其重要的组成部分。②在金牌数相同时,银牌的数量将成为关注的重点。那么对于h值相同的学者,发文量、被引次数和篇均被引次数等应作为银牌来考虑。发文量是一个对质量因素缺乏考虑的纯数量指标,它可以体现科研人员的勤勉程度,但并不必然代表其学术造诣和工作实绩,而作为评价指标的银牌,应是一种科研水平的测度指标,况且过去以发文量作为评价指标,制造出大量学术垃圾,形成学术泡沫效应[14],因此不宜将发文量作为银牌加以考虑。而比较被引次数和篇均被引次数可以看出,篇均被引次数则明显优于被引次数,因为篇均被引次数是一个“质”与“量”兼顾的指标。但又存在一个问题,即是以全部论文的篇均被引次数作为对象考察,还是以“h核”(排序在前h篇的论文组成的论文集)的篇均被引次数作为对象进行比较,笔者认为比较“h核”内的篇均被引次数是一个较佳的选择,原因有三:①符合“金牌优先”的法则。“金牌优先”法则要求尽量以最高水平的成果来代表被评价对象的水平,以“h核”内的篇均被引次数为考察对象,有利于激励科研人员下苦功从事学术创新,提高学术质量,努力出精品佳作、出重大成果。②h指数设计理念的进一步深化。h指数的设计理念是将较低价值的论文不作为评价科研人员成就的内涵,但是h指数只做了根据科研人员的论文数量和被引频次数量划定了核心绩效核的大小的工作,而没有对核心绩效核的强度作进一步测定,新指数则将“h核”的篇均被引次数作为银牌加以考察,实现对绩效核强度的进一步测定。因此,可以说是h指数设计理念的进一步深化。③计算简便。“h核”内的引文量在确定h值时就已经获取,不需要重复收集,能够保持h指数计算简便的特征。
2 ha指数
ha的定义:
其中,第一部分是原始的h指数,第二部分是“h核”内论文篇均被引次数的倒数,这样处理是为了克服双因素问题。比较的时候,首先是比较整数部分。h值大的排在前面,当h值相同时,小数部分越小,说明“h核”内论文被引频次越大,影响力越大,排序则越靠前。
3 实证分析
检验指标有效性的最好办法就是开展实证研究。为了检验ha指数在评价中的可行性,比较ha指数和其他评价指标之间的关系,笔者以我国图书馆学、情报学界的部分作者为例进行了一次测评。
3.1 数据来源
笔者根据苏新宁《图书馆、情报与文献学学术影响力研究报告(2000—2004)——基于CSSCI的分析》的统计结果[15],将发文量和被引量排名前50位的学者进行汇总、去重,确定82位学者作为本文的研究对象。以中国引文数据库为工具,选择总目录下的“电子技术及信息科学”类的“图书情报与数字图书馆”数据为统计源。为便于比较,选定1994年起,截止到2009年4月16日这一时间段作为收集引文的窗口。
3.2 数据统计与分析
3.2.1 ha指数的有效性 通过统计82位学者的h指数,得到了21个不同等级的h值(见表1),但仅有4个h值与学者具有一一对应关系,其他17个h值均需要借助于ha指数加以进一步的区分,其中最多的达到了一个h值(h=9)对应与10位学者,说明同h值的现象非常普遍,此结果再一次印证了金碧辉老师指出的h指数具有明显的区分度差的弱点。本研究是以较高影响力的学者为样本的考察,可以设想对于广大的普通研究人员来说,h值相同的情况将会更加普遍。
依据ha指数的公式将82位学者的ha指数进行统计,结果显示:ha指数具有很好的区分度,即使对于h=9的10位学者也能够很好地给予区分,每位学者均得到了独一无二的ha值(为节约篇幅,表2仅列出了h值≥9的学者的数据),而且由ha指数的数值组成也反映出ha指数不仅实现了考量绩效核的大小,而且能够测度绩效核的强度,实现了Hirsch教授“同h值间可比”的设想。
3.2.2 ha指数与g指数的比较 g指数是比利时著名科学计量学家L.Egghe提出的一个指数,其定义是:将发表的论文按被引次数降序排列,当被引次数累积量大于或等于排序位次平方的最大排序位次时,该排序位次即是g指数。如序号平方不是恰好等于而是小于对应的累计被引次数,则最接近累计被引次数的序号即为g指数[16]。
82位学者g指数的取值范围为49~1,较ha指数和h指数的数值范围都大,但仍未能有效克服指数区分度不强的缺点,依然有67位学者存在多人同值的情况。
分析ha指数排名到以g指数排名的位次变化的统计数据可以发现:一方面,在约占总数48.78%的40位学者的排名上,ha指数能很好地与g指数相匹配(位次变动≤2);另一方面,也有26人位次(位次变动≥5)改变较大,其中变动最大的是严怡民老师由46位提升到20位,上升了26个位次,其次是吴志荣老师位次上升了19位,还有吴建中老师位次也上升了18位。
通过对上述3位学者的分析,发现他们具有3个共同的特点:①h核被引频次占总被引频次的百分比都达到了85%以上(严怡民87.91%、吴志荣87.32%、吴建中85.82%)。②他们都存在着与其他学者共有一个h值的情况,其中严怡民h=9,与其他8位学者一样;吴志荣h=7,与其他6位学者一致;吴建中h=10,与其他8位学者相同。③他们在这些相同h指数的排序中,被引频次都是遥遥领先的,有的甚至达到了相差445次。因此,可以说正是3个方面的共同作用使各位学者的位次有了大幅提升。
另外,笔者利用SPSS软件11.0,将ha指数与g指数进行了相关性分析,结果显示:ha指数与g指数之间存在强相关性,Pearson相关系数达到了0.955,在0.01水平上具有显著相关性。说明ha指数与g指数在对科研人员评价时具有很强的一致性。
3.2.3 ha指数与A指数的比较 A指数是金碧辉提出的另一种将引文数考虑在内的指数,计算方法是将Hirsch核心论文的总被引次数除以h后所得的平均数[17]。该项指标使用的是平均数,显然,A指数通常是一个正实数(不一定是整数)。
82位学者A指数的取值范围是:5~90.6522,数值范围比其他指数都大。由ha指数排名到以A指数排名的位次统计显示:只有16位学者(占19.51%)位次变动较小(位次变动≤2),其他66位学者(占80.49%的学者)位次变动较大。其中升幅最大的是戴龙基,位次上升了45位。
通过分析发现戴龙基的“h核”内作品的被引频次分布很不均衡,其中“图书馆联盟——实现资源共享和互利互惠的组织形式”论文被引频次达148次,占到了“h核”的被引频次的83.15%,而且“h核”内的其他论文被引频次都不大于10,因此促使分母h值(h=5)较小,故A指数较高(A=35.6),位次由74位也上升到了29位;而对于降幅最大(31位)的于鸣镝和柯平的分析发现,他们与戴龙基的被引频次分布正好相反,他们二人的“h核”内的论文被引频次都较为均匀,没有出现被引频次特别集中在一两篇作品上的情况,因此他们在以A指数为标准评价时是不占优势的,故降幅较大。另外,从位次的升降方面也折射出A指数存在对于奇高被引频次论文过于敏感的现象。
笔者利用SPSS软件11.0,将ha指数与A指数进行了相关性分析,结果显示:ha指数与A指数之间也存在相关性,但Pearson相关系数为0.780,略小于ha指数与g指数的相关性。
3.2.4 ha指数与传统文献计量学指标的相关性分析 利用SPSS11.0,将82位学者的ha指数与其他文献计量学指标进行相关性分析,结果显示:ha指数与被引频次、被引篇数及篇均被引次数之间都存在相关性,Pearson相关系数分别为0.924、0.748和0.561。
4 ha指数与g指数、A指数的异同点
4.1 ha指数与g指数、A指数的相同点
首先,关注的视角相同。ha指数、g指数、A指数都是为克服h指数的区分度和灵敏度差的缺点所做的修正,通过将指数与高品质论文的被引频次的结合,增强其与被引频次的相关性,以提升指标的区分度,增强灵敏度。其次,价值取向相同。都是基于最优成果的优先权,认为精华部分可以体现和决定事物的整体和本质,因此将高品质的论文作为测评的重要依据。第三,计算过程简便。因为在获得精确结果时只需拥有所有有效的文献计量信息集合中的一个子集,即高被引论文的引文数集合,因此可以大大节省认知耗费和信息检索的努力[18]。第四,结果相对稳健。单纯论文数量的增加和低被引频次论文的引文数的微小变动都不会引起三指数的变化,因此,三指数在具有精确性的同时又具有一定的稳定性。最后,评价结果具有一定的一致性。
如果两位学者的h指数相同,则具有较高被引量学者的ha,g,A指数排名一般都靠前。如h指数相同的(h=23)的4位学者:吴慰慈、邱均平、黄宗忠和蒋永福,他们的ha,g,A指数排名和论文的引文数的排序是一致的。
4.2 ha指数与g指数、A指数的不同点
首先,区分度提高的程度有差别。从统计数据可以看出,虽然三指数均对区分度有提升作用,但g指数的提升程度明显较低。从统计结果可以看出按g指数的统计,结果中仍有67人存在无法区分的现象。其次,数值的表征形式不同。ha与A指数通常是一个正实数(不一定是整数),而g指数与h指数一样只取整数。第三,量值上存在大小相互交叉现象,即较大的ha值拥有相对较小的A值或g值,较小的ha值拥有相对较大的A值或g值。如程亚男的ha(ha=17.0175)比柯平的ha(ha=18.0361)小,g指数(32)和A指数(57.0588)却都比柯平(g=24,A=27.7222)的大。原因是:虽然A指数、g指数和ha指数都会受到高被引论文被引频次的影响,但各指数由于设计思想的差异,从而使统计结果所受到的影响程度不同。第四,排名也存在不一致的现象。如柯平的ha指数排名是11位,而g指数排名是23位,下降了12位,A指数排名是42位,下降了31位。最后,数值的信息量略有差异。从g指数大致可以知晓被引频次累计达到的论文的数量,A指数可以呈现评价对象的“h核”内论文的平均被引频次,但不能显示高品质论文的数量和高被引频次的数值情况。
相对来说ha指数的信息量较高,一方面,从ha的整数部分可以知晓评价对象高品质论文的数量;另一方面,小数部分则可以告知“h核”内论文的篇均被引频次的倒数,如需要获取“h核”内论文的被引频次等数值,只需进行简单的计算即可获得。
因此,ha指数值较g指数和A指数拥有更多的信息含量。
5 结束语
本文是在J.E.Hirsch教授的h指数设计思想基础上,受“金牌优先”法则的启示,设计的一个适用范围更加广泛的新指数——ha指数。
通过实证分析可以看出:ha指数既保持了h指数的操作简单、客观、准确等优势,同时又提升了指数的精准度,解决了h指数相同但影响力不同的科学家之间的比较问题,有力地拓展了指数的应用范围。特别是“金牌优先”法则这样的评价思路,使结果彰显更高(整数部分h值高)、更强(h核的强度强)的评价理念,凸显了科研评价的质量价值取向,对鼓励学者做深入研究,发表高品质论文会产生积极的影响。
最后需要特别指出的是:面对错综复杂的科学研究活动,我们应当充分认识到定量评价方法的局限性,各种定量指标的设定仅仅是为同行得出公平合理的评价意见提供相关信息,建立以同行评议为主的科学合理的评价机制和评价制度是当前应着力解决的重要问题[10]。
收稿日期:2009-07-24
标签:h指数论文;