人文社会科学成果评价的主要方法及其比较,本文主要内容关键词为:社会科学论文,人文论文,成果论文,评价论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G311 文献标识码:A 文章编号:1004—2237(2006)04—0097—06
中共中央《关于进一步繁荣发展哲学社会科学的意见》指出,要建立和完善哲学社会科学评价和激励机制。社会科学(与媒体的一般表达相同,在本文的文字表达中,“社会科学”与“人文社会科学”、“哲学社会科学”同义)评价是一个多目标、多层次、复杂的系统工程,它涉及评价的对象、评价的内容、评价的层次、评价的时间等。社会科学评价是社会科学成果鉴定和评奖的重要环节;是调动社会科学研究人员积极性与创造性以保证社会科学人才成长的重要措施;也是社会科学管理的重要内容。如何科学、客观、公正地进行社会科学评价,一直是学术界和管理部门思考和探讨而没有很好地解决的问题。社会科学不同于自然科学的诸多特点使得社会科学评价尤为复杂和困难。不论是从社会科学成果评价现状还是近几年学术界的观点来看,我国的社会科学评价已成为学术发展的瓶颈,不科学、不合理的评价已催生了大量的学术不端现象甚至学术腐败,严重阻碍了哲学社会科学的繁荣和发展。“学术界已经乱了方寸,其症结在于没有一个合理的方式来评价学者的学术水准和学术贡献”[1]。因此,对目前已有的评价方法进行梳理并创新评价方法是亟须解决的重大问题。
一、人文社会科学评价的主要方法
1.同行评议法。同行评议是“一种由科学共同体来作出有关科学真理性评价的制度”。[2] 同行评议最早实行于17世纪第一批科学期刊发行之时。随着科学交流的逐渐形成,一些刊物如《伦敦皇家学会哲学会报》建立了同行评审的制度,以保证发表论文的质量和可靠性。同行评议制度后来被用于决定研究经费的分配,即从评价待发表的论文扩大到评价项目。20世纪40年代当美国政府开始为高等学校提供巨额科研经费时,就采纳了同行评审制度。1950年美国国家科学基金会建立时,正式采用同行评审制度,以保证把有限的经费分配给最有价值的项目,防止政治对科学自主权的影响。
同行评议法是最传统的评价方法,也是国外学术界和行政管理部门最常用的评估方法。美国政府对高等院校的研究拨款90%是通过同行评议来解决的。在我国,很多重大的项目和研究成果的评价都是通过同行评议完成的。如国家社科基金项目就是实行同行专家评审制(国家社科基金项目评审设立专家库,按学科划分为学科评审组,届时抽取一定数量的成员参加会议评审)。
同行评议自1665年实行以来,目前在国内外仍为主要的评价方法。但是由于其保守性,以及假设评审人是公正等弊病,同行评议已受到多方的质疑。在我国人文社科界,由于学术规范和评价制度远落后于国外,因此同行评议遭到更多的质疑。[3]
2.指标体系评估法。指标体系即一组能显示成果水平的系列指标。指标体系评估法以同行评议为基础,但为同行专家提供一个可供参照的标准,使专家按统一的标准评估,操作性和可比性更强。指标体系评估一般都采用量化的方法。研究和设计指标体系的人希望通过科学的量化手段,减少评估的主观性,增加评估的客观性。
为了衡量成果在每一指标上达到的程度,一般都将程度划分为一些人为的等级,各等级取一定的权重分数。同时还要设计一个计算评分的数学模型,用于处理各指标间的关系。
指标体系评估法的主要特征是用评分来反映评估者对成果的判断,其评估过程分两步,首先请同行专家在事先设计好的评估表上打分,再由评估组织者根据数学模型计算得分,最后以一个量化的结果来表达评估的结论。
制定指标体系评估法是因为同行评议自主性过大,标准不明确,不便于操作。但指标的设置取舍、分数的权重难以取得共识;用指标体系评估在操作上虽简便但又容易破坏对成果的总体感觉,以至打出的分与感觉往往会有出入。
国外社会科学研究很少用指标体系方法,在国内,研究出的指标体系有很多,但大多未实行过,或只有试验而未作为正式的常规科研管理手段长期使用。
3.“以刊论文”法。以刊论文法是较早的一直在或明或暗地使用的一种简单易行的评价方法。在核心期刊的概念流行以前,“以刊论文”法的核心是以刊物的行政级别(如国家级、省级、地市级)来划分论文的等级。自上世纪90年代核心期刊的概念流行以来,“以刊论文”法的核心就成了“核心期刊”法。目前流行的核心期刊有SCI、SSCI、A&HCI、《中文核心期刊要目总览》、CSSCI、《中国人文社会科学核心期刊要览》等。按理说,“核心期刊”法应比刊物行政级别法更合理一些,但从近几年核心期刊对学术评价和期刊出版造成的混乱来看,核心期刊已成了学术界的一大公害。
4.文摘法。文摘法是以二次文献转载作为评价标准的一种方法,也可以看作是一种广义上的“以刊论文”法。这种方法认为,一篇文章发表后如果被转载,那么它比未转载的文章价值更高。文摘法在科研管理和期刊评比中很流行,一篇文章被转载,有高低不等的各种奖励,在期刊评比中,被转载的数量是一项很重要的指标。在社会科学方面,目前被作为文摘评价标准的主要有《新华文摘》、《中国社会科学文摘》、《人大复印报刊资料》、《高等学校文科学术文摘》等。中国人民大学书报资料中心每年公布被《复印报刊资料》复印转载的期刊排名,加深了文摘法作为评价标准在学术界中的印象。文摘法也受到一些批评,笔者曾对同一年度的三大文摘的所有转载篇目进行过详细的比较研究,发现互相之间的耦合程度很低,虽然三家文摘都是把学术质量标准作为主要取舍标准,但对同一篇文章得出的结论却不一样。这就说明,被选上的文章可能是好的,但未被选上的文章并不一定就是不好的。
5.引文分析法。引文是科学共同体在科研状态或学术创造过程中对被引文献的肯定和直接使用,是与学科前沿的学术问题联系最紧密因而也最有学术价值的一种同行认定。邹承鲁院士认为,国际引用数在一定意义上实际上可以认为是国际同行评议结果,因此是更为重要的。[4] 引文分析法既是定性评价法(同行评议),又是定量评价法。因为成果被引用的前提是同学科的专业人员要阅读,且认为它有价值,这完全符合同行评议的含义,实际上就是大同行评议,尔后又能计算出被评价的次数,这又是定量评价。[3] 从引文分析的机理以及实际的应用情况来看,用其评价被评对象的“质”具有很大可行性。被评对象被引用的越多,就表明其影响力越大,学术水平越高。事实也表明,用引文分析进行评价与通过同行评议、实践检验等进行评价,其结果具有很大的吻合性。[5]
二、各种评价方法的特点
上述各种评价方法都在不同程度上被使用,这说明各种方法都有其特点,目前在社会科学成果评价方面要取得共识还是比较困难的。而这必然会影响到科学的评价机制的建立,因此有必要对这些评价方法进行比较鉴别。
社会科学评价方法的优劣比较主要应看它们的科学性、客观性和可信度,从建立常规的社会科学评价方法的角度出发则还应考察它们的通用性、时效性、易操作性和抵抗力(对各种学术不端和学术腐败的抗力)。
1.同行评议法。长期以来,同行评议一直是最为学界认可的一种评价方法,“在理论的评价与选择中,科学共同体的裁决作用是无可置疑的。”[6] 很多学者在批评量化管理和核心期刊制度等评价制度的弊端时都呼吁要实行同行评议。当然,学术界在肯定同行评议方法时也看到了它的缺点,尽管如此,同行评议方法由于其在学术评价史上的成功,仍被认为是“一种不可取代的评价理论成果的办法。由于理论研究的特殊性,同行评议至少是一种从一般研究背景中‘过滤’出‘好科学’的手段”[7]。甚至被认为是“一种行之有效的评议制度,具有不可替代的作用”[8]。尽管该方法有助于从总体上把握评价内容的本质,但是该方法所固有的封闭性、主观性使得评价的结果缺乏较大范围的认同度,难以真正做到客观和公正。在当前的学术环境中,由于各种不良风气的影响,同行评议与其它评价方法相比在原本最能服人的科学性和可信度方面已经急速下降,“据华中理工大学课题组的调查统计,科学研究和同行评议中的制度性越轨行为已达到触目惊心的程度,其违规比例之高令人咋舌”[9]。这说明同行评议因人为因素太大故而对学术不端和学术腐败的抵抗力很低。
同行评议方法在通用性和时间性上无任何障碍,但在操作性上成本过高。比如一所高校,即使总体上科研水平不高,但都会有一大堆科研成果。不要说用同行评议方法评价所有的研究成果不可能做到,就是在评职称时只是对部分研究成果进行同行评议也做不到。
我们不否认在严格限制条件下同行评议的正面评价作用,如国家对社科基金项目组织的同行评议。但要作为常规评价方法,同行评议几乎没有可行性。
随着现代社会科学各学科综合化、整体化趋势的加剧,若想真正选出某一专业领域的专家进行同行评议,也是难上加难。邹承鲁院士认为,现阶段这种方法在我国可能很难成为一种行得通的客观方法。这种评议通常需要从全世界范围内遴选同行,而我国有一定水平的科学家队伍相对较小,较难找到近似专业的所谓“小同行”参加评议。即使找到少数的“小同行”,通常与申请人也互相熟识,熟人之间或碍于情面、或涉及种种微妙关系而往往不能畅所欲言,或搀杂个人恩怨也不能实事求是。这些问题加上媒体炒作、名人效应或其他一些非学术性因素,就很难对成果进行公正的评价。这些情况甚至在国家自然科学奖评选中也难免出现。国家自然科学奖一等奖是我国一个时期中自然科学基础研究成果的最高奖项,应该说是经过了多轮的严格的同行评议,但仍然有一些获国家自然科学奖一等奖的主要论文成果在国际上的引用数不高,其中多数还是国内引用。有的在排除自我引用后,国际文献中的引用数仅为个位数。[4]
此外,同行评议不能保护创新思想和不同观点;评审会又常常出现外行评内行、二流评一流等不合理现象。[5]
2.指标体系评估法。我国各种机构研制的类似评估方法有很多种,但真正能被较长时间采纳使用的很少。这本身就说明了这种评价方法没有生命力。指标体系的难处,一是指标内涵的确定不容易取得共识,也难以处理各种不同类型的研究成果;二是指标过少不容易区别成果层次,指标过多又显得繁琐而难以大面积操作,因而很少有人愿意使用。就是使用过指标体系打分的专家对这种做法也表示疑惑,许纪霖先生就说过:“以我个人的愚笨,常常在‘数目字管理’之下感到手足无措。比如,研究生答辩完了,我会面对一堆表格发呆:表上要你分项为每个学生打分:课题意义几分、论证合理性几分、论据充分几分、应用价值几分,最后算出总分,排出名次。虽然对学生们的优劣有一腔的评语,个中优劣也一目了然,偏偏我就没有‘数目字管理’的起码能力,最后只能反其道而行之,先为各位打上总分,最后胡乱分配到各个分项中。一边填,一边满腹狐疑:部分之和等于整体,还是整体大于部分之和?”[10]
3.“以刊论文”法。从总体上看,“以刊论文”法有概率统计学上的依据,高水平刊物上的论文质量总体上就是要高于低水平的期刊论文,但这并不排斥总体水平不高的期刊上也会有高水平的论文。“以刊论文”又因为操作简便,被很多管理部门广泛采用,有的还被列入政策条文,在管理层和学术界影响极大。现在的问题是,不管是按行政级别的所谓国家级期刊,还是目前正大行其道的所谓核心期刊,并不能说就比其他期刊水平高,有的核心期刊连学术的严肃性都不能体现,甚至到了下三滥的地步,在这种情况下“以刊论文”,就会出现大面积的荒唐结论。
如目前被广泛采用的核心期刊制度,就不恰当地放大核心期刊的作用,并盲目地把它用作与学术评价有关的硬性条件,比如科研奖励、职称晋升等,对学术发展产生了极大的危害。核心期刊制度的特点是涉及的期刊多,涉及的作者多,特别容易大面积助长滋生学术不道德行为。实际上真正的高质量学术期刊圈内人都清楚,根本不需要“核心”这顶帽子,只有那些三流甚至根本就不入流的期刊对核心期刊的招幌最感兴趣,很多期刊借核心期刊的牌子明敲暗骗大肆敛财,作弊手段无所不用其极,上演了(并在继续上演着)中国出版史学术史上的一幕幕丑剧。某高校在核定申报职称人员的成果时,发现《×××高教研究》竟然有三个版本,无法判定真伪,只好向核心期刊的编辑者咨询,最后的结果是只好都算是“核心”。我相信,每所高校都存在着与核心期刊有关的学术不道德行为。
4.“文摘法”。从某种程度上讲,“文摘法”也是一种同行评议法,也被认为是“优选”。在理论上,文摘被认为可以作为“一种对论文的科学水平进行间接评价的手段”,“文摘法”在期刊评价中被广泛运用和认可,逼得很多学术期刊不得不采取迎合文摘刊物的“文摘战略”。[11] 用文摘作为评价工具操作性很强,而权威的文摘刊物的评价效力也是为学术界广泛认可的。据报载,吉林大学规定,论文发表后,要考核其被转载的次数。[12] 这比简单的量化管理或以刊论文有进步。但文摘法在科学性、通用性和时效性方面还是有很大欠缺,主要表现在:(1)文摘的评价是即时性的。文摘是对新问世的学术文献的追踪推荐,已被推荐的或已确定不推荐的一般都不再推荐,这就是文摘的一次性。任何文摘对一篇论文都只作一次即时性选择,遗漏的无法弥补,选择不当的也没有更正的必要。由于是一次性评价,文摘的评价存在着很大的趋时性和或然性。(2)文摘的评价一般在一年之内完成,由于没有经过充分的时间考验,文摘对论文评价的价值认可要大打折扣。(3)文摘的评价无法累积,无法显示文献之间的质量和影响级差。(4)从现状看,文摘评价法对学科之间存在着不公平性,一方面单科性文摘没有形成学科覆盖面,另一方面,在综合性文摘中,各学科所占的比重极不平衡。(5)有些潜在的新兴学科或极具创见性的研究很可能在发表的初期无人关注甚至无人能理解,当然也就不会被文摘所选中。(6)文摘对学术不端和学术腐败的抗力不强。由于文摘的摘编者是固定的机构和人员,而文摘对某些单位、期刊和个人又十分重要,因此就不可避免地会出现“关系文摘”和“人情文摘”。在这种情况下,文摘机构和个人若不能超脱利益和关系,就难以做到按质摘发。
还有一些与文摘法评价有关的有趣现象,如历史研究领域的最重要期刊《历史研究》就有这么一个规定:本刊对所刊载的全部文字,拥有自出刊之日起一年为期的专有版权和使用权,未经本刊编辑部授权或同意,任何个人或机构不得全文转载本刊的文章,违者将被追究法律责任。(《历史研究》2003年第1期)这个要求恰恰是为了限制文摘刊物的随意转载。
还应指出的是,文摘法和“以刊论文”一般不关注专著和以图书形式出版的学术集刊,这样就会存在评价盲区。据杨玉圣教授统计,文科领域中的学术集刊有300余种[13],在发表论文的学术书刊中占有相当大的比重。如今年三月起恢复以杂志刊号出版的《中华文史论丛》自1962年创刊起(至2005年共出版了80辑,1989年后改为丛刊),以发表高质量的研究论文为海内外学术界所瞩目,与中华书局的《文史》成为国内最有影响的文史研究刊物。香港浸会学院中文系主任葛晓音在给内地文科杂志排序时,将《中华文史论丛》排在第二位(第一位是《中国社会科学》)[14]。如果用文摘法和目前通用的“以刊论文”(“核心期刊”法)就无法评价。
三、引文评价与其它评价方法的比较
引文是科学共同体在科研状态或学术创造过程中对被引文献的直接使用,是与学科前沿的学术问题联系最紧密因而也是最有学术价值的一种同行认定。“一般来说,科研人员不会无故地引用他人文献,只有当他人文献在某些方面对研究具有价值的时候,即他人文献有观点、有内容可供参考的时候,才被引用。”[15] 引文分析评价具有事实上的客观性、数量上的可累积性、学科上的公平性、实践上的易操作性。这使得引文分析既可以用来评价单项成果,更适合从整体上建立学科评价体系。
引文分析自1911年俄国科学院院士瓦尔金首开先河以来,许多国外情报学家做了大量工作,使之得以发展、完善,逐步应用于统计核心期刊、反映作者学术造诣的深浅、反映科学论文本身之间的种种关联。国外将基于引文测度之上的科学计量学评判作为评价期刊的三个要素之一。
我国从20世纪80年代初期开始引进引文分析的基本概念、原理和方法,90年代以来,引文分析方法研究取得了许多新的进展,人们在对引文分析法的理论进行再认识的基础上,不断引入新的概念和方法,并对引文的特点和引文分析法的应用条件、适用范围等进行研究和比较,使引文分析研究和使用在我国日臻完善和发展。
引文分析在实践中的成功运用(特别是在自然科学基础研究评价方面),已逐渐被证明是能够较客观地评价科研成果和科研人员的有效方法之一。加菲尔德曾用SCI成功地评选出杰出的科学家。其基本依据是:谁的论文被引用的次数越多,谁的论文水平就越高,谁就应该成为杰出的科学家。但在社会科学方面,引文分析则还缺乏在学术史上有重大影响的成功实例。
社会科学成果的反响方式有多种,如为政府决策采用或进入教科书、被转载、被引用,等等。在各种反响中,被引用可能涉及的文献面最广,也是学术成果最常见、最直接、最有效的影响效果,是在学术领域内被同行认可的重要体现。文献认为,一篇论文发表后,如果被引用,则说明科学共同体对这个研究人员的成果的承认,尤其当奖励只能颁布给少数研究人员时,成果被引用就成为研究人员获得承认的主要标志。[15](P20—21) 2003年5月,国家科技部、教育部、中国科学院等单位联合发出了《关于改进科学技术评价工作的决定》,《决定》指出:“科学论文是科学技术产出的一种忠实记录”,对论文“要提倡内在价值的判断”,“强调论文的被引用频次”。2003年9月,科技部根据《关于改进科学技术评价工作的决定》和国家有关法律法规制定了《科学技术评价办法》(试行),《办法》指出:基础研究成果应以在基础研究领域阐明自然现象、特征和规律,做出重大发现和重大创新,以及新发现、新理论等的科学水平、科学价值作为评价重点。在国内外有影响的学术期刊上发表的代表性论文及被引用情况应作为评价的重要参考指标。
引文分析评价最显著的特点是它的客观性,以引文发表后的被引用信息作为评价数据源,奠定了其客观反馈性基础。一篇文献之所以会被列为引文,往往是因为它对引用者的学术思考产生了影响,对新知识的产生起了催化作用,而这正是文献的价值所在。与此相比,同行评议只是一个纯粹的评价过程,在同行评价中获得好评与新知识的产生并没有必然的联系。其它几种评价方法有的只能扩大文献的影响,有的评价效果还不如同行评议。引文分析的客观性还在于它能比其它评价方法更少地受到有损客观的人为影响。仅仅一两次引用对文献评价没有太大作用,因此即使有人为了获得好的评价要人为“制造”引文也不会有太大收效,而同行评议、文摘法、“以刊论文”对文献的评价因为是一次性的,因而很容易为金钱和关系所攻破,近几年学术界和期刊界频频出现的不端行为和腐败现象即为明证。
“新的知识面临的一个麻烦就是不好定价,……知识不容易定价的原因,是它的价值需要很长时间才能显露出来。”[16] 纪宝成教授针对现在许多重大奖项参评成果必须是在2~3年内出版或发表的作品这一做法时指出,参评时限过短会带来以下弊端:第一,不科学地排除了一些出版或发表年限稍长的精品和上品;第二,影响了评价本身的客观性和公正性;第三,容易发生单纯地把当前政治经济社会生活中的热点问题和政策取向当成了评价标准的现象,从而往往导致或助长科研中的“追风”和“急功近利”。“我们应更多地提倡延长重大学术奖项的参评时限,把科研成果放在一个更长的时段里考察,比如,把参评科研成果的时间下限定为发表5年以上,不设时间上限,或以作者在世为唯一上限。这样做,更能体现遵循学术发展内在规律的要求,因而可以认为是一场关系到哲学社会科学发展繁荣大计的评价机制方面的根本性改革。真正有价值的原创性研究成果尤其是基础理论方面的研究成果必须经受历史的检验,其学说成就和实践意义是在历史长河中显现出来的”[17]。
让时间来考验,这正是引文的强项。引文可用于评价任何时间的文献,特别是引文次数的可累积性不但可以充分拉开文献的质量和影响的级差,而且使得人们可以在足够长的时间范围内——几年、十几年、几十年,甚至更长——来考察真正有价值的文献的耐久力,以发现那些对现实研究有重大影响和能预测学科未来走向的重要文献,即经典文献。在这方面,最好的例证是加菲尔德等人利用1968年的SCI数据成功地预测了1969年的诺贝尔获奖者的人选。至于其它评价方法,不论是从现状来看,还是对文献的最终评价的角度来看,确实很容易出现纪宝成教授所指出的各种弊端。
从学科角度考察,不论哪一学科,有研究就会有引文。引文对学科是公平的,一篇文章的引文可能来自大的学科,也可能来自小的学科;可能来自成熟的学科,也可能来自新兴学科;可能来自单个学科,也可能来自多个学科。这就使得每种学科的高水平文献都有得到被肯定和被引用的机会,这种自然产生的公平性是另外几种评价方法所没有的。
当然,引文分析也存在着一定的局限性,如引文具有不确定性,作者有时并非将所有参阅过的文献全部列出,有时还会列出未参阅的文献,出现伪引;作者选用引文还受到可获得性的影响,即被选用的文献不一定是最好的;还有不恰当自引和否定引用;有的论文有可能被人频繁批评指正,被引次数也会较高;另外,引文著录不规范会对引文分析产生不良影响,如我国有些人文社科期刊不列参考文献,致使引文难以统计,而数据不全面将影响引文分析评价的准确性。因此,在应用引文分析方法时应注意避免引文的局限因素,尽量使分析结果客观准确,如注意数据取样群的选择,排除无参考文献的来源期刊;鉴别引证目的,排除否定引用等。在具体分析中,这些都是不难做到的。总之,尽管引文分析具有一定的局限性,但它毕竟是客观、科学的国际通用的文献计量评价方法,其客观反馈性和定量分析弥补了人为定性评价的缺陷,成为评价期刊的多种方法中极为重要的评价方法。在我国建立了计算机大规模中文社科引文系统的情况下(如南京大学的CSSCI和中国社会科学院文献情报中心的中国人文社会科学引文数据库),学习和借鉴国外的先进经验和做法,使社会科学研究评价走向国际化和通用化,将有效地促进我国人文社会科学期刊的规范化和标准化,提高学术期刊的质量意识,进而促进社会科学研究的繁荣和发展。
总之,通过比较我们可以看到,与其它评价方法相比,引文评价方法兼具事实上的客观性、数量上的可累积性、学科上的公平性、实践上的易操作性,最适宜作为社会科学研究成果的常规评价方法。至少,在没有更好、更准确的客观标准时,“引用率相对来说是一个比较好的客观标准”[18]。
收稿日期:2006—04—05