学术评价:理想与现实之间的优化选择——人文社科论文评估指标体系的完善与实施新探,本文主要内容关键词为:指标体系论文,现实论文,学术论文,理想论文,评价论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G311 文献标识码:A 文章编号:1003-854X(2011)11-0124-06
学术成果评估工作能够为科研管理和学术研究提供有价值的参考依据,对促进科学进步和社会发展具有重要意义。但要获取较为客观、可用的评估结果,就需构建一套较为科学、可行的评估指标体系。对于人文社会科学论文而言,由于类型多样、价值显现周期较长、转化应用方式模糊等原因,加之评估者的认知能力与技术发展的局限,其评估指标体系的构建和实施工作难度更大。虽然学术界关于人文社科论文评估指标体系的探讨,对填补理论和实践方面的空白起到了积极的推动作用,但指标体系的设置和实施仍然存在一些不足。本文拟深入探讨我国人文社科论文评估指标体系的完善和实施问题。
一、评估指标体系现状:理想与现实的矛盾
当前我国人文社科论文评估指标体系处于“政出多门、标准不一、事故易发的阶段”①。如表1所示,各类指标均存在某些方面的不足和缺陷,或不能有效反映论文质量、或可操作性较差、或不符合人文社科研究规律等等。此外,有些指标体系评估标准模糊、指标逻辑关系不清、权重设置不合理,指标体系的实施细则或不够细化或复杂繁琐,这些问题均影响了评估结果的准确性和公正性,甚至导致了评估的实际效果偏离评估目标的“异化”现象②,阻碍了人文社会科学的发展。
面对困境,有些学者提出了人文社科论文“不可评”、“不可测”的悲观论调。的确,人文社科论文的质量评估难以得到“精确”的结果,但经验表明,依据评估指标体系是可以大致判断成果的“质量等级”的。既然人文社会科学需要按科学学术规范进行研究,就必然要遵循科学研究的规律,从而也一定存在科学的方法来评估它的研究成果。问题在于我们如何找到人文社会科学研究的本质规律,并依照规律逐步改进和完善评估成果的方法和体系。不可否认,当前我国人文社科论文评估指标体系的确需要进一步完善,现有指标体系存在的种种不足,是可以通过有效手段进行改进的。只是我们对现有评估指标体系的缺陷仍未形成充分认知,缺乏行之有效的改进策略。
为此,必须充分关注指标体系所面临的理想与现实的矛盾。理想的人文社科论文评估指标体系的关键要素包括:指标设置科学、权重分配合理、实施程序公正、操作便捷可行等。然而在现实中,对人文社科论文评估标准、手段、方法、路径等方面的认识还存在分歧,指标体系的构建还面临完备性与可行性、及时性与延迟性、精细化与高效率等一系列矛盾,难以面面俱到。所以,苛求“完美的”评估指标体系是不切实际的。我们必须在坚持人文社科论文“有必要评估”、“可以评估”的基础上,在“理想完美性”与“现实可行性”之间做出优化选择。
二、评估指标体系设置的优化
(一)评估指标体系设置优化的基本原则
基于“理想与现实之间优化选择”的基本思路,我们认为,人文社科论文指标体系的优化设置应遵循以下原则:
1.体现学术共同体的“共识性”认知
人们总是希望论文评估尽可能“客观”,然而,评估是主体对客体进行判断的行为,带有天然的“主观性”,即使通过文献计量进行评估,也需以主体在引用和计量中进行的主观判断为基础,所以评估不可能“完全客观”。在学科建制化背景下,对人文社科论文进行“客观”评估,在本质上是指基于一定事实认定之上的学术共同体的“共识性”价值判断,而非某一研究者的个人主观判断⑦。因此,完善人文社科论文评估指标体系的首要问题,是以学术共同体所认可的“共识性”指标为评估的基本标准和原则,并在这些“共识性”认知的基础上,深入分析人文社科论文评估涉及的变量因素,对当前人文社科论文评估指标体系进行综合分析与完善,降低评估指标的片面性。
2.同行评议为主,文献计量为补充
文献计量和同行评议是现阶段学术成果评估的两种主要方法。然而,单独采用任何一种方法都有其局限性。由于引用动机难以准确描述和统计,仅用文献计量评估容易导致“重量轻质”、“重刊不重文”等问题;同行评议的主要不足则是评估主体的主观随意性较难控制。与自然科学研究相比,人文社会科学研究具有更强的“小科学”特征⑧,比如自由化和个性化等⑨,成果转化利用的时间、范围、方式都比较模糊⑩,所以同行评议方法更符合人文社会科学的研究规律。随着我国人文社科领域学术引证规范程度的逐步提高,以及CSSCI、CNKI等引文数据库的日益完善,将引证指标用于评估人文社科论文的条件也初步具备。因此,两种方法相结合的综合评估渐成为当前学术界的共识,采用“同行评议为主,文献计量为补充”的思路,通过相互补充和彼此限制来完善人文社科论文评估指标体系,更符合当前评估实践的现状和需求。
3.坚持“质量为本”的评估导向
量化评估在当前的学术成果评估中占主导地位。但过于强调量化评估已导致学术成果的“数量激增”与“高水平成果稀缺”的尴尬反差。改善这一状况当务之急是倡导“质量为本”的导向,克服单纯以成果数量评估学术水平的弊端(11)。所以,应当着重对人文社科论文的内容质量进行评估,形成以直接反映质量的定性指标为主、以间接反映质量的定量指标为辅助和补充的指标体系。ISO8402-1994《质量术语》中将质量定义为“反映实体满足明确或隐含需要的能力的特征及特征总和”。人文社会科学论文质量即是满足学术需要和社会需要的能力属性,比如创新性、价值性、重要性等,所提炼的评估指标应充分体现这些属性。
(二)优化后的评估指标体系设置
在遵循上述三个基本原则的基础上,围绕我国人文社科论文评估指标体系存在的问题,我们通过文献调研、问卷调研和专家论证,对现有人文社科学术论文评估指标进行了汇集、梳理、分析和归纳,理顺指标之间的逻辑性,优化组合各类指标;通过实证试验,确定合适的指标数量和层级,明确界定指标的内涵和数据获取途径,提高指标体系的可操作性;改进指标权重分配,体现指标重要性的显著差异,提高权重分配科学性。最终我们遴选出9个指标,构成一套优化的人文社科学术论文质量评估指标体系,如表2所示。
1.同行评议指标的优化
在坚持学术共同体“共识性”认知的前提下,我们遴选同行评议主客观指标时注意了以下几点:(1)必要性:评估论文质量必不可少。(2)有效性:能有效反映论文质量。(3)逻辑性:与其他指标不交叉或重叠,其他指标不可替代。(4)可操作性:指标内涵清晰、易于评估把握。(5)广泛适用性:可用于评估各类型和学科人文社科论文。
表2中所示的6个同行评议指标均得到大部分学者的认可。在研究过程中,其他一些评估指标未采纳。比如,学术价值指标,内涵过于含混,且与学术创新程度、论证完备程度两个指标明显重叠;成熟度、系统性、可靠性、规范性、先进性、充分性、完备性等指标,隶属于论证完备程度;研究内容意义、前沿性、唯一性、新颖度等指标,与学术创新程度存在交叉;作用强度、影响力度、效益性、生命强度、影响广度等,内涵较为模糊、不易把握,且与社会价值指标交叉;资料性、理论性、综合性、专门性、可读性等指标,难以有效反映论文内容质量。
对指标的名称和内涵进行准确界定是十分必要的。比如,学术创新程度指标是为凸显论文在学术方面的创新,除了基本的理论、观点、方法、论据等方面的创新内容外,特别界定了“对已有成果做出新的总结概括”是综述文章学术创新的重要体现;论证完备程度指标是为强调论证过程对人文社科论文的重要性,包含研究方法科学性、论据可靠与充分性、逻辑严密规范性等内容;社会价值指标不仅包含对于解决经济、社会问题的支持作用,还包括对思想道德文化的促进作用,以适应人文学科和基础理论类论文的评估;难易程度指标包括资料搜集处理难度和论题本身复杂程度两项内容。
需要指出的是,把课题立项和发表载体列为人文社科论文同行评议的辅助指标,虽然存在一定争议,但是这两个指标体现了课题立项评审人员和期刊选文评审人员对论文的评价意见,有利于以较低的成本拓展评估主体范围,得到更为可靠的评估结果。
2.文献计量指标的优化
在遴选文献计量指标时,我们注意了以下几点:(1)可统计:可针对单篇论文进行统计;(2)有效性:能有效地反映论文质量;(3)逻辑性:与其他指标不交叉或重叠,其他指标不可替代;(4)易获取:评估所需的文献计量数据便于获取。
根据“同行评议为主,文献计量为补充”的思路,文献计量指标仅着重选取少数关键指标。经过对国内外现有主要文献计量评估体系指标的分析,我们最终确定了最能反映论文质量的3个文献计量指标(参见表2)。Web下载频次是指论文发表后一段时间内,被网络下载的总频次,在论文普遍上网的情况下,有利于反映论文质量。为防止人为增加下载频次,相同IP在24小时内下载同一篇论文只计作1次;被转载次数是指论文发表后,被《新华文摘》、中国人民大学《复印报刊资料》、《中国社会科学文摘》、《高等学校文科学术文摘》转载的总次数。被转载实际上表示论文质量得到了同行的再次认可;被他引频次是指论文发表后一段时间内,被他人引用的总频次。施引论文的所有作者与被引论文的所有作者不重叠时算作“他引”。被引频次是当前国内外各类文献计量评估指标体系的核心指标,被他引的频次往往比自引频次更能够体现论文的质量。其他指标因体现的内容与论文评估关联度较小没有采纳。比如,影响因子指标更适用于评估期刊,H指数、G指数指标更适用于评估作者,扩散因子、被引广度、半衰期、即年指数等指标若用于评估单篇论文,数据量小、区分度不大、统计规律不强。
3.评估指标权重赋值的改进
当前各类人文社科论文评估指标体系往往设置单一的、固定的指标权重分配方案。然而,通过文献研究和问卷调查分析,我们发现各类人文社科论文虽然可采用通用指标,但不同学科、体裁的论文在指标权重设置方面存在明显差异。比如,根据层次分析法问卷调查结果,社会价值指标权重在心理学和体育学学科中约占6个同行评议指标的27%,但在艺术学和理论经济学学科中仅占约15%。综述文章的学术创新程度指标权重比研究论文低10%以上。因此,权重分配应在体现“同行评议主观指标为主,客观指标为辅,文献计量为补充”的前提下,通过分层、分类设置权重来提高指标体系权重分配的科学性。
我们对评估指标的权重分配采用了层次分析法、问卷调查和专家论证法,将指标权重共分为三层(参见表2):
第一层权重通过多轮专家论证,将同行评议指标和文献计量指标的权重比例确定为0.7∶0.3。
第二层权重通过层次分析法调查和统计分析,确定同行评议指标中主要指标、辅助指标、文献计量指标的权重为0.595∶0.105∶0.3。
第三层权重分为两类:一是对6个同行评议指标的权重赋值,根据论文学科和体裁差异,依托评估软件设置多套权重分配方案(13)。二是对3个文献计量指标的权重赋值。通过实证测算和专家论证,Web下载频次、被转载次数和被他引频次的权重比例确定为0.06∶0.09∶0.15。
三、评估指标体系实施策略的改进
要获得较为科学合理的评估结果,不仅要完善评估指标体系的设置,指标体系的实施策略同样不可忽视。通过新技术手段的采用,有针对性地减少指标体系的缺陷,是提高指标体系的科学性和可行性的重要路径。根据对《复印报刊资料》(2010年度)1.4万篇转载论文的实证评估和研究,本文对指标体系实施中遇到的关键问题进行了总结,并试图提出解决策略。
(一)跨学科论文的分类评估问题
按学科进行分类评估、同类比较是当前学术界普遍认可的、实践中常用的方案。然而,在应用这一方案时,跨学科论文的学科归属至关重要。跨学科论文一般是指论文的研究对象、方法等涉及一个以上的一级学科。卜卫等认为应在开展同行评议之前先对论文所跨学科的百分比进行判断,比如经济学70%、管理学30%,之后分学科进行评估,再按百分比计算评估结果(14),然而这一方式存在较大主观随意性;也有学者认为应按作者的学科背景确定所评论文的所属学科,但作者的学科背景本身也难以准确界定,更何况还存在作者跨学科发文的情形。
通过实证研究,我们将跨学科论文分为两类:一是围绕某一主要学科的理论、方法或问题开展研究,但借鉴了其他学科方法和理论,此类论文应在主要学科中进行评估,形成唯一的评估结果;另一类论文同时涉及一个以上学科的理论、方法或问题,学科归属不明晰,应同时在不同学科中进行独立评估,形成多个评估结果,以便满足多种评估需求。这样的分类模式既有利于体现跨学科论文的特性,又保证了评估的可操作性。
(二)同行评议评分量表的选择与改进
同行评议的评分量表用于帮助评委量化论文质量在其心目中的位置。在同行评议实施过程中,选择合适的评分量表有助于评委对评估结果进行确切地“量化表达”,否则评估将事倍功半。
常用的“5分”、“10分”量表,在实践中评委往往因分级过少而强行做出选择,造成评估信息丢失,比如评委有可能需要表示4.8分,但只能被迫选取4分或5分。“100分”量表的分级过多,超出了评委的可控范围,尤其在大规模评估论文时,对质量相近的论文的评估易出现判断失误。此外,无论采用哪种量表,大部分评委往往习惯性地将分数固定在更小的区间,比如用“10分量表评分时,评委的评分可能集中在“6-9分”,导致评分结果区分度过小。
因此,在选择同行评议评分量表时,要求量表能充分地帮助评委量化论文质量在其心目中的位置,使评分结果既有合适的区分度,又不扭曲评委的评估意愿。心理学家西蒙(H.A.Simon)在1974年指出,人的实际工作记忆广度只有4或5个信息单位,评委在量化评估结果时也遵循这一规律。根据实证研究结果,“嵌套式量表”是较好的选择,比如两个“5分量表”嵌套形成的“21分量表”(15),要求评委先判断论文水平处于五个基本等级中的哪一级(1分表示“极差”,6分表示“较差”,11分表示“一般”,16分表示“较好”,21分表示“极好”),再左右微调确定论文的最终得分,有利于更准确地量化评估结果。此外,还可通过软件或实施细则引导评委将论文的评分分布在不同的分数区间,确保论文评分的区分度。
(三)大规模评估活动的程序优化
在采用指标体系大规模评估论文时,对评估的效率、准确性、便捷性、低廉性和评估结果的可比性提出了更大挑战,因此需要更为科学的评估程序。
一般来讲,人文社科论文能够较容易地区分出“好文”和“差文”,但在评估实践中,人们希望进一步区分“好文”的优质程度,进一步区分“差文”等级的需求则相对较小。因此“差文粗评、好文精评”的分步筛选流程有利于提高评估效率。首先,筛选出“差文”由1-2个评委进行“粗评”即形成最终结果,再组织多位评委对“好文”进行多轮“精评”,形成更为准确的评估结果。还可通过评估流程的细化分工可进一步提高评估效率,比如分别设置专人负责论文分类、“差文”筛选、各类论文同行评议、分数核算等不同评估环节。
评估主体的专业化程度,是影响评估客观公正的重要因素,在同行评议中尤为如此。学术界普遍认为,对人文社科学术论文的评估,评委的知识背景和结构与论文研究内容越是接近,对论文评估的效果就越好,因此在遴选评委时应尽量遵循“小同行”原则,并对评委进行培训,使之完全理解指标的含义、评估标准、评估流程和评估规则等。将看似不合理或异常的评估结果反馈给评委进行重新审视,也有利于改进评估结果、提高评委的评估能力。
(四)评估结果的矫正与合成
在计算评估结果时,有两个环节对评估结果的公正性至关重要。第一,论文的同行评议评估结果受到评估主观性的影响,容易出现不同评委尺度松紧不一的情况,若采用原始评分的平均数作为最终结果,则会降低评估结果的公正性和相互可比性。若通过统计手段对不同评委的评估结果进行矫正,比如程淑等提出的“除以平均值、乘以系数”的方法,使论文的评分都转换为“相对值”后再取平均数(16),则有利于改进这一状况。第二,本文所遴选的指标的量纲不同:6个同行评议指标均可采用相同量表,比如“21分量表”,但3个文献计量指标的评分,则为[0,∞)区间内的整数。因此,在计算单篇论文最终得分时,首先须统一量纲,才能对各指标得分进行加权求和。统一量纲俗称“归一化”,可采用“论文某个指标得分/同类论文该指标得分的最大值(或平均值)”等公式实现。
(五)智能化评估软件的开发与应用
同行评议和文献计量过程涉及大量复杂的分类、计算和控制等问题,以往的研究虽早已发现评估活动中的这些问题,但由于技术条件的限制无法使之得到有效解决。在现阶段,若依托数据挖掘、语义网等技术开发“智能化的评估软件”,不但有助于总结评估问题的发生规律,还有助于这些问题的解决,从而推动评估实践的进步。第一,依托智能化评估软件,可及时发现和矫正评委的不合理或异常评估行为,比如评估分数区间过小可能表示评委需要提高分数的区分度,分数过于集中在少数分数上,可能表示评委的评估较为草率,若一篇论文某个指标得分明显低于其他指标得分,可能表示误操作等等;第二,利用智能化评估软件可对评估数据的关联性和差异性进行挖掘计算,比如在海量数据中识别出论文某些指标得分相关度较高或差异较大,为评估理论方法的深入研究和学科、作者、机构、期刊的发展态势提供依据;第三,通过智能化软件可对论文及其评估数据进行详细的分类标引、评估结果的合成计算和归一化,有助于提高评估的准确性和效率。
(六)评估指标和权重的灵活配置
科研管理等实践要求多样化的评估时间点,有时需要论文形成后即刻进行评估,有时则要求论文发表1年或几年后进行评估。因此,一个科学实用的评估指标体系需具备灵活配置指标及权重的特性,以满足不同时间、不同目的的评估实践需求。
本文中提出的学术创新程度、论证完备程度、社会价值、难易程度4个主要指标在论文形成后可随时通过同行评议形成评估数据发表载体的数据在论文正式发表后可获取;论文的Web下载频次和被转载次数的数据,通常在论文发表1年才能形成有效数据;被引频次等文献计量指标,至少需要3年的累积数据才具有说服力。因此在开展评估时,应根据实际需要对这些指标进行“动态组合”。比如,若在论文发表后1年左右的进行评估,可只选择已产生有效数据的指标,暂不采用需至少3年才能获取有效评估数据的被他引频次指标,并按比例重新计算权重。
此外,虽然当前大部分学术论文可通过网络访问全文,但个别不上网的论文,其Web下载频次指标的评估数据则无法获取,个别期刊拒绝论文被转载,其论文被转载次数也无法获取,这时可去掉该指标,并将该指标权重按比例分配到其他指标。
四、结语
基于学术共同体的共识性认知和“理想与现实的优化选择”的基本思想,我们提出了4个同行评议主观指标、2个同行评议客观指标和3个文献计量指标,作为评估人文社科论文的通用指标。通过分层、分类设置多套权重赋值方案来体现不同体裁和学科论文的差异性,这是对我国当前人文社科论文评估指标体系设置的进一步完善。同时,本文通过实证研究总结了指标体系实施过程中的关键问题和解决策略,也有利于改进指标体系的实施效果。但评估指标的适用性、评估过程的科学性、评委组成的公正性、评估结果的可验证性、尚无法彻底解决的评委主观随意性、特殊论文(比如政治敏感性论文)的评估等诸多问题,仍需要进行深入研究。
注释:
①倪润安:《中国人文社会科学学术成果评价体系建立的困境与出路——当前研究状况的总结与思考》,《社会科学管理与评论》2004年第2期。
②高军、迟爽:《我国学术评价制度的异化研究》,《高校教育管理》2008年第3期。
③(14)(16)卜卫、周海宏、刘晓红:《社会科学成果价值评估》,社会科学文献出版社1999年版,第101-170、119、147-148页。
④唐德章、夏元林:《社会科学研究成果定量评估方法初探》,《社会科学研究》1989年第1期。
⑤沙似鹏、郑礼、郭才伯、张毅:《人文—社会科学研究成果评价指标体系初探》,《上海高教研究》1994年第1期。
⑥叶蓬:《人文社会科学研究成果评估指标体系分析》,《探求》2001年第1期。
⑦刘大椿:《中国人文社会科学评估问题之审视》,《重庆大学学报(社会科学版)》2009年第1期。
⑧这里的“小科学”特征主要是指:人文社科研究从选题到创新,很多时候遵循“自由研究”原则,研究成果“很难预测”,研究方法中“思辨”的成分较多。从这个角度讲,“标尺型”的文献计量方法不太适合人文社会科学,对成果进行直接、全面、灵活审视的同行评议方法则更符合人文社会科学的研究规律。
⑨朱少强:《论科学建制背景下的人文社会科学研究评价》,《评估与管理》2008年第12期。
⑩虞文、周亚霆:《基于因素分析的社科成果转化评价指标浅探》,《科学学与科学技术管理》2006年第3期。
(11)郑文涛:《关于哲学社会科学评价的若干思考》,《社会管理科学与评论》2008年第2期。
(12)(13)中国人民大学人文社科学术成果评价研究中心:《人文社会科学论文质量评估指标体系实施方案》2010年12月,第9-12页、11页。
(15)程淑、桂林、冀航:《主观评分的归一化算法及误差分析》,《高等函授学报(自然科学版)》2007年第10期。