近年来国内外学术评价的难点、对策与走向论文

近年来国内外学术评价的难点、对策与走向

叶继元

(南京大学信息管理学院，南京 210023)

提要：学术评价是一个世界难题，对学术评价的反思和展望既是讨论话题也是研究的热点。《旧金山宣言》和《莱顿宣言》是国外学术期刊的编辑、出版者和学者提出的应对学术评价难题的一些原则和办法。“全评价”体系则是中国学者提出的有关评价理论的成果。三者都主张评价目的的重要性，都反对将影响因子绝对化，质量评价应以同行专家评价为主，文献计量学评价可以作为补充、校验，都与近期中央反“四唯”“五唯”的精神相一致。但“全评价”体系对内容的阐述更具逻辑性和学理性，提出的时间也比两个宣言早了几年，体现出中国的话语，表明我国在学术评价理论研究上至少与国外处在同一水平上。从三者内容的对比也能分析出近年来国内外学术评价的难点、对策与走向。

关键词：学术评价；国内外；评价难点；评价对策；评价走向；计量学评价法；同行评价法

一、近年学术评价概况

随着学术研究对于国家发展的重要性的增强，世界各国越来越重视对学术资源的分配和研究者水平和研究质量的评选。学术研究是一项高强度的复杂劳动，真理的探讨和认证都需要一个相当长的过程，但科研管理的现实却要求在一定的时间里，最好尽可能快和好的评选和确定“好的学者”和“好的研究”，因此学术评价就成为一个世界难题。

首先从国内看。2004 年，《中共中央关于进一步繁荣发展哲学社会科学的意见》第20条明确提出，要建立和完善哲学社会科学评价和激励机制^[1]。之后学术评价的时间和研究均有了很大发展，包括学术期刊( 核心期刊/来源期刊)和学术图书评价、学术论文评价、学者评价、大学评价、创新力评价、学术评价体系和机制研究、学术评价理论分析、学术评价管理、评价指标研究、学术评价的规范研究等。在这10多年中，各个部委根据中央精神颁发过不少与学术评价有关的文件，直到2018年10月，管理部门又密集发布多个文件均与评价相关(如表1所示)，这说明国家高层和各管理部门非常重视学术评价问题，拟下大工夫解决这一疑难问题。同时也说明管理部门接受了学界的一些有益建议，固化在有关文件中，希望更合理地评价、掌握和分配各种学术资源。

表 1 2018年学术评价相关政策

为了深入贯彻落实全国教育大会精神，教育部办公厅于2018年11月7日发出关于开展清理“唯论文、唯帽子、唯职称、唯学历、唯奖项”专项行动的通知，明确要求“健全立德树人落实机制，扭转不科学的教育评价导向，推行代表作评价制度，注重标志性成果的质量、贡献、影响”。“认真梳理本校涉及项目评审、人才评价、机构评估事项，如职务职称晋升、项目基地评审、重点建设学科确定、人才培养指标分配等方面，可参考但不限于附件2。对照‘五唯’表现逐项检查。对涉及‘五唯’问题的事项要深入分析问题根源，研究提出整改措施和意见建议。”清理的对象有：单位内部管理文件;各类考核评价条件和指标，具体表现形式包括但不限于评价指标体系、评价手册、评审细则等;有关管理信息系统和工作表格。要求2018年11月19日(周一)前报送清理情况^[5]。接着，2019年3月4日科技部、财政部、教育部、中科院四部门联合召开“减轻科研人员负担七项行动推进会”，具体包括减表、解决报销繁、精简牌子、清理“四唯”问题、检查瘦身、信息共享、众筹科改等7项具体行动，分为“解剖麻雀”和“问题治理”两个阶段，要求集中整治后固化形成制度成果。科技部、财政部、教育部、中科院召开“减轻科研人员负担七项行动推进会”^[6]。从2019年“两会”一些代表的提案看，学术评价和学术规范的问题仍然是重点之一。例如，有的学界代表提出以下建议：对一流大学建设高校A类36所单独制定更为合理的评估标准，可以先从前几轮学科评估中综合成绩排在前几位的大学入手进行试点；应主要采用国际国内同行评估，彻底淡化论文数量、项目数量的指标权重；对于一流高校的评估，建议有更长的时间周期，从目前的4年一评，扩展到8年一评，给一流高校更多时间从容发展，充分形成自身特色；取消学科评估中在读硕士生、博士生的论文发表统计^[7]。

从总体上看，中央及各部委发出的一系列文件，再次明确了搞好学术评价的原则、要求。目前各学术机构都在深入领会反“四唯”“五唯”的精神，结合各单位评价实际，找出问题，颁布措施，这是主流。例如，2019年4月19日清华大学发布《关于完善学术评价制度的若干意见》，并提出了“七大任务”，包括研究制定符合学科特点的分类评价制度、教师评价体系、研究生学位论文评价标准、大学生荣誉奖励体系等。但是，有不少机构仍在等待观望，其原因一方面是源于对不“唯”论文等后，还“唯”什么的疑虑，另一方面也有“枪打出头鸟”的担忧。对这两个问题，需要从学理上解释清楚反“四唯”等的真实含义，出台保障“敢为人先”者的核心利益不因创新未果而受损的政策和制度。

其次从国外看。多年来，国外学术评价长期以同行评议为主，但自《科学引文索引》(SCI)、《社会科学引文索引》(SSCI)、《艺术与人文学科引文索引》(A&HCI)以及欧洲的Scopus引文数据库等检索工具、美国Dimensions等统计与评价平台问世以来，世界各国有关引文数据评价与同行评价的实践与争论一直延续至今。2008年以英国学者为一方，美国、以色列和澳大利亚的学者为另一方，曾激烈争论引文数据能否完全代替同行评价问题。欧洲有感于SCI等数据库偏重于英文，近年建立以西文(包括法文、德文等拉丁字母的文字)为主的引文库Scopus^[8]，Scopus是Elsevier公司于2004年推出的多学科文摘索引型数据库号称全世界最大的摘要和引文数据库，涵盖了15000种自然科学、社会科学、技术及医学方面的期刊。Scopus不仅为用户提供了其收录文章的引文信息，还直接从简单明了的界面整合网络和专利检索。

《旧金山宣言》还提出了一系列改善科研产出评价方法的建议：比如强调科学研究的产出具有多样性，对于科研产出的评价应考虑期刊论文之外的成果，包括图书、数据、试剂和软件等等；主张同行评议仍然是科研成果质量评价的核心方法，仍然是科研评价的根本。呼吁考虑采用更广泛的影响测度方法，包括对研究影响的定性指标，例如对政策和社会实践的影响。

基于现场实际条件，山路崎岖不平，路段狭窄，不适合板状天线的推进，因此选择适应山坡路段的蛇形软质天线，即超强地面耦合天线(RTA50 MHz)执行本次勘探任务。雷达测线按垂直于坡体等高线方向单向布置，测线方向由坡脚向坡顶行进，测线覆盖整个滑坡区域，在测线的起始处沿测线方向均向外延伸5～10 m，以便进行比对分析。在滑坡后壁处，测线向后壁上方继续行进5～10 m，以便对滑坡整体机制做出合理推测和解释。本文在所有探测结果中，主要选择一条有代表性的探测剖面进行分析解译。测线布置图如上图2所示。

近年来欧美各国都在尝试进行研究的质量评价：意大利曾大力利用文献计量法，但后因受到学界反对而放弃；法国曾利用专家法，但后因工作量太大而终止，继而改用“独立、便于操作、程序简单，并具有科学合理性及透明度”的方法；德国科学委员会则以同行评议为主，文献计量法为辅，将数据提供给专家参考，其评价目的不是资源分配，而是找出研究之不足，寻找发展方向；英国于2014年对全国154个大学的研究质量进行评价(Research Excellence Framework，REF)，以国际同行评价为主，其评价目的是配置科研经费和资源。评价指标是研究成果产出(outputs)、影响(impact)、研究环境(environment)，“产出”是指评价研究成果的质量(Power rating)，权重占65%，主要从研究的首创新(originality)、重要性(significance)、严谨性(Rigour)三个方面测评。“影响”是指研究对社会经济、文化、政治、生活方方面面的影响(Power Index)权重20%，这是2014年新加入的排名统计项目。“研究环境”是指研究的人力和物资条件等(Market Share)，权重为15%。质量等级为5级：最高级为4星级，次之为3星级、2星级、1星级和无星级。如被评为4星级(最高级)，则获得的研究经费最多，被评为最低级研究人员则无研究经费或走人。据悉，2021年英国REF研究质量评价项目将继续开展，近期已公布评价指南和评价标准等重要文件。下一次的评价将总结2014年评价的经验和教训，将由科睿维安(Clarivate Analytics，前身为汤姆森-路透)提供引文数据。评审专家在评审期间将负责任地利用引文数据进行验证和校对，以便做出合理的评价决定^[10]。

从以上两个表格可见，留学生博士论文收缴情况远不如中国国籍博士学位论文，缺藏数量大，在博士论文漏缴总数中占比大。

二、《旧金山宣言》《莱顿宣言》与“全评价”分析框架

(一)《旧金山宣言》的发布与主要内容

2012年12月美国细胞生物学学会召开年会，会上一些学术期刊的编辑和出版者提出要反思科研评价问题，在此基础上形成了“旧金山宣言”(The San Francisco Declaration on Research Assessment，DORA)。该宣言呼吁科学界停止使用期刊影响因子等期刊计量指标来评价单个研究论文或学者个体的贡献，或者是作为聘用、晋升、资助等方面的依据。2013年5月，78个科学组织的155位科学家签署了这份宣言。2015年3月，由欧洲21个最知名的大学组成的欧洲研究型大学联盟(League of European Research Universities)声明支持该宣言。《科学》杂志撰写社论支持“旧金山宣言”，认为影响因子最重要的危害在于有可能妨碍创新，引导科学家过度关注高影响因子论文，追逐所谓“热点”。2017年4月27日，Nature Research也正式签署该宣言^[11]。

滴灌是目前最有效的节水技术之一，水的利用率可达95%[3]。可按照作物需水要求，将水和养分混合均匀后缓慢地滴入作物根区，显著提高水肥利用效率，有效地提高作物光合作用，增加作物糖分与干物质积累，增加作物产量与品质。相比地面灌溉，滴灌可显著降低土壤无效蒸发、降低化肥施用量、减轻面源污染。然而引黄灌区发展黄河水滴灌面临三大突出问题：(1)如何低成本、高效过滤泥沙。(2)滴灌用水量调蓄。(3)滴灌配套技术适应性问题。针对上述问题，以内蒙古河套河区为研究背景，项目系统研究了滴灌泥沙过滤、滴头抗堵新产品及滴灌水源调蓄等关键技术，提出了泥沙过滤与滴头技术新模式、滴灌水源调蓄措施以及适宜配套技术。

(二)“莱顿宣言”的发布与主要内容

2014年在荷兰莱顿召开了一次国际会议，美国佐治亚理工学院教授西格斯(Diana Hicks)首次提出了“莱顿宣言”。2015年，她与同事在《自然》杂志上发表题为“书目计量学：莱顿研究计量学的宣言”(Bibliometrics： The Leiden Manifesto for research metrics，以下简称《莱顿宣言》)^[12]，提出了合理利用科学评价指标的七条原则，后来扩充为十条原则。其主要内容是：在肯定量化评价作用的同时，强调量化评价需要与质化评价有机结合。具体说来，《莱顿宣言》总的原则可以概括为四个主要方面：(1)基于指标的量化评估是辅助性的，而基于同行评议的质性评估是主导性的。量化评估应支撑质化的专家评估，而不是取而代之。(2)量化指标可以降低同行评议中的偏见并促进更为深入的审议。(3)在总则指导下，衡量绩效应基于机构、团队和个人的科研使命，应当首先明确评估的目标，在评价过程中特别注意科研活动的使命的差异，指标的选择和应用的方式应该考虑更为广泛的社会、经济、文化环境，以及地域性的差异、学科性的差异和个体性的差异。诸如保护卓越的本地化研究。研究的卓越不等同于在国际期刊上发表英文论文。Web of Science数据库主要是以美国和英文期刊为主。这一数据库覆盖期刊的偏差应用于具有地域差异性的社会和人文学科成果，会造成严重的后果。(4)在对于个人研究成就评价方面，不能仅仅使用H指数之类，而应基于其综合学术产出的质性评价。h指数在不同的领域存在巨大差别：生命科学家可高达200，而社会学家最多只有20-30。因此，研读评判一位学者的论文要远比仅仅依靠一个数字合适。

关于评价指标的数据采集和分析，提出要保持数据采集和分析过程的公开、透明和简单；要求允许被评估者验证数据和分析；要识别和认清评价指标对科研系统的影响，定期审查评价指标并加以改进，警惕负面影响。一般而言一套指标体系总是优于单个指标，因为单个指标更易被操纵，成为驱动研究的指挥棒。研究的使命和评估的目标会随着时间而改变，科研体系也在不停变化演进。曾经有用的指标可能会变得不那么合适，而新的指标也会不停出现，指标体系也随之调整。科学决策必须建立在高质量的评估过程和充分并可靠的数据的基础之上。

(三)学术“全评价”体系/理论的提出与主要内容

内容评价是指同行专家学者针对评价对象实质性内容的评价，一般要花较多时间和精力对文本、成果实体进行深入解读、分析，对其逻辑性、学理性、思辨性、解释性、预见性等进行评价，常常用文字评语来表达，如此学者是一流学者，此成果具有高质量等。

概括说来，“全评价”体系就是“六大要素”和“三个维度”。该评价体系认为，一个有组织的学术评价体系至少由评价主体、评价客体、评价目的、评价方法、评价标准及指标、评价制度六大要素组成，每一大要素又可以分成几个要素，各要素之间相互作用、影响。这些要素复杂多元，其中评价目的是龙头，它决定着其他五大要素及其他要素的选择。评价具有三个维度，即形式评价、内容评价、效用评价。大体看来，形式评价对应于文献计量评价，内容评价基于同行专家学者评价，效用评价则依赖于实践和历史评价或检验。通过检验，该评价体系及其有关推论，诸如评价目的制约论、同行专家主导论、评价客体分类论、评价指标关键论、评价方法适度论、评价制度保障论、计量方法与专家方法互补论、三个维度阶梯论等具有较大的合理性和可操作性。

比如是优中评优的评价，还是基本合格评价，不同的评价目的决定选择什么样的评价主体，评价客体如何分类，采取何种评价方法、标准和指标，匿名还是具名、是否需要申诉、复议等评价制度。如果是全国性优中评优有名额限制的评价，就要选择国内外一流同行专家学者作为评价主体，评价客体即对象的分类要根据名额来设置，要以定性评价法为主，以创新性、复杂性等学术标准及指标为主，评价结果的公示、申诉、复议、评审专家的信度考察等程序与制度就应设计和实施。评价主体中的同行专家学者是评价的主导，评价标准及指标是核心，评价方法是实现评价目的的工具和手段，评价制度则是评价的保障和基础。

Dimensions则是将引文数据与altmetrics(补充计量学或替代计量学)结合在一起，为研究人员、研究机构、出版者、研究基金机构和政府提供更快更准获取各种研究及其影响的数据检索和评价平台^[9]。谷歌学术(Google Scholar)、微软学术(Microsoft Academic)、COUNTER和F1000等一些类似的开源或免费的统计与评价平台在国外已出现不少，说明国外在应用大数据、网络等技术开展学术评价的实践和理论方面有很大发展。

目前国内许多评价之所以没有达到奖勤罚懒、褒优贬劣，激浊扬清、调动研究人员积极性的评价目的，其中一个主要原因，就是没有明确评价目的，并根据评价目的来选择评价主体、方法等，复杂的评价被简单化，而简单的评价又被复杂化。

2.1 试题紧扣教材且高于教材生物学教材是生物学教学的重要工具和生物学课程实施的载体，也是试题的主要来源。试题源于教材是让学生重视教材内容，要求读懂、理解和解释教材中的生物学基本概念、原理和规律等方面的基础知识。试题高于教材是对教材内容适度转化、加工提升，在试题设计的关键处突出重要概念，考查学生对知识的理解和适度迁移能力，体现用教材教的基本思想。

形式评价可以是定性或定量的评价，一般是从评价对象的外部形态进行的评价，常常用数据表示评价结果，如有多少教授，发表多少文章等。它在一定的评价目的下是有用的，不可一概抛弃，但不能将其绝对化。

学术“全评价”体系，或“全评价”理论或分析框架(AARES：Academic All-round Evaluation system)是叶继元研究团队于2010年初正式提出的有关学术评价理论探讨的创新性成果^[13]。利用此评价体系，可以更好地认清以往的评价经验和教训，合理解释目前的评价现状及存在的问题，提出解决办法，并可科学预测评价的未来。此成果是国家社科重大项目《建立和完善哲学社会科学评价体系研究》(2004年—2011年)的一项重要成果，已在学术期刊、著作、网站等评价上应用，被业界引用、评论较多，在学界、教育界和科研管理界产生了较大影响，亟待进一步推广和应用。

隆两优1377于2015年参加长江中下游水稻新品种区域试验，平均产量9 874.05公斤/公顷，比对照丰两优四号增产5.4%，2016年续试，平均产量9 838.5公斤/公顷，比对照丰两优四号增产6.1%；2016年同步进入国家生产试验，平均产量8 848.5公斤/公顷，比对照丰两优四号增产5.9%。2017年在怀宁县农科所试种平均产量10 552.0公斤/公顷，比对照丰两优四号增产7.5%；2018年展示试验产量10 659.0公斤/公顷，比对照丰两优四号增产6.3%，其他2个示范户平均产量11 424.5公斤/公顷，比对照丰两优四号增产5.7%，增产效果明显。

效用评价是指对评价对象的实际贡献、社会和经济效益、应用结果、人们思想变化等的评价，它依赖于一段时间或较长时间的评价，是“进行时”或“未完成时”，可以用数字，也可以用文字来表述。

式中：Δm为滤筒增重mg；C为样品溶液中硫酸根离子浓度，ug/mL；V为样品溶液总体积，mL；d为每个空白滤筒所含硫酸根离子的量，μg；98.08为1molH2SO4分子的质量，g；96.06为1mol硫酸根离子的质量，g；Vnd为标准状态下干气的采样体积，L。

大体看来，形式评价对应于文献计量评价，内容评价基于同行专家学者评价，效用评价则依赖于实践和历史评价或检验。文献计量评价包含一般大众同行专家的评价，内容评价更多是经过挑选的精英同行专家学者的评价，效用评价涉及学术实践和学术“市场”的评价和检验，形式、内容和效用评价的概念组合可以较好地将大众同行评价、精英专家评价和“市场”评价和检验统一起来，既可以是评价方法，也可以以此形成评价标准和一级评价指标。形式、内容和效用评价，从低到高，从相对简单到相对复杂，可以根据不同的评价目的，评价的难易程度，加以选择、组合和应用，以避免评价中过分形式化、数量化、行政化、简单化等倾向。

我们在鱼的身上看不到耳朵，但鱼确实是有耳朵的，只是和人耳不同。鱼耳没有外耳郭和中耳道，只有内耳，一般是埋在头骨里面。鱼的听觉是很敏锐的，常人只能听到20赫兹至18000赫兹的声音，而鱼类最低能听到13赫兹的声音。一般来说，小型鱼对高音敏感，大型鱼对低音敏感。

从“全评价”体系可以演绎出若干推论，诸如评价目的制约论；同行专家主导论；评价客体分类论；评价指标关键论；评价方法适度论和计量方法与专家方法互补论；评价制度保障论；三个维度阶梯论，等等。

目前国内都在强调质量，何为质量？尽管有多个定义和不同理解，但质量的一个重要特征就是主要从评价对象的内容、效用上反映出来。因此，“全评价”体系为学术成果等的质量评价提供了学理基础。换言之，高质量的研究评价主要注重于内容、效用评价，即依赖于同行专家的评价和实践、时间的评价。同行专家又有大同行与小同行之分，尽管二者各有其用，但一般说来，对内容质量的评价更依赖于小同行的评价。不论是大同行还是小同行，都应考察其可信度，这对于保证同行专家评价的公正性至关重要。

高架桥与地铁站一个位于道路上方，一个位于道路下方。在城市道路宽度不太富裕的区域，当高架桥与城市轨道交通同时通过时，一般两者的结构是脱离的。但这样带来的问题是占用道路断面过宽，不利于管线敷设，同时施工期间交通组织也较为困难，地铁施工与运营对周边建筑影响也更大。当车站上方规划有高架桥时，如何与上方的高架桥结合考虑，使站桥整体不仅满足结构受力方面的要求，同时满足经济效益和社会效应的最优化，成为设计的重点。在设计过程中，分别对下述三种方案进行了充分的分析研究。

质量评价除了重视同行专家的评价外，更重视实践、时间的评价，这是更有难度的评价，不仅需要较长实践、时间的考验，更需要“贵人”在一定的时间内看出其价值，这样才能有助于“王子文献”拉动“睡美人文献”和“润物细无声文献”。建立与评价有关的事实数据库或案例数据库则是进行效用评价的重要环节。

同行专家一般将学术作为职业，更作为“志业”，且具有相近的研究目标和旨趣、价值观和行为规范，因此多数同行专家也是学术共同体的成员。但有些同行专家，如果不具有上述的学术共同体所具备的要求，则就不是学术共同体成员。同行专家与学术共同体成员并非同一概念，二者既有联系又有区别。目前国内同行专家很多，但学术共同体成员还不多，这也许就是学术评价难题难解的主要原因之一。学术共同体成员多了，学术评价中的许多问题将迎刃而解。

电流变效应是指材料的刚度、流变性、阻尼等性能可通过电场进行控制，即一旦施加电场到电流变悬浮液上，所有分散的可极化颗粒将瞬间极化，颗粒之间相互吸引形成链状结构的固体状纤维网络，能在毫秒级内由牛顿流体转化成弹塑性流体。电流变液一般由基础液、可极化固体颗粒、添加剂按一定比例、过程配置的。

该体系是在较详细考察了国内外近年来的评价实践基础上概括出来的，既参考了自然科学评价的研究成果，更注重人文社会科学的特点及其评价的特点；既考虑到学术评价的普适性，更突出不同学科、不同领域、不同成果等的多样性、特殊性；既有相对稳定的分析框架，又留有动态的发展空间。该体系能较合理地分析国内外学术评价的历史，较清晰地解释目前学术评价的现状、问题和应采取的对策，也能大致预测学术评价的今后走向。该体系已被《新华文摘》(2010年第10期第161页)、《高等学校文科学术文摘》(2010年第2期第61-62页)、《光明日报》(2010年08月03日学术版)、国家社科基金全国哲学社会科学规划办公室网站(2011年05月09日)、《中国社会科学报》(2010年03月18日)、《社会科学报》(2011年11月08日)等转载或报道。有的评论者认为，“叶继元对评价体系的构想既是他多年研究的结晶，也是对学界对学术评价现状反思成果的吸纳，特别是他提出的评价体系六要素说，即评价主体、评价客体、评价目的、评价方法、评价标准及指标、评价制度，值得学界重视”^[14]。有的学者认为，所提出的学术评价的定义“较具学理性、理论性”，“形式评价、内容评价和效用评价的‘三位一体’组合的观点，既具创新性、学理性，也具有较强的可操作性”^[15]。“笔者赞同叶继元教授的观点：‘不同的评价目的决定着不同的评价标准和指标、不同的评价方法和评价专家的选择以及评价程序的确定，它是评价的龙头，分类评价的动因，规定、制约和导引着整个评价的方向和具体做法。’”^[16]“叶继元曾提出由‘评价主体、评价客体、评价目的、评价方法、评价标准和评价制度’六部分构成的学术评价体系。笔者借鉴这一观点，可初步得到系统论视角下的四维度社会科学评价体系，即评价客体、评价主体、评价活动、评价结果”^[17]。

近10年来，“全评价”体系已有多项应用，如对中国经济学学科、学者、论文、著作，对中国高校外国语言学及应用语言学学者专家库及其论著，对中国法学学术期刊质量，对中国图书馆学情报学学术期刊质量与特色，对学术网站等进行了验证性应用评价。已有数十篇论文正式发表，数十篇博士、硕士学位论文通过答辩。从应用结果看，证明该评价体系及其有关推论，诸如评价目的制约论、评价专家主导论、计量平价与同行专家互补论、评价客体分类论、形式评价、内容评价和效用评价层次论等具有较大的合理性和可操作性。比如，同行专家评价法与引文等文献计量评价法均有其局限性，为了克服这些局限性，一个有效的办法就是引入明确的“评价目的”，这样可以根据评价目的，最大限度地利用二种评价方法的优点而避免其局限，从而达到相对合理、公正的评价。例如对大学、各省市地区、各国文科成果的评价，如果评价目的只是要了解评价对象的部分论文产出及其被引用情况，那么形式评价，或引文等文献计量评价就可大体达到。但如果其目的是要知道评价对象的整体质量情况，那就要在形式评价的基础上，主要进行内容和效用评价，即由同行专家直面评价对象进行审读或对形式评价中的引文等数据的解读，还要根据其他表明内容质量和效用的非引文等的指标进行综合评价。

评价对象的规模越大，工作量也越大，甚至有的评价因为成本太大而简直无法操作。笔者团队曾对我国60种法学学术期刊、对中国图书馆学情报学学术期刊质量与特色^[18][19]等进行了验证性应用评价。仅是问卷调查表的设计就花了几个月的时间，再加上选择调查对象、发放、回收、统计、分析和撰写调查报告，所花费的时间、精力就会更多。

在目前很难或不可能收集到有关评价对象全面或最重要的有关质量的信息情况下，要慎重进行质量综合评价，宁可进行评价目的明确的单项、过程性评价，少做或不做整体质量评价或等级排名评价。一旦要做，必须具备充分的人力物力，精心设计，合理组织，搜集较全面的、最重要的有关评价信息，力求“业内公认，同行服气”。影响力评价不等于质量评价，尽管二者有密切联系。凡是间接评价质量的，都必须明确说明，不能含糊，更不能误导。否则暧昧、勉强、仓促的评价，不仅不能反映评价对象的真实情况，反而会给用户和大众以误导，与评价目的背道而驰。

2013年叶继元课题组将笔者提出的“全评价”体系应用于人文社会科学学术图书评价领域，拓展了学术图书质量评价框架体系，建立了中文人文社会科学学术图书“全评价”模型。根据形式评价、内容评价和效用评价新概念组合，采用引文等文献计量评价与同行专家评价相结合、以同行专家评价为主导的评价方法，基于人文社会科学学术图书“全评价”模型筛选出高质量的学术图书“代表作”，再通过学科同行专家小组审核方能确定为精品图书，即作为统计源(来源图书)构建了中文人文社会科学学术图书引文索引数据库(示范库)。

学界的一些同行也对“全评价”体系进行了一些应用，诸如《基于“全评价”分析框架的开放存取仓储评价体系研究》《21世纪以来网站评价研究进展与趋势》《基于全评价体系框架的专业性网站评价体系构建——以书画艺术网站为例》《高校图书馆学科馆藏“全评价”体系构建研究》等。目前可以针对某些评价的具体问题，来进一步推广“全评价”体系/理论的应用。

三、学术评价的难点、对策与走向

从上述两个宣言和“全评价”体系提出的时间看，“全评价”体系提出时间比两个宣言早了3-5年。从内容上看，他们都强调评价目的的重要性，都反对将引文数据、影响因子绝对化，但“全评价”体系的内容更为系统和逻辑化，能够体现出评价方面的“中国话语”。从主体上看，两个宣言是由学科领域专家、期刊界、出版界互动发声和提出，而“全评价”体系是由学者独立研究后提出。反“四唯”等文件则是由管理部门听取、归纳了学术界的合理建议后提出和颁布的。

(一)学术评价的难点

从两个宣言和“全评价”体系内容来看，也能看出当前学术评价的难点主要有：(1)如何克服过分数量化、形式化的评价。这个难题多年始终没有得到根本的解决，其中一个重要原因就是数量化、形式化评价简单易行，表面上看很客观。因为在实际的评价中，往往评价时间有限，评审专家来不及或没有兴趣进行内容或效用评价。(2)如何改变论文与期刊唯影响因子的评价。影响因子是测量期刊而非论文的指标，将影响因子高的期刊中所有论文都赋予一样高的评价，这是很大的误区。但也由于其简单易行，“一刀切”，不服气也无可奈何。(3)如何选择、监督、评价同行专家的评价。内容和效用评价都依赖于同行专家，同行专家具有很大的评价权。任何权利都需要监督，否则必然带来不公或腐败。因此，必须从制度上形成一套办法，以确保同行评价的公正性和权威性。但是谁有资格，由谁来选择、组织专家库就是很大的问题。(4)如何根据评价目的制定评价标准及指标，并如何使其具体化和可操作；标准和指标是评价的精髓，但它受评价目的之制约，评价目的不同，评价标准及指标就不一样。不可能有一套指标包打天下。(5)如何厘清科研管理部门与学术共同体的责任边界。在学术机构，学术是逻辑起点，管理是为学术服务的。但在实际工作中，常常分不清主次，章程中的规定与实际做法不一致。

(二)学术评价的对策

解决上述难点是一个长期任务，可从如下几个方面制定有效的对策：(1)落实中央治理“四唯”或“五唯”的精神，推广“全评价”体系，体现中国话语。反“四唯”或“五唯”，不是不看论文、奖励等，而是不能“唯”。“唯”者，形而上学、片面化、绝对化也。这也是“全评价”体系的精髓所在，不能将形式评价推向极端，而要根据一定的评价目的确定其权重。相比而言，内容评价和效用评价更为重要。可见，“全评价”体系与反“四唯”或“五唯”有内在的联系，或者说，前者奠定了后者的学理基础。(2)建立和共享统一、权威、动态的同行或小同行专家库，需体制内外、管理与学界良性互动后产生。同行专家是评价主体，在质量、贡献、影响等评价中具有极为重要的作用。将真正活跃的、有真才实学研究者，包括青年学者组织起来，动态管理。(3)评价与研究同等重要，千里马常有而伯乐不常有，学界同行，尤其是权威专家更应重视评价，积极参与评价。(4)根据一定的评价目的，建立多元、适度、柔性评价标准及指标。指标应适中，不宜太繁或太简。(5)深化科研体制改革。目前的科研体制和管理方式，尚未进行过实质性的修改，管理部门权限过大，学术共同体作用有待加强。体制改革了，牵一发动全身，评价难题有望解决。

目前学术评价的改革正在建立和完善中，还需要管理部门与学界共同坚持韧性的努力：(1)加速中国的学术共同体自律、自主建设。(2)学术具有普遍性、公有性等品格，故学术评价应以精神奖励为主，适当物质奖励。或在给予研究人员足够体面的生活待遇后，学术评价一律与物质奖励脱钩。(3)利用新的信息技术、网络技术、数据库技术，建立和完善各类型评价数据库和公示平台，评价的信息越多越准确，越便于评审专家利用、分析和决断，评价的结果才有可能越公正、合理，同时引文等数据还可以抑制同行评议的缺陷。(4)根据一定的评价目的，将学科专家精审评价与文献计量学宏观、参考评价有机结合起来。

(三)学术评价的走向

学术评价与其他事物的评价相比最为复杂。如同学术研究不可能达到而只能不断接近绝对真理一样，一定时间的学术评价的结果总是相对的。虽然建立和完善中国公正合理的学术评价体系还有很长的路要走，但近10多年来实际上学术评价已有所推进，并呈现出积极的走向：(1)学术评价开始回归同行评价，这种回归并非简单重复，而是高级轮回，在这个过程中一定要对评价专家固有的缺陷要采取措施，逐步克服“人情化”“主观性”的弊端。(2)文献计量学评价对宏观评价仍然具有价值，对中观、微观评价亦能够对专家评价起到参考、核查、补充、验证作用。对引文等数据既不能高估，也不要低估，应适当用之。(3)形式评价将被放在合理的位置。形式评价仅是底线，有上限，而内容评价、效用评价将越来越多。随着有关内容评价和效用评价的文献内容数据库、评价案例、事实数据库的增多，评价的可行性、可操作性将越来越多。(4)评价制度和评价文化建设将受到格外的重视。评价制度的建设非一蹴而就，需要在丰富的评价实践基础上加以总结、抽象和概括，形成文字性的规范。评价文化建设更需要时间和耐心，需要所有与评价活动有关的利益各方，从内心深处认同评价的目的、旨趣、意义和价值观等，形成良好的评价氛围和环境，这将是一项长期的任务。

参考文献：

[1]中共中央关于进一步繁荣发展哲学社会科学的意见[EB/OL].[2019-04-18]. http：//www.zjweu.edu.cn/zjwaterculture/63/63/c1049a25443/page.psp.

[2]中共中央办公厅、国务院办公厅.关于深化项目评审、人才评价、机构评估改革的意见[EB/OL].(2018-07-03)[2019-04-18].http：//www.gov.cn/zhengce/2018-07/03/content_5303251.htm.

[3]国务院. 关于优化科研管理提升科研绩效若干措施的通知[EB/OL].(2018-07-18)[2019-04-18].http：//www.most.gov.cn/mostinfo/xinxifenlei/fgzc/gfxwj/gfxwj2018/201807/t20180725_140828.htm.

[4]科技部、教育部、人力资源社会保障部、中科院、工程院.关于开展清理“唯论文、唯职称、唯学历、唯奖项”专项行动的通知[EB/OL].[2018-10-15].http：//news.sciencenet.cn/sbhtmlnews/2018/10/340216.shtm?id=340216.

[5]教育部办公厅.关于开展清理“唯论文、唯帽子、唯职称、唯学历、唯奖项”专项行动的通知[EB/OL]. (2018-11-07)[2019-04-18]. http：//www.moe.edu.cn/srcsite/A16/s7062/201811/t20181113_354444.html.

[6]科技部、财政部、教育部、中科院召开“减轻科研人员负担七项行动推进会”[EB/OL].(2019-03-04)[2019-04-18]. https：//www.sohu.com/a/299450892_120033885.

[7]陆航.刘宁：解除量化指标束缚、助推尖端学术突破.中国社会科学网[EB/OL].(2019-03-18)[2019-04-18]. http：//www.cssn.cn/zx/bwyc/201903/t20190318_4849541.shtml.

[8]Elsevier.Scopus[EB/OL].[2019-04-18].https：//www.elsevier.com/solutions/scopus.

[9]Dimensions. Reimagining discovery and access to research[EB/OL].[2019-04-18].https：//www.digital-science.com/products/dimensions/.

[10]Clarivate Analytics will provide citation data during REF 2021[EB/OL].[2019-04-18].https：//www.ref.ac.uk/news/clarivate-analytics-will-provide-citation-data-during-ref-2021/.

[11]Nature Research.自然科研签署《旧金山宣言》，倡导科研评估不要再过度依赖基于期刊的指标[EB/OL].(2017-04-27)[2019-04-18].http：//www.sohu.com/a/136891901_465226.

[12]Hicks D.Bibliometrics： The Leiden Manifesto for research metrics[J].Nature. 2015，520：420-431.

[13]叶继元.人文社会科学评价体系探讨[J].南京大学学报(哲学人文科学社会科学版)，2010(1)：97-110.

[14]刘翠.也谈人文社会科学评价体系的构建[J].清华大学学报(哲学社会科学版)，2010(5)：97-110.

[15]余三定.关于我国新时期学术评价讨论的评述[J].云梦学刊，2011(2)： 5-12.

[16]邸乘光.科学的评价体系体现质与量的结合[J].中国社会科学报，2014-09-10.

[17]王文波，沈阳，林波.构建系统论视角下的社会科学四维评价体系[J].中国社会科学报，2015-01-14.

[18]叶继元.学术期刊质量评价的复杂性与多元性[J].清华大学学报(哲学社会科学版)，2015(2)：182-186.

[19]叶继元.图书馆学期刊质量“全评价”探讨及启示[J].中国图书馆学报，2013(4)：83-91.

中图分类号： C93

文献标识码： A

文章编号： 1003-3637( 2019) 03-0061-07

说明：本文是在2018年11月15日召开的“庆祝中国人民大学书报资料中心成立六十周年暨第三届中国学术评价高峰论坛”报告的基础上修改而成。

作者简介：叶继元(1955—)，男，安徽太平人，南京大学特聘教授，南京大学信息管理学院博士生导师。

责任编辑：胡政平；校对：宁远

标签：学术评价论文; 国内外论文; 评价难点论文; 评价对策论文; 评价走向论文; 计量学评价法论文; 同行评价法论文; 南京大学信息管理学院论文;