人文社会科学研究与评价的国际实证研究*_科学论文

人文社会科学研究评价的国际经验研究*，本文主要内容关键词为：人文论文,评价论文,经验论文,社会科学研究论文,国际论文，此文献不代表本站观点，内容供学术参考，文章仅供参考阅读下载。

1 引言

在我国SSCI、A&HCI、ISSHP、CSSCI等计量工具已被广泛地运用于人文社会科学研究评价，论文的级别和数量、课题的级别和经费数量等均被纳入考核、晋升、奖励等评价指标体系中，对研究人员形成了很大的压力，引发了粗制滥造、弄虚作假等一系列问题，严重妨碍我国人文社会科学研究的健康发展。为此，教育部提出要改进评价方法，鼓励运用现代先进的科学研究方法和手段，把创新程度作为衡量科研成果质量高低的核心要素，强调精品力作的作用，形成正确的激励导向。一些高校努力探讨科学合理的评价指标体系和方法，引导研究人员出高水平的研究成果[1]。但整体上，我国人文社会科学研究评价重数量轻质量的问题依然普遍存在，并没有从根本上解决。

近几年，研究人员和实践工作者对这一问题进行深入研究，产生了一些有意义的成果。沈壮海和张发林指出，社会科学学术评价应该从伴生评价转向自主评价，从形式评价转向内涵评价，从行政思维转向学术思维，从管理评价转向发展评价，从单维评价转向多维评价[2]。邱均平和谭春辉构建了人文社会科学评价体系的四层结构，即学科发展评价、学科研究评价、学科教育评价和学科社会影响评价，指出学科研究评价是重点，研究成果评价是核心[3]。倪润安认为，我国人文社会科学研究的评价正进入定性与定量相结合的综合评价阶段，指出这一阶段的特点是弹性评价，应遵循综合评价、连续评价、延时评价、创新至上等基本原则，建议将代表作制度发展成为定性与定量评价互动结合的调节器[4]。姜春林和刘则渊研究发现，利用引文方法开展科研评价时，对于文史哲等学科成果的引文评价时间应选择成果发表后的5～8年后进行，而经济学等应用性较强学科则在35年后为宜[5]。袁曦临和刘宇针对人文社会科学评价中存在引文模糊性和广泛的时空影响力，提出了引用时间因子和引用范畴因子两个指标，作为对现有引文评价指标的修正和补充[6]。虞文提出借鉴美国的做法，定性评价与定量评价并重，采用代表作制度和第三方评价制度[7]。邱均平和吴建华对国际人文社会科学研究评价的特点与趋势进行了总结，指出评价是为了促进人文社会科学研究的开放、竞争、进步，科学合理的评价活动受到欢迎，不合理的评价则会受到抵制；严格规范的同行匿名评审制度有利于形成一个开放竞争、公平合理、有利于人文社会科学健康成长的环境[8-9]。

总结我国近几年的评价研究，尚未发现对评价制度产生深远影响的成果。评价制度具有影响全局、带动全局的作用，建立科学合理的人文社会科学研究评价制度是我们面临的一项重要任务。本文调查研究英国、荷兰、美国、日本在人文社会科学研究评价领域具有代表性的评价活动，特别关注其发展变化情况，总结其制度层面的先进经验，为建立我国人文社会科学研究评价制度提供借鉴。

2 英、荷、美、日人文社会科学研究典型评价活动

2.1 英国高校研究水平评价

英国高等教育拨款委员会（the Higher Education Funding Council for England，HEFCE）每四年开展一次全世界最广泛、最全面的研究评估活动（Research Assessment Exercise，RAE），对英国高校院系研究水平进行同行评议，结果被用于大学研究基础设施经费的分配。为此，大学及院系都努力提高各自的评估等级，这已成为英国学术生活的一部分。由于RAE的评价结果牵涉各方面的利益，加之自身的缺陷，多方博弈导致英国高等教育拨款委员会不得不放弃这一使用多年的制度，转而研发新的评估体系，即优秀研究框架（the Research Excellence Framework，REF）。下面分别介绍这两种评估体系，从中也可以发现引发变化的原因。

2.1.1 研究评估活动（RAE）

RAE是基于同行评议的英国高等教育研究水平评估体系，自1986年运行以来已有20多年，其主要目的是评估各高等教育机构的科研水平，并把评估结果作为分配科研经费的依据。该活动按学科设置评估单元，把研究水平分为不同等级。

英国社会对RAE制度一直存在不少争议，争论的焦点是绩效评估标准和方法[10]。鉴于RAE对争议的反应过于缓慢，已引起有关方面的强烈不满，英国政府2006年宣布改革其高等教育研究评估与研究经费拨款制度，建立新的评估体系，即优秀研究框架REF。2014年起将完全依据新评估体系的评估结果分配研究经费。在研发新评估制度的同时，于2008年按现有评估系统实施第6次，也是最后一次评估，其结果用于分配2009-2010年的科研经费。

与2001年相比，2008年有几个重要改变。（1）用“质量概况”替代单一的分数。（2）评定等级由1*～5*级改为未分级、1*～4*五个级别。（3）建立两层专家小组制，即大学科组与专业学科组，专业学科组在大学科组指导下开展工作。（4）研究成果的权重提高，占50%。（5）各种类型的研究都得到公平合理的评估，基础研究、战略研究、应用与实践研究、政策研究、教学研究、健康研究、交叉学科与多学科研究都被考虑进去[11-12]。RAE 2008评定等级的标准定义见表1。

2.1.2优秀研究框架（REF）

REF的研发于2007年正式启动，开展了第一轮咨询，探讨使用信息计量指标进行评估，并制定了开发新评估体系的计划。2008-2009年开展了信息计量学试验。2009年11月进行了第二轮咨询，2010年开展了研究影响试验评估[13]。

2008-2009年的信息计量学试验评估覆盖了RAE 2008的35个评估单元，选择了22所高校参与这一试验，分析了2001-2006年的出版物，包括截止到2007年的引文，使用的评估工具是国际上最大的两个商业数据库Web of Science和Scopus。此次试验评估采用了三种模式：基于评估机构、基于员工所有论文、基于提交给RAE 2008的员工中被引次数最高的6篇论文。试验评估表明：信息计量指标的稳健性随研究领域的变化而改变，还没有达到完全代替专家评估的程度。不过，引文信息非常值得专家评估时参考[14]。

2010年开展的研究影响试验评估是为了确定并奖励那些推动经济和社会发展的优秀研究，以鼓励开展范围广泛的有意义的研究活动。此次试验评估的学科有临床医学、物理学、地球系统与环境科学、社会工作与社会政策、英语语言与文学，25所高校参加了这一试验。评估的依据是各高校提供的案例，每10个员工提供一个案例，陈述其经济和社会影响。评估小组为每一个提交的研究制作一个“影响概况”，并按表2所列标准从范围和重要性两个方面打分。在专家小组成员分别打分的基础上，召开几次小组会讨论，确定评估结果。

此次试验评估还收集了一些改进建议：研究影响的范围要扩大，既要包括社会、经济、文化方面，又要包括环境、健康和生活质量方面，纯粹的学术影响则不应该包含在这一部分；除案例评估外，还要评估各机构实施研究影响的战略路线以及机构如何支持研究人员实现影响。根据试验评估结果，初步决定研究影响在2014年的评估中所占比重低于25%，在未来的评估中逐步提高这一比重[15]。

2011年7月发布的咨询公告提出了评审小组的依据标准和工作方法草案，广泛征求意见后，最后的定稿将于2012年发布。公告的主要内容包括：

（1）REF是一个专家评估过程。专家们将从成果、影响、环境三个维度评估研究成果。成果的权重占65%，主要是比照国际研究质量标准从原创性、重要性、严格性三个方面评价。公告此次确定研究影响占20%的权重，低于预设的25%的上限，从范围和重要性两个方面评价。环境则从生命力和可持续性两个方面评价研究对更大范围的学科或研究基地的贡献，这部分占15%的权重。

（2）设置4个大学科组和36个专业学科小组。大学科组负责领导和指导评估，专业学科小组负责对各个评估单元实施具体评估。其中A大组是生命类学科，B大组是理工类学科，人文社会科学类相关学科则属于C和D两个大学科组[16]。

（3）各高校于2013年11月29日之前提交评估材料，评估由大学科组和各专业学科小组2014年具体实施，评估结果于2014年12月公布。评估结果作为分配2015-2016年科研经费的依据[17]。

对比REF和RAE 2008可以看出，他们之间具有明显的继承关系，最突出的就是学科小组设置和评价等级的划分。作为新的评价体系，REF与RAE有明显不同的地方。新体系的评价标准由成果、影响、生命力与可持续性三个维度组成，更加简明清晰，更加注重成果及其影响以及研究的发展性。饱受争议的研究经费指标没有出现在新体系的一级指标中。同时，并没有像预先设想的那样建立主要基于信息计量指标的评价体系，计量指标只能供专家评估时参考。这说明建立完全基于计量指标的评价体系，条件尚不成熟。这是因为研究成果形式多样，而现有的信息计量工具收录的计量信息依然以期刊为主，这一问题在人文社会科学研究评价方面更加突出。

2.2 荷兰标准评价协议（SEP）

荷兰建立标准评价协议（Standard Evaluation Protocol，SEP）指导、规范全国各类研究机构及研究人员的研究评价活动，SEP由荷兰皇家人文与科学院、荷兰大学协会、荷兰科学研究组织联合发布。该协议针对所有学科，使用外部专家评价方法，评价周期为6年。协议于1994年首次发布，之后分别于1998年、2003年、2009年发布更新版。2008年组织了一个对SEP 2003-2009的评价，评价结果用于优化SEP。现以第四版（SEP 2009-2015）为例，介绍荷兰的研究评价。

2.2.1 组织领导

荷兰皇家人文与科学院、荷兰大学协会、荷兰科学研究组织联合成立理事会，负责所辖范围内研究评价的总体规划与组织实施。启动外部评价时，理事会负责评价文档如自评报告和其他文档的准备、外部评价委员会的选择和配置、安排实地考察、出版评价结果以及评价之后的后续行动。

理事会要求所辖范围内所有研究机构都参与这个系统的评价过程，并通过三个机制保证这一参与落到实处。一是在评价的启动阶段，要求每一所大学、人文与科学院、科学研究组织的每一个成员单位都提交一个评价计划，列出所辖范围的研究单位以及外部评价年。二是要求所有上述机构都在年度报告中概述当年实施的外部评价以及理事会的评价结论。三是对标准评价协议的审查。在为期6年的评价周期中，人文与科学院、大学协会、科学研究组织将组织独立专家委员会对标准评价协议及据此开展的评价活动进行评审，对SEP2009-2015的评审将在2013年实施，评审结果对公众发布。

2.2.2 SEP的特色

SEP的主要特色是：两个评价层次、三大关键任务、四个评价标准。两个评价层次是指科学研究的外部评价在研究机构和研究团队/项目两个层面开展，对机构的评价侧重在战略和组织方面，特别重视与博士生培养相关的政策，对研究团队和项目的评价侧重在研究人员的绩效与活动、产出成果方面。三大关键任务是指评价针对的是科学研究活动三个关键任务：为科学共同体生产成果；科研成果与社会的相关性；下一代研究人员即博士研究生的培养。四个评价标准是指评价在研究质量、生产能力、社会相关性、生命力与可行性四个维度展开。

2.2.3评价标准概述

SEP的评价标准是一个两级指标体系，对各项指标有简要的说明，评价指标见表3。研究团队/项目的评价指标与表3有微小差别：“质量”的二级指标无“博士生培养”，但多了一个“研究质量与科学相关性”；“生命力与可行性”的二级指标无“SWOT分析”。

“质量”用研究机构、团体或项目的国际声誉和地位、成果来衡量。对那些侧重国内研究的领域，就与国内其他研究团体比较。二级指标包括：研究质量及科学相关性；研究机构及主要研究者的领导能力，包括研究政策与研究管理；研究人员的学术声誉；机构与项目的组织方面，如人力及财务资源；博士生培养。博士生培养方面的内容要出现在自评报告中，评价委员会重点评价成功率、组织与监管、参与项目研究情况以及教育资源如课程、参加会议的情况等。

“生产能力”指标涉及投入与产出的关系。产出成果如论文等一般是与国际标准进行量化比较。考虑到有些学科的产出成果形式丰富，评估人也要进行一些定性评价。在机构评价中，要考虑提高生产能力的政策措施及相关性。在团队与项目评价中，既要考虑对科学共同体的产出成果，也要考虑对更广泛受众的产出成果，可使用定性、定量测量指标来评价。

“社会相关性”评价研究的经济、社会、文化相关性，一般从三个方面进行评价。第一，研究工作的社会质量，主要考虑研究机构或项目与社会主要利益相关方面在政策上的相互影响，也可以是对社会重大问题的贡献。第二，研究工作的社会影响，评价研究如何影响社会中特定的人群和过程，如组织或个人的行为变化。第三，研究工作的社会效用，即评价研究成果在产品、过程、服务方面的应用。评价社会相关性的证据可以来自利益相关者的调查、会议、各种影响分析、案例研究等。

“生命力与可行性”指标评价研究机构适应重大环境变化的能力。在自评报告中，要求以SWOT分析的形式进行评估。对机构的评价重点在建立研究主题、人事政策、主题选择、研究线路的集中程度等方面。在团队和项目评价中，重点评价专业化管理水平，如决策、项目管理、成本效益分析等。

2.2.4 外部评价过程

外部评价的基本过程是：自评→实地考察→撰写评价报告→后续行动。

自评。被评机构或团体/项目提交给外部评价委员会的信息中应包括SWOT分析和被评价的六年期间发生的所有投入产出全套量化指标。自评报告的具体内容包括：目标及研究领域、组织（如研究单位的人员及内外部财务资源）、研究环境（国际国内地位及客座研究人员情况）、研究水平及科学相关性（3～5项最重要的成果、出版物、学科顶尖论文数量）、产出（出版物数量、博士生数量、研究设施的使用情况）、收益能力（获得项目和资金的情况）、学术声誉（获奖、应邀参加重要会议、会议组织、编辑地位、学会成员等）、社会相关性、生命力、下一代研究人员的教育和培养。

实地考察。外部评价委员会实地考察4周前要收到所有相关材料，包括自评材料、评价的职权范围、考察计划等。考察期间，评价委员会将与研究机构负责人、研究负责人、部分工作人员及博士生见面。

撰写评价报告。外部评价委员会通过阅读自评报告及相关材料、实地考察、与有关人员交谈，形成对被评机构的整体印象，然后依据具体的评价标准，对被评机构或团队/项目进行评价，给出评价结论，撰写评价报告。评价报告包括两个方面的内容。第一，对研究机构的评价。对研究机构的愿景、使命、目标、研究活动的介绍，对研究质量、产量、社会相关性、生命力与可行性的评价。这部分着重对政策和战略的定性评估，褒奖或批评其主要方面，并提出改进建议。第二，对机构中每个研究团队或项目的评价。依据四个标准，着重对成绩和社会相关性进行评价。评价委员会可使用定性和定量指标实施具体的评价。总体评价结果用五个级别表示，见表4。

后续行动。外部专家委员会评价之后主要有三个后续行动：理事会给出评价结论、发布评价结果、中期评估。专家委员会向理事会提交评价报告，理事会与被评机构的主管部门讨论专家委员会的发现和建议，然后由理事会就评价结果和建议的实施给出正式结论。中期评估在外部评价之后的第三年实施，就针对外部评价建议的实施情况进行说明，属于内部自评，但评价文档要提交给理事会[18]。

2.3美国项目评价

美国国家科学基金资助社会科学、行为科学、经济学的基础研究项目，艺术与人文研究项目由国家艺术与人文基金资助。

国家科学基金有一套严格的项目评审制度和程序，所有申请项目都通过同行评议确定是否能得到资助。每年有大约5万名专家参与项目评审。由科学家、工程师或教育工作者担任的项目官员也参与对项目的评审。每个项目由3～10位评审专家评审，项目申请人可以推荐或要求回避一些专家。

学术价值和广泛的影响是国家科学委员会批准的两项价值评价标准，也是国家科学基金评审各类项目的主要依据[19]。

项目评审的一般程序是：项目官员初审→专家评审→项目官员复审→部门审核→公布结果。项目官员首先依据国家科学基金的基本要求对项目申请书进行初审，通过初审的项目，将为其安排至少3位外部评审专家对其评审。根据项目类型，或由专家独立评审，或由专家评审小组评审，或二者结合，有些项目还要安排实地考察。评审专家依据国家科学委员会批准的两项价值评价标准评价申报项目，并给出评价意见。然后，项目官员再次审查项目申请书，并分析评审专家意见。项目官员此次审查着眼于其他因素，如重大研究的不同方法，形成新的研究领域的可能性，能否实现特定目标以及同类项目的申请与资助情况等。对申请书进行全面的科学、技术、方案审查并考虑有关因素后，项目官员向部门主任提出资助或不资助的建议。最后，由部门决定是否给予资助[20]。

美国国会1965年通过国家艺术与人文基金法案，设立基金支持艺术与人文科学研究，涉及的学科有语言学、文学、史学、法学、哲学、考古学、比较宗教学、伦理学、艺术评论等。该基金的项目评审也实行同行专家评议法，专家依据项目的绩效目标和诸如出版、获奖情况等指标对项目进行评价[21]。

2.4 日本研究机构的外部评价活动及项目评价

日本东京大学社会科学研究所是国际水准的人文社会科学研究机构，也是日本人文社会科学研究机构的代表。该研究所开展的研究评价活动对日本人文社会科学研究评价具有示范作用，也是日本该领域评价活动的典型。由日本文部省和日本科学促进会共同管理的科研资助项目，覆盖了人文社会科学、自然科学的所有学科领域，其多学科统一的项目评价制度非常具有借鉴意义。

2.4.1 东京大学社会科学研究所的研究评价活动

东京大学社会科学研究所成立于1946年，是重要的国际化社会科学研究机构。为建立国际化和计算机化的社会科学研究体系，研究所于1996年成立了日本社会科学研究信息中心。

该研究所于1999年开始实施“持续的外部评价”，主要评价研究所、所内交叉学科联合研究项目、日本社会科学研究信息中心以及资深研究人员。具体评价由外部评价委员会实施，委员会成员不超过10人，既有日本专家，也有海外同行。在实施外部评价时，研究所准备自查自评报告，提交给外部评价委员会参考。外部评价包括总体评价和具体评价。总体评价评估研究所总体目标、组织、活动。具体评价评估研究所内部交叉学科联合研究项目和日本社会科学研究信息中心。对个人的绩效考核和自评与外部评价并行。教授及其他服务7年以上的员工的评价由外部评价委员会实施。曾经在研究所工作过的访问学者及合作研究人员也通过问卷调查参与评价。研究所力图使第三方外部评价常规化，成为一个过程[22]。

2.4.2 项目评价

由日本文部省和日本科学促进会共同管理的科研资助项目，覆盖了人文社会科学、自然科学的所有学科领域，设置有多种类型的项目。项目评价包括申报评价、中期评价、项目后评价、进展中评价。

项目申报评价由文部省和科学促进会共同组织实施，以资深科学家同行评议的形式进行，每年有6000位研究人员担任评审专家。为保证高水平的专家参与项目评审，科学促进会建立了专家库，有5.4万名专家注册，这些专家主要是以前获得过资助的研究人员，专家库注册专家每年更新。为确保专家评审的严格公正，每年对专家行为进行审核，审核结果用于来年的评审专家遴选。

各类项目的具体评审过程各有区别。以科学研究、青年科学家、探索研究项目为例，各领域每个申请的项目首先由4～6位专家通信评审，然后由遴选委员会召开学科小组评议会评审。通信评审专家要给每个评估项1～4分的分项评分，给每个项目一个1～5分的总体评分，还要给出评审意见。小组评议就以这些评审结果为依据。对那些没有被选中的申报项目要给出不资助的理由。

在探索研究项目的评审中，总体评价由两部分组成：给每个项目1～4分的独立评分，对那些在综合评价中得分最高的项目再给1～2分的相对评分进一步区别。重大研究项目除通信评审外，还要由遴选委员会成员召开听证会进行答辩。

所有立项项目每年要提交年度进展报告，项目完成时，要提交结项报告。这些报告都通过日本国立情报所的科研资助项目数据库予以发布。

中期评价属于自评，项目负责人要提交自评报告，报告也在数据库中发布。

特殊资助项目、青年科学家项目、创造性科研项目要有研究进展报告，一般在项目结束的前一年进行，除通信评审外，还要召开听证会。特殊资助项目还要在结项后五年以通信评审的形式进行一个项目后评价[23]。

3 结语

从以上介绍可以看出，各国人文社会科学研究评价都具有自身特点。英国改革其评价体系，研究成果、研究影响、研究的生命力与可持续性是其基本评价标准，评价以国际水准为参照系。计量指标并没有像预期的那样取代专家评议，而只作为专家评价时参考。荷兰建立了全国性的、适用于各个学科的标准评价协议，且这个全国性的规范会根据各方面意见做出适当的调整，使之越来越科学合理，具有发展性。其评价标准的特点是质量和产出能力并重，重视社会影响和可持续发展能力，注重国际影响力。美国的项目评价注重研究的创新和社会影响，一线研究人员广泛深入参与到项目评价中，人文社会科学的基础研究与自然科学研究使用相同的评价体系。日本的评价具有高度制度化特点，外部评价常规化，国际专家广泛参与，自然科学、人文社会科学研究评价一体化。

总结上述四国的人文社会科学研究评价活动，可以发现一些共同特点。第一，高度制度化。评价都是全国性活动，使用相同的标准、规范、过程。第二，研究成果的原创性、研究的社会影响、研究的可持续发展性成为评价标准的主要内容。第三，国际化，以国际水平做参照系，外国专家广泛参与评价。第四，评价过程规范且由专家主导，计量指标只供专家参考。第五，基于高水平代表作的外部评价是一种基本评价形式。这些经验对于建立我国人文社会科学研究评价体系，引导我国人文社会科学研究向着立足创新、解决社会实际问题、可持续发展的方向发展，无疑具有重要借鉴意义。

标签：科学论文; 项目组织论文; 评估标准论文; 学科评估论文; 项目评估论文;

人文社会科学研究与评价的国际实证研究*_科学论文

猜你喜欢