科学研究评价的性质、作用、方法及程序,本文主要内容关键词为:科学研究论文,性质论文,作用论文,评价论文,程序论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:C939;G311 文献标识码:A
1 引言
科研评价具有悠久的历史。17世纪,随着以实验和数学为基础的近代自然科学的确立以及科研机构的专业化,科学界就已经开始求助于科研评价作为控制研究活动质量的手段[1]。但是,直到第二次世界大战以前,科研评价活动并不多见,而且缺乏系统的评价方法。第二次世界大战以后,由于西方国家认识到科研对国家安全、经济增长、人类健康以及社会进步具有巨大作用,使它们加大了对科研的投入,与此同时,对科研进行评价的呼声随之迅速高涨,科研评价获得了强有力的发展。二十世纪八十年代和九十年代是科研评价发展的高峰,在此期间,科技管理专家、经济学家通过移植经济学、管理学和社会学等学科领域的方法,结合科研管理工作的实际,提出了一些比较系统的评价方法,并且在政府部门的支持下,综合利用这些方法,对科学研究的利益和影响进行了评价。目前,在西方国家,科研评价有专门的学术期刊、研究生学位教育以及专门开展科研评价业务的公司。
相对而言,我国的科研评价工作大大落后于西方。直至上世纪末,政府部门、科研管理组织和科研机构才开始高度重视科研评价工作,组织了若干关于科研评价的理论、方法及运作的软课题。例如清华大学和中国科学院科技政策与管理科学研究所承担了国家科技部的有关科研评价的软课题,中国科学院文献信息中心开展了“国家自然科学基金绩效评估研究”,等等。
有效的科研评价工作建立在正确的评估理念基础之上,即:正确理解评价的性质与作用,熟练掌握评价方法与程序。目前,由于对评价的性质与作用认识不一至,以及在评价方法上存在的诸多争论,给评价工作带来了一些不利影响。因此,笔者试图借鉴管理科学的有关理论与方法,并从已有的评价工作经验出发,对上述问题进行探讨。
2 科研评价的特性
2.1 科研评价根植于社会科学
不仅科研评价的方法来源于社会科学,而且,社会科学的民主传统强调科研评价应具有民主性,充分听取科学家的意见,代表纳税人的利益进行调查,考察政府在资助科学方面的政策及相关措施,审查科研经费的使用效果,将评价结果公布于众。
2.2 科研评价具有管理咨询性质
通过科研评价,掌握解决科研管理工作中存在的问题,证明科研工作的效率和成就,为以后的工作提供可操作性的建议,从这个意义上讲,科研评价具有管理咨询特征。
2.3 科研评价一般偏好于对绩效的测度
从目前开展的评价工作来看,许多评价都把精确的绩效指标数据作为分析的基础,据此系统地、准确地评价科研工作的实施情况及其成就,向未达到预定目标的起警示作用,对已达到预定目标的起鼓舞、推动作用,向纳税人展示科学研究的价值。
3 科研评价—作为科研管理的支持工具
科研评价是制订科研计划、开展科研管理以及阐明被评价者如何履行责任的一种重要支撑工具[2],其作用主要表现在:
3.1 为科研管理提供信息
科研评价的重要作用之一,在于详细地向资助机构报告科研的执行情况、存在的问题和取得的成就。资助机构常常需要这方面的信息,以考察他们所要投资的对象及其取得的各方面成就。可以说,评价是获取科研管理信息的一种重要来源。
3.2 交帐(accountability)—阐述职责及其履行情况
评价是公共部门阐明其责任的一种重要手段。公共部门不仅要让纳税人理解公共资金资助的科学研究提供了哪些收益,而且,需要通过评价证明它们的资助工作获得了有价值的结果,从而有助于争取更多的经费支持。
3.3 为科研决策提供建议
评价可以对科研决策产生直接影响。例如,对科学政策进行评价,可以发现它产生的积极影响和消极后果,为下一阶段制定科学政策提供有价值的经验和建议。特别是对期限较长的研究活动,评价对研究决策的影响尤为显著,因为,它在下一阶段能否获得连续资助依赖于对上一阶段研究绩效的评价。
3.4 增进认识,提高质量与绩效
评价是资助者、管理者和研究人员认识其工作质量和绩效的一种机制。通过评价,可以提供成功与失败的有关证据,分析成功的经验和失败的教训,向人们揭示成功与失败的过程;同时,也可以促进研究人员努力使自己的研究符合评价框架内确定的质量标准,从而影响研究人员的行为。由此,评价能提高研究活动的质量和绩效。
4 评价的分类
可以按评价的层次及其时间选择对评价分类。
4.1 按层次分类
评价对象的层次按从宏观到微观可分为:
(1)科研政策评价:主要评价科学选择、经费分配与使用等方面的政策。
(2)科研投资的评价:评价与某组投资相关的研究项目、研究计划和研究机构的工作质量和成绩。
(3)科研计划评价:主要评价某个计划执行的质量与成绩。
(4)科研项目评价:评价某个研究项目的质量和成绩。
实际上,评价活动常常横跨以上几个层次,例如研究计划评价不仅涉及单个项目的评价,而且要从更广的范围考察计划中的其他活动。
4.2 按评价时间选择分类
评价可以选择不同时间进行,据此评价又可分为:
(1)阶段性评价:阶段性评价包括中期评价,主要评价正在进行的项目、计划或活动,为下一阶段的工作安排提供决策建议。阶段性评价可及时提供决策信息,但由于考察的对象是未完成的活动或计划,因而不能准确地考察所产生的影响。
(2)事后评价:项目、计划或活动完成后不久就开展的评价。它可以充分地提供有关结果和影响方面的信息,但不能及时地为决策提供参考信息。
(3)实时评价:这类评价贯穿研究活动的全过程,用于连续地监督研究的进展,不断提供有关进展和成就方面的信息。由于这类评价需要经常开展,其成本一般偏高,而且,评价更多是针对某项具体研究工作,而不是从整体上阐述具体管理问题。
(4)追溯评价:评价主要针对计划的长期影响,一般在计划完成若干年以后进行。实际上,由于政策制定者的兴趣转移较快,因而很少开展这种评价活动。
从已有的评价来看,政策和投资方面的评价几乎都是阶段性评价。项目评价通常是事后评价,而计划评价既可以是阶段性评价,也可以是事后评价。
5 评价方法
熟练地掌握评价方法有助于管理者准确地选择评价执行者,或有助于他们自行开展评价。一般而言,科研评价有两个基本的评价方法:定量指标评价方法和专家定性判断方法。由于科学研究的“质量”这个概念非常复杂,计量指标只能表达其可见的某些方面,因此,评价时,需要结合使用两种方法。[3]
按照美国科学、工程与公共政策委员会(CoSEPUP)的观点,目前,用于评价研究的定量和定性方法可细分为:文献计量分析、经济回报率测算、同行评议、案例研究、回溯分析和定标比超(Benchmarking)6种方法[4]。我们认为,由于回溯分析是对历史研究事件(research events)的描述,可以把它归入案例研究范畴,此外,评价还要用到一种最基本的方法——调查方法。基于此,笔者试图从以下几个方面对评价方法进行阐述。
5.1 同行评议方法
同行评议是某一或若干领域的专家采用同一种评价标准,共同对涉及相关领域的某一事项进行评价的活动,其评价结果对有关部门的决策具备重要的参考价值[5]。从这个意义上讲,同行评议是科学共同体内部价值承认和科学质量控制的主要方法之一。
目前,科学界普遍认为,同行评议是合理判断研究绩效的最基本方法[6]。由于同行评议是一个主观过程,它依赖于评议者的看法和过去的经验,因此,在这种不完美的环境中,利用同行评议合理判断研究绩效不仅要遵循同行评议的运作机制、过程、方法与程序,而且更应该注重针对具体评价目标与对象,采用适当的评价战略。我们认为,要获得高质量的同行评议结果,同行评议战略应该注意以下几个问题:
①选择的同行评议评价方法、评价标准和评价组织应该适应于特定的评价环境;
②评价的目的和动机,以及评价与决策间的关系应向参与评价的所有当事人公开;
③评价时要重点考虑研究活动的目标;
④设计评价方案时应该考虑有效利用评价结果的前提条件;
⑤不同的评价层次需要不同的同行评议方法;
⑥应该采取一定的措施,避免偏见、冲突、欺诈或评价不充分现象的产生,做到尽可能地确保评价的可靠性。
5.2 调查方法
调查是系统获取资料的手段,它是所有评价工作的一个重要环节。
用于研究评价的调查方法有调查表调查、访问调查和案例研究三种。调查表调查是获取定量数据最好的方法,因为,大量发放基于数据统计目的的调查表并对其回收和分析,所耗费的成本相对其它调查方法少;访问调查分为面对面访问和电话访问,其中,面对面访问可以获得详细的事实与看法方面的数据,但它不如电话访问迅捷、便宜,而面对面访问可以获取被访问者的信任,而电话访问则不易,因此,对于高度敏感或保密的讨论,适宜采用面对面访问。由于调查表调查、访问调查在科研管理工作应用普遍,本文仅对案例研究方法作详细介绍。
案例研究通过评论好的或差的有代表性事例及其做法和经验,可以提供有关经验和成就方面的最详实资料,并赋予评价者很多的启发。案例研究在科研评价工作中主要有两个方面的应用:①探索科学研究与技术创新的联系;②判断科研工作是否符合资助机构制定的政策目标。用于这种目标的案例研究主要有三种类型:①历史描述,②“科研事件”分析,②匹配比较,即回溯分析与其他分析方法的结合,如,聚合统计、同行评议、文献计量分析和经济计量分析[7]。最早出现的方法是历史描述,主要用于分析某项技术的发展轨迹,如Jewkes。Sawers,和Stillerman就采用这种类型的案例研究,考察科学研究与技术创新之间的关系[8];科研事件分析主要是判别和分析某一技术发展中的“科研事件”,“科研事件”是指新思想的出现以及随后对这种思想的探索。20世纪60年代至70年代,一些政府机构资助了大量的案例研究项目,以理解科学研究和经济增长的联系。如,美国国防部资助的“事后研究项目(Project Hindsight)”,美国国家科学基金会资助的“技术回溯与科学项目中的重要事件”[9]。但是,这两项研究取得的结果相互矛盾,这说明案例研究存在局限性,美国国家研究委员会(NSB)和国家科学基金会(NSF)将这些局限性归纳为两个方面[10]:首先,所得结果和结论的有效性依赖于调查者的客观程度、调查技巧和科学知识水平;其次,案例研究的结论通常寓于特定的历史环境中,因此不能直接应用到其他研究背景中。这样,在评价R&D和经济创新之间的联系时,开始利用客观方法,即经济计量和文献计量方法替代案例研究[11]。
5.3 计量方法
计量方法可以把复杂现象简化为指标及相关数据,从而可以对研究活动进行数值上的比较。一般而言,有两种类型的计量方法:
文献计量法:以出版物、出版物的引文和专利、专利的引文为对象。
经济计量法:主要与资金的测度有关,范围包括从成本/效益分析到R&D经费。
5.3.1 文献计量法
文献计量分析在研究评价中的作用是其它方法不能替代的,因为,对于某些组织性和结构性较强的问题,例如,某个国家与其它国家比较在各学科领域的研究“影响力”;国际合作的规模和特征;基础研究和应用研究在新技术开发中的作用;学科结构以及它们之间的相互关系,等等,尽管“科学同行”能根据自己的专长对它们进行定性评判,但是,这些评判一般都是零散的,而组织性和结构性较强的问题需要从整体上进行评价。特别是对于交叉学科研究以及具有特殊社会和经济目标的研究,经验证明,同行不能对它们做出较圆满的评判。而且,现代科学发展迅速,新的特征不断涌现,即使是科学家,也不能清楚地阐明科学研究的价值。因此,评价时需要利用特殊的数据,而同行不能提供这些数据。这样,文献计量指标就进入了评估者的视野”[12]。当然,这并不是说它要替代同行专家,而是作为一种支持工具。
根据文献计量指标功能的不同,可以把它们划分为两大类型:描述性指标和关联性指标。
(1)描述性指标
最基本的描述性指标是论文、专利和引文数量,通过统计分析这些指标,可以粗略地估计研究的数量及其影响,粗略地反映技术的产出情况以及科学与技术之间的联系。以这些指标为基础,一些国家还开发了更多指标用于评价科研的质量和效率[13],如论文份额、引文份额、论文与引文的比较优势、单位国民总值的论文数和引文数等等。
(2)关联性指标
合作著文的作者分析是最常见的关联性指标,它可以描述科研系统中各参与者之间的现存关系,对知识的流向进行比较分析,展示研究者个体、研究机构以及研究活动的目标部门之间的关系,例如大学与研究所的联系、大学与工业界之间的联系、地方政府与国家的合作关系以及国际合作关系等等。
共词和共引也是重要的关联性指标。共词从科学术语上揭示了研究主题以及它们之间的相互关系;共引反映了科学认识上的关系以及研究工作上的网络关系。通过共词与共引分析,可以勾画科学活动的全貌,观察科学技术的变化,识别正在涌现的研究主题及其主要贡献者。
目前,数据库技术的发展使文献计量分析可借助计算机自动、经济地进行。可以预见,文献计量方法将获得大量应用。
5.3.2 经济计量法
经济计量法主要用于评价科研活动的投入-产出。按照苛斯托弗(Kostoff)的观点,经济计量方法主要有成本效益方法、边际成本效益分析方法和生产函数方法[14]。
按照管理科学的理论,成本效益方法主要考虑成本—效益、净现值和回报率。但是,从这个角度很难计算研究的回报率,因为,①科学研究的效益主要表现在增加知识存量、提高竞争能力和解决复杂问题的能力、发展新技术和新仪器等方面,这些方面的效益是难以量化的;②后人的发现建立在前人的工作基础上,这样,任何一项研究成果,其投资都具有累计性,不能直接测算;③研究的成本远远低于产品开发、中试和商业化的成本。基于这些方面的原因,我们认为,不能从管理科学的角度计算研究的回报率,而要换一个角度,即应用投入—产出方法,把产出主要定位于论文和培养人才(主要指博士学位获得者),据此评价科研活动的产出效率。
生产函数方法主要利用产品、资本、劳力、研究经费支出来估算研究对附加价值的边际贡献,但由于科学研究同附加价值的关系是非线性的和间接的,而且对技术、生产及市场的其它投入因素又使科学研究与附加价值之间的关系更加趋于复杂化,所以,该方法亦有其应用上的难度、缺点和不足。
5.4 定标比超法(benchmarhng)
在管理科学上,定标比超法是公司为赶超竞争对手采取的一种手段。应用于科研评价工作中,定标比超法采用以下步骤实施[15]:①确定科研机构所从事的科研活动的主要范围;②采集它们的绩效数据(最好是定量的数据);③确定并描述这类研究活动中作为模范组织的“最佳做法”;④鼓励其它研究机构采用这些做法;⑤重复以上过程。
1997年,COSEPUP进行了一系列试验,以测定定标比超方法在科研评价工作中的使用效率[16]。试验证明,定标比超法能识别在某个学科领域里,美国应在科研制度和人力资源方面具备哪些最重要因素才能维持它的领先地位,而这些因素无法用其它方法进行判断;定标比超法可以确定在测度特定领域时应该采用的最佳方法,并能通过与其它评价方法相结合,确定该领域与其它领域的相关关系;定标比超法可以对一个领域做及时而普遍精确的“简短描述”(snapshot)。
评价方法的选择除了受评价对象、目标与层次的制约外,还受一个国家评价文化背景的影响,例如,英国特别关心可以计量的指标,而法国和德国则限制定量指标的应[17]。美国则认为,定量指标在处理有关政策争议时不可或缺,其1993年公布和实施的政府绩效和结果法案中(GPRA)就特别强调要用可计量的指标评价政府资助的基础研究和应用研究[18]。一些学者和资助机构认为,由于每种评价方法都有固有的缺陷,采用任何单一方法都不能得出比较理想的结论,因此,建议在评价时,一般要把案例研究、同行评议、文献计量和经济计量方法结合起来使用[19]。
6 评价程序
评价程序是否恰当对获得理想的评价结果至关重要。按照评价工作的进程,可把评价的整个流程划分为三个阶段:评价的总体设计和规划阶段;评价实施阶段;评价结果利用。
6.1 评价的总体设计和规划阶段
对评价活动进行总体设计和规划是指在正式开始评价之前,要确定评价的目标与范围,咨询利益相关者,确定评价工作的进度,估算评价工作的成本。
(1)确定评价工作的目标
评价工作的目标包括:为科研管理提供信息;阐述被评价者的责任及其履行情况;为科研决策提供建议;增进认识,提高工作质量与绩效。这些目标对评价者起指导作用。评价目标不能太多,目标太多会使评价工作过于分散,从而不能确定评价的主次。
(2)确定评价工作的范围
评价工作的范围有重点范围和一般范围之分。例如,评价国家自然科学基金的绩效,重点毫无疑问是各类基金资助的总体绩效,但是否要评价基金资助的研究成果的潜在应用价值,即评价时调查有关产业部门的意见?是否要调查未获资助的申请者?这些问题尽管是一般问题,若能详细了解这些问题,对于从更广的范围掌握基金资助的绩效和存在的问题是非常有益处的。可以认为,如果在评价成本和评价时间许可的范围内,在更广泛的背景中开展评价活动常常是有益的,这样做有助于评价者获得额外收益。
(3)咨询利益相关者
经验表明,研究人员对科研评价十分敏感,不适当的评价容易弱化科研工作的动机和研究工作的创造性,而且,如果评价结果与学科领域的定性判断不一致,最活跃的研究人员将会产生对立情绪[20]。因此,在评价工作一开始就立即与利益相关者对话,以在最大程度上避免他们的个人利益与官方评价标准相互冲突。
(4)确定评价工作的进度
一般而言,对于完成评价工作要给予足够的时间。如果规定的时间较短,那么,就会减少咨询时间与协商时间,评价的质量就会受到影响。
评价进度常常受评价工作的目标的影响,例如,为决策提供建议而开展评价时,必须折中考虑适时开展评价的时间,因为,评价开展得太早就可能缺少充分的绩效证据,开展得太迟就不能为决策及时提供咨询建议,从这个意义上讲,评价进度的确定必须平衡管理者对及时提供信息的需求和对获得真实反映有关科研活动成绩的数据的需求。
(5)确定评价工作的成本
科研评价需要花费较多的资金,特别是当对研究产出及其影响做深层次的评价时,需要相当的成本[21]。因此,要根据评价工作的范围和深度,精确预算评价的成本,即:人、资金、设备和信息。
6.2 评价实施阶段
这个阶段的任务包括以下三个部分:选择评价人员或评价机构;对评价进行监控;撰写评价报告。
(1)选择评价人员或评价机构
评价人员可以是某个研究机构或资助机构的内部人员,利用这些人员开展的评价一般都是研究机构的自我评价,或按照上级管理部门的有关规定对规模不大的计划和项目开展的评价。但是,为了保持评价的公正性,评价活动最好采用招标形式,委托外部评价人员来实施。
如果利用研究机构或资助机构的内部人员开展评价,应根据评价工作对评价人员的能力要求选择评价人员,这些能力包括:
①调查能力;设计调查方案的技能。
②分析能力:分析、解释通过调查获得的数据的技能;
③叙述能力:以资助者和管理者易于理解的语言,提出评价结果的技能;
④管理能力:从管理的角度出发,提出资助者和管理者可以利用的结论和建议。
如果委托外部评价人员开展评价,应注意以下两个方面的问题:
①在发布招标书时,为了公平起见,要把有关信息,即:评价背景、评价的目标、希望采用的评价方法和评价工作进度、预算规则和最大预算量、评价时可以利用的其它辅助信息等等,传递给所有投标者。此外,对于投标者的提问,其答案也要散发给所有投标者。
②在选择投标者时,主要根据他们提出的评价方案,重点考察:是否具备被评价对象所属领域的专业知识?是否能洞察评价的意图和背景?是否能以合理的成本进行有效率的评价?以及评价方案是否具有实用性?等等。
(2)监控评价工作
国外的评估研究和评估实践表明,评估的独立程度越高,评估结果的可信度越大[22]。尽管如此,对评价过程进行监控,在评价进行到关键阶段、或以固定的时间间隔获取评价进展报告,并在必要时对评价工作进行调整,也是非常必要的,因为,只有通过监控,使委托方和执行方完全了解相互的目标、需求和问题时,才可获得理想的评价结果。
为了既达到对评价进行监控,又能尊重评价工作的独立性,委托方和执行方必须做到行为明智。对于委托方,应该有规律地与执行方保持联系,建立合作关系;应该及时、准确地为委托方提供所需要的信息;如果评价需求有变化,应及时通告执行方;应该尽量不影响执行方提出他们的结论和建议。对于执行方,应该领会、遵循委托方设定的目标;要有规律地和发起人讨论所取得的进展和中间结论;要仔细聆听发起人对评价报告草案的意见;要维护评价工作的独立性,使之不受发起人的左右,从而维护评价报告的可信度。
(3)撰写评价报告
在撰写评价报告时,要围绕最初设定的目标组织相关材料,要毫无偏见地提出数据和依据,论据和逻辑推理支持观点,这样,评价报告才有说服力。此外,报告中要尽可能提供可视化的图象、资料,尽可能避免使用专业技术语言,要提出清晰的、具有可操作性的建议。
6.3 利用评价结果
对于执行方提交的评价报告,委托方通常要根据自己的知识予以补充和修正,并将所做的改进反馈给评价人员,取得他们的共识以后,委托方形成正式评价报告。正式报告一般有两种用途:
①发起者组织利益相关者对评价结论进行专题讨论,以解释结论和教训,改进今后的工作。
②出版评价报告,既可以使其它科研组织和个人从中受到启发,又能让广大公众了解公共资金的使用价值,充分获取他们的理解和支持。
随着人们对资源的使用效率日益关注,需要选择科研评估的数量越来越多,正如OECD所观察到的,科学研究评价作为“快速增长的产业”已初现端倪[23]。但是,重视评价并不等于滥用评价,过于频繁与烦琐的评价易于引起“评价疲劳症”,因此,在重视评价工作的同时,应该慎重选择评价的对象,并尽可能使评价简单化。
而且,决不能把评价理解为严格衡量某个人、某个组织工作好坏的尺度。正如我们所阐述的,评价仅仅是科研管理的一种支撑工具,它通过明晰问题、提出建议,为更合理的决策提供基础,从而使决策过程向理性和量化推进了一步。
标签:绩效指标论文; 科学论文; 绩效目标论文; 绩效计划论文; 科研评价论文; 绩效反馈论文; 工作分析论文; 活动执行论文; 工作管理论文; 工作选择论文; 经济学论文;