国内大学评价机构及其评价指标体系的比较研究,本文主要内容关键词为:评价论文,指标体系论文,机构论文,国内论文,大学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
大学评价,是指一些评价机构人为地遴选出多项或单项指标,经过一定的权重处理后,对大学的办学实力和发展水平进行综合或单项评价,并按积分高低次序进行排列的方法。(注:戴跃侬.大学评价体系及其排行榜透视.扬州大学学报(高教版).2003.(1).)很显然,在数据一致的情况下,影响评价的最主要原因是其“多项或单项指标”和“权重处理”的不同,也就是指标体系的不同。因为这些指标是“人为地遴选出”的,权重是“经过一定”处理的。各个机构遴选指标的不同就会产生不同的评价结果。正因如此,有学者下结论道:“排行榜指标体系的优劣是排行榜活动最终是否具有价值的关键”。(注:章仁彪,樊秀娣.对开展大学排行榜活动的三点认识.中国高等教育.2001.(17).)
大学评价产生的渠道主要有两个,即国家、政府的教育行政主管部门和社会中介机构。在大学评价活动开展较好的美、英、日等国家中,具有较大影响的大学评价机构均为社会中介机构即民间机构,在我国也是同样的情况。从时间上看,早在上世纪80年代初,我国就已经有一些民间机构和团体开始尝试对国内大学进行评价排名。而直到1992年12月23日,国家科委在《人民日报(海外报)》上才以《中国排出大学四强》为标题,发布了迄今唯一一个以中国政府部委名义发布的大学排行榜。从规模上看,有统计资料表明,从1987年9月到2001年6月间,国内共有14个单位发布了30多个不同类型的大学排名。(注:武书连.中国大学排名综述.科学学与科学管理.2001.(8).)从传播途径上讲,政府的评价主要侧重于诊断教学工作中存在的弊端,其结果一般是在高校系统内公开。而民间机构评价结果传播的途径很多,除了在政府报纸、杂志、学术期刊上发表以外,还能充分利用网络等多种传媒来扩大其评价的影响范围。综合上述三因素,民间机构的评价对公众的影响显然要远远大于政府部门。
一、国内两家主要评价机构及其评价指标体系简介
在我国,至今还没有一个权威性的大学排名发布机构,以及得到社会认可的评价指标体系。公众对每一个以排行榜的方式呈现出的评价结果都或褒或贬,意见不一。究其原因,除各家数据的准确性程度存在差异外,主要是因为各自采用了不同的评价指标。目前社会评价机构中影响最大、知名度最高的要数广东管理科学研究院和网大(中国)有限公司。值得关注的是,这两家机构都是民间性质:广东管理科学研究院是“民间学术排行机构”,网大则是“一家在大中华区域发展教育产业及相关教育技术产品的专业化集团公司”(据网大www.netbig.com页面介绍)。因为这两家机构均对中国各种类型的大学进行过综合排名,且产生了较大影响,所以本文在对其排名指标体系对比分析的基础上作出简要的评价,以期对这两家机构的大学评价指标尽早地走向合理、规范发挥一定的作用。
(一)网大大学排行榜及指标体系的演变
网大发布的大学排行榜借鉴了《美国新闻与世界报道》的评价体系,主要遵循产投并重的原则,建立自己的一套评价指标。它试图从消费者的角度出发,使消费者能够横向动态地了解高校的发展状况,借此来推动大学的开放程度,促进大学的国际化。从1999年网大第一次正式发布排行榜以来,至今已经发布了五次大学排行榜。1999年的排行榜指标体系是以“学术”、“新生质量”、“师资”和“科研经费”四个一级指标六个二级指标为依据。到了2000年,指标体系变动比较大,确定了六个一级指标17个二级指标。另外在方法上采用了社会调查中的特菲尔法和层次分析法,通过对一些有代表性的调查对象进行三轮问卷,在一定程度上提高了评价的效度与信度。2001、2002、2003年,为了维持大学评价框架的稳定性,与2000年相比,一级指标基本上未作大的变动(1999年—2003年一级指标见表一),只是将以前的“学术声誉”换成了“声誉”,在说法上更精确了。与一级指标相比,二级指标每年均在不停地微调,到2003年二级指标已经发展到了22个(1999年—2003年二级指标数仍见表一)。
表一 网大1999年—2003年一级及二级指标比较
注:*()中为每项一级指标所含的二级指标数目;*2000年虽然分为重点和非重点大学,此表所列为重点大学评价的一级指标,非重点大学评价指标比此表少“学术声誉”一项。
(二)广东管理科学研究院中国大学评价及指标体系的演变
广东管理科学研究院一开始将大学的研究与发展分为投入、活动过程、成果三个部分,确立了以成果为主、投入产出为辅的指标体系。在1993年6月,首次采用大规模专家群体给各项指标定权重等级的方法,按照大学对社会的贡献值进行排名。这个评价指标体系以大学的研究与发展成果为评价内容,主要侧重于科研方面,涉及了25项指标,排出了中国大学1991年发展的前100名。而到了1998年以后,此平均体系把“人才培养”与原来的“科学研究”共同设定为一级指标,此两者表明该院的排名主要是根据大学的“产出”来进行的。在《2001中国大学评价》中,课题组在二级指标的基础上又引入了第三级指标体系,并增加了理科、文科的专业排名、学院排名、单项排名等内容;而最新发布的《2004中国大学评价》,在细化分类、分学科专业排名上则更为突出。
为了能在不同的大学之间进行比较,1996年该院首次将科学假设即“不同类型大学的科研人员平均具有相同创新能力”用于大学评价。而到了2002年,为了适应2000年中国高校合并重组这一实际情况,就用“不同学科的科研人员平均具有相同创新能力”的科学假设取代了之前的假设。新的科学假设产生的评价方式,表现为各大学对相同学科进行的比较,然后对全国所有大学的不同学科加权;每个大学的最后得分是该校各学科加权后得分的总和。
二、两家机构大学评价指标体系的比较
网大和广东管理科学研究院利用上述评价指标体系每年都对我国的大学进行综合排名。照理说,同样一所大学无论采用何种评价指标,只要是相同条件的排名,其在整体中的相对位置应该是很接近的。在英国一些媒体如《星期日泰晤士报》、《金融时报》、《每日电讯》等发布的“全英大学总排名”的结果中,各大学的位次相差无几。这在一定程度上反映了评估的客观性和规范性。这也是英国大学的社会机构评价具有较高公信度的一个原因。(注:周大平,张鹰.中国有没有权威的高校排行榜.了望新闻周刊.1999.(12).49.)而当笔者在将2003年(因为2004年网大排名还未公布)进入广东管理科学院大学排行榜前100名的大学与其在网大中的排名相比时发现,名次差距在20名以上的占了总数的36.4%,其中在60名以上的还占了近十分之一。结果如下页表。
这一结果我们从表三也可以有较直观的体会。这说明,这两个大学的评价从总体上看均尚未成熟。下面,就对其存在的差异进行具体的分析。
表二 广东管理科学学院与网大大学排名差异比较
名次相差 0-10名 10-20名 20-40名 40-60名 60-100名 100名以上
频数41 22
18
97
2
百分比41.4%22.2%18.2%9.1% 7% 2%
说明:因为网大未将中国协和医科大学列入排名,所以实际统计数据为99个。
(1)评价体系建立的出发点
广东管理科学研究院主要从大学的功能出发,建立了以“对社会的贡献作为唯一衡量标准”的中国大学评价体系。中国大学评价对所有的大学进行排名,比较注重大学的“产出”。这主要体现在仅以“学生培养”和“科学研究”这两项大学基本职能为一级指标方面,而且从1998年以后就一直使用这两个指标。综合看来,这个评价是建立在以学科评价与研究与发展为评价核心的基础上的。
而网大指标体系则是以“产投并重”为原则,其指标中既有反映产出的,也有反映投入的。以其2003年最新指标为例,在“学术资源、教师资源、物质资源、声誉、学术成果、学生情况”这六项中,前三项就是投入指标,后三项基本为产出指标。
这两家指标体系建立的出发点,尽管都存在不足之处,但是相比较而言,本人对广东管理科学研究院完全否认中国大学的“社会服务”功能表示不太理解。完整的大学功能应该包括三项,虽然中国大学的“社会服务”作用与国外相比不那么明显,但不能因为其不明显而从根本上彻底忽视它。广东管理科学研究院这样的做法没有客观反映实际情况,如像清华、北大、南大等高校还是具有一定的社会服务功能的,由此也会产生不良的导向作用,引导大学越来越不重视“社会服务”这项功能。
(2)大学评价的侧重点
既然评价体系的出发点不同,那么两家机构的评价侧重点也当然不一样。广东管理科学研究院原先的评价内容较简单,侧重于学校的科研能力,评价指标也相对较为单一,主要以发文数量和引文数量为标准。随着大学评价内容的多样化,评价指标也随之丰富,逐步发展到多指标、多级指标,评价的重点由“科学研究”转向了人才培养。
而网大体系中,学术成果占的权重最大,2003年占22%,学术资源次之,占20%。这一侧重点忽视了大学最基本的职能是“人才培养”,而不是“科学研究”。并且“科学研究”中的二级指标是否合理本身也值得商榷。这就有可能使学校和教师为提高学校的排名而将主要精力投入到科研中去,忽视了学生的培养质量。
因为广东管理科学研究院的排名主要是以总量为主,加上“人才培养”的权重较大,这就使得规模大的高校在广东管理科学院中的排名好于在网大中的排名。如江苏某合并高校,近年来发展迅速,招生规模不断扩大,现有全日制本科生27700人,此高校在广东管理科学学院2003年的排名是51位,而在网大排行榜中才位于170位左右。因此是否按总量计算也是两个大学评价有显著性差异的一个原因。这一评价侧重点有可能会导致学校过分注重外延的扩张,而忽视内涵式发展。网大在2002及2003年的排行中,将以前的总量指标换成了人均指标,说明此指标体系已经认识到“规模扩张和内涵扩张都是大学的发展之路”。
(3)定量、定性方法的运用
广东评价指标体系没有照搬美国的评价指标体系,据课题组称是根据目前中国高等教育的现状,而只设了大学三大功能中的两个,即“人才培养”和“科学研究”。前文已经对是否应该设立“社会服务”这一项作了讨论,这里暂且不论。但是,了解高等教育的人都知道,大学是个复杂的系统,想通过完全量化的指标达到排行榜的科学性、公正性和客观性是不现实的,相反会造成排行榜的繁琐,影响其操作上的准确度和公众的可接受度。所以在“人才培养”和“科学研究”上,一切均以数据说话的定量性的评价,会使复杂事物简单化,不可避免地出现部分评价失真的现象。
网大沿用了美国的评价体系,整个评价采用定性与定量相结合的方式进行。应该说这已经正视了教育这一复杂系统中的实际情况,用定性的方式将难以量化的指标量化。定性方法的运用主要体现在“声誉”这一指标上,它采用了专家的意见,相比较在这个问题上广东管理科学学院的做法是可取的。网大虽然考虑了教育的特殊性,却没有结合中国的实际情况。如果将国内与国外的大学评价作一比较,我们不难发现,国内外对于学术声誉的评价存在明显的差别。国外对于学术声誉的重视程度主要源于对学术声誉的认同和良好的评价环境的形成。在他们看来,这种相对模糊的概念,或许更本质、更准确地反映了一所大学的地位和影响。(注:李越,叶赋桂.透视大学评价.教育发展研究.2002.(2).)而在我国,对学术声誉的作用没有形成较为统一的认知,同时缺乏对学术声誉调查这种“人为主观”色彩更浓的指标进行评价的环境。网大1999年调查问卷的回收率仅为36.3%和3.8%。这种小样本的调查显然不能满足学术声誉评价的要求,典型性和代表性就不必说了。另外,由于中国有很多新建的高校,而且很多老牌的高校也正处于变革中,不断地在合并调整。因此专家对于新校没什么概念,对于概念中的老校可能和实际学校已经不是一回事了。所以学者思贝认为:网大的初衷是值得肯定的,其仿效国外的做法是一种尝试性的借鉴,但这种尝试不可能一蹴而就,需要一定的时间和过程。(注:思贝.我国大学评价的现状及主要问题.评价与管理.2003.(1).)
(4)技术手段的运用
A关于统一排名
在中国,教育界公认的大学排名的技术难点是不同类型大学的相互比较(如工科大学与艺术大学之间的比较、医科大学与农业大学之间的比较),不解决这个技术难点,不同类型大学之间就没有可比性,大学排名就没有科学性。为解决这一难点,国内学术界付出了不懈的努力。1993年10月,《中国大学评价》课题组提出“按人均得分相同”的方法解决不同类型大学的相互比较,使不同类型大学的相互比较成为可能。1997年7月,课题组以“不同类型大学的科研人员平均具有相同创新能力”科学假设为基础,初步解决了不同类型大学的相互比较问题。2001年11月,针对2000年中国高校合并重组后的新格局,课题组又提出了“不同学科的科研人员平均具有相同创新能力”的科学假设,试图去解决不同类型大学的相互比较问题。《中国大学评价》自认为是“国内唯一解决了不同类型大学相互比较使大学评价建立在科学基础上的大学排名”。但是这一体系最大的问题在于其假设是否能够被证明为真。如果假设不正确,那么结果的合理性又有多少呢?另外,即使假设正确,也只是其评价体系的一部分,人才培养尤其是其质量并没有建立具有可比性的指标。
网大在2000年发布的综合排行榜中声称在增加可比性方面采取了两个措施,即按照重点大学和非重点大学,设计了两套评价指标体系;在重点和非重点大学两大序列中,又分别按照国家的标准分类,对大学进行分类排行。但实际上是,其指标体系仍然是一套,只是对重点和非重点在几个指标的权重方面分值不同;而分类排名没有体现分类指标,只是在总排名中根据分类分别排名。这些都是非常简单的办法,不能对不同学科、专业的特征作出描述和比较。
因此,进一步的改进应是向国际做法靠拢,采取按专业院/系分别排名的方法,例如按照计算机学院、医学院、商学院、法学院、工程学院、数学系、公共行政管理系等,进行分别评估,在不同的类别中应该有某些指标反映专业特性。评价结果可以按照专项排名和综合排名并举的方式,从多个侧面尽可能客观地反映一所大学的办学状况和面临的矛盾。
B关于学校分类
关于学校分类的问题本不属于评价指标体系问题,但是关系到学校分类、指标体系的设置和评价结果的呈现方式等诸多问题,所以有必要简单介绍。
广东管理科学研究院在1998年将大学分为研究型、教学研究型、教学型和专业型,其中专业型又分十小类;而到了2003年,在部分保留我国现行大学分类标准的基础上,增加了体现大学科研规模的内容,形成了由学科比例和科研规模两部分组成的新的大学分类标准。按科研规模分为四大型,有研究型、研教型、教研型和教学型;按学科比例划分为综合类、文理类、理科类、文科类及专业类五大类,其中专业类又分九小类。这一划分从两个纬度上将所有的大学进行了归类。网大在2000年将大学分为重点和非重点,在重点和非重点大学两大序列中,又分别按照国家的标准分类,对大学进行分类排行,以增强可比性。对非重点大学的评价“学术声誉”这一指标不纳入计算范围,考虑到区分比较困难,2001年大学排行又不再分为重点与非重点了,但学科类型仍然维持不变。这两家对大学的分类与美国相比,在操作上略显复杂,在结果上比较粗糙,不能有效解决大学间客观存在的类型、层次差异以及体现特色的比较优势的评价问题,仍存在封闭性、可比性、全面性的欠缺。
(5)师范、文科类大学权重的处理
仔细比较两家评价机构的大学排行榜,就会发现师范、文科类大学在广东管理科学研究院的排名总的来说均低于在网大中的排名。以下是几个比较明显的例子。
表三 几所大学在两种评价中2003年排名之比较
大学名称
网大广东研究院类型
中国人大9 35 综合—文科
北京师大10 25 师范—综合
华东师大28 36 师范—综合
注:广东研究院即广东管理科学研究院。
学校类型采用广东管理科学研究院的分法。
进一步分析还可以看出,在广东管理科学研究院的排名中,北师大作为师范—综合中的第一仅位于第25位,人大作为综合—文科中的第一仅位于第35位。而师范院校中一般文科占主要地位,所以这一现象归根到底就是文理科权重处理问题。在广东管理科学研究院的评价指标体系中,文科的科研指标权重远远小于理工科的权重(只有1/4左右),结果造成文科院校得分少,理工科院校得分多,导致了两者在排行位置上的不公平。尽管武书连一直强调他不是重理轻文,只是反映了目前的现状。但是这种指标体系会引发一种错误的导向,促使大学决策者为了追求更高的得分,更重理工、轻文科,导致文科和理工科的不均衡发展。而网大在一级指标“学术资源”下,设有“人文社科重点研究基地”这一个二级指标,以4.4%的权重(2003年)进行纠偏,所以最后呈现出的就是两家在重理轻文的程度上的明显区别。
(6)指标体系的层级
广东管理科学研究院的指标体系在2003年分成了三级指标体系,网大只有两级指标体系。这点不同其实并没有本质性差异。网大也可以将其六个一级指标变为二级指标,而将“投入”“产出”设为一级指标。不过,只要指标体系合理,这样的趋同是没有必要的。
三、结语
本文主要是对目前影响较大的两家民间机构的指标体系进行了比较。当然,其排名的差异不仅是上述原因,还有数据的原因及一些人为因素等等。不过,笔者认为指标体系的差异应该是其最主要的原因。对与错在这两家的指标体系中不是非此即彼的关系,而是都有可能存在不足和有待完善之处。两家机构的指标体系还存在一些共同的不足之处,如均缺少用人单位、社会公众的系统评价,对论文、学生等都缺少质的评价等。但是,有一点应该指出:虽然目前大学评价指标体系本身都还存在这样或那样的不足,但是两家机构在对中国大学评价方面所作出的努力都应该得到肯定。我们期待着大学评价指标体系能够不断得到完善,最终得到合乎客观的大学评价结果。