大学排行评价指标体系的比较研究,本文主要内容关键词为:指标体系论文,评价论文,大学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着杂志、报纸、网络等媒体的介入,大学排行的影响力日渐扩大,不仅影响了学生的择校意向,而且还影响到大学的办学方向。在此背景下,大学排行的科学性和合理性问题更加凸显。在影响大学排行的诸多因素中,评价指标起着基础性的作用,因此,评价指标体系是否科学、合理,直接关系到排行结果的信度与效度。目前,人们对大学排行的质疑,也多集中在指标体系的合理性上。本文试图通过对不同评价指标体系的比较,对相关问题进行讨论。
一、大学排行的内涵及类型
大学排行是指在一定的理念指导下,根据某一具体的划分质量的标准,采用数学为主的方法,对大学质量水平进行综合或单项评估,并排出名次或等级的一种社会评价方式。[1]
按照不同的分类标准,大学排行可以分为多种类型。(1)按评价主体进行划分,可以分为三类:一是由政府或有关部门选择部分大学进行重点建设或给予特殊关注而形成的排名,如“211工程”重点建设的大学等。二是由某些研究机构或媒体依据科学计量指标对大学进行的排名。这种排名所选取的指标较单一。三是由个人或社会团体对高校开展综合评价研究形成的大学排名。这类排名的特点是选择指标较全面,以产出为主,投入为辅,着眼点在于全面反映高校间整体实力的差异。[2](2)按评价对象的范围进行划分,可以分为全球大学排行、国际大学排行与国家大学排行。比如上海交通大学从2003年开始发布的世界大学学术排名,英国《泰晤士报高等教育副刊》在2004年发布的世界大学排行榜,都属于全球大学排行;香港《亚洲周刊》1997年推出的亚洲大学排行榜(已于2000年终止)属于国际大学排行;《美国新闻与世界报道》、广东管理科学研究院、网大推出的排行榜都属于国家大学排行。(3)按评价指标进行划分,可以分为单项排行与综合排行。我国早期发布的大学排行榜,大多是大学科研成果的单项排行。除了大学排名之外,还有一种大学次排名,它仅对大学内特定的部分(如学院、学科等)进行比较。
本文所说的大学排行主要是指对一国所有的大学进行的综合排行,至于全球大学排行和国际大学排行,由于其评价指标与国家大学排行存在很大差异,未纳入本文的研究范围。
二、大学排行评价指标体系的分析模式
大学排行评价指标体系的分析模式主要有以下三种。
1.系统模式(system-oriented approach)
所谓系统模式,主要从系统的角度来分析大学的教学和科研活动,将其分为输入、过程和输出等环节,对其进行综合考虑。系统模式比较重视所建构指标体系中各指标之间的关联性。指标中的输入类指标强调投入的资源,过程类指标强调将投入资源转化为教学与科研成果的运作机制,输出类指标则强调大学的产出成果。
在系统模式中,除了“输入—过程—输出”这一基本型态外,还有“输入—输出”、“背景—输入—输出”、“背景—输入—过程—输出”、“输入—过程—输出—结果”、“背景—输入—过程—输出—结果”等五种延伸型态。在输入、过程、输出各环节,其指标又可以分为绝对量指标和相对量指标。绝对量指标即以总量的形式反映一所大学的整体实力,如大学的科研经费总投入、拥有博士学位的教师数量等;相对量指标即以平均量的形式反映一所大学的运行效率,如生均教育经费、生师比等。
2.演绎模式(deductive approach)
所谓演绎模式,指以一个或一系列先验性概念作为评价指标的核心概念,并以此为基础,通过层级分析,逐步将这些概念细化、操作化,最终发展出一套指标体系的模式。
在大学排行评价指标体系的设计中,运用演绎模式最为典型的当属广东管理科学研究院推出的大学排行榜。该排行榜以大学的两大基本功能——人才培养和科学研究——作为一级指标,然后逐步演绎出二级指标、三级指标。
3.归纳模式(inductive approach)
归纳模式以现有的理论研究和实践经验为基础,将有关方面的指标归纳成一个接近理论模式的体系。归纳模式遵循的是“由个别到一般”或“特殊到普通”的逻辑,其具体做法是:收集相关的资料;寻找合适的理论框架;将收集到的资料整合进框架之中,初步形成指标体系;对指标体系进行加工、处理,形成科学、合理的体系。
相对于演绎模式的规范化取向而言,归纳模式属于描述性的建构取向。一般而言,按照这种方式构建的指标体系可能存在着体系不全、逻辑不严密、理论薄弱等缺点,但其指标的操作性较强,设计出的指标体系很容易为实践部门所接受。
在大学排行评价指标体系的设计中,归纳模式被广泛采用。比如在《美国新闻与世界报道》、加拿大《麦克林》、中国网大等大学排行榜的指标体系中,一级指标均有学生情况、师资情况、财务情况(网大用内涵更广的“物资资源”代替“财务情况”作为一级指标)等,这些指标基本上都是通过归纳模式形成的。
上述三种分析模式并没有优劣之分,只是研究的角度不同而已。为了详细比较各大学排行评价指标体系的异同,本文将从以下四个维度进行分析:(1)输入指标/过程指标/输出指标。输入指标包括人力资源(学生、教师)和物资资源(财务情况、图书量、校舍面积等);过程指标包括课堂规模、生师比等;输出指标包括同行评议、科研成果、毕业生质量、校友捐赠等。(2)绝对量指标/相对量指标。(3)教学指标/科研指标。同行评议主要受学校科研水平的影响,因此我们把它纳入科研指标。(4)定性指标/定量指标。
三、国外大学排行评价指标体系
1.《美国新闻与世界报道》大学排行评价指标体系
1983年,《美国新闻与世界报道》杂志率先推出全美大学排名,每两年一次。1987年后改为每年一次,并由本科生教育扩展至研究生教育。大学排行的目的是为使学生及其家长明智地选择所要就读的高等学校提供尽可能全面、丰富的信息。评估对象按卡内基的高等学校分类法划分为四类:全国性大学、全国性文理学院、地区性大学和地区性文理学院。其中,地区性大学和地区性文理学院按地理位置划分为北、南、中西、西四个地区,每个地区分别排名。(见表1)
资料来源:Undergraduate ranking criteria and weights[EB/OL]http://www.usnews.com/usnews/edu/college/rankings/about/weight_brief.php,2006-08-18.
从表1可以看出,该排行榜的指标体系由7个一级指标、16个二级指标构成。全国性大学、全国性文理学院与地区性大学、地区性文理学院的评价指标的主要差异在于:(1)“平均毕业率”和“新生保持率”的权重分配不同;(2)“高中成绩在班级前10%的学生比例”的权重分配不同;(3)“高中成绩在班级前25%的学生比例”的权重分配不同;(4)“毕业率履行情况”的权重分配不同。
在16个二级指标中,输入指标有“录取率”、“高中成绩在班级前10%的学生比例”、“高中成绩在班级前25%的学生比例”、“SAT/ACT成绩”、“获得博士学位的教师比例”、“全职教师比例”、“生均教育费用”等8项,占总权重的36%,其中,人力资源占26%,物资资源占10%;过程指标有“生师比”、“少于20人的班级比例”、“多于50人的班级比例”等3项,占总权重的9%;输出指标有“同行评议”、“平均毕业率”、“新生保持率”、“平均校友捐赠”、“实际毕业率与预计毕业率比”等5项,占总权重的55%。所有指标均属于相对量指标。仅“同行评议”一项属于定性指标(权重占25%),其余15项二级指标(权重占75%)均为定量指标。
2.英国《泰晤士报》大学排行评价指标体系
1986年,英国《泰晤士报》推出英国大学的排行榜。《泰晤士报》大学排名的指标每年作相应调整,由1994年的15项调整为2000年的9项,包括“教学评价”(22.7%)、“科研评价”(13.6%)、“入学成绩”(9.1%)、“生师比”(9.1%)、“生均图书和计算机费用”(9.1%)、“生均设备费用”(9.1%)、“获得第一学位或更高的第二学位的学生比例”(9.1%)、“毕业生去向”(9.1%)、“毕业率”(9.1%)。2003年,又把“教学评价”改为“学生满意度”,权重降为15%,“科研评价”调整为15%,其他7个指标的权重均调整为10%。
输入指标有“入学成绩”、“生均图书和计算机费用”、“生均设备费用”等3项,占总权重的30%,其中,人力资源占10%,物资资源占20%;过程指标有“生师比”1项,占总权重的10%;输出指标有“学生满意度”、“科研评价”、“获得第一学位或更高的第二学位的学生比例”、“毕业生去向”、“毕业率”等5项,占总权重的60%。定性指标有“学生满意度”和“科研评价”2项,占总权重的30%,其余为定量指标。相对量指标超过85%,反映科研的指标只有“科研评价”1项,占15%。
3.加拿大《麦克林》大学排行评价指标体系
《麦克林》的排行是加拿大比较权威的大学排行。目前,该排行榜的指标体系由6个一级指标、23个二级指标构成。《麦克林》把大学分为基础类大学、综合类大学和医学博士类大学,三类大学的排行评价指标略有不同。(见表2)
在该排行榜中,输入指标有“新生高中成绩”、“平均成绩在前75%的学生数量”、“外省新生比例”、“博士学位的教师比例”等16项,约占总权重的55%,其中,人力资源约占21%,物资资源占24%;过程指标有“低年级班级规模”、“高年级班级规模”等3项,约占总权重的17%;输出指标有“声誉调查”、“校友捐赠”、“保持率”等4项,约占总权重的28%;反映科研的指标只有“声誉调查”1项,占16%。
四、国内大学排行评价指标体系
1.广东管理科学研究院大学排行评价指标体系
1993年,广东管理科学研究院以武书连为首的课题组在《广东科技报》上公布了中国大学1991年研究与发展的前100名,这次排名属于科研单项排名,以成果为主,投入产出比为辅,共涉及25项指标。1997年,指标调整为42项,并以“不同类型大学的科研人员平均具有相同创新能力”作为假设基础。2000年开始引入人才培养评价,以人才培养和科学研究为一级指标,建立了23个二级指标。2001年,该指标体系又做了重要调整,将二级指标体系改为三级指标体系,形成2个一级指标、4个二级指标、24个三级指标(见表3)。之后基本稳定下来,只做过一些小的增删与权重调整。2002年,用“不同学科的科研人员平均具有相同创新能力”的科学假设取代了“不同类型大学的科研人员平均具有相同创新能力”的科学假设,将大学分为四类:研究型大学、教学研究型大学、教学型大学、专业型大学。2003年,又对大学进行了重新分类,分为研究型大学、研究教学型大学、教学研究型大学和教学型大学。2004年,不再将专科生得分计入总得分。2005年,增加本科生质量指标,权重为20%。
从2001年的评价指标体系来看,全部为输出指标、绝对量指标、定量指标,人才培养与科学研究的权重分别为57.09%、42.91%。在科学研究中,自然科学研究的权重为34.74%,是社会科学研究(8.17%)的4倍,如此重理轻文的比例遭到很多学者的批评。[3]
2.网大的大学排行评价指标体系
网大从1999年开始发布中国大学排行榜,至今已发布了8个排行榜。1999年的大学排行评价指标体系只有4个一级指标:“学术”(50%)、“新生质量”、“师资”、“科研经费”,6个二级指标:“学术声誉”、“学术论文”、“新生高考平均成绩”、“有副教授及以上职称的教师与教师总数之比”、“生师比”、“科研经费总和”。2000年的大学排行把重点大学和非重点大学依据不同的评估指标体系进行分别排行。重点大学排行评价指标体系有6个一级指标:“学术声誉”、“学术地位”、“学术成果”、“学生情况”、“教师资源”、“物资资源”,14个二级指标。非重点大学排行评价指标体系与重点大学排行评价指标体系相比,少了“学术声誉”这一指标,其他指标均相同,只是各项指标的权重略有不同。2001年以后的大学排行不再区分重点大学和非重点大学,一级指标基本沿用2000年的重点大学排行评价指标,只是名称有些变化。2002年,将“学术地位”改称为“学术资源”。2003年,将“学术声誉”改为“声誉”,排行榜的声誉调查,从过去几年纯粹的学术声誉扩展到综合声誉。二级指标及权重的变化见表4。
资料来源:根据网大资料整理而成。http://www.netbig.com/
从表5可以看出,2001年以后,网大各类指标的权重基本稳定,只是相对量指标、绝对量指标和混合类指标的权重有些差异。“学术成果”指标在2001—2003年取人均值,2004年以后改为“人均+总量”;“学术资源”指标在2001—2002年取总量,2003—2005年以“每千名学生拥有量”计算,2007年以“对本科学位点比例”计算;“科研经费”指标在2001—2003年取人均值,2004年以后改为“人均+总量”;“图书量”指标在2001年取人均值,2002年以后改为“人均+总量”。
五、几点结论
1.从输入指标/过程指标/输出指标来看,《麦克林》以输入为主,《美国新闻与世界报道》、《泰晤士报》和网大的排行以输出为主,广东管理科学研究院的排行指标全部为输出指标。各个排行榜都比较忽视过程指标,只有《麦克林》在这个指标上达到17%,《美国新闻与世界报道》为9%,《泰晤士报》为10%,网大为2%。在输入指标中,《美国新闻与世界报道》和网大比较重视人力资源的投入,《泰晤士报》和《麦克林》比较重视物资资源的投入。从输出指标来看,在国外大学排行评价指标体系中,对毕业生质量的评价约占总权重的20%,而我国大学排行还缺乏对毕业生质量的评价。比如在广东管理科学研究院的评价指标中,以培养的学生数量来代替学生质量,完全没有考虑学生的毕业率和毕业去向等反映人才培养质量的指标,这样的评价容易诱导大学盲目扩张。另外,《美国新闻与世界报道》和《麦克林》均给予校友捐赠5%的权重,国内大学排行没有这项指标。
2.从相对量指标/绝对量指标来看,国外排行榜以相对量指标为主,广东管理科学研究院几乎全部都是绝对量指标,网大的指标比较均衡,混合指标占34%,既考察总量,也考察平均量。
3.从教学指标/科研指标来看,国外大学排行重教学轻科研,国内大学排行评价指标中科研指标比重偏大。《美国新闻与世界报道》反映科研的指标只有“同行评议”1项,占总权重的25%;《泰晤士报》反映科研的指标只有“科研评价”1项,占总权重的15%;《麦克林》反映科研的指标只有“声誉调查”1项,占总权重的16%。“这并不意味着科研不重要,而是因为科研活动和科研成果是较难精确地加以品评的。”[4]所以,国外大学排行一般只以“声誉调查”来反映科研水平。而在我国,广东管理科学研究院反映科研的指标有18项,占总权重的42.91%;网大反映科研的指标有11项,占总权重的60%以上。造成这一现象的可能原因有二:一是我国早期的大学排行几乎都是科研成果的单项排行,这种重科研的传统在短时间内难以根本转变;二是我国大学排行的目的主要在于引导大学的发展方向,特别是在当前我国高校致力于建设世界一流大学的背景下,科研作为世界一流大学的核心指标,自然受到偏爱。
4.从定量指标/定性指标来看,《美国新闻与世界报道》和《泰晤士报》的定性指标权重比较高,分别为25%和30%,《麦克林》和网大为15%左右,广东管理科学研究院没有定性指标。
六、需要讨论的几个问题
1.大学排行需不需要进行声誉调查
在各个大学排行评价指标体系中,声誉调查所占的比重差别很大。《美国新闻与世界报道》占25%,加拿大《麦克林》占20%,中国网大占15%,《泰晤士报》和广东管理科学研究院则没有声誉调查这一项。那么,中国大学排行到底需不需要进行声誉调查?一种意见认为,声誉调查不透用于目前的中国国情,因为,我国在20世纪中期和末期的两次大调整,使不少学校名不副实;几十年的计划经济的封闭性,大多数以行业冠名的学校不易被人们所了解;不少学校的隶属关系变换太多,使人们无法了解。[5]另一种意见认为,学校声誉是一个相对模糊的概念,但这种相对的“模糊”也许更本质更准确地反映了一所大学的地位和影响。[6]一所大学最核心的部分往往是管理水平和办学特色及凝聚力等软指标,这些软指标不可测量或难以量化,只能概括地定性描述,因而对大学评价时,定量指标与定性指标同样重要。[7]
进行声誉调查是大学排行的一种趋势,它可以有效弥补定量研究的不足。虽然这一主观性指标会受到诸多因素的影响,特别是社会诚信环境的影响,但是,我们不能等条件成熟了再开展这项工作,而应该充分发挥大学排行的导向作用,使社会公众对大学质量和办学水平有更全面的认识。当然,为了尽量减少主观误差,应该扩大声誉调查的范围。目前,网大虽然已经开展了声誉调查,但调查的范围仍然比较小,而且回收率很低。
2.大学排行需不需要对学生进行满意度调查
学生是学校产品的直接消费者,他们对大学办学水平和质量的感受最直接,也最准确,因此,在大学排行中理应对学生进行满意度调查。但是,在上述几个排行榜中,只有《泰晤士报》设立了这项指标,并且给予15%的较高权重。其他排行榜均忽略了这项指标。笔者认为,将学生满意度纳入排行指标中,至少有以下好处。一是可以弥补现有排行指标中过程指标不足的缺陷。学生满意度涉及学生对学校教育方方面面的感受和体验,具有评价面广的特点。二是与声誉调查互相补充。声誉调查侧重于对大学科研水平的模糊评价,学生满意度调查侧重于对大学教学过程和水平的模糊评价,在一定程度上解决了目前排行中教学质量评价难的问题。三是可以使大学排行为学生服务的目的更加凸显出来。学生选择学校不仅看重学校的师资水平、科研实力,更看重自己能否在学校中获得愉快的学习体验,而学生满意度最能反映学生在校的学习和生活状态。
3.如何保证大学排行评价指标的信度和效度
信度和效度是大学排行评价指标体系的生命线。方海明以2005年广东管理科学研究院大学排行的前100所大学作为样本大学,然后分别采集了广东管理科学研究院、网大关于样本大学2001—2005年连续5年发布的评价排名的数据资料,用SPSS软件分析两个排行榜之间的拟合度,结果发现:2001—2005年的相关性分别为0.711、0.632、0.683、0.674、0.719,说明二者之间的拟合度并不高,而且样本越靠后,两个排行榜的排名差异越大。对两个排行榜的稳定性进行统计分析,结果显示:2001—2005年相邻两年的相关性,广东管理科学研究院分别为0.750、0.880、0.915、0.912,网大分别为0.823、0.867、0.899、0.895,在0.01置信度水平均达到了显著性水平(见表6、表7),说明两个排行榜的排名均保持了一定的稳定性。但是,2004—2005年的相关性比2003—2004年有所下降,再结合两家机构近年来相邻两次排名变动幅度较大的个案分析可以看出,大学排行的稳定性还不够。[8]严燕、耿华萍以2003年广东管理科学研究院大学排行榜前100名的大学与其在网大中的排名相比时发现,名次差距在20名以上的占了总数的36.4%,其中在60名以上的还占了近十分之一。[9]这些都说明,我国大学排行评价指标体系还存在不少缺陷。
**Correlation is significant at the.01 level(2-tailed).
提高大学排行评价指标体系的信度和效度,可以从以下几个方面着手。第一,增强指标的可比性。大学排行实质上是一种比较性评估,既然是比较,就得考虑评估对象的可比性,不能用同一把尺子来衡量不同的事物。因此,在排行之前先要对大学进行分类,然后考虑哪种类型的大学可以选用哪些指标。目前,网大的大学排行没有对大学进行分类,广东管理科学研究院虽然对大学进行了分类,但是设计的指标和权重都是相同的。这可以说是很多学者质疑国内大学排行的主要原因。另一方面,要考虑指标的涉及面问题。比如:网大指标中有“两院院士”、“长江学者特聘教授”等指标,这些指标更适合于少数的大学,对于地方性普通本专科学校没有什么意义。[10]第二,考虑指标之间的均衡性,包括教学与科研的均衡,不同学科之间的均衡,输入指标、过程指标、输出指标的均衡,相对量指标与绝对量指标的均衡,定性指标与定量指标的均衡。第三,既要保证核心性指标不被遗漏,又要减少重复性指标。比如毕业生质量是衡量大学办学水平和质量的核心性指标,但我国大学排行评价指标体系中却缺少这一指标,要么以毕业生数量来代替毕业生质量,要么以生源质量来代替毕业生质量。而在网大指标体系中,“声誉”、“学术资源”、“学术成果”这3个指标中,就存在指标重复问题。
4.如何处理指标的“时效性”问题
大学的办学水平和质量是长期积淀的结果,那么,评价现在的大学水平,究竟从哪个时间段开始计算呢?在上海交通大学的“世界大学学术排名”中,“获诺贝尔奖和菲尔兹奖的校友的折合数”、“获诺贝尔奖和菲尔兹奖的教师的折合数”这两项指标采取对不同年代的获奖赋予不同的权重,每回推10年权重递减10%;“平均每年发表在Nature和Science刊物上的论文折合数”则以5年为时间限制,即只计算过去5年发表的文章数量;“被科学引文索引(SCIE)和社会科学引文索引(SSCI)收录的论文数量”以1年为时间限制,即只计算过去1年被SCI收录的论文。《泰晤士报高等教育副刊》世界大学排名强调根据大学的当前实力作出评估,或至少根据大学最近发表的统计数据进行排名,而反对直接把大学的历史荣誉纳入评估指标中,如诺贝尔奖获得者人数等指标。网大和广东管理科学研究院一般选择排行前一二年的数据进行统计是否合理,目前还没有人能给出明确的答案。看来,如何处理指标的“时效性”问题,依然是大学排行的一个难题,还有待于进一步的研究。