大学吸引力的显示偏好排名,本文主要内容关键词为:吸引力论文,大学论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
中图分类号:G642 文献标识码:A 文章编号:1673-7164(2008)10-0077-08
一、引言
随着大学招生人数增加,上大学相对更加容易了。但是大部分家庭在第一个孩子进入大学学习时,面临如何在众多的招生学校中选择自己喜欢的大学的问题。大学排名对于学生和家长了解大学的声誉、特征都有巨大的帮助。目前影响较大的排名机构有三家,分别是网大有限公司、中国管理科学研究院和中国校友会网,但这些排名还没有得到广泛的认可,指标计算的数据也没有公开。① 虽然每个排名有不同的指标体系和权重,有些排名也涉及到学校的声誉,但都没有学生和家长最关心的关于学校吸引力大小的指标。
我们根据中国高考录取机制的性质,提出了一个估计中国大学吸引力的显示偏好排名模型。基于显示偏好的大学排名度量的是学生或者家长眼里的学校吸引力,这个吸引力可能反映了学校的质量,但也不完全是学校的质量。对于什么是大学的质量,不同的人会有不同的看法。对于相同的大学特征,如声誉、师生比例、科研经费、地理位置、校园环境等,学生和家长、教育管理机构甚至普通的大众,对这些因素的权重可能都有自己的看法。我们构建的显示偏好的排名,就是这些意见的综合,反映了人们看法中的一致性因素。
基于显示偏好的学校吸引力排名综合了所有考生的选择中所包含的信息,对考生和家长了解其他人的看法具有实用价值。考生和家长们为什么要了解其他人的看法,Avery Christopher等人提供了三种解释:第一,在大学教育中,和什么人在一起学习是很重要的。见贤思齐,学生不但关心学校的质量,也关心和自己在一起的学生的情况。第二,每个考生对于学校也有各种各样的信息,但是考生明白自己的信息可能是不完全的,通过了解其他人的看法和行动,可以弥补自己信息的偏差。第三,考生可能通过选择不同的学校来显示自己的能力,这就是教育的信号甄别功能。②③考生通过学校的选择来显示自己不同凡响的能力,在均衡状态时,清华大学录取的考生和江南大学录取的考生有着不同的能力。在中国的招生制度下,家长关心其他人的选择和偏好还有第四个原因:了解其他人的偏好便于考生填报志愿,协调到均衡结果。
在中国,考生是按照分数和对学校的偏好(志愿)根据高考录取制度统一录取的。在出分填报志愿时,高考录取的结果等价于把所有考生按分数从高到低排序,每个考生依次从可选择的学校中选择他最偏好的学校录取。不同分数的考生有不同的可选择范围,分数最高的学生可以选择所有的招生学校,而分数低的考生选择范围小。通过考生的选择和录取的格局,可以推断学校吸引力的分布情况。
二、概率模型
(一)大学的吸引力
为了进行大学排名,我们必然假设每个大学有一个隐含的表示大学吸引力的变量,我们可以根据吸引力的大小来给大学排名。虽然不能观测到这个吸引力,但是可以估计出它的数值。大学的吸引力由多方面因素构成,如大学的声誉、教育质量、专业、学校位置、学费、学术资源等。我们不需要知道这些特征如何构建出大学的吸引力,仅仅假设学生是根据学校吸引力的大小一致地行事。
构建这个显示偏好吸引力排名,也不需要假设所有学生对学校的吸引力有相同的看法。每个考生对于学校吸引力的看法可以在一个均值周围分布。如果所有的考生对学校吸引力的看法一样,考生的表现就会完全相同,但这并不存在。我们假设每个考生对学校吸引力的看法都有自己特异的因素,正是考生不同的看法造成了学校在争夺学生时互有胜负的模式。显示偏好排名还有另外一个好处,就是并不需要真实存在一个潜在的吸引力排名,如果在考生和家长心目中不存在普遍一致的对学校吸引力的看法,这种方法估计出来的排名就没有一致性。可以设想,如果每个考生对于大学的偏好都是随机的,最后得到的录取结果就没有任何模式,各个学校的输赢也是随机决定的,不存在一个显然的模式。但是,不管学生如何形成自己的偏好,只要在他们之间存在共同的模式,那么显示偏好排名就可以把这些系统性的因素显示出来。
(二)考生录取的多元比较问题
大学排名问题可以从多元比较的框架来看。当考生选择学校填报时,根据他的分数,他在当时仍然招生的学校进行选择。这时,所有学校就在进行一场竞争。考生从每个可以选择的学校的吸引力分布中进行抽样,得到他对所有可选择学校的个人评价,评价最高的学校就会被考生作为入学学校,这个学校就赢了竞赛。如果不存在学生个人兴趣干扰的因素,赢了竞赛的学校比其他学校受欢迎就是一个合理推断。根据所有学生的录取结果,得到了每所学校获胜的场次,汇总所有考生的信息,就可以估计学校吸引力的情况。
多元比较统计模型文献主要讨论两两比较模型,在每次竞赛中只有两个选手参与,如国际象棋、球类比赛等。这类文献被广泛研究和应用,已经有大量的关于如何从竞赛记录推断国际象棋棋手能力高低以及对于球队排名的文献。在两两比较模型的文献中,根据分布的不同,有两类最为常用的模型假设。一类是Bradley- Terry模型,假设分布是第一类极值分布。在这个假设下,二元比较模型中就会导出Logit模型。另一类常用的分布假设是正态分布,这就是Thurstone- Mosterler模型。在实际中的两两比较数据时,这两种模型得到的结果没有太大的差异,利用第一类极值分布假设的模型更容易处理和计算。④ 在Avery等人研究美国大学排名时就是利用这个分布,我们也使用这个分布假设。需要说明的是,这里的极值分布或者正态分布假设,是考生对单个学校的吸引力个人看法的概率分布假设,不是对于所有学校的吸引力的分布假设。
(三)模型设定
通过考生的选择,可以估计出学校吸引力的参数,进行吸引力的排名。如果既想知道学校吸引力的相对大小,也希望知道这种吸引力排序真实的概率,这可在Bayesian方法的框架下估计,可以从参数的后验分布中得到这个分布中感兴趣的信息。在Bayesian方法中,参数的后验分布函数是似然函数与先验分布函数乘积的一个常数倍数。对于参数的先验分布,我们假设服从近似均匀分布,各个参数的先验分布是独立的。这些先验分布由几部分组成:
这里,提向量δ的第k个分量。这个先验分布也是Avery等人使用的先验分布。
从学校吸引力的后验分布中我们可以得到需要的信息,估计了后验分布的均值,作为吸引力排名的指标。如果学校i吸引力的后验均值大于学校j吸引力的后验均值,则学校i的排名在学校j之前。对于例如“排名第9的学校和排名第10的学校的吸引力真的有显著的区别么”这类问题,我们就不能仅仅比较吸引力的点估计。我们使用Markov Chain Monte Carlo(MCMC)方法从后验分布抽样来回答这类问题。MCMC可以从(,)后验分布中进行抽样,“大于”的概率可以利用抽样数据中“大于”的比例来估计。这种比例类似于统计中95%的置信区间,如果这个比例是95%,就比一个46%的比例更有理由相信排名第9的学校的吸引力大于排名第10的学校的吸引力。
在执行MCMC算法时,所有参数的初值都设定为先验均值。然后,从每个参数的后验条件分布中依次进行抽样,一直到所有参数的分布都稳定下来,我们就认为达到了稳定分布,把以后的抽样认为是来自参数的后验分布,可以使用WinBUG软件执行MCMC。在10000次迭代之后,我们又进行了30000次迭代。根据模拟数据的轨迹图(trace plot),10000次的burn- in足够稳定了。为了减少自相关性,我们利用之后的每隔5次迭代的观测作为抽样的值。这样,每个参数就有6000个抽样观测值。利用这些观测值,我们计算了每两个学校两两比较时吸引力排名在前的学校胜出其后的学校比例。
三、高考录取的性质
从前面的概率模型中发现,如果知道考生的选择范围和最终录取学校,就可以估计出学校的吸引力。这一节主要讨论如何利用高考录取机制的性质确定考生的选择范围。
中国的高考录取机制是一个按照分数分配入学资格的统一录取体制,大学只是供所有考生按照分数分配的公共品。高考录取的特点是“志愿优先,相同志愿看排序高低”。聂海峰证明,在中国高考出分报考的录取机制下有唯一的一个均衡结果,这个结果是分数公平的。⑤ 分数公平使得录取结果具有如下的结构:每一个学校都有一个最低录取分数线,如果一个学生的分数高于一个学校的录取分数线,那么他的录取学校不会比这个学校差;同时,如果一个学生被一所学校录取,那么他的分数一定不低于这个学校的录取分数线。这样,根据每个学校的最低录取分数线,就可以知道哪些学校在考生的选择范围里。这样,根据考生的分数和每个学校的最低录取分数,就可以计算出考生的选择范围。
高考录取机制的细节可能有些影响。在实际考生填报的志愿中,不仅有考生对学校的偏好也有考生对学校内部的专业偏好。考生在填报志愿时,可能会面临“好学校但专业一般”和“一般学校但是专业较好”的选择。我们这里没有区分专业的影响,因为即使在学校内,专业的分配是以考生的分数高低来分配的,整个学校可以作为一个整体。当然,学校招生专业会影响学校对考生的吸引力。在各高校分配给各省招生计划时,在不同的省录取不同的专业,因此学校的招生专业也影响一个学校在省内吸引力的排名。下面使用浙江省文科的招生数据,构建一个地区的排名。对于这个地区的所有考生来说,面对的是同样数量的专业。学校的招生人数也会影响学校对考生的吸引力,因为招生专业过少导致招生人数过少,在报考时可能会影响选择考生的选择。招生人数太少的学校可能会由于人数不足产生较大的偏差。因此我们在估计显示偏好排名时,去掉了招生人数过少的学校。
计算考生选择范围时,我们使用的是均衡的等价性,是对实际录取结果的一阶近似。非第一志愿的学生可能会对结果产生影响。有些学生第一志愿的学校没有被录取,通过调剂录取,这使得实际录取的结果可能不是考生的真实志愿,但是考生若可以调剂,则表示对于调剂志愿是无差异的,因而不会太干扰估计的结果。有些学生由于担心第一志愿落空,会在第一志愿选择时选择一个安全的学校,而他的考分很高,这可能导致高估了最后录取他的学校的吸引力。调剂录取和二次填报志愿引起的偏差,对不同的学校有不同的影响。最低分数线较高和最低的学校不受影响,只是在吸引力相同的学校之间可能存在吸引力的偏移。由于实际的录取制度使得高估和低估某些学校都有可能,因此这两种效应可能会互相抵消。这些因素的存在可能会使得排名在中间并且吸引力接近的学校之间吸引力排名的可靠性降低。我们下面使用第一批录取学校的数据,每个学校都有很高的第一志愿满足率,这可以减轻这些因素的影响。
四、数据
我们用来构建学校吸引力排名的数据是执行出分填报录取的浙江省2004年第一批录取中文科学校的录取数据。数据来自全国高等学校学生信息咨询与就业指导中心主持的网站——中国高等教育学生信息网(http://www.chsi.com.cn)提供的收费服务:高考填报志愿综合参考系统,该系统的数据由教育部高校学生司提供。考生录取信息包括考生的考分、录取学校、录取专业、考试类型(文科、理科)。由于文理科是分开录取的,我们这里只使用了全部文科考生的数据。2004年全国有22所大学可以自主招生,自主招生名额独立于高考统一录取额,考生仍需参加高考,但可以低于投档分数线20分录取。因此我们采用的学生数据中去掉了录取分数低于投档分数的考生,减少自主招生的影响,这样,最后共有考生4021人。
考生信息的简单统计综合在表4-1中。学生的平均分600.64分,而考生入学学校最低分平均是587.4分。考生入学学校的最低分是数据中学校录取的所有考生分数的最低分,这不同于后面提到的学校投档线。投档线是招生办公室向学校提供第一志愿的考生的控制分数线,提交的名额多于学校的计划人数,因而得到的入学最低分高于学校的投档线。可以看到,学生平均分数都高于学校平均的最低分数13分左右,每个考生的可选择余地较大。
利用每个学校的最低入学分可以确定每一个考生可选择学校的集合。首先给定这个考生的分数,然后对照所有招生学校的最低入学分数,如果考生的分数高于学校的最低入学分数,就表示考生可以选择这个学校。从表4-1中可以看到,文科考生选择范围的平均数是82.18所,而全部文科学校是104所。每个考生平均可以选择80%的所有招生学校入学,有很大的选择余地。
控制学费、距离等因素可以减少吸引力估计的偏差。根据浙江省高等院校招生委员会办公室编制的《浙江省2004年普通高校招生考生手册》可以得到考生入学学校各专业的学费和学校所在地。考生与学校的距离是杭州市到学校所在城市的火车里程,从2004年铁路里程表中可以得到。对于在杭州市内的大学我们把里程计为0。浙江省省内的城市距离用中国地图出版社编制的地图册上的公路里程数。两地间没有直达的火车使用省会城市作为中转站,东北的城市如果没有直达火车则使用北京作为中转站。每个考生被实际录取学校的学费是考生录取专业的学费。对于考生选择范围内其它学校的学费,我们使用这个学校所有专业学费的平均数作为考生可能的学费数。
考生距离学校的平均距离为700公里,第一年学费平均为5600元。学校距离反映了学生入学的交通成本。学费作为入学学习费用的替代,由于我们没有住宿费用的数据,且在实际录取中,一些学校对于报考学生有各种奖励,因此学费不是入学学习的净成本。因为我们不知道录取学生的身份,因此也无法确定各种奖励。但这些学生仅是一小部分,对改变估计结果的作用不大。从表4-1也可以看到,文科考生有45%被省内学校录取,46%的考生被“211工程”的大学录取。
表4-2中包含了录取学校的招生计划数和专业数的信息。浙江省2004年第一批录取的学校有162所,其中文科招生学校120所,但是16所在网站上没有学校的文科录取数据,这16所大学的投档分数线平均为577.8,略高于文科最低录取分数线576分。而所有文科的平均投档分数线是583.1分。参与排名的文科学校有103所,平均录取人数为38.7人;录取人数最多的为391人,最少的为6人。文科学校平均录取39人,也就是说在争夺生源的竞赛中,平均意义上每个学校胜利了39次。文科录取专业平均数是8.5个,录取专业数最多的学校也仅22个。文科专业差距较少,因而“好专业和好大学权衡”的因素不大,吸引力的排名更多地反映了学校吸引力的因素。
五、结果和解释
用2004年浙江省第一批录取的文科数据进行学校吸引力显示偏好排名,只是我们模型的一个应用。首先,这里的排名是一个地方性的排名;其次,这只是所有文科考生对所有在浙江招收文科考生的学校吸引力大小的排名。在浙江省第一批录取的所有考生中,文科生有4000多人,这里估计的学校吸引力就是这4000余人的选择行为所包含的信息。如果有足够的资源得到全国学生的录取数据,我们可以构建出这些学校在全国的吸引力排名。
我们在表5-1中仅列出了前50位学校的吸引力的估计。第一批录取的学校是重点大学和浙江省一些地方学校,以重点大学为主。从表5-1中我们可以看到目前重点大学吸引力的格局,北京大学作为文科的领袖地位是不容置疑的,北京大学、清华大学和中国人民大学组成第一梯队,他们的吸引力远远领先于其他大学。吸引力排名前10位的大学依次是北京大学、清华大学、中国人民大学、浙江大学、西南政法大学、华东政法大学、复旦大学、中央财经大学、南开大学、南京大学,这些学校都是教育部直属高校。如果以10名为一组,在第一组中,排名第1的学校和排名第10的学校相差很大;而在第二组中,吸引力的差距就小了很多,其后得分差距都不大。随着排名的降低,各学校吸引力之间的差距减少,表明这些学校有着相似的吸引力。从表5-1中可以看到其他控制的变量符号是显著的,虽然有些变量不显著。“学费”和“是否是省内大学”的变量不显著,但是其他条件不变,学生愿意选择交通成本少的大学。在重点大学中,“211工程”大学对于考生格外具有吸引力。
注:1.由于篇幅限制,我们仅列出了排名前50的学校及其得分;也列出了控制变量系数的估计,括号中的数字是标准差。
2.由于模型的性质,吸引力之间有差距才有意义,并且我们不能估计出所有学校的吸引力;我们把浙江万里大学的系数标准化为0,因此估计的吸引力系数中有负数。
前面也提到,不同的大学招生专业不同,专业的吸引力也影响学校的吸引力。从表5-1中可以看到,浙江省本省的一些大学排名很靠前,这是因为这些学校是分批次招生的,他们在不同批次录取不同的专业。因此,这里的吸引力是这些学校的招生专业在第一批次学生眼里的吸引力,并不是这些学校的综合吸引力。很显然的,当学校的排名靠后时,考生对学校吸引力看法的一致性会降低;另一方面,排名位于中间的学校之间的吸引力接近,使得吸引力的区分度降低。由于录取的性质,学校吸引力的差距只反映了平均意义上的差距,只是吸引力的点估计,即使列出吸引力的方差也并不能很好地说明吸引力排名的差异情况。
我们可以从学校吸引力的后验分布抽样,比较排名在前的学校吸引力大于排名在后的学校吸引力的比例,提供一个对表5-1中吸引力排名可信度的概率估计。这个比例类似于一个置信概率,如果比例是95%而不是40%,更有理由相信这个排名是可靠的。抽样结果显示,在排名第1的北京大学和排名第2的清华大学的吸引力的后验分布抽样比较中,每一次都是北京大学的吸引力大于清华大学的吸引力,因而比例是100%。和其他大学吸引力作比较时,“北京大学的吸引力更大”的比例也是100%。后验分布抽样中,排名第2的清华大学的吸引力超过排名第3的中国人民大学的次数比例是95%,超过其他大学的概率则是100%。中国人民大学的吸引力也以95%的概率超过其他对手。在文科前20名中,其后5位可以使得比例达到90%以上。但是在20名内,浙江工商大学、浙江师范学院和宁波大学的胜出概率远低于排名附近的学校。这可能是由于这些省内学校吸引力优势不明显所致。在20名以后,考生对于学校吸引力的看法也逐渐不一致,为了达到90%的比例需要进行比较的学校的排名已经迅速下降到20位以下。这意味着,吸引力排名前三位的学校显然超过其他学校,前20名的学校和其后5位之间的学校的吸引力统计上都不显著;20名之后的学校,吸引力在统计上都不显著,可以认为是在一个档次上的。
可以看到招收文科考生的学校的吸引力分布情况:北京大学、清华大学、中国人民大学、浙江大学、南开大学、南京大学、复旦大学、中山大学、厦门大学这些综合类大学的吸引力位于前列,尤其以北京大学为翘楚。在这些老牌传统名校之后,其他大学的吸引力近似,属于类似的层次。
六、总结
本文展现了如何通过高考录取结果来计算招生学校的吸引力显示偏好排名。显示偏好排名使用的数据是公开可得的,可以给家长和考生提供关于学校吸引力的精确信息。文中一些学校的显示偏好排名可能和许多人心目中的排名不一致。要指出的是,这是浙江省文科考生对于招收文科考生的学校的显示偏好排名,学校的吸引力也和学校投放在浙江省的专业有关。由于现在许多学校大量招收本省学生,投放在外地的专业指标未必有吸引力,因此可能和本省的录取偏好不一致。这里的排名只是一个地方性的排名。由于有些理科类的学校仅招收理科考生,这并不是说这些理科类学校的吸引力就比本文所列学校的吸引力差。
除了估计各学校在考生和家长心目中受欢迎情况,模型也可以用来帮助考生评价在填报志愿时不同填报策略的风险情况。在考后报考时,考生的分数决定了考生在所有学生中的位次。考生能否被一所学校录取,要看分数高于该考生的人数是否多于学校的计划招生人数。根据本文估计的学校吸引力的情况,可以模拟不同分数考生对学校的评价和选择,计算出每个分数的考生可以被每个招生学校录取的概率,使用这个概率,就可以评价每个考生填报不同志愿时被录取的概率。
最后,本文再次强调,此处的显示偏好排名只是基于考生和家长的选择得出的学校吸引力的测量,并不必然就是学校质量的反映。
注释:
① 搜狐.盘点1987-2005中国大学排行榜[EB/OL].http://learning.sohu.com/20050221/n224361408s.shtml,2005-02-21.
② Christopher Avery,Mark Glickman,Caroline Hoxby,Andrew Metrick.A Revealed Preference Ranking of American Colleges and Universities[Z].NBER working paper W10803,2004.
③ Hal Stern.Are All Linear Paired Comparison Models Empirically Equivalent?[J] Mathematical Social Sciences,1992(23):103-117.
④⑤ 聂海峰.高考录取机制的博弈分析[J].经济学,2007,6,(3):899-916.