基于weka的高考志愿数据分析论文_郭莹

天津科技大学 经济与管理学院 天津 300202

摘要:高考向来都是每年社会都会关注的焦点, “填报志愿”也被人们称为“第二次高考”。填报一所心仪的大学是每一位考生以及家长所关心的问题,想上一所好的大学是要根据以往的数据统计以及高校的录取信息填报合适的院校,合理的分析数据,以增大被录取的几率。本文根据搜集到数据,利用数据挖掘软件对全国各大高校不同专业在天津所录取的情况进行分析研究。

关键词:数据挖掘;高考志愿填报;weka

高考不仅对考生的一生至关重要,也对社会具有很大的影响。随着科学技术的广泛普及,“数据挖掘”这个词慢慢的流行了起来,将高考志愿与数据挖掘结合起来进行研究。本文主要以搜集的大量数据为基础,使用数据挖掘技术对高考志愿数据进行深入的分析,可以帮助考生以及家长进行更理性的选择,为考生和家长提供一个参考。

一、高考志愿数据研究的意义

随着中国信息科技的发展,各行各业都需要不同的人才,高考作为每年社会的焦点是不可忽视的。如何根据考生自身的情况,选择适当的学校,以免出现错报,低报,高报等现象,提高报考的准确性,提高考生被录取的几率,是目前需要解决的重大问题之一。而数据挖掘技术作为近几年兴起的新技术,在数据处理方面起着重要的作用,但在高考数据方面的研究并不是很深。高考志愿的数据分析有着很重要的意义,在每年都新增的几百万条数据中,都蕴藏着丰富的信息,开发出这些隐藏的信息,无论是对考生还是对高校甚至对社会都有着重要的影响。因此,从逐年增长的大量考试信息中,挖掘出有价值的信息是十分必要的。本文的研究目标,就是依据数据挖掘技术以及weka对高考数据进行有效的分析,从而得到数据之间隐藏的信息和规律,对考生的填报提供参考意见。

二、数据挖掘的概念与高考考志愿分析的研究

数据挖掘,是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘涉及了计算机科学中的多个领域,在现实中也涉及到很多,比如:数据统计分析;情报数据分析;媒体数据分析等。数据挖掘相关的算法有:决策树算法;朴树贝叶斯算法;聚类分析算法;Aproori算法等。目前国内对于数据挖掘方面的研究主要是在大学阶段,它所涉及的研究领域很多,一般集中于算法以及数据理论方面的研究。

三、利用数据挖掘软件对志愿数据挖掘结果分析

根据本论文具体研究的观点从网上信息库中摘取了2013年-2017年的数据库。其中字段包括:学校名称,专业名称,学校地区,招生地区(天津市为例),文理分科,录取批次,录取平均分,省控线(天津市分数线),线差等。建立的志愿数据分析数据集,从不同的年份,不同的地域,分析同一专业所属批次和地域对招生地区的影响进行比较研究。分析天津市理工类本科一批和天津市理工类本科二批考生报考信息管理与信息系统这个专业在各个地域的录取平均分情况。如下图所示:

由上图可知,天津市理工科本科一批和本科二批对于信息管理与信息系统这个专业在各地域基本保持稳定趋势。本科一批中,华北地区的录取平均分几乎一直高于其他地区,而西北地区几乎处于最低位置,二者在2016年分数之差高达59分;与此同时,2014年各地区的分数总体降低,2015年各地区的分数总体升高。本科二批中,华东地区的录取平均分几乎一直高于其他地区,而华中地区几乎处于最低位置,二者在2016年分数之差达到35分;2015各地区的分数总体升高,2016年各地区的分数总体降低。

以信息管理与信息系统这个专业为例,本科一批和本科二批的分析结果差别比较大,倘若考生的分数线达到本科一批的批次线,第二志愿选择华北地区的高校,落榜的几率可能会比较大。反而,如果考生第一志愿为华北地区,而第二志愿避开了像华北,华南这类分数较高的地区而选择华东地区,西北地区等高校,则可供选择的范围也增大了许多,降低了录取的风险,提高了录取的几率。所以,考生在填报志愿时也应正确对待处理高校所在地域问题。

利用weka软件建模分析结果显示, Correlation coefficient(相关系数)为0.9978,表示学校专业,学校地区省控线等自变量与录取平均分之间有高度的线性正相关关系。Mean absolute error(绝对差值)为0.4329,表示测得值与平均值的偏差,偏差越小,精密度越高。误差所占百分比均少,表示精度高。

四、总结

如何填报高考志愿,增加考生被自己心仪的学校,专业录取的几率,是每一位考生和考生家长所密切关注的问题。本文所用的实验数据是从网上摘取的,与历届学者所写的论文研究的数据有一些差异,本文所作的研究,仅仅是从学者们的研究成果之上做以验证,研究因变量的角度稍微有些改变,对于往届学者们的研究还是有差距的。在使用数据挖掘软件的选择上也有不同,但是分析结果相似,今后可以选择一些其它数据挖掘的软件进行比较分析,在算法的选择上也可以尝试多个新的角度。

参考文献:

[1]殷员分.高考考生志愿数据分析与挖掘研究[D].重庆:西南大学,2010.

[2]杨浩杰.高考志愿填报的数据分析研究[D].开封:河南大学,2011.

[3]高妙飞.高考志愿选择行为研究[D]. 厦门:厦门大学,2007.

[4]刘金鹏.数据挖掘技术在考生志愿分析中的应用研究[D].开封:河南大学,2009.

[5]肖灿.数据挖掘系统支撑下的高考志愿填报在线咨询系统设计与实现[D].开封:河南大学,2012.

[6]HanJiawei,KamberMicheline.Data Mining:Concepts and Techniques[M]. San Fransisco: Morgan KauFmann,2001.740.

[7]Charu C Aggarwal,Philip S.Yu.Outlier detection for high dimensional data[J].ACM SIGMOD Record,2001,30(2):37-46.

论文作者:郭莹

论文发表刊物:《基层建设》2017年第8期

论文发表时间:2017/7/14

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于weka的高考志愿数据分析论文_郭莹
下载Doc文档

猜你喜欢