基于大数据的教育决策研究*
单 莹 1,杨圣洪2,朱承学3
(1.湖南省教育科学研究院,湖南 长沙 410005;2.湖南大学 信息科学与工程学院,湖南 长沙410012;3.湖南第一师范学院,湖南 长沙 410205)
摘 要: 文章从教育大数据的视角,探索教育决策系统的建设架构和思路,并提出通过加强教育大数据标准化建设、提高教育决策主体的数据素养、建立教育大数据共享融合机制、培养教育大数据复合型人才、健全教育大数据安全保障体系等途径建立基于大数据的教育决策优化机制。
关键词: 大数据;教育决策;支持系统
毋庸置疑,在所有教育管理活动中,教育决策是核心和关键所在。它不仅影响教育管理工作的效率和成效,更关乎小到学生、教师的个体发展,大到地区乃至国家教育事业的兴衰。在现今这个“自媒体”时代,教育由于关系每家每户、各色群体,也因此成为全社会关注的焦点和人人都可以谈论的热点——高考改革的一举一动、基础教育的备受诟病、地区差距及城乡差别带来的教育不均衡、农村教育与教师队伍的发展困境、学生的学习评价和教师的职业倦怠、学校的育人环境与校长的专业化……有关教育的任何一个决定、一条制度、一项法规,都有可能牵动无数人的目光,教育决策的环境变得前所未有的复杂,教育决策科学性、有效性的需求也日渐突出和迫切。
随着教育信息化的全面快速推进,海量的教育大数据为教育决策提供了充分的数据基础,而数据挖掘、商业智能、云计算、计算机模拟等信息技术的迅猛发展,又为基于教育大数据之上的智慧教育决策提供了有效手段。2014年3月,教育部印发的《2014年教育信息化工作要点》中提出:加强对动态监测、决策应用、教育预测等相关数据资源的整合与集成,为教育决策提供及时和准确的数据支持,推动教育基础数据在全国的共享。可见,告别“感觉”和“经验”,以数据驱动决策的能力已成为教育决策的方向和实践路径。
一、大数据和教育大数据
大数据这一词汇从2009年开始流行,2012年成为时代发展的一个重要趋势,2013年被媒体称为中国大数据元年。
教育大数据是大数据的一个子集,特指教育领域的大数据,是整个教育活动过程中所产生的以及根据教育需要采集到的、一切用于教育发展并可创造巨大潜在价值的数据集合。
教育大数据主要分成两类:宏观数据,如国家、各省市的教育年鉴;过程数据,如各学生、各科目、各过程环节的成绩,据教育部2017年统计数据(http://www.chyxx.com/industry/201808/664173.html)显示,当年全国中小学在校生总数为18560.7万人,其中中职在校学生1592.5万、高中在校学生 2374.5万、初中在校学生 4442.1万、小学在校学生10093.7万、特殊教育在校学生57.9万,如果按每个学生一年10门学科记录期中、期末、小考分数,按5门过程成绩记录,就有92.80亿条数据,按平均每条数据5K计算,可能需4640175×5K=4.425216万TB=43PB数据,如果再加上本科学生数据,将达到100PB的惊人数据量,多年累积下来,这些数据的存贮与利用就是大数据研究的范围。
二、基于大数据的教育决策支持系统建设
早期数据处理采用“数据挖掘技术”,寻找数据之间的相关性,如“啤酒与婴儿尿片”,当数据达到海量,传统的数据挖掘技术需与云计算、超级计算结合起来,不仅要在海量数据中找出规律,而且将这种规律用某种方式表现出来,并应用在新数据新问题中,这便是机器学习等人工智能技术,尤其基于深度神经网络的机器学习即“深度学习”技术,在AlphaGo与AlphaGo Zero战胜人类顶尖围棋选手后,这种技术已经成为业界追捧的技术,因此教育大数据的处理应采用机器学习等人工智能技术。
1.机器学习处理教育大数据的基本框架
第六步,模型效果评估。包括模型的ROC曲线、AUC面积、模型正则化、模型假设、超参数搜索等。
图1 机器学习建模流程
第一步,数据采集。把纸质的资料扫描为PDF形式,再把PDF形式转换为CSV文件,存储到云服务器上。
曾经陷入舆论风口浪尖,经历过雾霾事件的伦敦,通过政策、品牌活动等各种宣传手段,支持文化创意产业的发展,不仅重塑了城市形象,还成为引领世界创意潮流的创意中心,被称作“国际设计之都”
①Web服务器
第三步,数据预处理。包括Y变量标注、训练样本和测试样本的筛选、正负样本比例的调整以及哑变量处理等。
第四歩,特征选择。包括Filter和Wrapper两种特征选择,特征降维、特征提升。
第五歩,模型选择。包括模型选择、参数设置以及评估指标选择。
教育大数据处理的机器学习建模过程,一般分为七大步骤,分别是数据采集、数据清洗、预处理、特征选择、机器学习模型选择、模型效果评估和决策。如图1所示。
第七步,决策。把模型的输出概率转化为一个分数,对所有样本的分数进行区间统计,最后,选择一个分数阈值,把分数阈值以内的样本判断为坏样本,把分数阈值以外的样本判断为好样本。
心电图对心肌缺血等疾病的检查效果比较好,临床中常用的心电图有常规心电图和动态心电图,两种心电图对患者的心肌缺血诊断价值都非常高[1-2]。此次研究中我们就动态心电图和常规心电图的临床诊断效果进行了比较分析,根据研究开展以下报道。
2.教育机器学习的实例:教师教学与学生学习成效评价的机器学习
在教育大数据时代,将各学校、各教育的监控汇聚起来,将教学过程中教师板书、走动范围、教鞭、教具使用、形体动作、声音、语速、表情等言谈举止通过视频形体分析提取出来,将学生课堂表现——小动作、睡觉、全神贯注、互动情况等分析提取出来,还通过问卷调查等获取学习效果,通过机器学习,找出影响学习质量的因子。为此采用机器学习方法建立成效评价模型,确定关键特征,选择机器学习树模型,决策会反馈到数据采集阶段。此研究中最后采用随机森林和XGBOOST模型。基于机器学习方法的教师教学与学生学习成效评价模型如图2所示。
图2 基于机器学习方法的教师教学与学生学习成效评价模型
3.教育机器学习的实例:教育投入与教学质量成效评价的机器学习的研究
两个数据表:一个是mysql-文件信息数据表,记录用户的文件信息;另一个是mysql-任务信息数据表,记录用户的任务压缩包信息。
病例4 男性, 31岁。因“上腹胀痛7 d”,外院诊断重症AP,治疗后腹痛未改善,出现便血后转入我院。入院后检查发现患者符合AP诊断中的3项,但追问病史发现其发病前有明确不洁饮食史,自患病以来有腹泻症状,近期解暗红色稀水便。行胃镜检查发现胃黏膜广泛充血肿胀和较多脓性分泌物,并伴有地图状大小不一的较深溃疡,以胃体上段大弯侧明显,考虑局部穿透可能。行胃溃疡周围组织活检,组织质脆,咬检时有脓性分泌物溢出(图4),内镜下诊断急性化脓性胃炎。给予调整抗生素、加强抑酸和肠内营养等治疗后好转出院。
4.基于以上分析建立验证系统
(1)平台功能及模块
1) 卓越的可设计性。通过获取损伤结构的裂纹参数、载荷类型和实际工况进行设计方案定制。选择不同参数与力学性能的补片、胶粘剂,定制适用的修复工艺。采用最优化的修复方案来提高再制造修复结构的承载能力,恢复构件的力学性能,提升可靠性。
第二步,数据清洗。包括数据去重、字符串为空的统一标注等。
所谓科学素养,指的是具备基本的科学知识、运用科学方法的能力、掌握科学思维和科学思想,以及运用科学技术处理社会事务、参与公共事务的能力。按照国际标准,衡量一个国家是否进入创新型国家行列,这个数字非常重要。可以说,8.47%反映了我国公民对科学的理解、对科学技术的态度等内容的整体状况。相较于2010年的3.27%、2015年的6.20%,这个数字在一定程度上表明,经过近些年的努力,我国公民的科学素质更高了。
Web服务器,即平台前端,以Web浏览器的形式展现给用户。可以管理文件,包括上传、浏览、下载和删除文件。可以根据机器学习的建模过程,选择相应的脚本,创建一个任务压缩包,并储存起来。可以查看机器学习建模结果,浏览评估指标ROC曲线和AUC面积;可以依据自定义的评分策略做决策。
在中小零售企业建立需求锁定的过程中,要明确定位具体客户,并且全面分析成本结构和盈利能力等,有效建立健全完整的监督管理机制。相较于大企业,中小企业在资源配置和服务、品牌管理项目方面缺乏优势。因此,要进一步将核心关注点落实在客户沟通和交流方面,锁定需求后就要对目标客户进行针对性管理,强化优势的基础上亲近客户,从而了解客户的实际需求,确保能结合自身的经营特色建立差异化产品机制和服务体系,一定程度上提高客户的忠诚度。
在大数据时代,机器学习应用在智能教学和智能学习中,收集湖南省教育年鉴的数据,将教育在校舍基本保障、教师绩效、教师培训、信息化教学、学生竞赛等方面的投入,与九年义务制教育的比例、初中升高中比率、初中升高职比率、高中升本科比率、高中升高职比率、当地GDP之间的相关性等进行分析,通过机器学习建模,找出影响教育质量的因子,哪些是正相关,哪些是互相关,找出投入与产出之间的关系,即模型,以确定最佳的教育投入模式,如投“砖头”即校舍及设备的硬件投资、投“人头”即教师待遇之间的比例是多大最合适等。
②文件系统
文件系统可以是一个服务器,也可以是一个Hadoop集群,存储用户上传的或者执行任务返回的结果文件。
③Zookeeper调度系统
基于Zookeeper分布式开源系统搭建的调度系统,用于管理用户创建的机器学习任务,并对相应的任务进行调度。
负荷加载分析(Loadings)与PCA分析是相关的,基于同一种算法,区别在于Loadings分析是针对电子鼻传感器贡献率进行研究。电子鼻共有10个传感器,不同传感器可以反映样品中挥发性气味的响应值,传感器数值离原点越远,说明该传感器识别能力越强,反之则越弱。由图2可知,在第一主成分中,W1W传感器识别作用最强,其次是W2W传感器,这2个传感器与其余传感器相比,距原点的距离明显较远,识别能力强。在第二主成分中,W5S传感器距原点距离明显远于其余传感器,综合来看,W5S、W1W、W2W传感器对9种辣椒品种的辣度评价起到了主要作用,这与图1中的辣度均值分析结果相吻合。
④任务执行集群
是一个服务器,也可以是基于Spark搭建的集群,用于执行用户创建的机器学习任务。
(2)基本架构,如图 3所示
图3 平台基本架构
(3)基本架构中的逻辑关系
从教学管理的角度,收集每位学生、每科的各种过程数据,如入学考试、期中、期末、各种小考,小升初比率、初中升高中比率、初中升高职比率、高中升本科比率、高中升高职比率,各种竞赛获奖的情况,还有关于教学效果的各种问卷调查等,通过机器学习找出教学行为与学生学习效果正相关的因素。
①用户上传文件,增加文件信息到mysql-文件信息数据表;用户选择机器学习处理脚本,创建机器学习任务压缩包,存储任务压缩包,增加压缩包信息到mysql-任务信息数据表。
②Zookeeper调度系统扫描mysql-任务信息数据表,发现有未执行的任务;根据任务相关信息从文件系统下载文件数据和从Web服务器下载任务压缩包。
③Zookeeeper调度系统根据mysql-任务信息数据表的相关信息,安排相应的机器学习任务包到集群执行。
一杭被带到会客厅。范坚强当中坐着,雪萤站在一边,被两名青年男子扣着手臂。范坚强把手中的茶杯放在茶几上,看了一眼一杭:“东西带来了?”
④集群执行任务完毕,给文件系统返回结果文件,给调度系统返回任务执行结果信息,调度系统更新mysql-任务信息数据表的任务相关信息。
⑤在Web界面,根据mysql-任务信息数据表和mysql-文件信息数据表查看某任务的结果,包括评估指标ROC曲线和AUC面积等。
(4)系统运行界面(见图 4a、b、c、d、e)
网址:http://apple41.com:2018/。
三、建立基于大数据的教育决策优化机制
大数据应用于教育决策包含大数据获取、挖掘、分析、应用等阶段,不同阶段面临着不同的挑战,需要不断地完善各阶段,形成整体机制,实现立体化的决策支撑。
配制砂浆时用磅秤严格计量,搅拌时间不少于2 min,砂浆应随拌随用。水泥砂浆必须在4 h内用完。若气温超过30 ℃,水泥砂浆应在3 h内用完。禁止使用过夜砂浆。
图4 a
图4 b
图4 c
图4 d
图4 e
1.加强教育大数据标准建设
数据的获取是大数据应用的源头,基于大数据的教育决策需要多来源、多类型的数据集合。数据的标准化、规范化是保证各教育部门数据资源共享和业务系统整合的关键,数据标准的缺失可能会导致数据获取不足、数据处理错误、无效信息冗余、有效信息遗漏,从而将教育决策的方向引入歧途,降低教育决策的可用性和科学性,增加教育决策的风险性。因此,制定统一的数据格式标准、数据采集标准和质量标准,构建清晰有效合理的教育数据管理战略、治理机制和处理流程,保障教育数据的规范化采集与汇聚共享,保证被采集数据的有效性、一致性和准确性,是开展基于大数据的教育决策工作的基础和前提。
2.提高教育决策主体的数据素养
大数据发展对教育决策者的数据素质提出了更高要求。一是要培养数据意识:决策者要“心中有数”,树立起数据驱动决策的管理意识,建立大数据思维,保持对数据的敏感性,认同教育数据的价值和意义,摆脱对旧有决策习惯的路径依赖,构建基于大数据决策的教育行政组织文化和制度。二是要提高数据能力:能够对管理决策所需要的数据进行大致定位;能够理解可视化数据模型等不同数据的表达形式;能够把握数据分析结果对教育决策的具体效用;能够通过数据处理呈现的结果对决策做出准确判断;能够反思数据对决策实施的效果,形成拓展性思维。三是要树立数据伦理观:教育管理者应重视数据安全与个人隐私的保护,提高数据使用的伦理道德。
3.建立教育大数据共享融合机制
大数据视角下的教育决策对数据来源提出了广泛性和全面性的要求,因此需要消灭现存的条块分割的数据孤岛,对各级各类教育部门的现有数据信息进行整体优化与有效清理,实现数据的规范化、模块化,打通教育部门纵向和横向业务数据的融合渠道,为建立数据共享机制提供平台支撑。
协会需要扮演的角色是,把行业可能遇到的情况、影响,发生的改变,可参考路径等告诉大家,做称职的“天气预报员”。至于具体怎么去做,还是要由企业自己做出判断。
4.培养教育大数据复合型人才
教育大数据涵盖内容广泛,不同的教育决策需要不同的教育数据进行支撑,如何根据决策需求从海量数据源中判断数据的选择,如何将来源于各异构数据源的数据按照预先设计好的规则进行转化清洗,如何借助大数据进行数据建模或趋势预测分析,都迫切需要同时具有大数据领域和教育决策领域知识的复合型人才。因此,当务之急是加快教育大数据复合型人才的引进和培养,既要充分发挥高校在培养大数据专业人才方面的先天优势,合理调整教育资源分配,完善专业人才培养体系;同时,又要加强与互联网公司、数据技术企业资源合作,通过联合创建大数据技术研发中心及科研团队,快速培养满足需求的教育大数据复合型人才。
印尼华语教学中断了30余年,实际上已不存在传统的华文教育。印尼华人的后代已被同化,融入印尼的主流社会。因此,我们必需更新对“华语”的认识,这样有利于解决印尼华语教学存在的问题。我们必须清醒地认识到,印尼语是印尼的国家官方语言,而华语或汉语是外语,所以我们应着力解决华语作为第二语言教学的问题。这样才能够使印尼华语教学在政治上确保正确,保证华语教学在实行单一语言政策的印尼可持续发展。
5.建立健全教育大数据安全保障体系
从国家层面看,教育数据的安全性可以比肩金融数据。从个人来看,庞大规模的受教育者与教育者群体,尤其是大量未成年学生,隐私保护至关重要。因此,应当出台教育大数据治理的法规条令,设立完善的教育大数据使用及监管机制,明确政府、学校、企业和个人在数据收集、处理、共享过程中的责任和义务,明确教育数据的开放程度、开放范围、开放对象,规范公开数据与私有数据的边界。同时,要建立教育大数据安全保障技术体系,通过开发新的数据安全监测工具,升级数据安全防护技术来保证数据不被窃取。在来源清晰、责权明确、应用有序的前提下,通过数据安全法规体系和技术保障体系的双重作用,共同维护教育大数据的信息安全,有效开展教育大数据研究与应用。
参考文献:
[1]彭红光,林君芬.迈向云时代的教育变革[M]北京:科学出版社,2012.8.
[2]单莹.基于教育信息化的数字化终身学习体系的构建[J].成人教育,2014(3).
[3]单莹.从幕课、微课看碎片化和娱乐化学习[J].中国教育信息化,2014(11).
[4]杨现民,王榴卉,唐斯斯.教育大数据的应用模式与政策建议[J].电化教育研究,2015(9).
中图分类号: G40-058
文献标志码: A
文章编号: 1673-8454(2019)05-0048-04
*基金项目: 本文系湖南省教育科学“十三五”规划2016年度课题“基于大数据的教育决策研究”(课题批准号:XJK016BXX010)研究成果。
(编辑:王天鹏)
标签:大数据论文; 教育决策论文; 支持系统论文; 湖南省教育科学研究院论文; 湖南大学信息科学与工程学院论文; 湖南第一师范学院论文;