基于大数据技术的实习数据分析研究论文_郑春光,侯磊,韩蓓

山东商业职业技术学院 山东省 250103

摘要:大数据技术在各行业中已经得到了广泛的应用,实习系统的数据以及就业网站的数据量已经越来越庞大,需要使用大数据技术对实习就业数据进行整理和分析。本文将综合使用大数据生态圈的各种开源技术,包括 Hadoop、Flume、Kfaka、Sqoop、Hive、MySQL,实现对大量的实习系统数据进行统一收集与分析,解决现有工具逐渐无法有效的处理大量数据的问题,更好的了解实习生的实习状况,为实习生提供就业指导和帮助,为学校提供决策依据。

关键词:大数据技术;数据采集;数据整理分析;数据展示

1 研究背景

在高职教育的培养体系中,实习处于重要的主体地位,有其独立的目标和任务,对实习管理特质与应对措施进行深入研究非常重要,如何对实习管理系统生成的海量数据进行大数据分析已经是当前高职教育教学管理面临的重大课题。

我校的实习管理系统的实现,随着用户快速增长,数据量迅速庞大,要求使用大数据技术处理数据,本文将综合使用大数据生态圈的各种开源技术[1,2],包括 Hadoop、Flume、Kfaka、Sqoop、Hive、MySQL,实现对大量的实习系统数据进行统一收集与分析,解决现有工具逐渐无法有效的处理大量数据的问题。大数据技术已经在各行各业取得了巨大的商业价值,将大数据技术用于大学生的实习管理系统,有助于更好的了解实习生的实习状况,为实习生提供就业指导和帮助,为学校提供决策依据。

2 数据采集

2.1数据现状

实习系统是各学校管理实习生的平台,拥有实习状态、实习公司、实习岗位、实习地点等各种实习数据。由于各学校使用了不同的实习管理系统,数据结构必然有所不同,如何将各种数据进行有效的分析,就需要使用大数据技术。为了解就业方向,需使用数据爬取技术,爬取不同网络不同维度的招聘数据。

2.2数据采集

经与各学校(共五所学校)沟通后,我们得到了不同学校的实习数据,包含了近三年全部的实习信息,经过清洗整理后,最终存入数据库数据量约为650MB,保证数据的真实性。

另外,爬取了51Job、智联招聘和中华英才网上的招聘信息,招聘信息的数据量100万条以上,来论证实习岗位的分析结论,保证结论的说服性。

2.3使用的数据爬取技术

使用urllib2对网页发送request请求,为了防止网站禁止爬虫访问,用urllib2库的Request方法将程序模拟成浏览器,然后将网页源代码爬取下来,根据网页结构分析网页特点,找到网页中数据的结构特点,使用re库制定正则表达式将需要的数据从网页中提取出来,最后将所有数据变成Pandas库中的DataFrame的数据结构形式并将其存储到Mysql数据库中。

3 数据分析

3.1平台搭建

利用大数据进行数据分析处理时,数据量庞大,所需运算量也巨大,HadoopMapReduce采用分布式计算的技术:Map将任务分割成更小的任务,由每台服务器分别运行。Reduce将所有的服务器的运算结果汇总整理,返回最后结果。通过MapReduce方式,可以在上千台机器上并行处理巨量数据,大大减少了数据处理时间[3,4]。

3.2使用的数据分析技术

使用Pandas库和MySQLdb库将数据库中的数据读取出来,并且使用Pandas库中的read_sql方法将读取进来的数据转换DataFrame形式的数据,read_sql方法如下:read_sql(sql语句,con=读取进来的数据库数据)。将数据读取进来以后使用Pandas库中的方法将数据进行求和、求最大值、求众数、聚类、分类和汇总等方法进行数据分析,最终将分析数据使用Pandas库中的to_csv方法将分析结果保存为csv文件。

4 结果分析

实习地点首要考虑的因素就是学校的所在地,因为大学通常和学校所在城市的公司进行合作,所以对实习地点进行了数据挖掘与分析,分析结果如图1所示。

图1实习地点分析结果

为了验证分析数据的正确性,我们对51Job、智联招聘和中华英才网上和招聘信息进行了数据爬取,制作了职位热点地图。还对系统内的公司按地点进行了分析,分析结果如图2所示。

图2实习地点辅证

根据实习系统和招聘网中的数据,得出以下结论:学生实习选择实习地点时会优先选择学校所在城市,其次会选择机会更多的大城市。建议学校和指导教师应该多了解学校所在地公司的情况,可以为实习生多提供学校所在地的相关工作岗位,有得放矢,提高指导效率。

5 结束语

利用大数据技术分析了部分学校的实习生的各种数据,通过数据分析我们可以指导实习生的学习、工作、和生活,解决了现有工具处理大量数据效率很低的问题,解决了大量数据没有发挥出相应的价值,没有进行深入的数据挖掘的问题,研究可以帮助学校作出相应的实习就业决策,通过针对性的改进可以使实习生能够更加容易的去适应社会,使同学们对社会有所贡献,能发挥自己所长,学校也会变得越来越好。由于时间有限,我们挖掘和分析的数据还不是很多,以后我们将对更多数据继续挖掘和分析,利用大数据技术为学校实习工作提供更多的决策依据,做出更大的贡献。

参考文献:

[1]陈森博,陈张杰.基于 Hadoop 集群的日志分析系统的设计与实现[J].电脑知识与技术,2013,9(34):7647-7650.


[2]Hari Shreedharan.Flume构建高可用、可扩展的海量日志采集系统[M].北京:电子工业出版社,2015.

[3]Tom White.Hadoop权威指南[M].北京:清华大学出版社,2015.


[4]Jonathan R Owens,Jon Lentz,Brian Femiano.Hadoop 实战手册[M].北京:人民邮电出版社 2014.

论文作者:郑春光,侯磊,韩蓓

论文发表刊物:《基层建设》2018年第31期

论文发表时间:2018/12/17

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于大数据技术的实习数据分析研究论文_郑春光,侯磊,韩蓓
下载Doc文档

猜你喜欢