基于数据挖掘技术的对移动端考研产品的研究论文_于龙浩

山东科技大学(泰安) 山东泰安 271000

摘要:本文通过对国内某知名考研网站关于移动端考研产品的市场占有率和发展趋势的网问卷调查,基于数据挖掘技术、标准化分析以及主成分分析,对数进行了处理与分析,根据上一阶段探寻的移动端考研产品的发展方向及市场占有率与其产品定价的规律,并以四川市场为实证,根据上一阶段预测出的其在2017年投放移动端考研产品将最多盈收43755040.53元,此时的移动端考研产品定价为6238元,市场占有率为37%。

本文运用了主成分分析的模型,根据所选取城市的特点,结合经验主义的方式,设定了两项可能与考研产品相关度较大的问卷调查项。

关键词:主成分分析;数据挖掘;可行性分析;风险评估

一、背景分析

从2000年开始,我国开始兴起考研热,越来越多的人关注和选择考研,使得考研教育市场不断扩张,其经济也随之飞速增长。当我国考研市场不断扩大,其消费需求达到上亿。越来越多的人有考研需求,这使考研市场在我国教育产业中的位置不断上升,位列第二大教育市场,仅次于高考。对于“考研大军”来说,选择考研是他们人生重大抉择之一,那么获取考研资讯则是考研成功的重大因素之一。考研人数不断增加,考研团队日益壮大,考生对考研信息的需求十分急迫。他们要了解学校、选专业、找资料以及掌握学习方法。在这个过程中,互联网作为一个重要的信息途径,为他们提供了资源,便于考生及时获取信息,联络高校并制定自身目标和计划。

二、问题重述

2017年的全国硕士研究生招生考试共有201 万人报名参加,比去年增加了24 万名考生,增加13.56%。看起来新一轮的考研热潮即将到来,而考研教学和培训的市场也发生了巨大的变化。移动互联网时代的到来,使得许多考研教学活动转移到了手机等移动互联网平台。现在的线上学习市场中,纷纷涌现了依托于移动互联网的产品,如教学app,手机题库,单词本,错题本或依托于现有移动端视频平台的直播课程等。移动端产品的使用人数较PC 端更高,使用时长更长。国内某知名考研网站为了深入了解移动端考研产品的市场占有率和发展趋势,开展了网上问卷调查。请你建立合理的数学模型解决如下问题。

1假定你是某移动端考研产品企业的市场总监,公司需要你负责在问题3 中的城市推广产品。你计划针对该城市的特点再做一次大规模的市场问卷 调研,请为这次调研设计调查问卷,并详细说明问卷的设计思路和预期目标。

2公司要对自己的一款移动端考研产品进行全国定价。该产品的课程 是由顶级名师讲授的,并且配有配套的教材和在线答疑服务,预计每年的固 定成本是300万元(不计市场推广费用),请分别以市场占有率优先和利润优 先为原则,建立数学模型,为公司制定两套定价方案。

三、问题分析

3.1问卷概览

国内某知名考研网站为了深入了解移动端考研产品的市场占有率和发展趋势,开展了网上问卷调查,问卷格式如附件1所示。共收集有效问卷 38182份,从中随机抽取出10000份作为研究对象。

建立问题集Q,Q不仅包括问卷调查的23个问题及其反馈,还包括3个对问卷提交者的提交问卷时的本地环境监测的数据。即

Q={q_1+q_2+⋯+q_21 }∪{d_1+d_2+⋯+d_21 },

其中q_i表示问卷的问题,d_i表示答题者对问卷相应问题的反馈。

3.2标准化处理

考研产品的市场问题“什么时候推广、向谁进行推广、在什么地方推广、怎么去推广、推广什么内容、产品怎么收费”存在着描述不定,不能明确定义的问题,因此,需要将其转化为可以明确定义的指标,并组成相应的指标体系,并在回收的问卷中找到相应的内容。

首先,将“什么时候推广、向谁进行推广、在什么地方推广、怎么去推广、推广什么内容、产品怎么收费”对应转化为“推广时间、推广人群、推广地点、推广方式、产品内容、产品收费”

对错误!未找到引用源。的研究需要建立在对错误!未找到引用源。的研究之上,即需要找到 与错误!未找到引用源。 的对应关系,即表1.

3.2.1单选问题的非自主填写部分数据的处理

用Value值1、2、3、4、5•••分别代表A、B、C、D、E•••等选项。如果选择其他,并在自主填写相应数据,则记录为0.

3.2.2多选问题的非自主填写部分数据的处理

把每一个相应选项定义为一个变量,每一个变量Value值均如下定义:“0” 未选,“1” 选。被调查者选了的选项录入1、没选录入0,如某题有A、B、C三个选项,被调查者选AC,则三个变量分别录入为1、0、1。“其他”选项作为一个单独的变量,如果被调查者在自主填写部分填写了数据,则录入“1”,如果没有填写数据,则录入“0”。

3.2.3自主填写部分数据的处理

对于自主填写部分数据的处理,采取文本聚类的方法。

首先,建立错误!未找到引用源。聚类数据库,其中 ,代表对应的含有自主填写部分的问题的编号;错误!未找到引用源。,代表对应的问卷编号。其次,对相同错误!未找到引用源。下的不同j进行文本聚类,选择出权重最高并有与错误!未找到引用源。原本设置选项有明显的区别的、有明确的含义的项,作为标准选项加入到该错误!未找到引用源。问题下的原有问题中,其频次为对应的聚类累计频次。最后,再按照2.4.1及2.4.2的方法进行处理。

聚类方法采用Score聚类的方法。Score聚类是以Score指标为聚类依据的一种文本聚类方法。所谓Score指标是指一个词在文章中重要性,主要由TF,IDF,other三个指标决定。

参考文献:

[1]文张.考研大蛋糕百万学子解囊三十亿深度调查[J].中外企业家, 2005(9):62-65.

[2]张婧婧.大学生生活费收支状况调查研究[J]. 商场现代化,2013(28):122-122.

[3]苗苗等.本科毕业生就业与考研决策的影响因素研究[J].教育教学论坛, 2012(37):2-4.

论文作者:于龙浩

论文发表刊物:《基层建设》2017年第36期

论文发表时间:2018/3/22

标签:;  ;  ;  ;  ;  ;  ;  ;  

基于数据挖掘技术的对移动端考研产品的研究论文_于龙浩
下载Doc文档

猜你喜欢