摘要:由于睡眠质量的低下,这使得中国成年人失眠率高达38.2%。所以研究睡眠的本征数据,找出睡眠质量的影响因素刻不容缓。利用2017年亚太数学建模提供的数据,通过分析各诊断结果的比例情况将诊断结果分为8类,并给予标签。利用聚类的方法对数据进行预处理,剔除异常数据,针对非线性分类情况,将原输入空间的样本映射到高维的特征空间,利用Largrange对偶理论解出分类超平面,其次引入核函数,降低运算难度。最后通过数据的归一化处理以及核函数的处理方法来对模型进行优化,使得预测准确率达到90%。
关键词:特征空间;SVM分类模型;分类超平面;核函数
1.SVM分类模型的建立
1.1 SVM分类问题分析
对于睡眠质量的影响因素的关系问题,采用SVM对不同疾病进行分类。有八类疾病占82%,所以将疾病分为8类,其余疾病归为一类进行分析。选每一类疾病的80%作为训练集,20%作为测试集。最后将数据标准化处理,避免量纲对训练集的影响,选用不同的核函数对模型进行优化,使得测试的准确率达到最优,找到诊断结果对睡眠的具体关系。依据问题描述中的要求,分析诊断结果对睡眠的具体影响,大体上可分为以下几个步骤[1],生成培训集/测试集、创建/训练SVM分类模型、模拟试验、性能评价。
1.2 SVM分类模型的建立和求解
1.2.1产生训练集/测试集
(1)数据预处理
在产生训练集及测试集时,对一些异常点进行剔除。采用聚类的方法剔除异常数据,例如抑郁症、焦虑性障碍、睡眠障碍、双相情感障碍等诊断结论的异常数据。
(2)设置标签
A--焦虑障碍 B--睡眠障碍 C--焦虑 D--抑郁 E--混合性焦虑抑郁障碍 F--双相情感障碍 G--非有机性失眠 H--复发性抑郁障碍 I--其他
(3)选择训练集与测试集
选取每种诊断结果的所有数据的80%(剔除后)为训练集集,20%为测试集。
1.3创建/训练SVM(RBF核函数)
1.3.1二分类SVM模型
由题所给的数据可知,将本文所划分的八种诊断结果进行分类,是属于线性不可分SVM问题对于该问题,采用非线性映射 ,将原输入空间的样本印射到高维的特征空间[2]H中,再在高维特征空间H中构造最优分类超平面。
1.3.2最优超平面求法
定义超平面:若存在分类超平面
由于计算的复杂性,利用Largrange对偶理论将式(5)转化为对偶问题。
2.结果分析
选取不同的核函数,预测结果的准确率分别为线性核函数0.65,d阶多项式核函数0.77、径向基核函数0.90、sigmoid核函数0.81。所以经过优化处理后,预测准确率达到90%。
3.结论
本文给出了基于SVM确定睡眠质量与影响因素关系分类模型。通过对大数据的处理,得出睡眠质量的影响因素与睡眠质量的具体关系,并对模型进行优化处理,使得预测准确率能够达到70%以上。该模型能够为医生诊断病情提供一定的辅助作用,具有良好的推广价值。
参考文献
[1]郎宇宁,蔺娟如.基于支持向量机的多分类方法研究[J].中国西部科技,2010,9(17):28-29.
[2]李涛.基于聚类核的半监督支持向量机分类方法研究[D].陕西师范大学,2012
论文作者:吉广山1 刘皓月2 只卫行3
论文发表刊物:《新材料·新装饰》2018年8月上
论文发表时间:2019/3/13
标签:函数论文; 数据论文; 模型论文; 障碍论文; 唐山市论文; 睡眠质量论文; 测试论文; 《新材料·新装饰》2018年8月上论文;