摘要:目前,肝脏疾病的研究与预测通常依靠医生对于通常需要相关专业医生丰富的临床经验与分析,常规血液检测难以让医生第一时间判断患者是否患有肝病。本文通过主元分析,选择了肝病相关数据库中接受检查者是否患病的非线性模型的构建方法,同时利用该方法构建的模型对数据基于自适应神经模糊推理系统(ANFIS)实行分组的非监督学习训练和监督学习训练。训练结果表明,在通过数据模型的构建与训练后,肝病病情的检测分析结果能够达到90%以上。
关键词:医疗电气;肝病预测;血液数据分析;自适应神经模糊推理;非线性模型;主元分析;分组学习
前言:
通过医疗数据挖掘技术的研究与发展,科研机构能够更加简易地通过互联网获取优质的数据集进行研究,国内智能医疗系统的建设正在逐步开展。其中大量临床经验和文献研究指出,肝病诊断的智能分析与建模技术对于医疗检测的准确性及人力成本的降低将产生重要影响。
肝病预测模型研究主要分为数据分析,模型建立和系统训练三个部分。其中数据分析部分主要采取主元分析的方法对数据集中平均红细胞体积(mean corpuscular volume(mcv):80--98fl),碱性磷酸酶(alkaline phosphotase(ALP):40-110 U),三聚氰胺转氨酶(alamine aminotransferase(sgpt)),谷草转氨酶(aspartate aminotransferase(AST):8-40U/L)),γ-谷氨酰转肽酶(Gamma-glutamyl transpeptidase(γ-GT):< 50 U))与是否有饮酒饮酒习惯等数据进行因素分析,为选取3~4维主元以取得90%以上的贡献率,非线性模型只重点分析训练贡献率较大的主元,以达到简化处理和降维的效果[1]。
模糊逻辑控制技术利用模糊数学的基本思想理论,对控制系统的动态模式是否精确有极强的依赖性,其中高木关野型(Takagi-sugeno)系统因控制数据输出的精确性更加适用于医疗分析系统的数据分析建模。自适应模糊推理系统(ANFIS)正式基于这一类型并具有自适应自学习的能力,能基于均方根值(MSE)的反馈自行通过调整隶属函数规则完善推理系统,提高控制的准确性和性能,对非线性,高阶次的复杂系统有更好的控制效果。
1.肝病预测主元分析
1.1 主元分析算法原理与实现
顾名思义,主元分析(PCA)就是通过提取数据主要特征分量,常用于高维度数据降维的数据预处理算法。其在模糊逻辑控制系统中的应用具体可实现的效果体现在对于隶属函数数量的降低来降低运算量以提升运算性能。
主元分析算法的基本步骤大致如下:
1)将原始数据按列组成n行m列矩阵X
2)将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值
3)求出协方差矩阵
4)求出协方差矩阵的特征值及对应的特征向量
5)将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
6)即为降维到k维后的数据
1.2 项目算法实现与模型数据应用
通过MATLAB主成分分析算法的代码实现,筛选数据集中第1,2,5列加入自适应神经模糊推理模型训练,其主要成分贡献率为0.7128,0.1378,0.1217,0.0158和0.0036,成分柱状图如下:
图1:基于主成分分析的变量贡献率分布图
1.3 主成分分析算法适用性讨论
来自对台湾清华大学已有的均方根误差数据进行评估,主成分分析在提高模型训练效率的同时有时往往会对一般模型训练的结果会产生负影响:
然而由于选择正确的自适应神经模糊推理系统,模型的训练效率在得到保证的同时准确率与原始数据的训练差别不大,反而有效避免了复杂系统非线性模型的过量训练产生的过拟合(over-training)现象。
2.模型构建
项目建立的ANFIS控制系统核心是一个神经元-模糊模型,通过引入人类经验和知识(规则),实现了输入-输出的非线性映射,并且根据训练数据不断的反复学习更新自己的结构参数之后产生一个由若干条模糊规则组成的模糊推理系统[2]。其五个底层网络结构[3]分别负责输入变量,规则的强度释放,规则强度的归一化,计算模糊规则的总输出以及计算总输出,其最终计算训练出的隶属函数(membership function)集大致如下:
图2:ANFIS隶属函数及推理逻辑图
3.数据的批量化与归一化
数据的批量化和归一化是防止模型训练中存在过拟合的有效方法之一。模型训练前数据集是否患病结果被划分为N(0,1)的正态分布,并确定阈值为0.5。当计算输出大于0.5时计算后输出被划分为1(即患有肝病),小于0.5为0,并划分为健康。模型随机抽取分组数据进行监督学习,并选取剩余数据进行非监督学习。系统正确率针对监督学习非监督学习及总均方根误差分别进行计算。
4.结论
基于2000年至2010年一般的分类器算法,系统准确率一般仅能达到60%到70%左右,而该项目通过才用自适应神经模糊逻辑推理,主元分析,及数据防过拟合技术的运用,有效将肝病预测准确率提高至91%,大大提高了系统的准确性,控制精度较高,对临床肝病诊断具有良好的实用性和辅助性。
参考文献:
[1]Abdi. H.,& Williams,L.J.(2010). "Principal component analysis" . Wiley Interdisciplinary Reviews:Computational Statistics.2:433–459. arXiv:1108.4372 Freely accessible.
[2]董明宇,刘民,吴澄,带并行机调度问题中基于ANFIS 的自适应算法.控制工程,1671-7848(2005)03-0203-04
[3]Ang,K. K.,& Quek,C.(2005). "RSPOP:Rough Set-Based Pseudo Outer-Product Fuzzy Rule Identification Algorithm". Neural Computation,17(1),205-243.
论文作者:董万霖1,石轲2
论文发表刊物:《电力设备》2018年第18期
论文发表时间:2018/10/14
标签:数据论文; 模型论文; 肝病论文; 模糊论文; 系统论文; 自适应论文; 算法论文; 《电力设备》2018年第18期论文;