贝叶斯网络在中医诊断中的应用研究,本文主要内容关键词为:中医论文,网络论文,贝叶斯论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
引言
现代西医通过定量化的研究使得西医成为世界医学的潮流,与西医诊断定量化的思想不同,中医学的思维方式是经验直观的,因此,如何将中医的抽象思维、非定量、模糊地研究整体问题各方面的关联转变为科学定量的研究是中医发展的必然趋势。
数据挖掘是近年来随着人工智能和数据库技术的交叉融合而兴起的边缘学科,是近十年来使用较多的一种重要方法。它致力于发现隐含在数据中的关于事物本质和事物发展趋势的知识或规律,并为专家决策提供支持[1]。
由于中医有大量病例数据,数据挖掘技术在中医药领域具有良好的应用前景,将其应用于中医诊断,不仅可以从临床诊断数据中辨析症候与症状间的复杂关系,总结归纳中医专家的辩证规律并模拟其诊断推理过程,还可能发现客观有用的知识以丰富专家经验和中医理论[2,3]。采用统计的数据挖掘从个体的不确定性中归纳出总体的确定性规律,找出某种疾病的病因、病机及动态演变的规律,从统计分析进一步进行理论研究,最后升华到理论层次才能被认为是科学的结论。将科学结论应用到实践当中去,通过与临床医生的诊断结果不断交互,在使科学规则不断完善总结的基础上,实现对医生的临床诊断进行考核。但在数据的处理方法上,由于很多处理信息的方法带有太多的主观色彩,目前很少单独采用,须和其他方法结合使用[4]。
基于上述原因,本文采用基于聚类的贝叶斯网络来对中医类风湿关节炎的诊断指标进行分型筛选,其中聚类系数的确定以及贝叶斯网络中节点的选择是指标筛选的关键。因此,首先通过改进的K-均值方法对大量病例进行利于分型的球形聚类,根据聚类结果分析病机及动态演变规律,再加与专家经验结合共同选择进行贝叶斯网络学习的节点来提取类风湿病关节炎中医主特征及其关系,并辨析症候与症状间的复杂关系。并且采用边收集病历边进行处理的形式,动态地修改病历库、规则库等,同时也遵循人机交互、综合集成的思想[5]。本文从多方法有机结合的角度建立并扩展了统计模型,并以新型的方法实现对中医诊断质量的控制。
一、理论与数据预备
(一)中、西医比较
(1)古代中西方医学虽然同属于经验医学的范畴,中国医学研究的根本思想是“治病救人”,但是中国医学更重视整体、功能和临床的疗效,病因病源的探索局限在整体和宏观上。而西方医学更重视于局部、物质性和对本原的探索。
(2)西方科学技术发展为西方实验医学发展所造就的技术中介突飞猛进,使西方医学走上了以解剖探索为基础的实验医学道路,同时显微镜的发明,使解剖学进入动物体的微观层次。从此,西方医学采用实验和定量分析方法,与科学技术相结合大踏步前进。但由于缺乏临床试验的条件,西方医学由经验医学转向实验医学时并未走临床实验的道路,而采用了类比的动物实验。中医系统地观、辩证的分析方法、功能性的分析手段是西方医学无法相比的。但中国医学仍停留在经验医学范畴上探索,虽然也取得了很大的进展,但是始终未进入微观和物质性分析的层次,同时对病因、病机的分析则往往建立在类比分析的基础上,缺乏有目的、有计划的实验验证和定量分析。
(3)对医生的考核方式不同。西医的定量化研究问题的方法也为它的考核提供了依据,使得西医的中等水平医生占主要比例。而中医依靠经验的诊断本身就是不可靠的,基于经验的考核也是不可靠的。因此中医长期缺乏有效的考核依据,形成了中医劣等水平医生占主要比例的状况。
(二)中医的发展
鉴于以上的原因,本文认为中医发展要从以下几个方面做起。
(1)中国医学研究的五脏六腑不是解剖学意义上的,而是功能意义的。这就决定了中医经验医学向现代化发展,必须走与西医发展不同的道路。
1)中医现代化首先是进行临床实验,而不是动物实验;
2)以现代数学及信息技术为手段进行结构化、规范化、定量化的整理,形成全面的、统一的、规范科学的理论医学,多学科交叉向现代系统医学发展;
3)中医在中西医结合中更要发挥以“整体性和自发性,研究协调和协同”为核心;
4)证候是中医临床诊断与治疗的关键环节,是中医疗效评价的依据之一,运用临床流行病学和计算机智能为中医“证”的研究提供了重要的方法。
(2)建立中医的诊断标准。
1)收集患者的发病原因、中医症状特征、中医治疗方法、疗效等完整的病历档案;
2)通过知识挖掘,得出具有统计意义的病因、病机、分类、诊断标准、优化治疗方案、疗效评价;
3)对结果用中医理论进行解释、处理,建立一套以中医理论为基础的病因、病机、征候分型、诊断标准、动态演变、治则治法、治疗方案的理论与实用系统。
(3)通过最终形成的诊断标准来对医生的诊断进行考核,促使中医水平的整体提高。
对于类风湿关节炎由于缺乏统一规范的诊断标准,对其病理机制看法众说不一。而使用中医治疗,就要用中医解释病因、病机、分类、定名,最好的办法是临床试验。本文认为运用“临床试验——统计分析——数据挖掘——理论分析——理论与应用系统重建——诊断质量控制”的方法,是研究类风湿关节炎中医病因、病机、证候分型、诊断标准、动态演变和提高整体中医医疗质量的有效方法,并相信这一方法能广泛地用于中医的各个领域,使中医理论由经验科学迅速上升到现代意义的科学。
为此,参照美国风湿病学会诊断标准(ARA),结合临床研究,选择临床71项症状、体征及化验指标,对几年来积累的大量临床资料进行严格筛选,从中筛选出具备较长时期临床观察并具有完整准确记录的1512例确诊病例,同时对这些病例的71项指标进行了逻辑数理化处理,作为定量化研究的基础资料。
(三)数据的集成
由于这些数据是从数据库中取得的,来自不同的数据库或数据表,因此,会产生数据的不匹配或者数据的冗余,所以,首先要将这些与研究相关的数据库或数据表进行数据集成。集成后的数据结构如表1所示。
表1 病例样本集成后的数据结构
(2)如果f是区间变量。则,这里的h遍取变量f的所有非空缺对象。
二、聚类分析模型
聚类分析是指把不同的样本进行分类,它是目前常用的一种统计方法。聚类对象组成的特点就是在一个类中的对象具有很高的相似性,而与其他类中的对象很不相似。聚类挖掘技术在挖掘数据规则、类型分析等方面有广泛的应用[6]。
由于系统的高度复杂性和指标的模糊性,常常是事先无法确定预分类数。即使对系统有一些了解,事先给定预分类数,实际上是对算法的一种人工干预,很可能伤害了分类的科学性[7]。因此,可以根据样本的具体情况预先确定分类数及收敛精度,实现样本的最优划分。
另外,不同的聚类方法适用于探测不同类型的聚类,有的聚类方法划分数据使聚类内的点间最大距离最小化,这样形成的是紧凑的和大体球形的聚类;而有的聚类则使聚类中的每一点与类中的某一成员尽可能的近,这样形成的是类似于香肠形状的聚类[8]。如果要对给定的症状判定所属类风湿病的类型,本文研究的对象较适合于采用前一种方法。这是因为通过聚类分析以寻找这种疾病的子类型时,由于患者可能是在疾病的不同阶段接受检验的,因此,采用后一种方法会使得不同的阶段界限模糊而都聚为一类,不利于各型的分割。基于此,本文采用一种改进的层次聚类算法,即首先在所有对象中大体为球形的高密度点来确定凝聚点,并计算各个点与凝聚点的互连度来聚类。
该方法在某些方面有一定的局限性。因为改进的k-均值聚类方法与数据分析都与初始选择的凝聚点有很大关系,分类效果可能受此影响。为此,文献[10]对该方法进行了调整,使其学习能力更加完善。
在本文中,由于中医症状很多,所以在聚类之前,要对剔出冗余和含有大量空缺值后的65项症状指标进行频率统计,目的是再剔除掉那些扰乱聚类含义的指标;在找到频率较高的症状指标后,按照上述改进方法进行聚类。聚类的指标有40项,如表2所示。
结果显示,在采用聚类时,聚类系数变化率最大的是2、3、4、6类,他们的变化率如表3所示。
在对聚类的结果进行有效性分析时,采用单因素方差分析法,发现在分为4类的情况下,系统聚类结果在关节疼痛、肿胀等14项症状中尤显著差异外,其他各变量类间均有显著差异,p值小于0.05,这与中医的实际经验是相符的。因此,本文将类风湿关节炎分为4型,并将这里的14项指标(如表4所示)作为下一步贝叶斯网络学习的变量。
表2 聚类时采纳的指标
表3 聚类系数变化率
表4 聚类分析后得到的主要症状变量
三、样本主特征及类特征提取
中医的诊断与西医不同,应该类似于以下的诊断方程(诊断=诊断要素×贡献率(或称影响因子)+诊断要素×贡献率+…+)[11]。诊断要素包括证候、症状、体征、舌脉等,贡献率大的要重视其诊断意义,贡献率小的可以忽略,但哪些征候、症状、体征应重视或忽略呢?
(一)基本定义
事物往往有许多特征,有些是在事物的发展变化中起着主导作用的,有些特征对事物的发展变化影响并不大,故需将起主导作用的特征提取出来,以识别其类型。这些起主导作用的特征即为主特征。如本文谈及的类风湿关节炎,其临床症状若一一罗列出来,可能有上百个,但不可能每个症状都是它的主要症状,所以需要将其主要症状找出来,以区别于其它疾病,此即为类风湿关节炎的主特征。
将事物进行分类后,每一类区别于其它类型的主要特征即为类特征。类特征是标志着该类型的根本特征,据此可以判定某病例样本是否属于此类。
(二)贝叶斯网络模型用于主特征及类特征提取
贝叶斯网络可以进行知识发现,贝叶斯网络学习技术能够通过数据分析自动创建贝叶斯网络。贝叶斯网络通过从数据中发现变量间的因果关系,并用概率定量表示这些因果关系的强度。与神经网络及规则库相比,贝叶斯网络更适合于大型数据库的数据挖掘。但由于贝叶斯网络的计算量会随着节点数目的增加呈指数级增长,因此,节点的数目应尽量得到控制。
本文结合贝叶斯理论,提出节点约简方法,即首先利用删除冗余数据、频率统计与聚类分析将节点数目进行约简,然后通过专家经验对这些症状节点进行验证,再构造贝叶斯网络结构。
(1)贝叶斯网络模型及贝叶斯分类器的构造
贝叶斯分类器是一类诊断效果很好的简化贝叶斯网络模型,它假设各属性在以类别变量为条件时相互独立。设置是类风湿关节炎的类别变量,即聚类后分成的类型,每一类型对应一种类别,则是用于描述类别变量的属性(如疾病的症状或理化检测指标),即每一种类型所具有的症状特征,结构如图1所示。贝叶斯分类器模型先从病例数据中学习得到每个症状A在每种分型下的条件概率,再根据待诊断病例的症状取值情况,应用贝叶斯定理计算每种类别的后验概率,最后把后验概率最大的类型作为该病例的4型判定结果。
图1 类风湿关节炎的贝叶斯分类器
(2)贝叶斯信念网络的学习
由于病症的发展是不断演变的过程,在每个阶段症状都表现不同。但是本文通过聚类分析已经将所有病例分为4类,分类的有效性经过了数学方法与专家经验的综合判定,即初步形成了贝叶斯网络的结构。因此,可以采用梯度下降的方法来训练网络学习和形成条件概率表的值[12]。仍然使用上面的n个训练样本
如表5所示。
目标是最大化,但为了使问题简单,可以按来做,将所筛选症状的各种组合的初始权值都设为0.5,并用下面的方式进行迭代计算,在每次迭代中修改这些权,最终收敛到局部最优解。
表5 类风湿关节炎条件概率表的设计
(3)结果
在聚类之后,采用基于信息论的贝叶斯网络结构学习算法学习14个变量间的因果关系,找到与“是否类风湿关节炎”直接相关的症状,称之为“主特征”,它们分别为“关节疼痛、关节肿胀、关节变形、晨僵、类风湿因子阳性、舌质红、脉滑”这7项症状,因果关系如图2所示。计算出各症状以“是否风湿关节炎”为条件时的条件概率后,再用信息熵分析法分别计算每个症状时“是否类风湿关节炎”的信息贡献量,它能够反映该症状对类风湿关节炎证诊断的贡献。通过计算得到14项症状与“是否风湿关节炎”间的诊断贡献度,如表6所示。可以发现“晨僵、类风湿因子阳性”的贡献率最大,“关节肿胀”,“关节变形”,“白血球”,“血沉”的贡献度依次降低。
图2 提取出的7个主特征的因果关系图
表6 主特征的诊断贡献度
由上面的分析可以得出类风湿关节炎的土特征为:
1)关节肿胀;
2)晨僵≥1 h;
3)关节疼痛;
4)关节变形;
5)类风湿因子阳性;
6)脉象滑;
7)舌质红。
同理,对分型后的4型分别进行了贝叶斯学习,得到了各类的类特征。
四、结束语
本文对收集到的1512例类风湿关节炎患者临床资料进行了数据整理,从原始病例中提取出对项指标。经过数据集成后形成65项指标,再经过频率统计、聚类分析将指标缩减为40项指标,并将类风湿关节炎病情发展的动态过程分为4型。最后通过贝叶斯网络学习提取出类风湿关节炎的7项主特征及Ⅰ型、Ⅱ型、Ⅲ型、Ⅳ型的类特征。为中医辨证分型及类风湿关节炎中医诊断标准提供临床依据。通过对4型的症状变化分析,可以帮助临床医生分析类风湿关节炎的病因、病机及病理演变规律。
进一步的研究工作包括,优化用于分析的指标体系;改进聚类算法;此外,将本文的方法推广到其他各种疾病的效用性也是本文将要继续探讨的内容。
标签:中医论文; 贝叶斯论文; 聚类论文; 类风湿论文; 风湿类风湿论文; 分类变量论文; 关节炎症状论文; 分类数据论文;