基于熵的决策树理论及其在中医证型研究中的应用_决策树论文

基于熵的决策树理论及其在中医证型研究中的应用,本文主要内容关键词为:中医论文,理论论文,决策树论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

中图分类号:O212

文献标识码:A

引言

中医证型研究是中医理论研究的一个热点和难点。在中医指标的量化和客观化方面有一些研究,但由于量化成本较高,且量化未必能体现中医的辨证思想,因此中医数据仍然以定性为主,包括两分类、名义型和等级型变量;各因素对于证型鉴别诊断的意义不等,而传统统计方法难以得到衡量其大小的客观指标;另外,对于同一种西医诊断疾病,其对应的中医证型有多种,且对于每个观察个体,其可能既具有主要证型,又具有次要证型,这也为中医证型研究的数据分析带来了困难;基于中医数据的特点,要建立一个稳定的模型必须具有大量的观察个体[1,2]。熵是衡量定性资料变异情况的指标,资料按照某种属性进行合理分组,将导致资料的不确定性降低,即信息增益。本文使用基于熵的决策树理论,对中医证型研究的数据进行了探索性分析,得到对证型鉴别诊断具有重要意义的因素,并对其重要性进行了量化;建立的决策树能够较好地对新的样本进行判别。

一、基于熵的决策树理论

决策树(又称判定树,decision tree)是一种自上而下递归地对数据进行分割的算法。在决策树的建立过程中,如何确定变量选择的方法是决策构算法的核心。信息增益是一种变量选择的方法:具有最大信息增益(熵的减小最大)的变量作为当前对样本进行分在的检验变量(此检验变量称为一个节点),根据此变量的不同取值对样本进行分类,此变量将使对样本分类所需要的信息量达到最小,并能使对样本分类的随机性和不纯性达到最小[3,4]。

Gain(A)是由于知道属性A的值而导致的熵的期望压缩,或称为信息增益。使用此算法可以计算每个变量的信息增益,而具有最高信息增益的变量选作给定集合S的检验变量,创建一个节点,并用该变量对该节点进行标记。对检验变量的每个值创建分枝,并据此划分样本。

下面以一个具体而简单的例子(见表1(表略))进行说明。拟通过变量年龄(age)、收入(income)、是否为学生(student)及信用等级(credit_rating)四个变量预测个体是否购买计算机(buys_computer),假设共有14个观察个体,其中9人购买计算机,5人末买。

对该样本进行分类所需的期望信息:

同理,可以计算另外三个变量的信息增益:

因此根据变量A的值进行分类的信息增益:

Gain(income)=0.029,Gain(student)=0.151,Gain(credit_rating)=0.048

变量age具有最大的信息增益,被选作检验变量,产生一个节点并标注为“age",根据变量age的值产生分枝。在每个分枝上使用其它变量继续对样本进行分割,最终形成的树形结构如图1所示(图略)。

由于数据当中不可避免存在噪声和异常值,因此建立的决策树中的许多分枝反映的是训练数据集中的异常现象,而树的修剪可以较好地解决此类过度拟合问题。修剪算法包括前剪枝和后剪枝两种方法。前剪枝是通过提前终止树的构建而对决策树进行修剪,如定义信息增益指标用于评估分割的优良性。当在一个节点对样本进行分割将导致低于预定义的阈值,则给定子集的进一步分割将停止。后剪枝是先建立一个完全的决策树,对于树的每个非叶节点(叶节点为决策树末梢的节点),计算该节点上的子树被剪枝可能出现的期望错误率,结合沿每个分枝的观察个体的权重估计,计算不对该节点剪枝的期望错误率,通过比较剪枝和不剪枝两种情况的期望错误率的大小,来决定是否剪除该节点。本研究使用了校验集来实现对训练集样本训练过程的监督,通过比较构建过程中决策树对训练集和校验集的正确分类率的变化来控制过度拟合的发生,属于先剪枝算法。

本研究中决策树算法通过SASS.2(Statistical Analysis Software)中模块Enterprise Miner实现。

二、中医数据的决策树分析

(一)资料的选择

本研究资料来自与上海中医药大学的合作研究项目“慢性胃炎中医证型分析”的调查资料。拟通过一些可测量和易观察的指标实现对慢性胃炎证型的鉴别诊断,从而为慢性胃炎的辨证施治提供客观的依据。数据分析前进行了预处理,如异常值的剔除,缺失值的填充(用该类中具有最大出现概率的类的类标号进行填充),并使用bootstrap抽样方法进行了数据的增值(对增殖数据进行随机抽样,经检验其统计指标与原样本无差异)。

(二)决策树的构建及结果分析

使用信息增益作为选择检验变量的指标,对样本进行随机分组(训练集、校验集和检验集分别占45%、35%和20%)。在决策树的构建过程中,随着分枝的增加,其对于训练集和校验集的正确划分率在逐渐增加。校验集的作用在于防止决策树的分枝中包含噪声和奇异值的影响,因此当校验集的正确划分率开始下降时,决策树的进一步构建将停止,本研究中当叶节点数为105时,校验集正确分类率开始下降,为防止模型的过度拟合(此时模型开始记住训练集数据中的局部特征),剪枝算法使得树的进一步构建停止,决策树构建完成。(若建立一个完全树,将使用全部变量进行分类,然后进行后剪枝,但后剪枝算法速度较慢。)树的构建过程中随着叶节点的增加,模型对于训练集和校验集的正确分类率如图2所示(图略)。

此时用于构建决策树的变量及其对判别的重要性排序如表2(表略)。

信息增益算法的思想是熵的减少,变量的加入使分类资料变异性降低,表现为熵的减少,从而可以通过比较变量使分类资料不确定性降低的程度来衡量变量的重要性。若以信息增益最大的变量的重要性为1,其它变量与其比较就可以得到各变量的重要性指数,本研究从80个变量中选出了对判别的重要性排在前24位的变量,实现了数据压缩;重要性指数大于0.4的变量共6个,分别为苔质腻、苔色、舌色、左脉诊、唇色和胃脘胀程度,与实际情况符合。建立的决策树对训练集样本和校验集样本的判别结果如表3(表略)。

表3给出了训练集和校验集的各类证型判别情况:如训练集中证型为1(脾胃湿热型)的共388例,通过决策树划分到第1类的300例,正确划分率为77%,划分到证型2-5的例数分别为26、16、22和24例。决策树对于训练集中五类证型的正确分类分别为77%、81%、95%、95%和57%,对于校验集中五类证型的正确分类率分别为77%、87%、92%、91%和56%。除第五类“其它证型”外,各类的划分都较理想,第五类较低,原因是它是所有其它类的混合,个体之间的共性不强,所以模型不能从中提取有效规则。通过比较训练集和校验集各类证型的正确划分率,发现对应的率非常接近,从而证明了构建的决策树是合理的,包含了数据中的一般规则,且剔除了数据中的噪声。

训练好的决策树对于训练集、校验集和检验集的错误和正确划分率如表4(表略)。对于检验集的正确分类率为83.00%,稍低于训练集和校验集的87.64%和85.45%,所以决策树具有较好的泛化能力。

三、讨论

(一)定性资料的判别分析及变量的筛选

中医数据的一个显著特点是变量多为定性的,包括两分类、名义型和等级型。传统的判别分析如Fisher判别、Bayes判别和逐步判别能较好地实现计量资料的判别,对定性资料难于处理;最大似然判别和Bayes公式判别能对定性资料进行处理,但不能实现变量的筛选。本研究依据变量消除分类资料不确定性的大小,实现了定性资料的判别分析和变量的筛选,为中医证型的确定提供了客观化依据,为进一步的分析提供了线索。

(二)关于决定系数和因素的重要性

在传统统计方法建立的回归模型中,多给出模型的决定系数和各变量的作用方向及大小,决定系数定义了各变量对于应变量变异的解释程度。从对于应变量的解释程度(或消除应变量的不确定性的程度)来说,对于应变量为多分类名义型,自变量为分类变量的资料(包括两分类、等级和名义型变量,如本研究资料),各变量的决定系数是否可以用该变量消除应变量的不确定性(即熵的减少)来定义值得探讨,本研究只提出了基于熵的减少的重要性指数,反映了各指标对判别的相对重要性。

(三)概率类分布问题及数据挖掘在中医证型分析中的应用

对于中医指标的量化和客观化问题,有研究指出过度量化将导致研究偏离中医的辨证思想。另外,对于每个观察个体可能存在不止一个证型,即包括主要证型和次要证型,而我们通常是以主要证型作为分析部分,这必将曲解数据间的真实关系,若证型的判别结果不是具体的某个类,而是各类证型的概率分布,似乎更为合理,而数据挖掘中概率类分布模型的构建可能为此类问题的解决提供一种全新的思路。数据挖掘技术突破了传统统计分析方法对数据的要求,从大量的数据中挖掘出其中所蕴含的信息,本研究中使用了其中的一种方法:决策树,取得了较好的分析效果。

(四)决策树算法的局限性

决策树算法存在其自身的局限性:变量进入模型后就不能再从模型中剔除,而在传统的迭代方法中,变量可以进入模型,也可以由于其它变量的作用而从模型中剔除。因此传统的迭代方法在变量的选择上更灵活;另外,决策树算法尚不能构建证型的概率类分布模型。

标签:;  ;  ;  ;  ;  ;  

基于熵的决策树理论及其在中医证型研究中的应用_决策树论文
下载Doc文档

猜你喜欢