无指导的中医证候诊断数据的隐变量分析,本文主要内容关键词为:变量论文,中医论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
引言
中医讲究辩证论治,即通过“望”、“闻”、“问”、“切”(称为四诊)收集患者宏观临床表现,综合分析各种症状、体征诊断征候,对疾病当前的病因、病位、病势、病性给出诊断。这种综合考虑症状之间相互作用因果联系的方法体现了中医理论较之西医的特色与优势,但是仍未被现代科学很好的诠释及证明,主要困难在于以下几个方面:
1.对症状收集的准确性很大程度上取决于医生的学识与经验,具有很强的主观性;
2.对连续的症状变量只能给出无、轻、中、重的离散化指标;
3.症状变量繁多且具有复杂的相关性;
4.从症状到征候的辩证过程没有统一的标准。
在证候诊断过程中存在很大的主观性。即使是针对相同的病人,不同的中医专家可能得到不同的四诊信息;另一方面,即使是针对相同的四诊信息,不同的中医专家也可能得到不同的证候诊断结果。根据四诊信息中病人的各种症状,如何寻找出证候诊断的客观标准是中医证候研究中的一个重要的问题。目前,大多数的中医证候研究中,除了收集四诊信息之外,还要求医生为每一位病人给出证候诊断结果。针对这种含有诊断结果的数据,通常采用Logistic回归分析,可以得到根据四诊信息进行证候诊断的统计模型。中医专家的征候诊断是否会存在主观性?关于中医证候诊断的标准也存在不同观点。
贝叶斯网络和图模型的方法常被用于处理多变量系统的不确定性,并反映其间的相互作用网络,结构方程模型便基于其理论。Jreskog-Srbom(LISREL)方法[1~3]和Muthén-Christofferson方法[4~6]开始给出含正态指标的隐变量的结构方程模型的一般理论。Satorra[7]和Muthén & Satorra[8]进一步讨论了正态假设不成立时的结果和方法。本文由此,通过引入隐变量,把可观测的离散化指标作为潜在的证候变量的表现来解决以上第二个问题,并添加随机项以反映医生的主观性,应用结构方程模型分析研究了中医辩证的标准。
目前,不少学者利用隐变量模型研究中医证候理论,但对辩证的研究常是包含专家辩证结果的有指导的学习。因此,这种方法不能排除辩证时的主观性。与回归分析类似,由此建立的辩证标准就是以医生诊断作为依据的,是对医生辩证结果数据的总结,不足以说明中医理论的客观正确性。
本研究试图探索根据四诊信息,给出一种客观的证候诊断标准。我们的模型中不需要中医专家征候诊断的结果。更好的保证了客观性。根据这个标准将病人分为的不同的类型,然后与中医的证候诊断标准进行对比。此外,我们考虑了中医的离散数据不满足正态假设的问题。本研究收集了433例脑动脉硬化症患者的四诊信息,记录了每位病人的38个症状,每个症状分为无、轻、中、重四个水平,分别记为0、1、2、3。对实际数据分析的结果与传统中医理论相当吻合,并且进一步研究了症状、证候、病情之间关系和病情轻重的预测;为对中医辨证建立统计学基础提供了参考。第一节对结构方程模型的理论给出了简要的介绍,第二节和第三节针对中医问题,提出利用合因变量的结构方程模型(SEMs),根据数据分析结果进行中医征候诊断的方法,实际数据的结果在第四节给出,最后,第五节对所提出的方法做了简要评价与讨论。
一、结构方程模型
结构方程模型用于处理含有众多变量及复杂相关指标的网络结构,学习可观测的显变量和不可观测的隐变量间的直接及间接作用,有如下几个优点:
1.允许自变量含有误差,尽可能调整了测量误差及个体差异;
2.同时考虑变量间的直接关系和间接关系,并能利用通径图给出直观表示;
3.可以根据专业知识对模型做出合理假设,并检验这种假设,有助理解因果关系。
结构方程模型有许多种描述,这里我们主要参考了Muthén[9]的表述,包含测量部分和结构部分。首先,对样本中n个独立个体,l维随机向董表示所有关心的l个隐变量,作为隐变量的替代指标,反映隐变量特性的m个显变量。假设显变量X的值只取决于隐变量U,即在给定隐变量的条件下,各显变量是相互独立的。在该假设下,可以根据模型假设的结构和观测数据得到测量部分的方程:
X=BU+ξ
其中,B是m×l维系数向量,随机向量ξ表示显变量的测量误差,服从均值E(ξ)=0和方差cov(ξ)=Σ的多元正态分布。
在结构部分,定义隐变量之间的线性结构关系为:
U=α+AU+ζ
其中A为l×l矩阵,其所有对角元素,且矩阵(I-A)可逆。残差向量服从均值E(ζ)=0和方差cov(ζ)=Ψ的多元正态分布,且独立于ξ。
对含有隐变量的密度函数进行积分,得到似然方程:
已知似然方程,可用极大似然法或广义最小二乘法求出各参数的估计值。而在正态假设下,极大似然估计与最小二乘估计等价。
对模型的评价可用BIC,GFI,等拟合指标考察模型的拟合度。但要注意作本大小对模型拟合指标的影响:如果模型失真,在小样本情况下,BIC,GFI更易显示出拟合不好,而检验则不易拒绝不正确的模型。相反,在大样本的情况下,拟合指标常会不易拒绝不正确的模型[10]。
在实际中,数据经常不能满足正态分布的假设。在这种情况下,基于正态理论的检验会增加一类错误,导致研究者可能会因为数据的分布非正态而不是模型本身的结构问题而错误地拒绝一个模型[11,12]。而对模型系数的估计,虽然最小二乘法在正态分布不满足的情况下仍能给出相合估计,但估计的统计性质,如标准误差等的正确性仍需要数据独立正态的假设。
对于这些问题,较为广泛使用的是Browne[13]提出的asymptotic distribution free(ADF)方法进行估计,虽然ADF也建立于正态分布的假设下,但蒙特卡罗模拟的结果表明其在大样本的条件下对非正态情形仍有良好的估计[13~15]。在理论上,Satorra[7]指出在一定条件下(文[7]定理1的条件)可以用ADF对任意分布的连续变量进行良好的估计。这种方法的困难在于计算非常复杂,当模型中变量多于20个就难以进行实际操作了。于是,Muthén & Kaplan[14,16]研究了传统的方法在不同样本和模型大小下估计的偏差,指出传统的基于正态理论的估计在“小模型”(含5个左右变量)下,对不满足正态分布的连续或有序离散变量情形仍有良好估计。而对于大模型,可以参考Muthén & Satorra[8]以及Papadopoulos & Amemiya[17]提出的方法。
二、中医证候隐变量模型
中医证候辨证理论讲述的是证候与症状之间的关系。即通过望、闻、问、切的手段得到病人的症状,分析证候,判断病人的内在病因、病位、病势、病性。我们可以把症状作为显变量,证候作为隐变量,参考文献[18~21]中的方法,利用结构方程进行分析。例如,脑动脉硬化,主要侵犯供应脑的大中动脉,长期使管壁增厚,管腔变窄,引起脑组织供血不足,临床会表现出头痛、眩晕、失眠、健忘、四肢麻木等特异性表现,同时不同患者由于个体差异在上述特异性表现的基础上会出现头胀痛、清志抑郁、善太息等。或见乏力、神疲、气短、懒言,这成为中医诊断证候的客观基础。而上述症状包括其他的四诊信息均是可以直接观测的症状,在模型中用显变量表示;而如“气滞”、“气虚”等证候迄今仍没有方法进行直接观测,在模型中可以利用适当的隐变量来进行研究。根据临床研究得到的症状,进行症状的聚类,认为每一类症状是由一个证候确定的。每一个征候表现出若干个症状。图1给出了第j个证候的情况,椭圆表示证候隐变量;该证候表现出五个症状,用短形表示,均为可观测的显变量,并含测量误差。这里,模型设有包含医生对征候的诊断结果。这样能够更客观地学习症状对征候的影响;再与传统中医的辩证理论相对照。由图1列出第j证候的五个症状方程为:
这里,我们的症状取值为0,1,2,3;分别表示病人症状无,轻,中,重的有序离散变量;虽然症状不满足正态分布的假设,但是模型中的变量均在5个左右。最多7个。根据Muthén & Kaplan[14,16]的研究,传统的基于正态分布理论的方法对这样的非正态数据仍能给出很好的估计。因此,我们可以根据上述结构方程的理论可得出系数的估计。这些系数反映各症状与证候的相互关联程度,可理解为中医辨证理论中症状对证候的贡献度的衡量。将其结果与中医理论相对照,可以对传统中医辨证理论的科学性加以研究与诠释。
图1
三、两层隐结构模型的两步估计方法
至此,我们得到了症状对征候的贡献度,而证候与病情轻重缓急的关系也常是我们所关心的,并且,如果能基于各症状的观测,无指导地判断出病人的病情及轻重,不但可以对传统中医望、闻、问、切和辩证方法的有效性加以证明,也会有助于我们更好的理解中医,建立更为客观的诊断标准。我们在证候之上再加一层隐结构,形成图2的两层隐结构模型。为了避免主观性,我们不引入医生对疾病情况的判断,导致图2模型中最上层表示疾病情况的变量为不可观测的,也没有相关的显变量可以直接与其关联。不能用第二节的方法对其进行参数估计。为此,我们提出两步估计的方法,利用已得到的证候与症状之间的作用系数得出各证候变量的估计值,再计算证候与疾病之间的作用。
图2
利用得到的各证候的估计值,建立第二层隐变量模型,进行第二步估计,利用第二节的算法得到第二层隐变量模型的参数,即证候对疾病情况的贡献度。类似地,对反映疾病情况的隐变量的值进行估计,作为病情轻重的度量值。
四、实际数据结果
我们对433例脑动脉硬化症(CAS)患者原始症状进行了临床调查。临床调查表建立在广泛文献研究和专家咨询基础上,正式调查前广泛搜集历代医家以及期刊、专著、行业标准记载的相关病证的文献资料,进行专家访谈和德尔菲评价法(Delphi法)两轮专家问卷,形成证候四诊条目池,遵循医学设计、测量和评价(DME)原则完成临床调查,并对调查表信度和效度进行检验,形成数据分析的基本资料。
根据中医理论,模型考虑了气滞、气虚、痰湿、血淤、阴虚、热火、阳虚7个证候和与之相关的38个临床症状。采用症状聚类得到7个症状类,每一个症状类有一个证候解释。应用第三节所提出的两层隐变量模型的方法,通过SAS软件的Calis过程得到的参数估计,如表1所示。表1的第一行是各证候变量,第二行是反映证候与疾病之间关系的系数,下面各栏是不同症状对证候影响的系数,最后一行是拟合的GFI(Goodness-of-Fit Index)指标。
根据计算结果,可以将证候对症状影响的大小关系加以排序,从统计角度上解释中医辩证过程。总体上看,所得结果与由中医专家根据传统中医辩证理论给出的症状对证候的贡献度的大小关系基本吻合。其中气滞、血淤、阳虚三项中所有症状的贡献度排序与中医理论完全一致。例如,气滞证候中,中医认为症状善太息的重要性最大,其次为清志抑郁、急躁易怒、头胀,最后是脉弦,这个顺序与数据分析得到的贡献度大小顺序一致。而气虚、阴虚、热火三项中各仅有一项稍有不同:气虚证候中,中医给出的贡献度关系由大到小为:乏力、气短、神疲、懒言、舌淡、自汗、脉弱,即与我们结果的差别仅在于认为舌淡的重要性应在自汗之前。但由表1所示的结果,与舌淡和自汗相关的系数差别并不是很大,而且通过咨询中医专家,他们也指出这两个症状在辩证过程中对气虚证候的贡献度基本相当,我们的结果是可以接受的。而在阴虚和热火中,中医给出的结果与我们的差异分别在于认为少苦无答应在腰膝酸软之前,以及舌红在口干之前,同样,中医理论和我们的结果都表明差别并不大,因此我们认为结果是合理的。另外,估计系数中出现了两处负值,分别是痰湿证候中的脉滑一项和阳虚征候中的脉沉迟一项。这是由于脉滑、脉沉迟两个证状在其所属证候中作用都并不明显,而实际测量中误差也比较大,使所得的数据中变量之间出现了负相关的情况,导致在计算样本协方差阵中含有负相关关系所造成的。然而,如果我们这里只关心症状对证候贡献度的大小次序,仍可以通过对系数绝对值的大小进行排序得到。但是,我们的结果与中医理论也有不一致之处,我们注意到痰湿一项与辩证理论相差较大(此处中医专家给出顺序为:痰多、头重、体胖、脉滑、首白腻),根据中医理论,在脑动脉硬化症中,痰湿并不是主要征候。并会受到其他证候的影响,而我们的模型中没有加入这种作用,可能因此导致了结果的偏差。
表1
注释:最小二乘法所得隐变量模型的参数估计值。第一行为七个证候变量,第二行是模型中证候与疾病之间关系的系数;其大小反映了不同证候对疾病影响的大小。每一证候变量下的各栏是与该证候相关的症状变量及它们在模型中与证候变量间关系的系数。反映了症状对证候贡献度的大小。最后一行是拟合的CFI(Goodness-off-Fit Index)指标。
五、总结
本文尝试利用结构方程模型,讨论和延伸了利用隐变量的方法学习症状、证候与病情之间关系的方法。并在模型学习的过程中避免加入医生对证候的主观诊断,使结果不仅仅是对中医辨证规律的数据总结,而能更客观地对中医辨证理论的科学性加以证明和诠释。并给出了对433例脑动脉硬化症患者实际数据的学习结果和与中医理论的对照情况。大部分结果与理论相当吻合,有助于建立传统中医的科学性;而不一致的部分为进一步改进模型,例如考虑证候间的相互作用,以及其他方法的学习提供了参考。本研究尝试了为传统中医理论建立数学模型,有助于证实其科学性。