对数线性模型在中药数据中的应用_气阴两虚论文

对数线性模型在中医数据中的应用,本文主要内容关键词为:对数论文,线性论文,模型论文,中医论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

自古以来,中医都以其独特的诊断病症的体系进行诊疗。中医在看病时运用望、闻、问、切四种方法,诊断病症,对症下药。将中医诊疗结果数据化,选择合适的模型进行分析,寻找出症型和症状之间的关联性及用药规律,将为中医理论的传承与发展提供巨大的帮助。

一、对数线性模型简介

对数线性模型是用于处理列联表资料的统计模型,是描述具有非线性相关离散型变量的多元统计方法。

以三个变量为例,当三个变量相互不独立时,建立的对数线性模型为饱和模型。饱和模型的形式如 (1)式。

附图

在实际数据的分析中,一般饱和模型的拟合效果不一定最好。因而需要根据变量之间的独立性关系,在饱和模型的基础上去除不显著的交互效应,从而得到最佳拟合效果的模型。

二、数据来源及特点

本文使用的数据为“北京市科委重大项目——中医药防治重大疾病临床个体诊疗评价体系的研究”中糖尿病二型临床诊疗数据。中医临床诊疗数据大都为属性数据;中医按照症型、症状对诊疗结果进行不同层次的分类,以综合考虑二者对患者的影响,因而变量间常为非线性相关关系;由于中医对症状的分类过细,造成即使获取数据的病例数很多,不同症状下的病例数仍很少,造成最终的数据多为高维、单个变量下的小样本。

根据中医理论,大部分糖尿病患者的症型为气阴两虚,造成脾阳不足,导致对胰的供氧不足,最终导致胰岛素的分泌下降。同时,诊疗数据显示,大部分糖尿病患者都有头晕和失眠的症状。头晕为高血压病的主要症状,失眠为神经系统疾病的主要症状。那么对于糖尿病患者而言,其气阴两虚症型和头晕、失眠症状之间是否存在相关性?这是本文所要探讨的问题,为中医通过滋阴补气缓解糖尿病人头晕、失眠的治疗方式提供依据。

根据中医糖尿病数据的这些特点,拟选取对数线性模型对其进行分析。通过对数线性模型寻找气阴两虚、头晕和失眠之间的关系。

三、模型建立

(一)模型的选择

根据“气阴两虚”、“失眠”及“头晕”之间的独立性关系,在饱和模型的基础上逐步去除不显著的交互效应。利用卡方似然比统计量检验包含不同交互效应的模型的拟合效果,根据不同模型的拟合效果判断:凡忽略“头晕”和“失眠”交互项或“气阴两虚”和“失眠”交互项的模型p值均低于0.1,因而表明“头晕”和“失眠”的交互效应以及“气阴两虚”和“失眠”的交互效应不可忽略。由于卡方检验的原假设为参与建模的各个变量及变量交互项之间相互独立,因而p值越大,表明卡方检验越显著,独立模型应该拒绝,而该模型拟和效果越好。由p值可以判断,(气阴两虚和失眠,头晕和失眠)模型效果拟和最好。

(二)模型系数的检验

建立对数线性模型后,对各个效应的估计值是否显著也应进行检验。通过对效应系数的显著性可以判断该效应项包含在模型中是否合理。对数线性模型系数的检验通常用Z检验法。模型系数的检验结果及参数估计值(见表1)。

表1 模型系数的检验结果及参数估计值

参数

估计值 标准误 z统计量 sig值

常数3.776

0.132

28.579 0

气阴两虚=0 -0.396

0.152

-2.599

0.009

气阴两虚=1 0

失眠=0 0.511

0.1663.067

0.002

失眠=1 0

头晕=0 0.373

0.1522.452

0.014

头晕=1 0

[气阴两虚=0]*[失眠=0] -0.1

0.188

-0.531

0.596

[气阴两虚=0]*[失眠=1]0

[气阴两虚=1]*[失眠=0]0

[气阴两虚=1]*[失眠=1]0

[头晕=0]*[失眠=0] 0.333

0.1891.757

0.079

[头晕=0]*[失眠=1]0

[头晕=1]*[失眠=0]0

[头晕=1]*[失眠=1]0

由表1可以看出,只有[气阴两虚=.00]*[失眠=.00]的交互项的Z检验值sig值>0.1,即该交互项系数估计值为0的可能性极大,因而将其包含在模型中不合适。去掉[气阴两虚=.00]*[失眠=.00]的交互项,初步确立对数线性模型,如式(2)。

附图

其中i为“气阴两虚”,j为“失眠”,k为“头晕”。

(三)模型拟合效果检验

最终模型确立后,需要对该模型的拟合效果进行检验。在标准化残差和频数的scatter图中,一般标准化残差在正负1.96范围内表明残差不大,模型选择合适,拟合效果很好。由图1(图略,参见原文)可知,标准差很小,模型的拟合效果确实很好。

由图1和图2(图略,参见原文)中对比可以看出,点分布的差异不大,表明(气阴两虚和失眠,头晕和失眠)模型适合拟合该数据。

(四)模型解释

根据模型的参数估计值(见表1),各个效应项的估计值为:

附图

=-0.396表明具有气阴两虚症型的患者要多于不具有气阴两虚症型的患者。

=0.511表明不具有失眠症状的患者要多于具有失眠症状的患者。

=0.373表明不具有头晕症状的患者要多于具有头晕症状的患者。

=0.333表明不具有失眠症状的患者中不具有头晕症状的人数,多于仅由从不具有失眠症状的人数或不具有头晕症状的人数为基础估计的人数,也就是表明不具有失眠症状与不具有头晕症状之间存在着正相关,因此这类人数比假定“失眠”与“头晕”无关时所期望的人数多。

四、几点启示

本文中所使用的数据为三维列联表形式。在有些问题的分析中,使用对数线性模型分析四个或四个以上变量之间的关系时,必须建立高维列联表,因而需要样本的数目很大。可以采取“压缩”的方法,将高维列联表就变量中的某一个进行折迭,成为一个低维列联表。如若试图分析“气阴两虚”、“阴虚热盛”、“头晕”和“失眠”之间的关系,但实际数据量不能满足所需样本量。可根据“阴虚热盛”进行折迭,因为阴虚热盛为气阴两虚的表象。但在折迭的过程中,将损失部分信息量。因而在使用对数线性模型时,尽量使用三个变量建立模型,除非必须使用更高维的列联表。

对数线性模型可以量化变量之间的关联程度,但是对于具备因果关系的变量则不能反映出其双向的相关性。如研究“气阴两虚”症型和症状之间的关系,从医学理论而言,医生根据病人不同的症状表现判断病人是否属于“气阴两虚”症型,从而决定相应的治疗方法。可见,不同症状和“气阴两虚”症型之间具有因果关系。但在使用对数线性模型进行分析时则不能体现出这样一种区别:已经诊断为具有“气阴两虚”症型的病人具有某一症状的可能性,以及具有某一症状的病人被诊断为具有“气阴两虚”症型的可能性。可以使用关联规则寻找具有因果关系的变量双向不同的相关性。

标签:;  ;  ;  ;  

对数线性模型在中药数据中的应用_气阴两虚论文
下载Doc文档

猜你喜欢