数据挖掘若干方法研究及其在中医药数据库中的应用

数据挖掘若干方法研究及其在中医药数据库中的应用

周婕[1]2003年在《数据挖掘若干方法研究及其在中医药数据库中的应用》文中提出华夏医学源远流长,有着数千年的历史,是我国劳动人民长期同疾病做斗争的极为丰富的经验总结,是我国优秀文化的重要组成部分。在古代朴素的唯物论和自发的辩证法思想的影响和指导下,通过长期的医疗实践,逐步形成并发展成为具有独特的医学理论体系,丰富的治疗经验的完整医学,为中国人民的保健事业和中华民族的繁衍昌盛做出了巨大的贡献。但是,作为经验医学,它缺乏客观性指标,描述文字繁琐、晦涩、模糊,对于现代的医学工作者学习,掌握较困难。加之,内容散乱、缺乏系统性、规范性使研究颇为不便。 数据挖掘是从大量数据中“挖掘”先前未知的、有效的、可使用的知识。数据挖掘能发现频繁集,产成关联规则;进行分类及聚类等。中药方剂是我国独有的医学宝库,由于长期缺乏系统的科学的整理,大量的方剂处于分散流失状态,亟待我们用科学的手段加以整理和分析。而中药方剂数据的庞大和复杂正好适合数据挖掘技术的运用。 本文研究了中药方剂数据的特点,建立了中药方剂数据库;研究并讨论了数据挖掘的基本理论和方法;研究了若干数据挖掘算法,并选择合适的挖掘算法(或对其中某些算法做出适当改进)应用于中医药方剂数据库,挖掘其中有用的知识。本文主要使用了频繁集、关联规则和聚类方法进行挖掘。挖掘频繁集与关联规则时,主要使用了经典的单维布尔关联关则挖掘算法Apriori算法。为了更适于中医药数据库中的挖掘,对Apriori算法进行了改进,提出了MApriori算法用于挖掘多维布尔关联规则,和WApriori算法用于挖掘加权关联规则。在聚类分析方面,主要使用了凝聚型层次聚类法。为了提高聚类的质量,使用RatioD距离代替传统的欧氏距离进行聚类。 本文是基于“中药复方分析系统”软件开发项目(由西南交通大学神经网络与信息技术研究所与成都中医药大学图书馆合作开发)完成的。该软件借助数据挖掘的多种方法,针对中医学古今药方,实现对中医药数据库的深入挖掘。系统开发成功后,交由中医学者使用,其用途包括:1.协助中医学者研究与发现中医药海量数据中隐含的规律和趋势;2.帮助医生开出有科学依据的药方,实现中医学的科学化,规范化。在本文的末尾对“中药复方分析系统”软件进行了简要的介绍。

马丽伟[2]2009年在《关联规则算法研究及其在中医药数据挖掘中的应用》文中研究指明数据挖掘可以发现蕴藏在海量数据中的潜在知识,是当今最活跃的研究应用领域。关联规则是数据挖掘中的一个主要研究分支,侧重于寻找数据之间的依赖关系。关联规则挖掘的核心问题是如何提高挖掘算法的效率,以及如何更好的应用于特定领域中。中国传统医学是我国优秀的民族文化遗产,中医理论在长期的医疗实践中积累了大量数据信息,挖掘出其中蕴含的宝贵经验,是一项极有价值的研究工作。本文重点是对关联规则挖掘算法的研究,基于直接频繁闭超集改进算法的设计以及在中医药数据挖掘领域中的应用。论文研究的主要问题及相关成果如下:在算法研究方面,本文研究了频繁项集和频繁闭项集的挖掘算法。频繁项集的算法研究中,分析并实现了关联规则频繁项集挖掘的算法——Apriori算法和FP-growth算法。针对频繁项集挖掘效率低且数量大的问题,研究了频繁闭项集的挖掘算法,并引入直接频繁闭超集的概念,在CHARM算法的基础上,设计了一种能够快速检测候选频繁闭项集闭合性的改进算法——CIABD算法,最后在标准数据集上进行实验比较,表明了CIABD算法的快速有效性。在算法应用方面,利用中医疫病医案信息资源,经过数据预处理,分别采用关联规则中频繁项集与频繁闭项集算法进行中医药挖掘实验,发现频繁闭项集算法在中医药数据挖掘中相对更有优势。通过对关联规则结果的分析,表明挖掘的结果符合中医相关理论,具有较好的临床参考价值。

王凯[3]2012年在《关联规则算法及其在智能药房系统中的应用研究》文中指出关联规则挖掘是数据挖掘领域的一个重要研究分支,它对于事务数据集中的规则发现有着不可替代的作用。近年来国内外各界学者、研究机构对关联规则算法本身及其应用投入了大量精力,提出了各式各样的算法及在原有算法上的改进,同时,关联规则的应用也深入到各个领域。本文总结数据挖掘以及关联规则的国内外研究现状。对关联规则挖掘的Apriori算法进行了深入研究,并分析其主要性能瓶颈,在此基础上,对比Apriori算法与FP-Growth算法的优缺点,研究基于数据分割和基于散列的改进算法。本文分析中医药关联规则挖掘的特点,小包装中药饮片在药房系统中使用的规范、原则及其优越性。构建了整个智能药房上位机软件系统,包括主控系统、窗口系统、备货系统,并实现其各个功能模块的代码设计。在此基础上,实现关联规则算法在药房系统中仓位配置管理上的应用,对其中的数据处理操作、频繁项集的发现过程以及仓位的具体分配原则做了详尽阐述,并将应用关联规则的配仓结果与传统的经验配仓结果对处方调剂效率的影响进行了比较,验证算法的优越性。分析本文研究中还存在的一些问题,并指出进一步研究的方向。

潘林梅[4]2007年在《黄连解毒汤提取过程及大孔树脂精制机理的初步研究》文中研究说明中药复方是中医药理论体系的精髓,中药复方多以煎服汤剂的形式广泛地用于多种疾病的治疗,是临床应用的主要形式,是中成药生产的基础。因而从中药及其复方的水提液中获取药效物质,最能体现其安全性与有效性,是现代中药开发的主要研究思路。如何既保持其现有传统优势,又能更好、更方便地发挥中药复方治病的稳定疗效?如何充分体现数千年来中医药防病治病的安全性和有效性,使“继承”与“创新”得到有效结合、高度统一?对这些问题的回答迫使我们必须对中药复方水提液及其提取精制工艺进行深入的基础性研究,而这也正是中药复方现代化研究必须面临的问题。本论文是工业化分离手段用于中药复方复杂体系分离研究的方向之一,探索将复杂系统科学原理引入诠释中药复方提取及精制过程中所面临的共性关键技术,旨在从有效部位群分离筛选与物理化学表征参数的角度,建立可与信息科学接轨的中药复杂系统表征技术体系。本论文选用物质基础研究较多、作用机理较明确的经典方——黄连解毒汤作为研究起点,首先,针对其复方提取过程中产生沉淀的现象进行深入的探讨,对其提取过程进行动态考察,从研究提取过程中多种指标性成分的溶出变化及中药复方水提液中特征物理化学表征参数的变化入手,采用数学统计的方法,探讨不同指标性成分及理化参数与汤剂溶出过程中所产生沉淀之间的关系,从而为提高该复方临床使用的有效性提供了理论依据;建立了各相关指标性成分的溶出数学模型,用于初步模拟复方提取中各指标性成分的动态变化过程,同时对提取过程中体系物理化学表征参数的变化进行相关分析,提示一定范围内可以通过各阶段提取液体系的物理化学特征参数对整个提取的动态过程进行在线控制。其次,在上述研究的基础上,对复方黄连解毒汤精制过程进行探讨,选用已广泛用于工业生产的现代精制技术——大孔树脂吸附分离技术,精制中药复方水提液,针对目前制约大孔树脂吸附技术精制中药复方领域的共性关键问题,探索在现代分离科学原理的指导下,通过监控我们可检测到的指标性成分在大孔树脂上实现吸附—分离的动力学过程、精制过程中复方体系的物理化学特性参数的动态变化过程以及相关药效学指征,运用数据挖掘软件进行分析和知识发现,揭示大孔吸附树脂的特性与复方中不同指标性成分的含量及其吸附动力学过程之间、大孔吸附树脂的特性与复方精制过程中体系特征物理化学参数之间以及它们与相关药效指标之间的相关性的规律。同时结合对大孔吸附树脂精制复方前后其本身的微观变化进行综合分析,旨在为大孔树脂吸附分离技术用于精制中药复方建立可科学表达的参照模型,保证工业化生产中中药复方精制后的安全性、稳定性和等效性。本论文的主要研究工作:1、采用HPLC法对组方药材进行了质量控制研究,本复方由黄连、黄柏、黄芩、栀子组成,分别采集不同产地的各种药材进行基源及含量测定研究,确保合格可控的原药材用于本论文研究。2、对复方提取过程进行动态研究,考察复方各项指标及参数在10min~120min的提取时间内的变化。分别运用UV、HPLC法研究复方提取过程中指标性成分——总生物碱、总黄酮、小檗碱、药根碱、巴马汀、黄芩苷、栀子苷的溶出变化,同时分别采用不同理化测定仪器对提取过程中各药液的物理化学表征参数——溶液pH值、电导率、盐度、粘度、浊度的变化进行研究,并与复方提取过程中的沉淀率、固含率进行比较分析,采用直观分析与数理统计分析结合,探讨各物理化学表征参数与各指标性成分之间的相关性;各指标性成分与沉淀率、固含率之间的相关性;各物理化学表征参数与沉淀率、固含率之间的相关性,建立相关模拟数学方程和模型,探讨复方提取过程中沉淀产生变化的过程,为建立能以体系物理化学表征参数的变化来对复方提取进行在线控制,以及探讨建立中药复方提取动力学模型提供研究基础。3、采用大孔树脂静态吸附法,对组方中各单味药材分别进行了九种不同大孔吸附树脂的吸附动力学研究,分别采用UV、HPLC法测定相关指标性成分的量,计算不同树脂的吸附速率常数、比吸附量、比洗脱量,以及不同成分的吸附率、洗脱率,绘制了不同树脂的吸附动力学曲线,对其吸附过程中的动力学变化进行了比较研究。4、采用静态吸附法,对复方分别进行了九种不同大孔吸附树脂的吸附动力学研究,分别采用UV、HPLC法测定相关指标性成分——总生物碱、总黄酮、小檗碱、药根碱、巴马汀、黄芩苷、栀子苷的量,计算不同树脂分别相对于总生物碱、总黄酮的吸附速率常数、比吸附量、比洗脱量,以及吸附率、洗脱率,分别绘制了不同树脂的吸附动力学曲线,同时以其中单个成分小檗碱、药根碱、巴马汀、黄芩苷、栀子苷的量分别进行比洗脱量和洗脱率的比较,对其复方吸附分离中的动力学过程进行了比较研究。5、从中药水提液复杂体系的客观本质入手,运用物理化学的研究方法,对复方吸附分离过程中溶液体系的物理化学表征参数进行了研究,分别测定了上样前药液、吸附后药液及洗脱后药液的pH值、电导率、盐度、粘度、浊度的变化,并对其变化进行比较分析。6、采用动态上柱法,对组方单味药材及复方分别进行了九种不同大孔吸附树脂的动态吸附分离研究,分别采用UV、HPLC法测定相关指标性成分——总生物碱、总黄酮、小檗碱、药根碱、巴马汀、黄芩苷、栀子苷的量,计算其转移率。同时考察了精制过程中各体系的物理化学表征参数——溶液pH值、电导率、盐度、粘度、浊度的变化。7、采用体外血小板抑制聚集试验对比了九种不同大孔树脂的分离精制产物与精制前的药效学变化。8、运用数据挖掘软件,对有关“大孔吸附树脂特征参数量——中药复方提取液精制前后物理化学特征参数量——中药复方提取液精制前后指标性成分特性量——大孔树脂吸附动力学特征参数量——药效学指标之间相关性进行数据挖掘研究,拟合不同的曲线,建立相关的数学方程,探讨大孔吸附树脂分离中药复方水提液的相关规律及机理。9、基于知识发现,设计五种不同的树脂组合,分别进行静态及动态吸附实验,对其吸附动力学过程以及各相关指标性成分——总生物碱、总黄酮、小檗碱、药根碱、巴马汀、黄芩苷、栀子苷的量进行比较研究。10、借鉴微观粒子的研究手段,采用电镜扫描法,对不同大孔树脂分离复方的吸附前、吸附后及洗脱后,其本身的微观形态的变化进行比较研究。本论文的创新点:在中医药理论的指导下,从精密微观的角度探讨中药复方提取精制过程的作用机理,通过采集大量中药化学、物理化学、吸附动力学参数,开展多变量数据挖掘实验研究:1、首次对中药复方提取过程进行动态研究:多指标同时考察、引入物理化学表征参数量,用数学统计的方法探讨其复方煎煮中成分溶出的规律,为创建一种可较全面评价药效物质溶出状况的工艺考察模式提供了新的思路,并为进一步建立能以提取液的物理化学表征参数对提取过程进行在线控制创造了条件。2、在现代分离科学理论的指导下,系统深入地探讨了大孔树脂精制中药复方的动力学过程,引入复杂体系中数据挖掘的方法对分离过程中多变量的相关性进行考察及知识发现,首次提出“基于知识发现的树脂组合”新概念,为创建面向中药复方复杂体系精制过程的新型大孔树脂技术,从而获取中药复方中科学合理的药效物质,迈出了重要的一步。3、引入电镜扫描法,比较了大孔树脂精制中药复方前后,各大孔树脂本身表面及内部微观形态的变化,对精制过程进行综合考察。本论文的研究意义:1、为中药药剂学中提取及精制过程的研究提供了一条可与现代信息科学接轨的新思路。2、精制是中成药生产过程中最关键的环节,也是目前制约中药质量提高的关键问题。本论文将中药复方作为一组特殊的化学药物整体进行“集群筛选”,依据现代分离科学理论,从分离的本质入手,以可实现生产上的在线检测为目标,初步建立了可科学、客观地表征中药水提液分离性质的、以溶液体系的物理化学特性量与主要化学组成特性量为主体组成的技术体系,为建立大孔树脂应用于生产的技术规范提供了简便易行的方法。3、本论文运用数据挖掘的方法研究复方精制过程中不同成分间的竞争性吸附,以及如何保留原有复方中指标成分间的配比,阐明了各指标性成分的动力学过程。根据数据挖掘建立的数学模型和由此而衍生的知识发现,将实验中得到的大量纷繁复杂的数据进行了系统提练,即特征性地表征大孔树脂精制复方过程的动态变化,从而建立可与信息科学接轨的中药复杂系统表征技术体系,不仅可实现分离的靶向性,而且为初步探索现代分离科学理论在中药复方精制中的应用奠定了基础。

赵丹丹[5]2006年在《数据挖掘在治疗糖尿病中药方剂数据库中的应用模拟》文中认为作为新兴的数据处理技术,数据挖掘是伴随着数据库技术的发展而逐步完善起来的,主要是为了从大型数据库中高效地发现隐含在其中的知识或规律,并为人类专家的决策提供支持。数据挖掘已经在许多领域得到应用,在医学领域的应用虽然刚刚起步,但也表现出良好的发展势头。 五千年的中华民族的文化底蕴,是中医药发生、发展的基础。近几年来,中医药科学问题的现代化研究不仅是中医药本身的研究重点,也成为其他学科,如化学、药物学研究的重点。几千年的经验积淀,中医药已经积累了海量数据。如中药方剂数据中蕴涵了大量有益信息,这些信息却很少得到充分的挖掘和利用,靠手工操作来理解分析这些数据己远远超出了人的能力。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则。迅速发展的数据挖掘技术,为此提供了有效途径。 随着社会经济的进步与发展,威胁人类健康的疾病谱正在变化。慢性非传染性疾病对国民、尤其是老年人群的健康的威胁越来越大,最为明显的是2型糖尿病在全球范围内的几近流行的上升趋势。积极开展糖尿病及其并发症的防治已成为目前医学界研究的热点。 本文就是以治疗糖尿病的中药方剂数据为研究样本,采用数据挖掘技术对其用药规律进行了有益探索。首先总结了数据挖掘的研究现状及最新进展,并简单介绍了中医药治疗糖尿病的相关知识。然后探讨了数据挖掘的基本理论和方法,并选择合适的算法应用于中药方剂数据库,挖掘其中有用的知识。 本文提出了数据挖掘方法应与领域相结合的思想。主要做了以下工作:对中医药方中不规范的数据进行了处理,建立了基本库和应用库;对关联规则及算法进行了改进,以发现中药配伍的规律;并引进了聚类算法分析技术,通过聚类分析方法对药物进行聚类,以适应针对大型数据库中混合数值和分类数据。因为在数据挖掘领域中,研究工作已经集中在为大型数掘库的有效和实际的聚类分析寻

肖光磊[6]2008年在《名老中医经验传承中的数据挖掘技术研究》文中指出中医学是中华民族的优秀文化遗产,在当今世界回归大自然的浪潮下,其优势越来越突出,地位也越来越重要。中医学是一门临床经验要求比较高的学科,当代中国名老中医的诊疗经验,是他们在临床实践中与中医学理论结合、突破、创新的结果,包含了中医基础理论的原则和名老中医的独创心得或见解,是发展中医药学的宝贵财富。因此对当代名老中医学术思想临证经验的继承不仅能丰富中医药学的理论体系,还能对整个医学科学的发展产生巨大的推动作用。对名老中医学术思想和临证经验的研究,传统的方法已经越来越显示其不足,应用现代科学技术对这些名老中医的临床诊疗经验进行科学解析显得尤为迫切。数据挖掘是一种有效的信息处理技术,采用数据挖掘技术对名老中医学术思想和临证经验进行研究,可以全面解析其中的规律,分析名老中医个体化诊疗信息特征,提炼出临证经验中蕴藏的新理论、新方法、新知识,实现名医经验的有效总结与传承。本文主要对名老中医经验传承中涉及的相关数据挖掘技术进行了研究,以一位名老中医的慢性胃炎临床诊断医案为原始数据,从不同的角度研究了若干算法在其中的应用。在关联规则挖掘方面,分析了关联规则的经典算法Apriori算法和FP-Orowth算法,并针对基于支持度一置信度的关联规则挖掘算法的不足,研究了一种基于遗传算法的正相关关联规则挖掘算法。最后采用FP-Growth算法和基于遗传算法的正相关关联规则挖掘算法对中医临床数据进行了挖掘,并将两种算法挖掘的结果进行了分析。在决策树分类方面,分析了决策树学习中的两个重要算法ID3算法和C4.5算法,根据C4.5算法具有较高算法精度及较强适应性的特点,将其应用到中医辨证分类中,以慢性胃炎的中医辨证数据为实验数据,建立了关于慢性胃炎的中医辨证分类决策树,并对其进行了分析。

刘智[7]2012年在《关联规则挖掘方法及其在冠心病中医诊疗中的应用研究》文中研究说明冠心病是严重危害人类健康的常见病和多发病,已成为导致人类死亡的重大疾病之一。研究如何快速有效地从海量冠心病中医临床诊疗数据中挖掘蕴含其中的关联规则,并将得到的关联规则合理应用到冠心病的中医临床诊疗中,具有十分重要的理论和实际意义。根据冠心病中医诊疗数据的特点和挖掘需求,本文将向量法引入关联规则挖掘中,从脉象、舌质、发病诱因等18个方面与26种冠心病中医证型之间挖掘出中医辨证规律,得到了一系列的冠心病辨证规则,为冠心病的确诊与预防提供了重要的决策依据。冠心病诊疗数据往往是多值属性、多类标数据,传统的关联规则挖掘算法通常没有较好地结合领域知识,直接挖掘其中存在的规则,效率较低。为此,本文结合冠心病中医诊疗数据的特点,对决策属性和非决策属性进行分块编码,提出一种前后件约束的关联规则挖掘算法,可有效挖掘出中医治疗冠心病的用药规律,大大提高了算法的运行效率。此算法对于寻找决策属性与非决策属性之间的关联规则的数据挖掘问题具有一定的理论和实际价值。传统关联规则通常采用统一支持度阂值挖掘频繁项目集,导致支持度较低的长项目集无法被挖掘。若降低支持度阈值将产生大量冗余短项目集,同时会导致算法效率大大降低。为此,本文提出了一种前后件和长度递减支持度约束的关联规则挖掘方法,能够有效地挖掘更多的长模式,减少无用的短模式,使得生成的规则更具有理论和实际价值,能够有效辅助冠心病诊断和治疗。目前许多学者对生成规则前件与后件相关性进行了大量研究并提出若干相关性度量方式,但所提出度量方式绝大多数是以事物发展过程中的相关性不变为前提的。然而这种全局相关性的研究具有很大的偶然性,如果项集之间的相关性发生变化的话,就会出现当前挖掘出的关联规则的支持度和置信度较高,并且是正相关的,但随着时间的推移或某些特殊事件的发生将会出现当前规则的支持度和置信度变化,甚至出现不相关。针对关联规则在全局相关性方面的不足,本文提出了一种分段式非线性回归和反向验证的方法,并对关联规则的相关性进行验证。该方法对关联规则相关性的分析更加准确,产生规则的数量大大减少,能够挖掘出更有意义的关联规则。通过在冠心病中医诊疗数据上的实验,表明此方法更具有实际意义。关联规则的挖掘算法大多是基于支持度-置信度框架理论的,如果考虑到数据的时间因素以及规则前件与后件的相关性问题,这种方式并不是很有效。本文提出了一种新的关联规则框架:时效支持度-时效匹配度。采用新的匹配度方法取代传统的置信度,可以有效解决规则前件与后件的相关性问题,以支持度-匹配度框架为基础加入时间熵因子,使得生成的规则能够体现数据的时效意义。通过实例说明了该框架的可行性及优越性,并提出了新增数据库时的关联规则维护算法及实现思想,通过实验证明了该算法的有效性。

韩雅丽[8]2016年在《中医药数据挖掘文献的信息计量学评价研究》文中进行了进一步梳理目的:从信息计量评价的视角梳理中医药数据挖掘研究相关文献,分析总结国内中医药领域数据挖掘研究现状,分析此领域研究未来发展和前沿动向。方法:检索CNKI数据库收录的主题为中医药数据挖掘研究类文献,从文献发表的时间分布、受各类基金项目资助情况、研究机构分布、作者分布、期刊分布、涉及学科领域分布、关键词分布、研究主题分布及文献被引情况等文献特征指标,进行信息计量学分析与评价研究,同时借助Cytoscape 3.3.0信息可视化软件对文献中高频关键词的共现关联关系进行可视化展示。结果:通过对1564篇相关文献的分析研究表明:(1)此研究领域年累计发文量呈线性增长趋势,研究所受关注度越来越高;(2)研究获基金支持力度较大、层次较高;(3)研究的主体机构有北京中医药大学、中国中医科学院、南京中医药大学、广州中医药大学、山东中医药大学等;(4)据文献信息作者分布规律——洛特卡定律知,该研究的核心作者有北京中医药大学吴嘉瑞、张冰、张晓朦、杨冰、郭位先、中国中医科学院吕爱平、姜淼、成都中医药大学蒋永光、兰州大学郑光等;(5)研究论文的主要刊载期刊有中国实验方剂学杂志、中华中医药杂志、中国中医药信息杂志、世界科学技术——中医药现代化等杂志;(6)研究所涉高频关键词有关联规则分析、组方用药规律、聚类分析、中医医案、中医证候、用药经验、数据库等。结论:(1)关注此领域研究的主体机构、核心人员及主要期刊所载论文情况等可以了解此领域研究发展现状和预测前沿动向;(2)研究主要集中于四大主题:一是中药方剂研究与组方配伍规律挖掘,二是中医药学科领域的数据挖掘方法的应用研究,叁是中医证候分布及证治规律研究,四是名老中医临床经验数据挖掘研究;(3)数据挖掘方法向中医药更深领域的应用探索,传统中医药理论指导下中医药临床经验在现代的传承与应用,仍将是中医药数据挖掘研究的重要方向。

李园白[9]2006年在《中医妇科常见病医案数据挖掘方法研究》文中研究表明数千年来,中医药学绵亘不绝,积累的数据可谓浩如烟海。目前中医药情报工作者面临的问题,是如何从海量数据中深入、准确、快捷地提取出有价值的知识,为临床和科研服务。本课题从蕴含丰富中医知识的医案入手,利用数据挖掘技术对四种妇科常见疾病医案进行处理,并从临床角度展开分析。文中探讨了这种新型信息技术在中医药医案数据分析中的应用效果,并认识到其获取的新知识,对临床研究具有一定的参考意义。期望本课题研究能为数据挖掘技术在中医药信息领域的应用提供方法学参考。 1 研究背景 目前,已经有许多研究人员应用数据挖掘中的关联分析技术对中医药数据进行处理。如成都中医药大学与四川大学合作对脾胃病方的数据挖掘,中国中医研究院中医药信息所与浙江大学合作对中国方剂数据库、中医药临床文献题录库和现代生物医学文献库的数据挖掘以及西南交通大学对乙肝医案的数据挖掘,加上一些小型的零散研究,研究数目共计十一项,涉及研究单位十二家。 但中医药领域的数据挖掘研究是近四、五年来才逐步开展起来,应用尚属初级阶段,其局限性不可避免,概括如下: 首先原始资料基本局限于医案或方剂,内容大多是药对的提取,导致挖掘结果只限于方剂的配伍方面;其次无论是利用已有数据库还是自行建立的数据库,都缺乏对数据规范深入系统的研究,从而影响了数据挖掘效果;最后关于结果的分析,以往研究大都停留在验证已有理论,而对于传统知识中未包含的新鲜知识,未能进一步分析,使得数据挖掘结果的含义很难解读,直接影响挖掘结果的利用。 2 研究内容 本课题以四种妇科常见疾病为例,利用数据挖掘技术对医案数据进行处理分析。本课题的研究过程主要包括确定研究目标、数据采集、数据预处理、数据处

吴立旗[10]2013年在《基于数据挖掘的单纯冠心病与冠心病合并糖尿病的证治规律对比研究》文中研究表明1研究目的1.1使用系统评价的方法分析中药治疗冠心病合并糖尿病的疗效特色,明确中药治疗冠心病合并糖尿病的临床疗效。1.2基于大型数据库,通过收集以冠心病为第一诊断的住院患者,对合并/不合并糖尿病患者的中医证候要素、症状、中药使用等方面进行对比研究,分析糖尿病对冠心病患者在证素、证型、用药等方面的影响,并试图探索中医证素与理化指标之间的关系,希望能为以后中西医结合的研究奠定基础。2研究方法2.1使用RevMan5.1.6统计软件对系统评价部分的数据进行统计。2.2利用SQL Server2008工具对数据库进行合并、提取、清理并加载成目标数据库,利用Clementine数据挖掘软件进行数据挖掘。3结果本文使用系统评价的方法分析了中药治疗冠心病合并糖尿病的疗效特色,结果显示,联合中药治疗冠心病合并糖尿病在临床症状和心电图改善两方面优于单纯西药治疗,且不良反应少。数据挖掘结果提示单纯冠心病和冠心病合并糖尿病患者均以中老年人为主,主要集中在55岁以后,在小于55岁的患者中,男性患者数的条件概率是女性的2倍,而当年龄超过70岁时,女性患者数的条件概率是男性患者的1.8倍,合并糖尿病的冠心病患者性别、年龄分布规律与单纯冠心病患者的分布规律基本相同。冠心病患者的症状以胸闷、胸痛、气短、乏力、心悸、头晕为常见症状,而合并糖尿病的患者乏力、汗出、口干、便秘、耳鸣、耳聋、眼花、下肢水肿、肢麻、胃寒、少尿等症状较单纯冠心病患者发生比例高。单纯冠心病患者舌质紫暗,有瘀斑的现象比合并糖尿病患者更多见,合并糖尿病的冠心病患者少津,有裂纹的舌像更突出。单纯冠心病患者的弦、细、结、代脉较合并糖尿病的冠心病患者多见,而滑、沉、数、弱、缓脉在合并糖尿病的冠心病患者中更为突出。冠心病的证素以心、阳虚为主,在合并糖尿病的冠心病患者中,病性为气虚、阴虚、血虚,病位在肝、肾的患者较单纯冠心病患者多见,无论合并糖尿病与否,冠心病证候类型均表现为肝肾阴虚(血虚)、心阳虚、痰浊阻肺、气阴两虚、脾胃病变、气滞、血瘀七类。冠心病患者首次中药多使用活血化瘀之药,如桃仁、红花、丹参、川芎等,合并糖尿病的冠心病患者在活血化瘀的基础上注重使用健脾化痰之茯苓、半夏。单纯冠心病患者首次方剂最常用的药对为桃仁-红花、瓜萎-薤白、麦冬-五味子、当归-地黄,在叁药联合使用时,多在活血化瘀基础上增加温阳之薤白、益气之黄芪、理气化痰健脾之陈皮、半夏、瓜蒌、茯苓,在四药联合使用时更注重活血化瘀之法。冠心病合并糖尿病的患者首次方剂最常用的药对为桃仁-红花、陈皮-半夏、麦冬-五味子、瓜蒌-薤白,在叁药联合使用时在活血化瘀的基础上更注重使用健脾益气之法。憋气、咳痰、胸痛、胸闷、头晕、舌苔白、乏力等症状对于痰浊的预测较为重要;乏力、气短、心悸、喘息、头晕、汗出、下肢水肿、纳食差、畏寒、尿频、耳鸣、耳聋、腹胀等症状对于气虚的预测较为重要;胸痛、便秘、眠差、口干、胁胀、下肢水肿、烧心、胸闷、头痛、憋气、口臭等症状对于血瘀的预测较为重要;耳聋、眼花、头晕、心悸、便秘、气短、肢冷、畏寒、肢麻、舌苔厚、眠差、舌苔薄等症状对于血虚的预测较为重要;胸闷、憋气、胸痛、心悸、下肢水肿、胃胀、少尿等症状对于阳虚的预测较为重要。在证素与理化指标关系方面,本研究发现不同的冠脉病变支数其证素的分布规律是相同的,以阳虚为主,血瘀、痰浊次之;合并糖尿病患者左心室射血分数均值均较单纯冠心病患者低,痰、阴虚证素左心室射血分数均值最低;合并糖尿病的患者气虚、阴虚CRP均值明显较单纯冠心病高;合并糖尿病的冠心病气滞、痰、血瘀TC均值明显高于单纯冠心病患者。但由于理化检查数据缺失严重,尚未找到比较合适的挖掘方法探讨证素与理化指标间的关系,需要进一步的研究。4结论4.1本文使用系统评价的方法分析了中药治疗冠心病合并糖尿病的疗效特色,认为中医治疗冠心病合并糖尿病在临床症状及心电图改善方面有较好的疗效;4.2本文通过多种数据挖掘方法探讨了单纯冠心病和冠心病合并糖尿病证治规律的区别与联系,在证素分布和证素决策方法方面取得了一些有意义的结果,为以后的研究奠定了基础。

参考文献:

[1]. 数据挖掘若干方法研究及其在中医药数据库中的应用[D]. 周婕. 西南交通大学. 2003

[2]. 关联规则算法研究及其在中医药数据挖掘中的应用[D]. 马丽伟. 南京理工大学. 2009

[3]. 关联规则算法及其在智能药房系统中的应用研究[D]. 王凯. 南京理工大学. 2012

[4]. 黄连解毒汤提取过程及大孔树脂精制机理的初步研究[D]. 潘林梅. 南京中医药大学. 2007

[5]. 数据挖掘在治疗糖尿病中药方剂数据库中的应用模拟[D]. 赵丹丹. 中国海洋大学. 2006

[6]. 名老中医经验传承中的数据挖掘技术研究[D]. 肖光磊. 南京理工大学. 2008

[7]. 关联规则挖掘方法及其在冠心病中医诊疗中的应用研究[D]. 刘智. 大连海事大学. 2012

[8]. 中医药数据挖掘文献的信息计量学评价研究[D]. 韩雅丽. 山东中医药大学. 2016

[9]. 中医妇科常见病医案数据挖掘方法研究[D]. 李园白. 中国中医科学院. 2006

[10]. 基于数据挖掘的单纯冠心病与冠心病合并糖尿病的证治规律对比研究[D]. 吴立旗. 北京中医药大学. 2013

标签:;  ;  ;  ;  ;  ;  

数据挖掘若干方法研究及其在中医药数据库中的应用
下载Doc文档

猜你喜欢