【摘要】用数据挖掘的方法来研究目前与日俱增的医保数据在我国目前还不是很多,但已具备一定的研究成果。该文对数据挖掘在我国医保领域的应用进行了总结概述,从关联规则发现、数据聚类、分类知识发现、序列模式发现以及其他数据挖掘方法在医保中的应用几方面进行综述,最后对数据挖掘在医保领域的应用做了展望。
【关键词】数据挖掘; 医保;平台【中图分类号】 R2 【文献标号】 A 【文章编号】 2095-9753(2016)9-0203-01
医疗保险是我国社会保障制度的重要组成部分,是关系百姓切身利益的一项民生工程。医保信息化在给我国医保政策的管理和实施带来了很多便利的同时,庞大的数据压力也成为一个有待解决的问题。数据挖掘是一种从数据库中抽取和识别出有效的、新颖的、可理解的、事先不为人知的但又潜在有用的模式或知识的过程或技术,这种技术为我们的决策和管理带来很多便利。近年来,关于数据挖掘技术在医保信息系统中的研究运用与日俱增,该文对这些研究从研究方法进行了概括分析,介绍了数据挖掘在医保行业的已有成果和具有代表性的方法,并对未来的发展作了展望。
1. 数据关联通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。算法已经被广泛的应用到商业、网络安全等各个领域。
通过对医院历年医保病人数据采用Apriori 数据挖掘的方法,分析医保费用与相关因素间的规则,得出医保费用分析的规则集。
该规则集显示与医保病人费用关联最大的是特定出院科室和住院天数这两因素的组合[1] 。针对医保基金运营过程中出现的就医聚集行为,提出基于频繁模式挖掘的一致行为挖掘算法CBM,实验表明该算法比Apriori 和Eclat 具有更好的性能,能有效检测就医聚集行为。对 Apriori 算法进行的具有针对性的改进,将改进的算法应用于医保稽查工作中, 挖掘算法产生的规则可使稽查人员重点稽查该规则所指向的医保行为, 极大的提高了医保稽查工作的效率[2]。
对社会医疗保险基金收支情况进行了研究,在建立数据仓库时选用维度建模方法建立星型模型,重新组织了来源数据的结构关系:数据挖掘阶段选用Apriori 算法并对其进行了改进,进行关联规则挖掘。在深入分析研究了经典关联规则Apriori 算法的基础上提出并实现了关联规则生成算法,通过实验对Apriori 经典算法和关联规则算法进行了算法效率的分析比较。将改进的关联规则算法应用于某矿业集团的医疗保险数据中,为矿业集团完善医疗保险制度提供了很好的辅助决策支持。针对OLAM 兼有0LAP 多维分析的灵活性、在线性和对数据挖掘的深入处理数据等特点,在医疗保险系统中设计并实现了OLAM 应用模型。该模型使用浙江省某市医疗保险数据库中2005 年的医保数据,建立了以医疗保险费用和诊断项目为主题的数据仓库,从多维角度分析数据仓库中的数据,并且运用了Apriori 算法挖掘出一些潜在的关联规则例如人们特别关注的“骗保”行为,为医疗决策提供科学有效的依据[3-5]。
将FP-growth 算法用于基本医疗保险数据的挖掘,根据课题特点提出了自动确定最小支持度的增量式FP-growth 挖掘算法,并用实验验证了改进算法的有效性。
期刊文章分类查询,尽在期刊图书馆文献[5] 通过对医疗保险信息系统的数据仓库的设计、数据的整合以及数据挖掘的技术分析,实证研究关联规则挖掘算法在医保信息挖掘的可能性与必要性。利用编码、解码技术和SQL 的聚集函数,实现基于SQL 的FP-Growth 算法,该算法突破机器内存对数据挖掘的处理效率问题,实现了对海量数据挖掘的高效挖掘。 基于数据仓库和数据挖掘技术,经过大量重复的数据清洗工作,从医院信息系统数据库中抽取三个医保年度的数据,建立医保费用数据仓库和相应的多维数据模型。对建立的多维数据模型采用关联规则的数据挖掘算法进行挖掘分析,得出结论2 数据聚类聚类就是将数据项分组成多个类或簇,类之间的数据差别应尽可能大,类内的数据差别应尽可能小,即为“最小化类间的相似性,最大化类内的相似性”原则。聚类算法有划分法、层次法、基于密度、网格、模型的方法。其中,划分聚类法比较有代表性,文献[10]在分析了模糊数据挖掘的相关概念和技术的基础上,使用模糊聚类方法进行医疗保险子系统的划分,给出了划分结果,并且将模糊数据挖掘应用到医疗保险系统中,是数据挖掘技术在医疗保险领域应用的一次尝试;分析了数据挖掘和模糊数据挖掘的相关概念和技术,开发设计了B/S 架构的医疗保险系统,在此基础上尝试使用模糊数据挖掘技术进行医疗保险子系统的划分,给出划分结果。
3. 其他应用基于一个医保基金风险防控平台数据仓库的构建过程,提出一套适应该平台变化需求的元数据管理解决方案,分别从数据源层、数据仓库、分析应用层、ETL 过程几方面对元数据进行了分析,探讨了其中元数据集成方案和管理功能的设计。
应用数据挖掘技术发现医保系统中有用的模式和规则构建现代医院信息平台。经过数据预处理、数据准备、数据挖掘、评估所得到的模式模型知识、发现知识的巩固与运用等过程构建了基于数据挖掘技术的现代医院信息平台。 从采集医疗保险数据信息、建设数据仓库、以及最后的开发和利用三方面进行阐述,探讨在医疗保险管理中数据信息的价值和功能,以及在计算机系统建设过程中应注意的问题,旨在为医疗保险计算机管理系统的建设提供参考意见[6]。
通过对医疗保险系统数据的分析,建立相应的数据模型,为医疗保险系统提供决策支持依据。通过数据挖掘方法为医疗保险系统建立了数据仓库,利用单因素方差分析方法进行数据结构设计,并对其进行分析和研究。这里以医院的综合实力作为方差分析的因素,即影响住院费用的因素。
4. 总结本文对数据挖掘技术在社会医保方面的应用进行了分析和总结,分为关联规则发现、数据聚类、分类知识发现、序列模式发现以及数据挖掘在医保中的应用几方面。
在医保领域中数据挖掘技术的研究和应用主要包括数据挖掘技术与领域知识的结合和算法设计与改进两个主要方面。随着医保基金风险防控的需求的不断更新,可以发现更多的数据挖掘应用场景,将数据挖掘技术更广泛地应用到医保领域中。目前就诊序列模式挖掘基于相似度的等长序列模式,可以研究扩展到不等长模式的挖掘;此外可以进一步提高一致行为模式挖掘的效率。
参考文献:[1] 黄晶晶. 数据挖掘技术在医院医保费用分析中的研究与应用[D]. 广州:南方医科大学,2009.[1] 何俊华,张静谊,熊赟,朱扬勇. 医保就医聚集行为挖掘[J].计算机应用与软件,2011,28(7).[2] 刘凯,赵跃龙. 关联规则挖掘在医保稽查中的应用研究[J].科技信息,2007(33).[4] 石萌. 数据挖掘在医疗保险参保人员老龄化问题中的研究[D]. 贵州:贵州财经学院,2010.[5] 简伟光. 数据整合与数据挖掘技术在医疗保险信息系统的研究与应用[J]. 实践与经验,2010.[6] 朱彦华. 医保人群医疗费用的数据挖掘与分析[D]. 广州:华南理工大学,2012.
论文作者:司存武 施弘宇 郭艳秋
论文发表刊物:《中国医学人文》2016年第9期
论文发表时间:2016/8/26
标签:医保论文; 数据挖掘论文; 医疗保险论文; 算法论文; 数据论文; 规则论文; 技术论文; 《中国医学人文》2016年第9期论文;