上海市静安区卫生成人中等专业学校 上海 200040
摘要:随着医疗信息化技术的不断发展和慢病管理方式的不断完善,居民健康档案数据正在呈指数级增长。如何利用好这些海量数据,以大数据技术驱动医疗服务成为了当今慢病管理的重要内容。针对目前上海市静安区现有居民电子健康档信息系统平面化,应用场景单一的不足,以高血压管理人群为切入点,提出高血压管理人群的健康档案多维分析系统的设计思路,并在继续探讨和研究。
关键词:电子健康档案;高血压管理;OLAP;数据挖掘
Establishment of Data Mining Model for Hypertension Management Population Based on Health Archives
Zhu Yi
(Shanghai Jing'an District Health Adult Secondary School)
Abstract:With the continuous development of medical information technology and the improvement of chronic disease management,residents health records data is an exponential growth. How to make good use of these massive data with large data technology to drive medical services has become an important part of today's chronic disease management. In view of the current situation of the electronic health records system of Jing'an District in Shanghai,the design of multidimensional analysis system of health records of high blood pressure management population is put forward. And continue to explore and study.
Key words:electronic health records;hypertension management;OLAP;data mining
引言
随着“智慧医疗”概念的提出,IT技术在医疗领域的应用不断凸显。而“大数据”相关概念的提出给医疗信息化提出了更高的要求。目前,家庭健康档案系统已经大范围的应用,随之而来的问题便是,如何深入挖掘这些信息系统的潜在价值。卫生系统信息化仍然面临“数据海量,信息缺乏”的困境,即各种医疗信息系统收集了大量的医疗数据,却还停留在业务应用的水平,无法从宏观层面发现使自身服务水平得到提高、更贴合居民健康需求的有用信息。因此开发一套能够立体化展现数据,能够帮助使用者提炼数据核心价值的分析系统具有非常重要的意义。
目前静安区高血压的管理已经基本做到从35岁首诊测压开始的全流程管理,患者的基本信息,血压历史度数、家族史,并发症等信息都在健康档案中得到记录。因此,针对高血压管理人群开发这样一套系统的条件已经成熟。本课题尝试在上海市静安区区域卫生信息平台的基础上,结合多维分析和数据挖掘相关技术,提出了基于居民健康档案的高血压管理人群多维分析模型,帮助使用者多角度透视健康档案中的相关数据,挖掘数据价值。
1.目前电子健康档案系统的不足
以静安居民电子健康档案为例,现有的健康档案一人一档,使用者调阅时只能浏览单份档案,区域内人群整体的健康状况无法直观的获知;报表功能不能灵活自主地定制,使用者难以根据自己的需求得到想要的数据。另一方面,由于新报表的开发都要委托相关的软件厂商,开发周期长,使得信息的使用效率不能得到有效的提高。另外,一般使用者也无法通过健康档案系统中现有的功能进行多维交叉分析或数据挖掘,无法满足相关的统计、科研的实际需求。为了解决这个问题,要设计一套功能上既满足区域卫生管理需求,又满足可以对疾病进行规律探索的科研需求的分析系统,从而以数据驱动医疗服务,提升服务效果和患者体验。
2 系统设计
2.1多维分析模型
多维数据模型是以数据库或数据仓库为基础的,其最终数据来源与OLTP一样均来自底层的数据库系统,更适合以数据仓库为基础的数据分析处理。它是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。
多维分析可以对以多维形式组织起来的数据进行上卷、下钻、切片、切块、旋转等各种分析操作,以便剖析数据,使分析者决策者能从多个角度,多个侧面观察数据,从而深入了解包含在数据中的信息和内涵。
2.2数据来源
近年来对高血压人群的管理日趋完善,定期的上门随访和相关指标的数据采集,使高血压管理的信息化程度越来越高,数年的数据积淀给课题的研究的创造了有利条件。采用上海市静安区区域信息平台健康档案模块中高血压管理人群数据112533进行分析,其中部分数据如表1所示。
2.3数据清洗与处理
数据预处理主要包括了相关数据对象的描述特征对数据进行清洗和转换几项工作,以便填补遗漏数据,消除异常数据等,为下一步的分析做准备。上海市静安区区域信息平台根据《上海市区域卫生信息平台数据交换接口标准》对各家医院上传的健康档案信息纠正不一致错误,处理空缺值。经过清洗后的数据共计23727 条数据,数据规范符合《上海市区域卫生信息平台数据交换接口标准》
2.4维度抽象与建模
目前全市电子健康档案中高血压管理模块中的数据经过清洗处理后主要包含以下可用内容:居民姓名、身份证号码、居住地址、性别、身高、体重、BMI指数、家族史、并发症、生活习惯描述等。将这些内容构建成维度-事实结构,并用开发工具处理成数据立方体,如图2所示。
3.2 数据挖掘功能
利用数据挖掘工具可以对数据集进行基于各种算法的建模,以决策树算法对高血压管理人群的年龄、家族史、BMI、性别与并发症之间的关系进行分析为例。
决策树是进行分类与预测的常见方法之一,决策树学习方法是从训练集中每个样本的属性进行构建一棵属性树,它按照一定的规则选择不同的属性作为树中的节点来构建属性和类别之间的关系,常用的属性选择方法有信息增益、信息增益率以及基尼系数等。它采用自顶而下递归构建这颗属性类别关系树,树的叶子节点便是每个类别,非叶子节点便是属性,节点之间的连线便是节点属性的不同取值范围。决策树构建后,便从决策树根节点开始从上到下对需要进行类别标注的实例进行属性值的比较,最后到达某个叶子节点,该叶子节点所对应的类别便是该实例的类别。
将BMI、家族史、性别、年龄分别作为输入列,并发症做为预测列可得到输入属性与预测列之间的依赖关系。并发症维度表见表2,家族史维度表见表3。通过调节链接强度按钮可以得知这四项维度与各个并发症之间的强弱联系。
4 结语
本研究利用上海市静安区居民电子健康档案中高血压管理模块中的23727条数据,结合多维分析相关技术,设计了同时具有数据可视化功能和数据挖掘功能的健康档案多维分析模型,初步实现了帮助医生和相关科研人员从大量电子健康档案中发现数据特征,自主进行相关数据统计的需求,取得了良好的效果。
研究的主要工作有以下几个方面:
(1)对现有上海市静安区健康档案系统进行维度抽象和重新建模,实现了以高血压管理人群为主题的多维分析模型。
(2)通过数据可视化技术,结合该模型实现了医务人员自主获取相关统计数据的需求。
(3)通过数据挖掘工具,结合该模型实现了相关维度的数据挖掘功能。分析了年龄、性别、家族史,BMI对并发症的影响强弱程度;以缺血性卒中为例,讨论了年龄维度的区间特征和家族史对该并发症的影响。
在当今大数据背景下,建立基于健康档案的数据挖掘分析系统对提高区域医疗服务水平和卫生管理工作效率和决策水平具有十分重要的意义。本研究结果不仅可以应用于高血压管理服务中,还可为其他慢病管理建立相关的分析系统提供参考。
参考文献:
[1]覃艳,电子健康档案中糖尿病相关因素的数据挖掘研究,电子科技大学,2013年
[2]赵剑东,基于OpenEHR的糖尿病并发症挖掘研究与应用,浙江大学 2015年
[3]孙兰,基于居民电子健康档案的社区高血压管理模式研究,复旦大学 2013年
[4]王晓冰,基于电子健康档案数据仓库的区域卫生信息系统数据集成研究,江苏大学 2010年
[5]张晓瑛,基于数据挖掘的电子健康档案信息可视化服务探析,兰台世界 2015年29期
[6]刘振鹏;王坤瑞;卞昭玲;王虓;;基于云计算的区域电子健康档案服务系统研究[J];档案学通讯;2012年04期
[7]韩洪迅,解读欧美全科医生. 中国医药指南.2007.7
[8]李建功,唐雄燕.智慧医疗应用技术特点及发展趋势. 中兴通讯技术.2012.2
[9]Piatetsky-Shapiro G,Fayyad U,Smith P.FromDataMining to Knowledge Discovery:An Overview.In:Fayyad U M,Piatetsky—Shapiro G,Smyth P,UthurusamyR,eds.Advances in Knowledge Discovery and Data Mining.1996,1—35.
[10]R(2001)Business data mining – a machine learning perspective. Inf Manag 39:211 - Bose,Mahapatra
[11]基于数据挖掘技术的蛋白质结构分类的研究 冉丽等 1002-8331-(2006)18-0155-03
[12]数据挖掘技术在公共管理领域的应用刘典文《行政论坛》 2010年02期
[13]张朝晖,陆玉昌,等.发掘多值属性的关联规则[J].软件学报,2000,(8)
[14]来升强,朱建平 数据挖掘中关联规则算法的考察《统计与信息论坛》2005,01期
论文作者:朱毅
论文发表刊物:《健康世界》2017年第6期
论文发表时间:2017/6/6
标签:数据论文; 多维论文; 档案论文; 健康论文; 静安区论文; 高血压论文; 数据挖掘论文; 《健康世界》2017年第6期论文;