智慧社保大数据分析平台构建
周天绮,朱超挺,石 峰
(浙江医药高等专科学校,浙江 宁波 315100)
摘要: 针对社保业务数据分散、大数据分析能力较低等问题,采用“云结构、积木式架构、容器技术、多级权限设计”构建智慧社保大数据分析平台的整体架构。该平台包含数据交换平台、基础计算平台、流程调度平台、管理分析平台和实时分析平台。采用OGG接口技术获取源系统中的增量数据,通过流程调度服务实现对各层数据和业务工作流的调用和管理。该平台已包括1960万人的基本信息,集成了社保的各项业务和服务,为“最多跑一次”助力。
关键词: 智慧社保; 大数据; 数据交换; 流程调度
0 引 言
在建设“信息化人社、人本人社、智慧人社”的大背景下,各级社保机构已建立面向整个社保业务的数据仓库,整合了前台业务运营数据和后台管理数据,建立了劳动力市场信息系统和社会保险信息系统,实现了在社会保险、职业培训、劳动就业、人事管理、考试鉴定等社保领域的信息化、智能化服务,形成了智慧社保的雏形。这些系统积累了海量的业务数据,同时社保管理人员也提出了基金监管和宏观决策等方面的要求。
现有社保各系统的设计实施是基于各业务部门具体需求形成的,在建成投入时,大大推动了业务办理的效率,形成了业务办理优势,但在信息化发展趋势下,业务数据因分散在各业务系统中,提供的服务未能整合成一个整体数据服务[1],单位和个人基础信息库存在多个入口,大部分数据重复录入又没有联动机制,导致各业务系统个人信息、单位信息中同类数据无法保持一致。基础数据不统一,影响了数据共享[1]。
由于业务数据分散,缺乏多层次、多角度、多粒度的整体信息数据,各业务部门对数据的利用主要还是停留在满足本部门业务经办的需要,无法对数据进行进一步的深层次挖掘利用以及为统计分析、预测分析、监测预警、政策模拟和政策评价在内的多层次的宏观决策提供支持。
为解决上述业务数据分散、数据共享和数据利用程度不高等问题,本文提出对社保数据进行“云化”的统一管理,对社会保险、职业培训、劳动就业、人事管理、考试鉴定等数据进行整合、集中,通过搭建统一的大数据共享和分析平台,实现数据大集中、应用大集成、服务大集成,并对各类业务进行前瞻性预测及分析,提供统一的决策分析支持,提升数据共享与流转能力[2]。
三是在参与扫黑除恶专项斗争方面,荣县各村社区成立了以支部书记或第一书记任组长的扫黑除恶工作领导小组,在辖区内悬挂横幅、张贴标语、设立举报信箱并进行逐户摸排,有黑扫黑、无黑除恶、无恶治乱,形成了扫黑除恶人人有责的良好氛围。
1 顶层设计
为构建统一共享的大数据平台,本文采用“云结构、积木式架构、容器技术、多级权限设计”等顶层设计以实现数据大集中、应用大集成、服务大集成,平台设计原则如图1所示。
我又带着他们去银行自助服务区,反复练习插卡、摁密码、取款、打印回单、退卡。仅仅这几项内容,妈练习了将近半个小时。
那有什么?总不能见人就解释你不姓瞿,姓翟?反正姓名也就是个代号。楠楠,你也别难过,把你送给杨小水,我们根本就没想再要回来。别说未婚生孩子,就是未婚同居在那个年代也是一件大事,哪敢让人知道?你妈结婚后,发现自己不能再生了,才又想办法把你要了回来。杨小水多次找人打听你,我们放出话,说你在上海当律师。你也知道,乡下人事儿多,我们当时是怕她以后纠缠不清。上海那么大,他们就是知道你在那儿也找不到,自然就会断了找你的念头。
图1 社保大数据平台设计原则
1)云结构。
社保大数据平台总体架构采用云结构设计,所有的资源集中在云端,实现“多屏合一”访问。
鞠磊在致辞中对中央和地方合作开展海岸带地质调查工作所取得的丰硕成果和显著成效给予充分肯定和高度评价,对自然资源部中国地质调查局支撑服务海口市发展和江东新区建设所做的贡献表示衷心感谢。
基于云计算共享数据平台的智慧社保整体架构如图2所示。重点建设基础支撑层,用以集中各项社保业务数据,构建统一共享的社保大数据平台,将线上“人社云”平台和线下服务平台有机结合,实现“一人一卡、一账户、一钱包”的全方位、全过程的智慧社保服务。
该设计可以支持调用各个粒度的服务,包括调用数据、调用基础功能,以及调用组合的成熟应用,有利于形成即需即取的服务超市。
3)容器技术。
采用“容器技术”提供开放的平台、开放的接口及标准,便于社保内部系统的整合,也有利于第三方系统或资源接入社保业务系统,实现不同部门之间横向的数据访问和共享。
4)多级权限设计。
流程调度是通过任务调度引擎实现的,其任务定义和任务依赖元数据统一存储在MySQL数据库中,具体包括:
2)积木式架构设计。
图2 智慧社保整体架构
2 平台架构及关键技术
2)加载服务器。
图3 社保大数据分析平台
NAS集群按日期和源系统数据建立数据目录,缓存每日接口文件。LVS服务器和加载服务器通过流程调度引擎触发相应数据处理任务,实现对NAS集群中数据接口文件的访问。
图3中的NAS集群用于平台进出数据的暂存,业务系统数据交换组件用于业务系统每日增量数据的加载,大数据交换组件用于基础计算平台与管理分析平台间的数据交换。
2)基础计算平台。
构建Hadoop集群,按照业务条线、以贴源数据模型存储社保业务系统中的明细数据。
1)任务定义。包括任务名称、描述、运行服务器、运行状态、运行时间、相关数据源等属性。
3)流程调度平台。
通过开发流程调度引擎实现整个数据平台数据处理任务的调度和运行。
4)管理分析平台。
2)场景裁切。大范围数字城市场景浏览过程中,许多用户往往只关心局部地区或者热点地区,这时直接裁切掉裁切区以外的数据,并直接返回裁切结果给场景,从而进一步提升场景显示的整体性能。
由X86分析型数据库集群、BI软件和J2EE相关应用构成,实现面向社保应用的数据加工、管理、分析服务。
5)实时分析平台。
由高档X86服务器组成的集群,满足高时效、高并发的实时、准实时类管理分析的需求。
退休前曾是国企掌门人的陆长安副理事长,在印刷行业服务近50年,是业内资深的技术专家,颇受敬重。他亲历了技术变革带给印刷行业的革命性变化,见证了行业由小到大由弱到强的发展变迁,对这个自己奉献一生的行业,充满了感情。我们的对话,从闻名遐迩的印刷大展谈起。
通过数据交换整合社保各业务系统中的数据,由流程调度引擎来驱动各个平台中的数据处理任务,实现从数据存入NAS平台到数据集市生成的整个处理过程中的工作流管理[3],由此整合社保各项业务实现应用和服务的大集成。下面着重论述数据交换平台和流程调度平台的实现。
2.1 数据交换平台
数据交换平台由FTP服务器、加载服务器和NAS集群组成,完成业务系统数据的获取、加载和归档。图4是数据交换平台的处理架构。
图4 数据交换平台处理架构
1)FTP服务器。
利用LVS构建FTP集群,接收云数据推送平台处理后的数据,存储在NAS集群的指定目录中。
城市土地利用变化过程非常复杂,受许多不确定因素的影响,完全准确的模拟其动态变化是不现实的.在利用CA进行城市土地利用变化模拟时,需要检验模拟结果与实际情况的吻合度.在评价模拟精度时,目前主要采用逐点对比和整体对比的评价方法[18].逐点对比评价法考虑每个元胞上模拟精度的差异,一般用总精度和卡帕系数表示模拟结果的可靠性.
智慧社保大数据分析平台包含数据交换平台、基础计算平台、流程调度平台、管理分析平台和实时分析平台,如图3所示。
部署ETL任务,实现指定目录的文件到达监控、文件级检核、数据加载到临时数据区,同时归档历史数据区。
3)NAS集群。
按照日期和源系统数据划分目录,缓存数据,支持日常数据交换和ETL任务。
因此本试验旨在使用现代分子生物学的知识提高GGPPS启动子的活性从而提高GGPPS的表达,积累合成GGPP,使乳管细胞中橡胶合成途径的激活以及激活橡胶合成途径下游的关键酶,从而提高橡胶的合成速率,因此该类研究将有助于提高橡胶草产胶量,更大更好地发挥其产胶的潜能。
4)云数据推送平台。
Finally, put thermal noise,, and = 55 dB in the sigma–delta behavior model for simulation, which shows that the SNDR is 76.3 dB, which is about 10 dB lower than the ideal result.
实现源系统数据一次获取、按需分发。采用OGG(Oracle GoldenGate)接口技术获取增量数据并存储在MySQL集群。云数据推送平台基于OGG接口技术,根据不同接口单元定义,为每一个源数据表生成独立的接口数据文件和接口控制文件,LZO压缩数据后通过FTP将接口文件存入NAS指定目录。
Oracle提供的数据同步工具OGG是一种基于日志的结构化数据复制软件。GoldenGate能够实现大量业务数据的实时捕捉、变换和投递,实现源数据库与目标数据库的数据同步,保持亚秒级的数据延迟[4],OGG架构如图5所示。Extract进程在源端数据库中读取事务日志文件,提取其中数据的变化信息存放在trail file中;Server Collector进程接收从源端传输过来的数据变化信息,把信息缓存到trail文件中;replicat进程从trail文件中读取数据变化信息,创建对应的SQL语句,并通过本地接口执行后,提交到云数据推送平台的MySQL数据库集群。
图5 OGG架构
社保数据交换由部署在不同加载服务器上的数据交换组件完成。通过定时轮询NAS指定目录,获取接口(包括数据文件、控制文件和DDL文件);执行文件级检核,通过检核后,将数据文件和控制文件移动到NAS集群指定目录,触发后续ETL处理,在Task Automation调度下执行数据加载和数据归档任务。
数据交换平台由多台X86服务器和一个NAS集群构成,如图6所示。X86服务器按照功能分为2组,LVS服务器用于数据获取,加载服务器用于数据加载和归档。NAS集群作为公共数据区,允许各服务器共享访问。
图6 数据交换平台部署架构
第一个LVS服务器用于负载均衡,其他LVS服务器负责接收接口文件,写入NAS集群目录;加载服务器负责源系统数据文件的加载和归档,加载服务器可负责多个源系统;LVS服务器和加载服务器均支持按需扩展,可根据需要灵活配置服务器的数量。
1)数据交换平台。
2.2 流程调度平台
Task Automation用以驱动各个平台,实现从数据存入NAS集群到生成数据集市整个处理过程中的工作流管理,如图7所示[3]。数据交换平台负责数据抽取、文件级质量检核、调用Hive Load加载数据;基础计算平台使用Hive SQL实现贴源数据整合、公共汇总数据处理;管理分析平台使用关系型数据库的SQL实现集市数据的处理;历史归档查询平台负责数据文件和Hadoop集群数据归档[3]。
图7 批量数据处理工作流
通过建立社保数据资源管理清单,提供统一的认证接口,为政府管理部门及服务机构提供多级权限安全接入,实现政务系统全业务无障碍访问服务。
案例教学方法并不是将多个案例简单罗列起来,而是一套完整系统的教学模式。教学案例的设立不能单纯地为了提高教学趣味,而应该有明确的教学目的、教学安排等,即案例配合哪些章节和知识点,用于验证或运用哪些概念,强调掌握哪些知识和技能等[9]。
2)任务依赖。任务的执行依赖与其他上游任务。
3)任务触发。任务成功执行后触发的下游任务。
职业性、专业性 职业教育机构作为专属的教学实体,所服务的客体是在校学生。随着全民学习共享平台的出现,职业教育功能得以延展,能发挥继续培养学生相关职业技能、职业素养和再学习的服务功能。每个独立个体在不同阶段有不同的工作状态和学习诉求,需要进行不同领域专业知识的学习和培训,紧跟社会发展的节奏,以期获得事业上的成功。满足人民群众接受职业教育的需求,基本形成全民学习、终身学习的学习型社会,现代职业教育体系的内涵特点是满足人的终身学习需求,关注人的可持续发展的终身教育理念[1]。
4)任务组。一组有相互关系的任务,全部完成后会触发头任务运行。
2.2.1 元数据定义
配合饲料和血液饲养对菲牛蛭酸性磷酸酶(ACP)的影响见图3。配合饲料组肠道ACP活力(298.478±4.212)U/mg prot.显著高于血液组ACP活力(67.591±5.384)U/mg prot.(P<0.05);配合饲料组嗉囔ACP活力(25.926±0.512)U/mg prot.稍高于血液组ACP活力(17.012±1.235)U/mg prot.,差异性不显著(P>0.05)。
CWM作为数据仓库领域的元模型标准,在元数据的集中管理、元数据互操作和元数据交换方面发挥重要作用[5]。社保大数据分析系统元模型的建立以CWM为基础,采用派生的方式对获取层-转换包的对象进行模型扩展,对集群、数据库、接口单元等关键数据对象以及SQL、ETL等任务的元模型进行优化定义。
定义ETL任务中的数据库、JOB、TRANS、日志等各类元数据是抽取和加载各类异构数据的基础。ETL任务调度中的元数据存储在数据库的repository资源库中,部分类别如表1所示。
表1 ETL任务元数据定义
图8 流程调度服务
元数据由所有流程调度服务器共享,如图8所示。
2.2.2 规则引擎
流程调度通过规则引擎实现,规则引擎是一种嵌套在应用程序中的组件,它将业务规则从应用程序代码中分离出来[6],规则引擎使用特定的语法编写业务规则[6]。本文采用Jboss公司旗下Drools规则引擎,是使用匹配规则的方式来实现的,使用时需将业务逻辑抽象成一条条规则。
以Drools实现医保卡申请规则为例,系统架构如图9所示。Drools规则引擎用于设置医保卡的审批与发放规则;Guvnor用于规则的管理与动态更新;Rule Flow用于对医保卡审批规则的编排与执行[6]。
图9 医保卡申请规则系统架构
利用Rule Flow设计的医保卡审批流程,如图10所示,该流程的主要作用是用来对医保卡的合法性检查规则及医保卡发放规则的执行顺序进行编排,可以将编写好的医保卡申请规则及编排规则执行的规则流文件一起发布到Guvnor,通过Guvnor实现对规则的管理与动态编译,以快速响应业务变化需求[6]。
图10 Rule Flow设计的医保卡审批流程
流程调度平台由多台X86服务器构成,服务器按照功能分为2类,一类用于存储流程调度元数据,另一类用于部署流程调度引擎,负责各数据区数据处理流程的调度与运行,如图11所示。
图11 流程调度平台部署架构
MySQL主-从集群存储临时区、归档区、贴源区和汇总区数据处理的任务定义、任务依赖关系等流程调度元数据;临时区数据处理的工作流部署在数据交换平台的加载服务器;贴源区和汇总区的工作流分别部署独立的服务器。
3 平台物理部署
基于上述技术构建的浙江省某市社保大数据分析平台物理架构如图12所示,所有服务器均采用标准X86 PC服务器。平台划分为3个子网:1)Web服务子网是由2台服务器构成的Tomcat集群;2)应用服务子网是由2台服务器构成的MicroStrategy集群;3)数据服务子网包括:基础计算平台和73台服务器构成的Hadoop集群、数据集市平台的20台服务器构成的分析型数据库集群和4台服务器构成的Sap Hana集群、流程调度平台的7台服务器构成的Task Automation集群以及数据交换平台的5台服务器构成的NAS集群和数据接口服务器集群。
学校对于在日常生活、学习、工作等场景的灵活迁移应用的示范性输入材料,则更多为中文纸制材料,主要为英语书虫等文学经典作品改编的中高阶英语阅读材料,生活常识、科普类的阅读和音像材料几乎没有。适用于入门级的英语绘本等阅读材料,也非常有限。
图12 社保大数据分析平台物理架构
通过数据交换平台保存了1960万人的基本信息,其中城镇职工养老有479.1万人、城镇职工医疗有479.1万人、工伤保险有245.7万人、生育保险有255.6万人、新农保入库有756万人、城镇居民医疗有552.7万人、失业保险有224万人。在此基础上,实现社保各业务的整合、决策分析、监测预警。
4 结束语
社保大数据分析平台通过流程调度服务实现数据大集中、应用大集成、服务大集成,为公众提供12333、网站、微信、自助服务一体机等全方位“一站式”的社保服务,为“最多跑一次”助力,初步实现基于决策库的基金监管、监测预警等社保大数据服务。
参考文献:
[1] 宋玉娟. 论政府公共数据共享利用[D]. 南昌:南昌大学, 2016.
[2] 徐霞军,任增朋,秦绪涛,等. 核电企业面向开放架构的大数据平台的研究与应用[J]. 中国培训, 2018(10):1-6.
[3] 吴正举. 复杂环境下的大数据处理[J]. 互联网周刊, 2017(8):64-65.
[4] 姚刚,肖杰,张希成. 基于Golden Gate的数据库异地冗灾技术研究[J]. 信息系统工程, 2016(11):17-18.
[5] 李吉元. 基于Hadoop的移动运营大规模数据治理[D]. 南京:南京邮电大学, 2014.
[6] 章向明. BPM系统模型建立和设计[EB/OL]. [2019-01-16]. http://www.docin.com/p-369726417.html.
[7] 杨英波. 某公司商务智能系统设计与实现[D]. 成都:电子科技大学, 2014.
[8] 胡宇雄. 商业智能技术在广汽商贸的研究与探索[D]. 天津:天津大学, 2014.
[9] 王爽. 大数据时代的社保信息系统管理研究[J]. 中国培训, 2017(8):45.
[10] 郜凯英,杨宜勇. 中国互联网+社会保障信息系统构建——基于大数据挖掘视角[J]. 经济与管理研究, 2016,37(5):83-89.
[11] 丁静. 做好大数据时代的社保档案工作[J]. 山东档案, 2016(4):66-67.
[12] 吴宝伟. 社保资金支付大数据决策支持平台的研究与实现[D]. 成都:电子科技大学, 2014.
[13] 周辉. 大数据时代社会保障数据化的优势与要求[J]. 青春岁月, 2017.
[14] 人力资源社会保障部. 关于印发“互联网+人社”2020行动计划的通知(人社部发〔2016〕105号)[EB/OL]. [2019-01-16]. http://www.fjshldbx.com.cn/upfile/201612/2016120259497845.pdf.
[15] 翟绍果,陈兴怡. 大数据在医疗服务与医保治理中的应用——基于数据技术、网络形态和政策支持的向度[J]. 江汉学术, 2018,37(3):5-10.
[16] OneMap博客. ArcGIS的大数据挖掘和并行处理[EB/OL]. (2013-11-07)[2019-01-16]. http://blog.sina.com.cn/s/blog_ba3ace5f0101oqla.html.
[17] 宋京燕. 信息化助力医疗保险经办服务[J]. 中国医疗保险, 2013(9):49-51.
[18] 刘洪清. 大数据聚变“智慧社保”[J]. 中国社会保障, 2014(9):14-17.
[19] GAHI Y, GUENNOUN M, ELKHATIB K. A secure database system using homomorphic encryption schemes[J]. Computer Science, 2015(c):54-58.
[20] 张兵. 一种用于云计算数据库的数据挖掘方法研究[J]. 控制工程, 2016,23(6):956-960.
[21] YAGER R R. On generalized Bonferroni mean operators for multi-criteria aggregation[J]. International Journal of Approximate Reasoning, 2009,50(8):1279-1286.
[22] WANG J Q, ZHANG Z. Aggregation operators on intuitionistic trapezoidal fuzzy number and its application to multi-criteria decision making problems[J]. Journal of Systems Engineering and Electronics, 2009,20(2):321-326.
[23] CHENG S J, CHEN S M. A new method for handling multi-criteria fuzzy decision-making problems using FN-IOWA operators[J]. Cybernetics and Systems, 2003,34(2):109-137.
Construction of Wisdom Social Security Big Data Analysis Platform
ZHOU Tian-qi, ZHU Chao-ting, SHI Feng
(Zhejiang Pharmaceutical College, Ningbo 315100, China)
Abstract : In view of the problems of decentralized data of social security business and low ability of big data analysis, the overall structure of wisdom social security big data analysis platform is constructed by adopting “cloud structure, building block architecture, container technology, multi-level authority design”. This platform includes a data exchange platform, a basic computing platform, a process scheduling platform, a management analysis platform, and a real-time analysis platform. The OGG interface technology is used to obtain the incremental data in the source system, and the process scheduling service is used to realize the call and management of the data and business workflow of each layer. The platform stores the basic information of 19.6 million people, and concentrates on the various businesses and services of social security, which boosts the “maximum run once”.
Key words : wisdom social security; big data; data exchange; process scheduling
文章编号: 1006-2475(2019)06-0092-06
收稿日期: 2019-01-16; 修回日期:2019-01-25
基金项目: 浙江省人力资源和社会保障科学研究课题(2018004)
作者简介: 周天绮(1976-),男,浙江兰溪人,副教授,硕士,研究方向:大数据处理技术,医疗电子信息技术,E-mail: 772403505@qq.com; 朱超挺(1989-),男,讲师,博士,研究方向:3D打印; 石峰(1976-),男,副教授,硕士,研究方向:自动化控制。
中图分类号: TP391
文献标识码: A
doi: 10.3969/j.issn.1006-2475.2019.06.016
标签:智慧社保论文; 大数据论文; 数据交换论文; 流程调度论文; 浙江医药高等专科学校论文;