电子政务数据治理与数据认责研究
文|江阴市大数据中心 金海峰 董菊香 李春香
【摘要】 本文通过江阴市大数据中心对各机构集聚的数据通过以质量测评为切入的数据治理,初步探索了大数据中心在数据治理中的数据认责问题,为下一步开展全面治理与发挥大数据中心的数据服务职责提出了一种可行的管理途径。
一、引言
各地大数据中心建立,实现了不同机构间的数据聚集,但各多源异构系统来的数据质量不一、管控与互操作难等就成为痛点与难点浮现出来。解决之道虽在数据治理,但面对不同机构、领域、业务与应用的差异,涉及一系列纷繁复杂的问题时,仍使许多大数据中心难找准切入点。
江阴市大数据中心从实际出发,通过近一年的探索与实践,以数据质量测评为切入点开展数据治理,取得了一些经验,同时对密切相关的数据认责领域也有了一些初步的思考与认识。
二、江阴政务数据治理的难题
2017年,江阴作为江苏省唯一的集成改革示范县级市,市委、市政府提出了构建“1中心+3平台”的智慧城市总体框架。“1中心”即“江阴市大数据中心建设项目”,并将数据共享和应用支撑列入集成改革重点项目。江阴市成立大数据管理专职机构,以综合改革之力,聚系统集成之效,召开多次推进会议,截止2018年底,江阴市大数据中心已完成了对全市市委、政府部门(全覆盖)、群众团体、部分驻澄单位国资公司等机构信息资源目录的多批次采集,累计梳理全市61个机构的信息资源,1205个数据集,2.69万余个有效数据项;其中主要接入公安、人社、卫计、教育、环保、安监等61个单位632个数据集,1.25万个数据项,总数据量达10.78亿余条,对推动政务信息资源共享工作的制度化和规范化,实施网格化、政务服务、“最江阴”便民体系、精准救助、税收征管等近20个领域提供数据支撑上发挥了作用。
然而,电子政务对数据“聚、通、用”的应用需求,使机构间数据质量不清、语义与格式不一致、业务支持乏力等问题凸显出来。我们意识到:在当数据集聚到一定体量、数据源增多、面对日趋深入的服务和构建新业务之需时,必须进行数据治理。但大数据中心面对的是各机构、跨系统归集的数据;它不像各机构一样只关心具体的条线业务,而要面向全局对政务数据资源负责。因此,弄清大数据中心特殊的数据治理内涵,其范围与边界,切入点与后续延伸等问题,就是当下各地大数据中心面临的一道紧迫的难题。
三、江阴大数据治理的思路
江阴市大数据中心从数据治理理念、治理架构、要素选择、量化测评等方面进行了系统化的探索,并委托富有数据治理经验的第三方参与测评,取得一定实效,具体如下:
(1)明确数据治理理念
“数据治理”是泊来词,“治理”英文为“governance”含义为“统治、管理、治理、统治方式、管理方式”等。govern-ance 与govern-ment(政府)一词同根,可见,数据治理的本义是针对数据的行政与管理活动,政务数据治理就是对数据的统治、治理及对应措施,但其前提是要摸清数据家底、供需范围与质量水平。
在我国油气储量通报中还有一个特殊之处:在各类累计探明储量下均列出已开发和未开发两项。已开发也称已动用,即建成产能并开始正式开采;未开发者指因种种原因将该部分储量搁置不去动用。搁置的原因有三类:一为没有市场需求或限产,这时即使进行了初步产能建设也可暂不开采。此现象在沙特阿拉伯这类的产油大国常见;二类为因交通电力外输等条件不具备,这多见于某些新油田新油区开发早期;第三类是因为给出的探明可采储量在其具体的技术、经济条件下实际上不可采或采出所带来明显的亏损而难以为继。
2)数据建设。数据建设指对校园各类基础数据、业务数据、个人信息等数据资源进行融合,并提供数据存储、数据治理等融合服务,包括人员、设备、设施等基本数据。
(2)选择数据治理体系
大数据中心作为各机构的资源枢纽,要在多源多向、异形异构的资源环境中开始数据治理,是个复杂问题,为此,要依据权威系统架构来作为治理的内容依据。国际数据管理协会DAMA International给出的典型数据治理模式如图1。
除了课上经常奔波在各个博物馆之间,宴姝私下也常去观展。让她印象最深刻的是,中国的台北故宫博物院组织的一场关于雅宋风流的展览。展览中并没有选择那些让人耳熟能详的名画,而是展示了一张张小小的花签,通过花签上的书法、印章和花样变化,呈现那些闺阁淑媛们聚在一起抽花签、吟风月、诵志趣的雅趣。
图1中左侧为数据治理的主要内容,右侧为数据治理的基本环境。结合大数据中心职能,将数据治理的系统内容分解如下:
①数据架构管理 ---梳理与描述数据中心的数据供需与责任架构;②数据开发---数据中心面向新业务与新应用的数据分析、设计、实施、测试、部署、维护等工作;③数据操作管理 --- 覆盖数据采集、归集、比对与清洗到数据删除的作业与管理责任;④数据安全管理 --- 确保政务应用各环节中,机构与公众的数据保密性、公民交流、访问和管理权限的控制等;⑤参考数据和主数据管理 --- 管理政务系统中各机构元数据、实体数据、描述数据、代码数据和关联数据等的各种版本与升级;⑥数据仓库和BI --- 在多功能应用环境下,实现智慧政务的资源呈现、多维报告和分析等;⑦数据质量管理 --- 从全局出发,定义、梳理、监控和提高从不同机构、不同系统来源的数据资源的质量与责任;⑧元数据管理 --- 对源于不同机构、系统与应用的元数据/数据元进行统一梳理、规范化处理、整合、组配与控制等;⑨文档和内容管理 ---从语义、主题内容等方面管理各类业务表单、作业文本、报告及其他结构化与非结构化数据等。
图1 数据治理系统总体架构
(3)确认数据治理范围
数据治理环境涉及以下因素,包括:①治理目标和原则 --- 要定义数据治理中涉及的每项职能的愿景与战略目标,各项具体目标,实施绩效与基本原则;②治理活动 --- 各项治理作业能细分为下级活动,并进一步分解为具体的任务和步骤,数据间的依赖关系,顺序和流程,用例与场景,触发事件等;③主要交付物 --- 治理后的成果包括各类元数据/数据元,合成数据项,实体数据,分类代码体系,输入与输出对象,乃至各项管理体系;④角色和职责 ---大数据中心,各职能机构,社会公众与企业事业单位等在政务活动供需中运行、加工、控制与管理的多种职能,个体的角色,组织角色,业务与资源角色等;⑤实践和方法 --- 大数据中心及各职能机构在资源提供、加工与处理运行中均涉及深度不等的治理实践,并有一些可共享与互操作的方法,具体涉及通用方法与可选方法等;⑥治理技术 --- 数据治理涉及各类治理工具,如资源标准和加工规程,比对与清洗规则,质量控制与验证规程等;⑦组织和文化 ---电子政务的运行不仅涉及技术,还有理念、体制、机制、管理、价值与态度等方面的问题。
(4)找准数据治理的切入点
图1表明,数据治理是个领域宽广、内涵深且要求高的“认知+资源+技术+管理”的综合体系,对于刚成立不久且仍在资源归集中的大数据中心,要想按此架构开展全面数据治理是不实现的。于是,我们本着先易后难、先局部后全面、先单一再复合的原则,从上述9项要素中首先选择数据质量测评为治理切入点,以期了解当前聚集数据的质量,包括各机构提供的数据实用性、体量、重用性与资源贡献率等;从中寻找薄弱环节,按跨系统数据整合,构建业务应用的角度出发,突破边界,设计指标,摸清存量数据,探索增量全局性数据质量改进的治理方向。
(5)数据质量测评实施方案
①统一数据质量认识
滴滴作为国内最大的网约车平台,在公共出行领域承担着重要角色,然而一起起恶性事件的发生表明,滴滴并没有做好连接司机与乘客的中介角色,而是一味为了经济利益漠视乘客生命安全,纵容不合规司机继续经营。到底哪方才是滴滴的客户,滴滴该为谁服务?从这起案件中客服态度来看,滴滴很明显的站在了司机一方,以“保护用户隐私”为由拒绝提供司机信息,延误了珍贵的救援时间。从这一点来说,滴滴简直就是这起命案的帮凶。
⑦时效性 --- 依据《GB/T 36344-2018信息技术 数据质量评价指标》定义并与专业标准比对。按日、月、年、不定期等八类更新周期,进行分类计算。
②构建数据质量测评标准
实用性=数据项实用性+实体数据共享交换量
⑤公共数据元采用度 --- 公共数据元参考《GB/T 19488.2-2008 电子政务数据元 第2部分:公共数据元目录》计算公式如下:
[本刊讯]2007年以来,上海市护理学会接受上海市卫生局的委托,负责上海市各级医院重症监护、急诊急救和手术室等专业护士的培训工作,建立了重症监护护士实训基地10家,急诊急救专业护士实训基地12家。4年来,各实训基地接受了来自全市各级医疗机构实训的专业护士800余名。为表彰先进,激励各实训基地开拓进取和进一步提升专业护士实训质量,上海市护理学会授予以下单位为上海市护理学会专业护士优秀实训基地。
⑥规范性 --- 依据《GB/T 36344-2018信息技术 数据质量评价指标》定义并与专业标准比对。
完整性=数量完整性+横向(某县级市)完整性+纵向(某地级市)完整性
②实用性 --- 依据专业领域数据项去冗后的实用项,及对江阴大数据中心已归集的各单位实体数据的共享交换情况进行分析。 计算公式如下:
本次测评在《GB/T 36344-2018信息技术 数据质量评价指标》的基础上,根据实际出发构建相应的指标体系(如图2)。
在预选参数框中选择需要计算的泵径、冲程、冲次组合,也可以手动添加需要计算泵径、冲程、冲次组合,修改泵深范围,如图3所示。目前一口井可以实现最大847个参数组合的优化计算。
②合金支架:代表为微创医疗(Firebird支架)、美敦力公司(Endeavor Resolute支架)、雅培公司(XIENCE XPedition支架),其说明书明确指出植入后可立即进行磁共振检查。但是建议空间磁场梯度不大于720Gauss/cm;最大全身平均比吸收率为2.0W/Kg或更低,扫描可持续15 min。
数据项实用性=提供数据项总数-冗余数据项
③冗余度 --- 数据项冗余度的计算公式如下:
冗余度=冗余数据项/提供数据项总数(含冗余)
计算公式:空项率=(空白数据项/数据项总数)×100%
④贡献度 --- 资源贡献度的计算公式如下:
贡献度=各单位提供数据项(含冗余)/全部单位提供数据项总数(含冗余)
测评指标的定义与说明
公共数据元采用度=公共数据元总数(含冗余)/提供数据项总数(含冗余)。
①完整性 --- 依据《GB/T 36344-2018信息技术 数据质量评价指标》定义与专业标准比对。计算公式如下:
情况 5.3 若f3(v)=2,此时最坏的情况是v点关联5个6-面,两个不相邻(3,3,7)-面,v的非三角邻点均为3-点,且它们各自还关联着一个3-面。根据引理1.4,与7-点v关联的两个三角形中如果一个为穷或半穷面,则另一个必为富面,又根据权转移规则R2.1中3度点优先取得它非三角6+-邻点的权值,故这两个三角形最坏情况下是一个穷面一个富面(或两个半穷面),最多从7-点取得的权值为由R1,R2.1,R3.1或R3.2或R3.4及最坏3-面7-点情形得
对江阴大数据中心已归集的各单位信息资源与其机构职能进行分析比对,以定性判断计算得分,定量评判应以各单位实地调研结果为准。
开展数据质量测评必先了解其内涵。依据ISO 8402,质量是反映实体满足明确或隐含需要能力的特性总和,而政务数据质量,一指其必须满足规定或潜在的单一政府机构业务需求,二指其满足“三融五跨”的数据共享、互操作与业务发展。
计算公式:TL=D/(Tn×C)
其中TL=时效性;D=未变化总天数;Tn=更新周期(可变);C=信息资源个数。
⑧空项率 --- 反应江阴各单位在数据归集过程中实体数据的缺失情况。
其中,冗余数据项=提供数据项总数(含冗余)-去冗数据项
理解数学、理解学生、理解教学的水平是教师专业水平和育人能力的集中体现,是提高数学教学质量和效益的决定性因素,也是有效地提升学生数学核心素养的关键.当前的问题,首先是有些教师在“理解数学”上不到位导致教学偏差,机械解题训练成为课堂主旋律,而大量题目又不能反映数学内容和思维的本质,使数学学习越来越枯燥、无趣、艰涩,大量学生的感受是“数学不好玩”.
质量测评成果
(2)人才投入方面 “业务+技术+管理”的复合型人才是当前推进两化融合的迫切需求。普通员工方面,我国企业伴随着信息技术的引入而增加的用工占比平均水平为6.4%,其中大型企业占比较高,达到6.5%。在两化融合相关中高级领导设置方面,我国设置信息化专职中层、高层领导的企业占比分别为43.5%、28.7%,且随着企业体量的增大,其对两化融合专职领导的设置也越加重视,大型企业设置信息化高层领导的比例为48.7%,分别较小微型企业、中型企业高出11.5和23.9个百分点(如图9)。
本次质量测评按照先数量,后质量;先数据架构,后单项数据;先数据项,后实体数据的原则,采用定量与定性结合、专项与关联分析结合、现场观察与后台对标相结合等方法,按提供数据的规范性、完整性和实用性为核心,综合考虑其与外部资源的共享性与组合性作质量测评分级。
根据上述8项指标,通过对全市61个单位、632个数据集、12102个数据项、10.78亿实体数据的实地梳理和测评,形成《全面数据质量测评等级评价表》,将评价结果分为极欠缺、不充分、基本充分、充分、充分且规范共5个等级。其中,充分且规范的单位有16个,占比26%。此域的数据将作为测试试点,进一步分析其质量。
2015年我科住院患者29930人次,男1666例,女1320例,;年龄55~99岁,平均年龄(71.2±3)岁;病程最短的5天,最长的25年,平均病程为(5.3士2)年;2016年我科住院患者27630人次,男1579例,女1251例;年龄55~99岁,平均年龄(71.3±3.2)岁;病程最短的3天,最长的25年,平均病程为(5.1±3)年。
试点选取具有行业代表性的机构(如教育局),以及机构职能改革后变动较大的部门(如市场监督管理局)等开展数据治理。具体实施仍依标准进行:建立元数据指标库对数据项进行其他指标的测评;对实体数据则采用抽样比对、清洗、转换、形成试点治理数据库等。
图2 江阴大数据中心的数据质量测评框架
四、数据认责问题
(1)问题的浮现
数据质量测评使大数据中心对各机构提供数据的完整性、实用性、贡献度、规范性等有了初步了解,随后就要从数据资产管理角度,对各机构的数据责任与权力、贡献与共享等进行评估,这就属于数据认责范畴了。
数据认责是从全局角度,对各机构的数据进行管理职责的分解与认定,明确彼此间的资源供需边界及协作机制,以建立稳定规范的数据治理体系;如责任与边界不清往往造成多头管理或“三不管”的情况,直接影响政务服务的效率与绩效。对于大数据中心,如不开展认责,则相关职责也就将由自己一肩承担,很快就会感觉“带不动”,举步维艰。面对各渠道来的资源,如“数据含义是什么”“数据质量如何”“谁能提供权威数据”“哪些数据可归并”等问题均无法肯定回答。这实际上是能力与责任的不对称,需要针对“聚、通、用”对数据管理职责重新认定与分配。
(2)数据认责内容
数据管理覆盖数据生存周期各环节,数据责任同样对应存在于每一项数据管理和应用之中,应由各机构的数据提供者、业务认责方、操作认责方以及技术认责方等角色分担。具体认责如下:
①对政务数据提供者:主要负责制定数据管控政策,维护数据供应目录并分配数据认责权限;②对业务主导方:主要负责明确数据定义,制定数据标准、质量规则、安全规则并监控相关数据问题,同时也是对应数据的责任主体;③对操作认责方:主要负责执行数据管理规则,录入各项数据并解决相关数据问题;④对技术认责方,主要负责为数据管理提供技术支持,推动数据架构、标准和规则等内容的落地。
(3)如何开展数据认责
在数据质量测评的基础上,我们将首先梳理认责数据项,即对哪些数据进行认责管理。政务数据归集了成千上万的数据项,对认责来说数量巨大,也意味着工作量巨大,不可能一蹴而就,需要分批次进行。同时,从电子政务效用出发,人们会对数据认责抱以价值期望。因此,在认责数据项的梳理和筛选上可采用“问题+价值”双驱动的策略,即优先对问题多发且业务影响较大的数据项开展认责管理,通过责任落实改善提升数据质量,从而控制和解决问题,支撑业务发挥价值。为此,将通过数据治理建立一套数据问题的归集、分析和管控机制,以及高业务价值核心数据项的识别方法。
沃尔夫冈·阿马德乌斯·莫扎特(Wolfgang Amadeus Mozart,1756—1791)是作曲家、乐器演奏家、维也纳古典乐派的重要人物,出生于奥地利。莫扎特是继格鲁克之后最成功的歌剧改革家,在他一生短短的一生中有25年都在从事歌剧创作,共写了20多部歌剧。
其次将梳理认责关系矩阵,即数据各项责任与机构、岗位、人员间的对应关系。而后,将相关数据责任落实到对应岗位人员的日常工作和数据操作中。数据责任的落实通常可以与数据质量整治工作结合进行,在明确岗位人员数据责任的同时,同步明确责任落实要求,例如数据录入责任与数据项录入规范的同步执行,通过规范录入行为以及纠正录入错误强化责任意识。
五、进一步数据治理的思考
本次数据治理虽取得了一定成果,但对图1的9 环节治理要素,毕竟目前只是从其中之一切入的。下一步仍不能全面展开,而要结合数据质量管理+数据认责形成双轮驱动的治理机制。除大数据中心将统一建立与维护公共数据元池,对各单位的公用数据元与实体数据进行统一转换映射,提升其标准化与质量水平外,还要开展相应的认责机制建设。具体思路是:①定角色,划职责;②建机制,定规范;③构建数据责任管理网络;④推进相应的组织与文化变革等。
综之,数据治理项目不单单是搭建一个集团级的平台,而是一项长期而复杂的工程,涉及到数据管理体系、数据标准、数据治理、数据质量和认责、相关系统升级改造、数据清洗等多个方面。项目建设依据快速见效、急用先建的思路,先整体规划,以数据模型和数据标准为基础,以数据治理管理平台为载体,并开展数据治理专项工作,确保数据治理项目的成功,为实现有效的数据资源整合夯实基础。
【参考文献】
[1]DAMA International 著 马欢 刘晨等译 DAMA数据管理知识体系指南 [M]北京:清华大学出版社 2012年.
[2]数据质量工程实践 (美)Danette McGilvray 刁兴春、曹建军、张健美译 电子工业出版社 2010年.
[3]唐鹏 孟昭莉 刘琼 孙泽红 著 互联网+政务 --- 从施政工具到治理赋能 电子工业出版社 2016年.
[4]蔡立辉等 电子政务应用中的信息资源共享机制研究 人民出版社 2012年.
[5]杨兴凯 电子政务(第四版) 东北财经大学出版社 2018年.
[6]金江军 电子政务理论与方法(第四版) 中国人民大学出版社 2017年.
[7]刘晨 宾军志 数据认责五问 御数坊网站 2019年.