大数据在国家审计中的应用,本文主要内容关键词为:国家论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
目前,大数据技术的发展已对国家审计工作的发展提出了众多新的要求。2014年,国务院发布了《关于加强审计工作的意见》,意见明确提出“探索在审计实践中运用大数据技术的途径,加大数据综合利用力度,提高运用信息化技术核查问题、评价判断、宏观分析的能力。创新电子审计技术,提高审计工作能力、质量和效率。推进对各部门、单位计算机信息系统安全性、可靠性和经济性的审计。”可见,在审计工作中运用大数据技术已上升为国家意志的体现。 一、大数据对国家审计的影响 为适应审计信息化发展的需要,审计署实施了“金审工程”项目。2004年开始的金审一期项目,完成了省市区三级审计网络的互连,审计管理系统OA上线运行,现场审计实施系统AO开始推广。接着,2009年开展的金审二期项目,将工作重心转移到提高审计工作效率、规范审计管理上,建设了审计数据中心和交换中心,更好地发挥了信息技术在审计实务中的作用,极大地提升了审计质量和效率,扩大了审计覆盖面。2014年开始的金审三期工程,必将在前二期成果的基础上,将审计信息化推向新的高度。但是,对照党和政府提出的“审计全覆盖”的新要求,目前审计信息化的应用程度还存在一定差距,主要表现如下:一是审计人员对利用计算机技术辅助审计已不陌生,但对开展大数据审计还未充分认同。二是数据挖掘技术在审计中有着零星的应用,但还不普遍,这一点由目前相关文献报道均较少可知。三是审计人员对大数据的相关概念还较陌生,对大数据时代的审计模式变更还未做好充分思想准备。 (一)在大数据时代,国家审计将更有所作为 为国家积累重要的战略资源。未来大数据是国家重要的战略资源,是关系国家安全的重大议题。近年来,世界各国的金融、科技、民生信息均以数字化的形式存储,因而数据资源是体现国家主权的新的重要载体,但是数据资源的固有特性,决定了它不像领土、领海那样具有清晰的边界。美国对数据安全的重视程度堪称世界典范,国内企业中兴、华为开拓美国基础设施市场接连受挫,个中缘由不外乎是西方对于数字资源的高度敏感。另一方面,利用好数据资源,可以助推传统产业的转型升级和新兴产业的孵化,这是对于信息经济快速发展的重大利好。审计机关具有掌握国民经济重要部门数据的天然便利,因此,审计信息化工作若搞得好,可以为国家积累有价值的数据资源。 为国家储备重要的战略技能。这个技能就是大数据分析技术,对“大数据分析技术”并无确切的定义,一般理解包括大数据存储、处理技术和数据挖掘算法。同样,西方发达国家走在了前列,如美国政府于2012年发布了“促进大数据研究与发展的倡议”,并投资2亿美金用于大数据相关的技术和产品研发。可见,即使在发达资本主义国家,对大数据研究的资助也是落实到政府而不是企业家的肩上。2013年,我国科技部开始将“大数据研究”列入项目征集指南。大数据时代,国家审计机关的价值不仅体现在拥有数据资源,更应体现在拥有开发、分析和挖掘这些资源的人才和技术。 完善被审计单位的信息系统数据库。审计机关可以大数据审计为契机,制定相关对口单位数据存储的“审计标准”(类似于建筑楼宇的消防安全标准)。对被审计单位的信息化建设特别是数据库设计提出指导性意见或要求,以满足未来大规模协作审计的实际需要。例如,数据库的设计不仅要包含被审计单位的基本信息,如:名称、地址、业务记录等,还应纳入:接受审计的时间、人员、审计结论、审计整改落实情况等。可从思想上明确,对被审计单位的信息化提要求不仅是监督,更是服务,正如建筑楼宇的消防安全标准,落实好了是为了保障安全、降低风险。 创新审计管理方式,实现对被审计单位的差别化管理监督。即制定不同的风险等级,利用大数据相关技术对审计管理系统数据库中不同审计单位进行分析,将其匹配到不同的风险等级,从而实施更有针对性的审计监督和服务。并且还可以创新审计模式,建立风险导向型审计模式,比如重点关注具有较高风险等级的被审计单位,通过降低它们的风险来降低整个经济社会的风险,体现国家审计的“免疫系统”功能。 促进审计方式的变革。大数据背景下,随着审计私有云平台的建成和审计软件的性能提升,有助于推动以“总体分析、发现疑点、分散核查、系统研究”为特征的总体分析审计方式的实施。通过系统的研究,才能提出更合理、更科学的关于体制机制和政策的审计建议,保障金融、财政、投资、民生等各部门的经济安全。 助推大项目管理模式。大数据背景下,有助于创建并推广以“全国或全省范围内同步开展审计项目的统一决策指挥”为特征的大项目管理模式。通过统一指挥调度机构与分布在各不同地区,实施同一审计项目的众多现场审计小组的信息交互,实现对项目的统一组织、统一管理、统一决策。通过开展大项目审计,实现管理流程和组织方式的创新,从而提高覆盖面和促进审计价值提升。 有助于实现全过程跟踪审计。传统上,数据式审计是对已发生的历史事务记录进行审查,通过审查发现问题,可起到审计监督的作用。但是一旦查出问题,则必然已经造成了不可挽回的损失。审计私有云平台的建成和审计软件的性能提升,有助于审计程序不间断地分析实时数据,及早发现问题苗头并预警,实现问题的早发现、早预防,防患于未然。 借助大数据相关技术,促使审计监督步入“新常态”。新常态包括:变财务审计为业务审计和全面审计;变周期性审计为实时审计;变现场审计为远程审计;利用碎片时间实现移动办公和移动作业等。 (二)大数据时代的思维方式变革对国家审计的启发 开展更大范围的审计延伸调查。大数据时代的思维变更之一就是要求利用好可能得到的全体数据,由此启发审计工作,可不再局限于被审计单位的内部数据信息,还应纳入与其发生业务联系的其他单位的所有信息,例如来自互联网、通信网、银行、海关、交通等机构的信息。 开展联合审计。同样,大数据时代的思维变更启发人们,不应当局限于单一审计对象,可以对多个具有类似业务的被审计单位进行联合审计,以扩大数据总体的范围,发现以往在单一单位审计中难以发现的问题。 对大量数据的计算须要实施云审计。大数据时代的思维变更包括要接受更多更杂的数据,因此对现有国家审计的工作模式带来了挑战,即现有模式是否能适应日益增长的海量数据。对此,构建审计私有云平台,实施云审计提上了议事日程。实施云审计有利于实现审计资料充分共享,缓解审计信息资源不足。在审计实践中,审计搜集的各种资料、电子信息都须要共享,其更新和维护是一项繁重的工作,但云计算背景下,由于采用统一的资源平台,审计人员可以实时地获取最新的数据,了解数据更新的历史纪录,了解数据资源的最初发布人,避免重复搜集数据,从而提升审计效率。云计算的实施还有利于缓解审计信息资源不足的状况,适应异地大规模审计项目组织形式。 对大量数据的计算须采用并行计算框架Map Reduce。Map Reduce是一种分布式计算模型,用于大规模数据集的并行运算。概念“Map”和“Reduce”分别表示映射和规约,其工作方式是把对数据集的操作分发给网络上的节点以实现并行计算,每个节点周期性地返回其任务完成情况和最新状态(俗称心跳),如果某节点心跳间隔超过预设的间隔阈值,主节点认定其状态为死亡,并把分配给这个节点的数据转发给其他节点完成,以此实现高可靠性的并行计算。对Map Reduce所做的工作可作一个经典的类比,例如须要统计一个图书馆里所有图书的数量,可将此任务分解为若干个子任务,对每个子任务让团队的一个成员来代劳,即每个成员分别承担一只书架,计数本书架的图书总量,最后汇总得出全馆总数。如果团队的人数越多,则计算得出最终结果的速度越快。上述流程中,分工步骤即为Map,汇总步骤即为Reduce. 对大量数据的计算须采用流式计算框架Storm。Storm是由于推特(Twitter)公司推出的一款免费开源、分布式、容错性高的实时计算系统。它弥补了Hadoop批处理备受诟病的一个缺陷,即计算的实时性得不到保证,Storm令持续不断的流计算变得容易。假设要访问的对象是一个动态更新的数据流,传统的访问方式会等待数据稳定再做计算,而Storm可以实施连续查询,在计算的同时将当前结果以流的形式输出给用户,常用于抽取-转换-载入(ETL)过程。 善用多种数据挖掘技术。大数据时代的思维变更包括寻找相关关系,由此启发审计工作应该善于应用多种数据挖掘技术。 二、数据挖掘技术在国家审计中的应用 (一)数据挖掘的基本概念 国际上对数据挖掘的定义为:从大量的、不完全的、模糊的、随机的数据中,提取隐含(事先不为所知)的、但又具有潜在价值的知识和信息的过程。该项技术自上世纪80年代逐步发展起来,被美国《科技评论》(2002)杂志评估为对未来人类产生重大影响的十大新兴技术之一。其中比较有影响的算法包括:Agrawal等(1993)所提的关联规则的概念,进而于1994年,提出的频繁项集挖掘算法Apriori;在分类挖掘领域,Quinlan(1993)提出的决策树算法ID3和C4.5。此外,传统的神经网络技术和较新的支持向量机也被用于分类分析;在聚类分析方面,MacQueen(1967)提出了著名的K-Means聚类算法。它们分别执行什么具体挖掘任务呢,分述如下: 关联规则挖掘做什么?关联规则挖掘是从大量事物或交易记录集中寻找存在关联关系的子项,例如在超市的销售记录中寻找这样的关系:“牛奶”和“面包”,它们频繁地被同时购买。寻找关联规则的过程分为两步,第一步是得到满足一定支持度阈值的“频繁项集”,第二步是在频繁项集的基础上得到元素之间的蕴含关系,假如项A和B构成频繁集,那么A蕴含B的概率和B蕴含A的概率一般是不等的。基于一定的置信度阈值,最终可得到有价值的关联规则。关联规则挖掘在审计中,可用于发现某两种或几种对象之间不易觉知的联系。 分类做什么?“分类”是模式识别的重要任务,简单地可设想在二维平面上,分布着圆形和方形两类不同的样本点,它们分别位于平面上不同的位置,如果在这些位置中间的某坐标处有一新点,人脑容易判断出这个新点更像是属于方形一族,还是属于圆形一族。分类过程的实质,就是根据已有标签的若干样本点,判定未知样本点的归属问题。计算机所要做的工作是将上述事项程式化,并且将可求解的范围延伸至高维空间,因为如果数据的维度高于3,就超出了人类大脑的想象能力,不能再凭肉眼观测。再加之如果数据量庞大,类别数也大于2,就更需要借助计算机软件算法才能求解。 聚类做什么?聚类任务和分类不同,简单地可设想在二维平面上,散落分布着若干样本点,它们本没有标签,人类可凭借脑神经强大的分辨力,迅速地将不同位置的点凑对、聚集到一起,并贴上标签,这个过程如果通过计算机来实现,称作聚类。一言以蔽之,聚类就是给未知标签的数据点加上标签。聚类挖掘在审计中,可用于发现远离正常分布的“异常点”,因而是辅助发现审计线索的利器。 数据预处理和数据可视化。由于数据在记录或存储、传输环节可能发生的丢失、破坏,必须经由预处理步骤或者必要的格式转换才能供后续挖掘分析之用。常用的预处理方法包括:对缺失值的填空,对离群点的过滤,数据概化等,通过预处理,数据方可实施挖掘算法。在审计实践中,由于被审计单位的数据库系统软件并不一致,对此,方法一是针对不同的数据库使用不同的客户端读取工具,该方法的缺点是审计人员不能全身心地投入分析工作,而要应付计算机接口的底层问题,因此一个替代方案是进行数据转换,即方法二,将不同来源的数据通过转换工具获得符合审计中间表规定的统一格式数据源。数据可视化是借助计算机图形化的手段,观测复杂数据的内部结构,通过可视化手段,便于从宏观上洞察数据的本质特征,该方法的成功应用将有助于审计人员快速定位问题,查找疑点,减轻计算机审计人员的工作负担。 上述一系列经典算法提出后,研究人员所作的贡献主要是在原始算法基础上实施必要的优化,包括提高其计算性能,或拓宽其应用领域。数据挖掘的主要应用领域包括:电子商务、金融、工业自动化、制药和生物工程等,在本报告关注的审计行业,人们也逐步认识到使用挖掘算法辅助审计的重要性,因而产生了一些初步应用研究成果。 (二)基于数据挖掘的审计是未来发展的必然趋势 以社保审计工作中的医院审计为例,被审计单位具有专业性强、业务流程复杂、数据量大、问题相对隐蔽等特点,在过去的10年,计算机辅助审计在医院审计工作中大显身手,而计算机辅助审计的主要对象即HIS系统数据库,主要途径是采用SQL查询技术,它充分发挥了计算机“不怕多、不嫌烦”的特点,解决了很多在传统审计方式下无法解决的难题。但是,有经验的审计人员早已发现,某些审计事项可以很便捷地通过SQL查询技术加以解决,而另一些则不行。前者如审查药品的加价率,只需从数据库中检索出各类药品的进价和销售价,计算出加价率,然后和法规规定的加价率对比,即可得出审计结论。应该说,随着计算机审计技术的普及,这种直接违反政府价格政策的违规行为已经越来越鲜见了。 新的情况随之而出现,一些更隐蔽的问题屡屡暴露,令传统的审计方式收效甚微。如:医生收受药企不正当资助,从而所开药方具有“倾向性”,以及开“大处方”、过度治疗、滥用医保资金、医疗设备使用绩效不高等问题,此类问题如果采用普通的查询方式,并不会有明显的异常表现,但是如果善用数据挖掘的各种算法,如关联规则分析、分类挖掘、聚类等对数据进行深度分析,则有可能发现有价值的审计线索。类似问题也存在于社会其他领域,如在电子商务行业,著名企业阿里巴巴集团淘宝网,存在卖家通过虚拟交易提升人气的舞弊行为。对此,公司数据分析部门研制出一套较为成熟的分析算法对治该问题,查封了一批不法商户,维护了虚拟社区的公平,从而受到广大用户好评;再如,在金融行业风险控制领域,数据挖掘技术特别是其中的分类算法已被应用于大额和可疑交易监控,取得了较好效果。可见,同样是“基于数据、发现问题”的工作思路,尽管应用领域不同,但该方式在电商、金融等行业的成功应用足以启发和鼓舞我们,基于数据挖掘的审计可以并且值得开展。 从历史发展的趋势来看,也不难发现,在审计实务中引入数据挖掘技术既是大势所趋,也是大数据时代实施有效监管的必然要求。从上世纪开始,我国审计信息化工作的发展轨迹,其起步阶段的标志是上世纪80年代,审计机关作为政府职能部门正式挂牌,而采用计算机辅助审计是本世纪初才开始全面铺开,其标志是2004年国家开始建设的金审工程项目。过去的8年,信息技术飞速发展,审计工作人员的业务水平日益提高,对数据式审计工作重要性的认识不断深化,可以说,目前将数据挖掘技术引入审计实践的各项条件已臻成熟。标签:大数据论文; 国家审计论文; 国务院关于加强审计工作的意见论文; 审计软件论文; 审计质量论文; 数据单位论文; 审计流程论文; 数据挖掘论文;