浅谈“大数据”背景下的审计分析,本文主要内容关键词为:浅谈论文,数据论文,背景下论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、什么是“大数据”
现在,很多人都在谈论大数据,认为大数据是指数据的规模大,收集数据的速度快,分析数据会更容易。这种说法正确的描述了大数据这一表面现象,因此从某种程度上说,大数据就是数据分析的前沿技术。能从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。研究机构Gatner对“大数据”给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据有四个显著的特点:第一,数据体量巨大。从TB级别跃升到PB级别。第二,数据类型繁多。网络日志、视频、图片、地理位置信息等等都是我们需要分析的数据类型。第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。第四,处理速度快,1秒定律。一般要在秒级时间范围内给出分析结果,时间太长就失去价值了。其中最后这点和传统的数据挖掘技术有着本质的不同和提高。
二、“大数据”时代的数据特点
大数据时代来临首先由数据丰富度决定的。社交网络兴起,大量的UGC(互联网术语,全称为User Generated Content,即用户生成内容的意思)内容、音频、文本信息、视频、图片等非结构化数据出现了。美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,而目前世界上90%以上的数据是最近几年才产生的。
此外,数据又并非单纯指人们在互联网上发布的信息,伴随着各种随身设备、物联网和云计算、云存储等技术的发展,人和物的所有轨迹都可以被记录。全世界的工业设备、汽车、电表上有着无数的数码传感器,随时测量和传递着有关位置、运动、震动、温度、湿度乃至空气中化学物质的变化,这也产生了海量的数据信息。
与过去我们接触与收集到的结构化数据有所不同,这些数据中存在大量非结构化和半结构化数据,把这些数据在下载到关系型数据库用于分析时会花费大量时间和金钱。
三、“大数据”时代给审计分析带来的机遇
随着信息技术的不断发展,数据在社会管理、商业管理中起着越来越重要的作用。人们逐渐开始认识并认同这样一句话,“除了上帝,所有人都要用数据来说话。”这种认识上的提高给审计分析带来了不可多得的机遇。
1.审计分析的认同感大为加强。审计作为一个综合性的经济监督部门,早就秉承了用数据说话的传统。审计报告中无论是综合评价,还是揭示问题,无一不是以数字为支撑的。在大数据时代,充分利用数据仓库、联机分析、数据挖掘和数据可视化等技术、把离散存储于不同系统中的海量数据彼此关系并进行深度挖掘分析,可以对财政性资金的使用情况、相关政策实施的效果进行评估,从而得出客观的审计结论,所有这一切都将会得到审计报告的使用者和被审计单位的高度认同,从而进一步提升审计自身的地位。
2.审计分析所需要的基础数据的获取将变得更为便利。在破除了政府内部协同思想理念上的障碍后,随着大数据技术发展,跨越系统、跨越平台、跨越数据结构的技术将使政府内部纵向、横向部门得以流畅协同。审计部门不再需要分别获取各个部门的相关数据,不再需要分别点对点的与被审计单位进行联网,只要接入政府内部网络,所有审计所需的数据在设置一定的权限后都可以直接获取,大大节约了审计成本。同时由于利用大数据技术,数据处理及分析响应时间将大幅减少,审计工作的效率将明显提高,可以同时对多个类别,多种领域的数据进行同时分析、处理。
3.审计分析将更有利于提高政府决策的科学性和精准性,提高政府预测预警能力以及应急响应能力,更能有效的服务于国家治理的理念。审计分析可以通过对相关领域长年累月形成的数据的分析,挖掘出某种群体行为的特点,提示某种社会现象的潜在规律,为政府制定政策提供关键依据,同时还可以评估政府政策的实施效果,从而帮助政府不断发现问题,改进问题。随着审计分析的进一步深化,审计分析还能超越了传统的数据分析方法,不但是对纯数据可以进行分析挖掘,对言论、图表等都可以进行深度挖掘、人工智能。
四、“大数据”时代的数据处理
与我们传统的审计分析和处理数据相似,“大数据”时代的数据处理也要经过采集、导入及预处理、统计及分析、挖掘几个方面来实现。但由于其数据量巨大,同时又存在大量的非结构化数据,因此在每一个处理过程中又与审计数据处理有所不同。
1.采集。在采集过程中,除了可以使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,还可以利用Redis和MongoDB这样的NoSQL数据库用于数据的采集。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,所以需要在采集端部署大量数据库才能支撑。而审计部门一般不需要采取实时的数据,因此对大数据的采集基本上以采集备份数据和热备数据为主,不需要过多地考虑并发的问题。
2.导入及预处理。在大数据环境下,虽然采集端本身已经有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。这些与目前审计部门的数据导入及建立审计中间表的过程非常类似,所不同的是导入的数据量非常大,每秒钟的导入量经常会达到百兆,甚至千兆级别。
3.统计及分析。统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。而审计部门也需要对业务数据进行相关的统计与分析。由于数据量的差别,大数据环境下,对系统资源,特别是I/O会有极大的占用。
4.挖掘。与前面统计及分析过程不同的是,大数据环境下的数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,并进一步实现一些高级别数据分析的需求。而由于审计时间的限制,审计部门对数据的挖掘一般情况是有着明显的主题,或是法律法规以及相关政委的许可,或是审计人员的主观经验,或是已成型的审计分析模型等等。
五、“大数据”时代的数据挖掘的应用与方法
数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,它所得到的信息应具有未知,有效和实用三个特征。因此数据挖掘技术从一开始就是面向应用的,目前数据挖掘技术在企业市场营销中得到了比较普遍的应用。它包括:数据库营销、客户群体划分、背景分析、交叉销售等市场分析行为,以及客户流失性分析、客户信用记分、欺诈发现等。审计部门的数据挖掘以往偏重于对大金额数据的分析,来确实是否存在问题,以及问题在数据中的表现,而随着绩效审计的兴起,审计部门也需要通过数据来对被审计单位的各类行为做出审计评价,这些也都需要数据的支撑。
数据挖掘的方法有很多,它们分别从不同的角度对数据进行挖掘,其中绝大部分都可以用于审计工作中。
1.数据概化。数据库中通常存放着大量的细节数据,通过数据概化可将大量与任务相关的数据集从较低的概念层抽象到较高的概念层。数据概化可应用于审计数据分析中的描述式挖掘,审计人员可从不同的粒度和不同的角度描述数据集,从而了解某类数据的概貌。大量研究证实,与正常的财务报告相比,虚假财务报告常具有某种结构上的特征。审计人员可以采用概念描述技术对存储在被审计数据库中的数据实施数据挖掘,通过使用属性概化、属性相关分析等数据概化技术将详细的财务数据在较高层次上表达出来,以得到财务报告的一般属性特征描述,从而为审计人员判断虚假财务报告提供依据。
2.统计分析。它是基于模型的方法,包括回归分析、因子分析和判别分析等,用此方法可对数据进行分类和预测。通过分类挖掘对被审计数据库中的各类数据挖掘出其数据的描述或模型,或者审计人员通过建立的统计模型对被审计单位的大量财务或业务历史数据进行预测分析,根据分析的预测值和审计值进行比较,都能帮助审计人员从中发现审计疑点,从而将其列为审计重点。
3.聚类分析。聚类分析是把一组个体按照相似性归成若干类别,目的是使得同一类别的个体之间的距离尽可能地小,而不同类别的个体间的距离尽可能地大,该方法可为不同的信息用户提供不同类别的信息集。如审计人员可运用该方法识别密集和稀疏的区域,从而发现被审计数据的分布模式,以及数据属性间的关系,以进一步确定重点审计领域。企业的财务报表数据会随着企业经营业务的变化而变化,一般来说,真实的财务报表中主要项目的数据变动具有一定的规律性,如果其变动表现异常,表明数据中的异常点可能隐藏了重要的信息,反映了被审计报表项目数据可能存在虚假成分。
4.关联分析。它通过利用关联规则可以从操作数据库的所有细节或事务中抽取频繁出现的模式,其目的是挖掘隐藏在数据间的相互关系。利用关联分析,审计人员可通过对被审计数据库中的数据利用关联规则进行挖掘分析,找出被审计数据库中不同数据项之间的联系,从而发现存在异常联系的数据项,在此基础上通过进一步分析,发现审计疑点。
六、应对“大数据”时代,审计分析应做出的调整
从以上分析过程中,我们不难看出“大数据”时代的数据存贮、处理、分析以及挖掘的各个方面虽然与传统方式相比,在技术层面上有了较大的改变,但是在基本的原理方面,并没有显著的改变,原有的审计分析模式没有必要因为“大数据”时代的来临而急于做出相应的改变。然而“大数据”时代在给审计分析带来机遇的同时,还是给我们带给了相当大的冲击,对此我们有必要引起相当的重视,并在日后的信息化建设过程做出相应的调整。
1.数据的存贮与处理。大数据分析应用需求正在影响着数据存储基础设施的发展。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。基于块和文件的存储系统的架构设计需要进行调整以适应这些新的要求。审计部门在选择相应的存贮系统的时候,要对非结构化数据有足够的重视,做好采集的相关准备。同时随着采集数据的单位和年份越来越多,数据量必然是会有大规模的增长。即使是海量数据存储系统也一定要有相应等级的扩展能力。存储系统的扩展一定要简便,可以通过增加模块或磁盘柜来增加容量,甚至不需要停机。同时为了提高数据的处理能力,解决I/O的瓶颈问题,可以考虑各种模式的固态存储设备,小到简单的在服务器内部做高速缓存,大到全固态介质可扩展存储系统通过高性能闪存存储都是可以考虑使用的设备。
2.非结构化的数据处理。非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。
3.可视化的分析。数据分析的使用者有数据分析专家,同时还有普通用户,但是他们二者对于数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。
“一个平台、二个中心”建设,是审计署目前信息化建设的重要内容。通过数据中心的建设,可以在相当程度上解决数据存储与处理的问题;而数据式审计分析平台,同样可以在一定程度上实行可视化分析的相当一部分功能,但是对于越来越庞大的非结构化数据的存储和处理,将会是审计部门接下来所面临的最大的挑战。