基于异常数据检测和聚类算法的大数据审计研究,本文主要内容关键词为:数据论文,算法论文,异常论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着全球的信息化的高速发展,移动互联网、社交媒体、电子商务的兴起,产生了海量的数据,世界已进入网络化的大数据(Big Data)时代。一般意义上,大数据是指无法在可容忍的时间内用传统的IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。与传统的数据库处理对象和技术相比,大数据有四个显著的特点,即4V特点:Volume(数据体量大)、Velocity(处理速度快)、Variety(数据类型繁多)、Value(价值巨大但密度很低)。除了储存这些数据,我们更多是要利用这些大数据,对它们进行收集、整理、清洗和分析,利用这些数据创造新的价值。 国务院印发《关于加强审计工作的意见》,第19条明确提出:探索在审计实践中运用大数据技术的途径,加大数据综合利用力度,提高运用信息化技术查核问题、评价判断、宏观分析的能力。这是国家首次在文件中将大数据审计列入审计信息化工作重点。审计部门作为一个综合性的经济监督部门,和数据有着天然的联系,每天都会面对大量的数据,这些数据都是真实可靠的,具有非常大的价值。所以审计部门要深度挖掘、充分运用所拥有的数据,从而得出客观的审计结论,这是在大数据时代背景下,审计服务国家治理的内在要求和必然选择。在这样大数据环境下,如何利用大数据开展审计工作,值得我们认真思考。 数据挖掘技术是一种新型数据分析和处理技术,帮助人们从繁杂的数据中挖掘出有用的信息,发现其中存在的关系和规则。聚类算法是数据挖掘的一个重要方法,所谓聚类就是按照事物的某些属性,把事物聚集成类,使类间的相似性尽可能小,类内相似性尽可能大。聚类算法有很多种,大体上,根据定义聚类的方法来分,主要分为以下几类:(1)划分方法;(2)基于层次的方法;(3)基于密度的方法;(4)基于网络结构的方法;(5)基于模型的方法。本文运用数据挖掘技术进行大数据审计分析,提出一种新的方法。 本文第二部分是数据挖掘在大数据审计中的应用与方法,第三部分是采用小波变换进行异常数据检测,第四部分是K-means聚类算法,第五部分是实验结果与分析。 二、数据挖掘在大数据审计中的应用与方法 1.数据挖掘在大数据审计中的具体应用。数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。所以它所得到的信息应具有未知,有效和实用三个特征。因此数据挖掘技术从一开始就是面向应用的。审计部门的数据挖掘主要是从庞大的数据库系统中挖掘更多有用的审计信息,从中寻找出一定的数据特征,发现可疑数据。 数据挖掘的方法有很多,它们分别从不同的角度对数据进行挖掘。其中绝大部分都可以用于审计工作中。 (1)统计分析。它是基于模型的方法,包括回归分析、因子分析和判别分析等,用此方法可对数据进行分类和预测。通过分类挖掘对被审计数据库中的各类数据挖掘出其数据的描述或模型,或者审计人员通过建立的统计模型对被审计单位的大量财务或业务历史数据进行预测分析,根据分析的预测值和审计值进行比较,都能帮助审计人员从中发现审计疑点,从而将其列为审计重点。 (2)聚类分析。聚类分析是把一个数据集划分成不同的组,使得同一组的个体之间的距离尽可能地小,而不同组的个体间的距离尽可能地大。通过聚类,容易识别出密集和稀疏的区域,从而发现被审计数据的分布模式。在审计过程中,通常是利用聚类分析技术对被审计单位的同类型的财务数据或者业务数据进行分组。一般来说,财务数据或重要业务数据的变动具有一定的规律性。所以如果某些数据处于稀疏区域,说明其变动表现异常,需要重点关注。 (3)分类分析。分类是数据挖掘中一项非常重要的任务。上述聚类属于无监督学习,也就是说样本中没有给定类别标签。而分类算法是有监督的学习,即训练样本中已经提前给定类别标签,基于这些训练样本数据建立分类器,然后使用分类器对测试样本集中的未给定类别标签的数据进行分类。比如,某医院将某一病种患者分为“高发人群”、“一般人群”和“低发人群”三类,各类患者有不同的属性和特点,在分类算法中称之为特征。审计根据这些特征建立分类器,将当年医院的患者进行分类,判断其分别属于哪一类,得出数据与当年收入结构进行对比分析,进一步判断医院当年收入数据的真实性和完整性。 (4)关联分析。它通过利用关联规则从操作数据库的所有细节或事务中抽取频繁出现的模式,其目的是挖掘隐藏在数据间的相互关系。利用关联分析,审计人员可找出被审计数据库中不同数据项之间的联系,从而发现存在异常联系的数据项,在此基础上通过进一步分析,发现审计疑点。 2.数据挖掘算法在大数据审计中的应用方法。数据挖掘算法在审计数据分析中应用的步骤可以分为数据的采集,数据的预处理,模型建立与调整,发现异常数据,处理并完善。 审计数据采集是指根据审计目标,利用一定的技术和工具软件对被审计单位信息系统中的电子数据进行采集的过程,该步骤是数据挖掘技术在审计方面应用的前提和基础。在数据采集前,审计人员应结合本次审计工作方案中的审计目的、范围、内容及重点,确定本次数据采集的范围、内容及重点。 数据的预处理步骤是数据挖掘的准备阶段,它包括数据清理、数据选择和数据转换。数据采集成功后,审计人员需要对采集到的数据进行初步清理,删除冗余和明显错误的数据,可以采用的方法有两类:一是通过技术性验证,二是进行业务性验证,便于对数据进行去噪声处理,为进一步的审计数据分析做准备。在数据选择和数据转换阶段,审计人员需要根据数据挖掘的任务从数据库中选择性地提取与数据挖掘有关的数据,并根据数据挖掘算法要求进行数据格式转换或预处理,同时要剔除数据结构中的干扰项目,使该数据集合能更直接地反映对应业务情况,以便提高数据挖掘的准确性。 模型建立与调整是数据挖掘过程的核心部分。针对已经准备好的被审数据,审计人员需要根据审计任务的所属类别,结合被审单位的不同行业背景、业务特点数据模式,运用关联规则发现、序列模式挖掘等不同数据挖掘算法,发现被审计数据中隐含的规律,确定将要进行的数据挖掘算法或模型并加以实现。 发现异常数据阶段。建立数据模型的目的是将其应用于对审计数据的分析,审计人员要根据这些模型对被审计单位数据进行总体评价,判断和比较出审计数据在真实性、准确性、一致性等方面的质量状况,发现异常数据。 处理并完善阶段。针对挖掘出的数据质量问题,审计人员需要根据具体情况逐一进行分析,判断该问题是否属于数据质量问题,而且还要确定这个问题是否可以纠正,对于可纠正的数据质量问题,需要及时纠正。对重新获取的审计数据,审计人员还要采用关系模型、业务规则或抽样方法再次核对,直到数据完善。 三、采用小波变换进行异常数据检测 数据采集成功后,需要对采集到的数据进行初步清理,去除明显错误的数据或异常数据。小波分析理论能够实现信号的时频局部化描述,为信号异常性分析提供了有力的工具。 1.小波变换。(内容略,编者注) 2.小波变换用于异常数据检测的原理。(内容略,编者注) 四、K-means聚类算法 聚类属于无监督学习,回归分析、朴素贝叶斯、SVM等算法都有类别标签y,也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定类别标签y,只有特征x。聚类的目的是找到每个样本x潜在的类别y,并将同类别y的样本x放在一起。 本文使用的是基于划分的最常用聚类算法:K-means算法。K-means算法基于使聚类性能指标最小化的原则,通常使用的聚类准则函数是聚类集中的每个样本点(数据或对象)到该类中心的误差平方和,并使它最小化。(以下内容略,编者注) 五、实验结果与分析 本文以上海市政务数据资源共享和开放工作的审计分析内容为案例进行研究。为全面推进政务数据资源共享和开放工作,促进政府职能转变和信息服务业发展,参照美国、新加坡等国经验,搭建政府数据资源服务平台。该平台提供政府数据资源对内目录管理和对外开放服务两大功能。对内,提供政务数据资源目录编制等功能,为对外数据开放和对内资源共享提供基础性支撑。对外,作为全国首个政府数据服务网站,上海市政府数据服务网(datashanghai.gov.cn)承担着对外数据开放、提供检索下载服务等功能。 在审计过程中,可以充分利用上述平台后台数据库资源,利用K-means聚类算法进行审计分析,提高审计分析质量。(以下内容略,编者注) 六、结束语 本文针对大数据环境下审计分析工作的特点,提出首先使用小波分解算法检测异常数据来进行数据预处理、然后采用K-means聚类算法进行大数据审计分析的方法,并通过实际审计案例来验证了该方法的有效性。由于小波变换具有很多有用的性质,因此,在大数据审计分析中,应用小波变换对实际的财务数据或业务数据进行分析和预测将是我们下一步的研究方向。另外,目前许多聚类算法擅长处理低维的数据,可能只涉及两到三维,而审计工作面对的数据库或者数据仓库可能包含若干维或者属性。因此,使用聚类算法对高维数据进行分析也是我们进行大数据审计下一步的研究方向。标签:大数据论文; 聚类论文; 数据挖掘论文; 数据挖掘算法论文; 审计质量论文; 无监督学习论文; 审计目标论文; 审计方法论文; 审计准则论文; 小波变换论文; 算法论文;