审计数据挖掘模型的概述及应用,本文主要内容关键词为:模型论文,数据挖掘论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
为解决海量数据审计中的实际问题,我们可以建立审计数据挖掘模型(如图一),该模型包括六个基本模块:审计业务定义模块、数据准备模块、数据验证模块、操作模块、数据挖掘模块以及审计决策模块,下面分别对每个模块做一详细说明。
一、审计数据模型概述
1.审计业务定义模块
即模块功能:在审前调查的基础上,了解并确定要采集的数据,然后根据被审计单位行业特点和审计数据特点,定义出通过数据挖掘帮助我们发现什么数据、解决什么问题。
2.数据准备模块
数据准备阶段的工作即重要且工作量也十分巨大,有人做过统计,在数据挖掘过程中80%的时间用于数据准备,而挖掘工作仅占总工作量的 10%,这充分说明数据挖掘对数据的严格要求,数据准备的好与坏、充分与否将直接关系到数据挖掘的最终结果。该模块包括:数据采集、数据经济含义转换、数据清理、数据预处理四个子模块。因为在数据预处理模块中,包含两个重要的内容:数据变换和数据归约,所以在下面的论述里,把数据预处理模块分解成数据变换和数据归约两个模块来描述。
(1)数据采集(DataCollection)
模块功能:确定选择采集那些数据,用什么工具、采用什么方式去采集。
图一 审计数据挖掘模型
(2)数据经济学含义转换
模块功能:将采集到的数据转换为统一的格式并赋予经济含义。
(3)数据清理(DataScrubbing)
模块功能:清理数据冗余、错误的数据并解决数据不一致性问题,形成“审计中间表”。
(4)数据变换(DataTransformation)
模块功能:将审计数据变换为适合数据挖掘的形式。
(5)数据归约(DataReduction)
模块功能:对海量数据集采用数据归约技术进行归约,用归约后的数据集表示未归约前的数据,归约后的数据集小的多,但数据特性仍接近于保持原数据的完整性。
3.数据验证模块
模块功能:在完成数据采集、数据经济学转换和数据清理的每一步后,对数据的正确性进行验证。
4.具体操作模块
模块功能:定义数据准备阶段每一子模块的具体操作方法。
5.数据挖掘模块
模块功能:选择数据挖掘模式,选取恰当的数据挖掘工具,对处理好的数据进行数据挖掘。
另外需要强调的一点是:由于需要做准备工作,数据挖掘并非是一个完全自动化的过程,整个过程需要考虑数据的所有因素和其预定的效用,然后应用最佳的数据挖掘方法。
6.决策模块
模块功能:分析数据挖掘结果,得出审计思路,作出审计决策。
以上说明了数据挖掘模型各个模块的功能,应注意的是,这几个模块之间是彼此交叉、相互联系,而不是相互独立的。从图一上也可以看到,数据准备模块和审计业务定义模块之间是交叉的,数据准备模块、操作模块以及数据验证模块是并行的,在数据清理后结合审计业务定义就可以选择数据挖掘模式,而数据挖掘模式的选择又影响到数据预处理以及数据预处理所采用的技术。
二、审计数据挖掘模型的特点
本模型较其它审计数据处理模型具有如下的特点:
1.较强的可操作性和可伸缩性。具体操作模块的每个子模块都和数据准备阶段子模块一一对应,详细解释了数据准备阶段每个子模块具体做什么操作或每个阶段应该考虑那些问题,使该模型具有操作性。根据数据的特点可以选择相应的模块,使模块具有灵活性、伸缩性。
2.较强的实用性。本模型是在分析其它审计模型的基础上,结合自己审计工作中的经验和数据挖掘知识,针对解决海量数据的实际审计问题提出的,所以能较好的解决这类问题。
3.强调数据验证。强调在审计数据准备阶段中,从完成数据采集、数据经济学转换到数据清理的每一步,审计人员都必须不断进行数据验证,保证审计数据的正确性,从而保证审计结果的公正性、客观性和准确性。
4.强调数据预处理。把数据挖掘中的数据变换和数据归约技术运用到审计数据处理上,实验结果证明这些数据处理策略提高了挖掘效果和挖掘效率,这为在海量审计数据集上进行数据挖掘提供了部分解决方案。
5.这一模型是建立在OLAP基础上的,被审计单位数据经过采集、清理和抽取后,导入到数据仓库,部分解决了联网审计的问题,这种方式能较好的解决数据安全性问题。
三、举例说明:建立审计业务数据计算机挖掘模型的实际应用效果
某审计组在对某航空公司XX年度的财务收支情况进行审计中,把航油支出的合法性列为审计重点。审计组为判断该航空公司是否存在利用飞机从国外带油现象,审计人员对其以往的航班记录进行检查,核实其加油量是否大于消耗量。对全部航班记录按照航空公司、飞机机型、航线类型、航班性质、航班类型、航段距离以及加油量与耗油量的差额等相关因素进行分组,通过了解各组记录的特征,从而发现是否存在从国外带油的现象。
审计数据挖掘结果的业务分析
(1)数据挖掘所用表和挖掘算法
以“飞行任务书表”、“航段信息”表和“机型说明”表为事例表,对航班飞行记录进行分类,输入字段有:航空公司、飞机机型、航线类型、航班性质、航班类型、航段距离以及加油量与耗油量的差额等相关因素,采用Analysis-Service中的微软聚类算法。
(2)数据挖掘可视化界面说明
图二是数据挖掘结果的可视化浏览。从图二可知,数据挖掘模型浏览区中包括四个区域:左边是“内容详情”区域,显示焦点所在的决策树部分;右上方“内容选择区”区域,显示树的完整视图;右方中间“特征”区域,显示所选节点特征,特征信息可以用“合计”选项卡以数值方式查看或者用“直方图”选项卡以图形方式查看;右下方“节点路径”区域显示包含在所选节点里的事例的规则说明。Cluster的颜色代表事例的密度,颜色越深则该节点中包含的该项实例就越多,通过数据挖掘模型浏览器右下角的“树颜色基于”下拉列表框,可以选择树的颜色基于何种事例来显示。
四、总结评价
图二 “处理2”挖掘结果
目前数据预处理这种策略对审计数据挖掘效果的作用还不是很清楚,还没有人进行系统的研究,还没有系统地理论来帮助审计人员针对特定的任务选择特定的数据预处理策略和方法。本文只是在这个方面做出了一个大胆的尝试,从这次实验结果上看,在使用某些挖掘算法之前,对审计数据进行预处理应该是一个可行的策略。