基于Excel的审计数据挖掘方法与路径研究_数据挖掘论文

基于Excel的审计数据挖掘方法与路径研究,本文主要内容关键词为:路径论文,数据挖掘论文,方法论文,Excel论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、引言

随着信息技术的广泛应用,审计数据变得越来越庞大和复杂,审计线索被日益复杂的信息系统和海量的业务数据所掩盖,审计人员面对各种以不同形式存储的数据资料进行分析,仅仅依靠传统的数据检索查询和统计分析方法是难以实现审计目标的。随着计算机技术在审计中的应用,计算机辅助审计技术得到了快速的发展。计算机辅助审计技术(Computer-aided Auditing Technique)是现代审计人员完成审计任务所不可缺少的工具。审计人员可以利用计算机编制审计计划、审计工作底稿,进行审计分析,查询有关法规条例,分析审计资料,并对计算机会计系统进行测试等。从计算机辅助审计的实践来看,虽然已由概念发展为一系列的可操作性实践,但由于审计工作对于审计人员素质的依赖性较强,计算机辅助功能的发挥尚且有限,特别是在以实质性分析为核心的审计证据查找工作中,尚缺乏有效的辅助工具。而在计算机应用研究中,面对“数据丰富,知识贫乏”的挑战,数据挖掘、数据仓库等面向分析决策的计算机技术应运而生。这些技术无疑为现代审计提供了新的思路和方法,也为审计信息化的发展提供了新的途径。

二、审计中数据挖掘技本应用现状及Excel数据挖掘工具的功能

数据挖掘(Date Mining)是通过仔细分析大量数据来提示有意义的新的关系,一般采取排除人为因素而通过自动的方式来发现数据中新的、隐藏的或不可预见的模式。数据挖掘是在对数据集全面而深刻认识的基础上,对数据内在和本质的高度抽象与概括。

(一)审计中数据挖掘技术应用现状 随着计算机硬件和软件的飞速发展,尤其是数据库技术与应用的日益普及,人们面临着快速扩张的大量数据,由于分析工具的有限,形成了一种独特的现象“丰富的数据,贫乏的知识”。为有效解决这一问题,自20世纪90年代开始,数据挖掘技术逐步发展起来,数据挖掘技术的迅速发展,得益于目前巨大数据资源以及对将这些数据资源转换为信息和知识资源的巨大需求。数据挖掘技术从产生起就是面向应用的。目前,数据挖掘已在银行、电信、保险、交通、零售(如超级市场)等领域中成为决策支持的有效工具。数据挖掘的典型应用包括数据库营销(Database Marketing)、客户群体划分(customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉销售(cross-selline)等市场分析行为,以及客户流失性分析(Chum Analysis)、客户信用记分(credit Scoring)、欺诈发现(Fraud Detection)等。这些应用都是摆脱了原有行业的理论框架,从数据或者交易记录的自身规律出发,按照各自的目标,完成知识发现过程,从而为决策者提供有价值的信息。利用数据挖掘技术对被审计单位的海量数据进行发掘式审计,是现代审计技术方法一大突破,这一思路在审计研究和实践中已并不陌生。根据数据挖掘原理,基于数据控制的审计流程可分为以下阶段:数据预处理、发现规律、规律库的数据更新、审计系统的训练与测试,以及对形成的可疑数据进行审计判断。鉴于数据挖掘在其他领域的成功应用,学者们认为在理论上,数据挖掘有助于降低审计风险,提高审计质量。同时,在审计实践中的已出现了一些数据挖掘应用的典型案例,如基于关联规则的海关审单商品分类审计、基于孤立点挖掘的职工工资分析审计、利用聚类技术审计交易记录等,这些实践取得了不错的效果。由此可见,数据挖掘作为一种成熟的数据分析手段能够有效地从海量数据中提取有价值的信息,并已在审计工作中得到了初步应用。但由于数据挖掘技术包括大量的统计技术和数学建模技术,审计人员很难在短时间内掌握,多样性及复杂性使得这一应用还没有达到“落地”效果,寻找一种易于理解的数据挖掘工具显得十分必要的。

(二)Excel数据挖掘工具的功能当前数据挖掘工具主要有两类:特定领域的数据挖掘工具和通用的数据挖掘工具。特定领域的数据挖掘工具针对特定领域的问题提供解决方案。这类工具针对性比较强,只能用于一种应用,而且往往采用特殊的算法,可以处理特殊的数据,发现的知识可靠度也比较高。如IBM公司的Advanced Scout系统就是针对NBA的数据,帮助教练进行优化战术组合的工具。通用的数据挖掘工具不区分具体数据的含义,采用通用的挖掘算法,处理常见的数据类型,如IBM公司Almaden研究中心开发的QUEST系统、SGI公司开发的MineSet、加拿大SimonFrase大学开发的DBMiner系统等。目前很多大型数据库和联机分析系统本身也集成了数据挖掘技术,使人们利用数据挖掘更为方便和快捷。然而对于一般的审计工作人员而言,这些工具都较为陌生,很难直接应用于工作之中。从当前计算机辅助审计的发展来看,Excel是最为审计人员熟悉和接受的软件,具有简单易于操作的特点。特别是Microsoft公司为Excel 2007以后版本提供了一个免费的数据挖掘外接程序SQLServer2005 DMAddin.msi,安装完SQL Server 2005后再安装该外接程序,在Excel中出现“数据挖掘”选项卡,这一模块包括九大模型:决策树、贝叶斯概率分类、关联分析、聚类分析、时序聚类、线性回归、Logistic回归、类神经网络和时间序列分析,基本涵盖了主要的数据挖掘技术方法。Excel2007数据挖掘功能分成七大区块的工具:数据准备、数据建模、准确性和验证、模型用法、管理、连接和帮助。数据准备是指在开始数据挖掘之前,对数据进行清除整理;数据建模是指开始进行数据挖掘步骤,可以建立挖掘模型、预测分析等。其中数据模型化的方法有分类、估计、关联、预测等。准确性和验证是指通过图形来查看挖掘模型;模型用法是指对已构建好的挖掘模型条件式查询其结果;管理是对已构建好的挖掘模型管理其挖掘结构;连接是设定与追踪Analysis Services的连接;帮助是指可取得数据挖掘加载项的使用说明。

三、基于Excel的审计数据挖掘的技术方法

查错纠弊是审计的基本作用之一,这使得寻找异常数据成为重要审计线索的发现途径,运用数据挖掘技术可以获得蕴涵在审计数据内部的模式、规律,审计人员能够有效发现经济业务的异常。结合Excel所提供的数据挖掘工具中的九个模型进行审计分析,其审计数据挖掘框架如(图1)所示。审计中所发现的异常情况反映在数据上,通常是离群点和孤立点。离群点是偏离一般规律和趋势的也数据,其分析通常是建立在估计预测分析基础之上的。孤立点是数据源中显著不同于其他数据的对象,其分析是建立在分类分析基础上。就Excel数据挖掘工具所提供的九种模型而言,可以有效实现估计预测分析和分类分析,进而用于离群点和孤立点的挖掘。

图1 审计数据挖掘框架图

(一)离群点分析离群点挖掘是过发现和分析明显偏离其他数据、不满足一般模式或规律数据的离群数据,找到有价值审计信息的一种技术方法。离群点是针对估计预测分析所得出的数据规律和趋势而言的。在Excel数据挖掘工具,估计预测分析工具包括线性回归、Logistic回归、类神经网络、时间序列分析和关联分析。线性回归主要用于了解自变量与因变量关系的方向及强度,以便用自变量建立模型对因变量做出预测;Logistic回归是对类别数据进行的回归分析,可以用于讨论定性变量和数值变量对同一类别变量的影响和关系;类神经网络是模仿人脑思考结构的数据分析模型,它可以根据输入变量与目标变量进行自主学习,并根据学习提到的知识不断调整参数来建立数学模型,它多用于数据具有高度非纯属且变量中具有相当程度的交互效应的情形,使用类神经网络无须了解系统的数学模型的具体形式,而直接用神经网络取代系统模型,得到输入与输出之间的对应关系;时间序列分析用于探索与时间相关数据的变化规律,进行趋势预测;关联分析是分析发现不同变量或个体间的关系程度。通过这些估计预测分析模型,审计人员可以发现不符合规律的离群点数据,进行着重对这些数据进行审查。如在销售收入审计中,可以通过时间序列分析探讨销售业务的基本规律,进行采用回归分析方法探讨过高收入或过低收入点的原因与合理性,从而将偏离正常业务范围的异常数据进行割离,并对其进行仔细审核,这样就大大节省了审计资源。在成本审计时,审计人员面对大量料、工、费相关数据常常无从入手,此时可利用关联规则技术发现其各成本项目与生产数量之间的关联性,再根据存货仓库盘点数据及相关出、入库记录,确定其产量,根据关联规则确定的关联性,可以确定该被审计成本合理与否。

(二)孤立点分析分类技术亦是一种重要的审计方法,在审计过程中对各类数据按一定规则和特质分为不同类别,进而根据不同类别采用适合的审计策略。分类可将事件分为正常和异常两种事件,通过分类所发现的异常事件即是孤立点。孤立点是数据源中与众不同的数据,审计人员通常认为这些数据并非随机偏差,而是产生于完全不同的机制。审计中的可疑数据往往表现为孤立点,这使得基于分类技术的孤立点分析亦成为一项发现审计线索的有效手段。Excel所提供的模型中决策树、贝叶斯概率分类、时序聚类、聚类分析即是有效的分类分析技术,可用于孤立点的控制。决策树是用树型结构展现数据在受各类变量影响的情况下得到的预测模型,根据对目标变量的状态不同而建立分类规则;贝叶斯概率分类是在先知道总体中不同类别比例构成的基础上,通过训练样本,学习并产生这些训练样本的分类规则,再用这些规则对其他个体进行分类预测;时序聚类可根据用户浏览顺序对其进行分组,分析用户行为;聚类分析是对样本进行分类,寻找多变量个体之间的差异。在审计过程中,可以通过这些分类方法发现孤立点,找到数据的极端值。例如在救灾资金审计中,审计人员很难在短时间内对多个市县进行全面调查,只能选取重点地区进行详细分析。此时可能通过受灾地区的“受灾人口”、“紧急转移安置人口”、“受灾面积”等数据属性进行聚类分析,找出受灾因子与救灾因子不匹配的孤立点,进而进行详细审计。由于被审计对象复杂多样,根据审计目标,实质性分析程序是其重要的审计手段,离群点和孤立点是其重要的审计线索,鉴于Excel数据挖掘工具所能提供的各种估计预测技术和分类分析技术,Excel数据挖掘工具能够为审计人员提供一种有效的辅助工具,解决审计工作中数据分析的难题,提高审计效率和质量。

四、基于Excel审计数据挖掘的操作路径

采用Excel作为挖掘工具在审计中应用数据挖掘技术是最为切实可行的。(图2)是基于Excel的审计数据挖掘工作流程图。

(一)采集被审计单位电子数据根据审计的目标和内容要求,获取被审计单位审计期间的数据库资料。接采集电子数据要从接受被审计单位的数据日志开始,按统一格式收集足够的信息系统提供的账务数据和对应的业务数据,数据挖掘技术运用的第一步就是要获取大量的数据,这是审计数据挖掘工作的起点。

图2 Excel的审计数据挖掘工作流程图

(二)原始数据的预处理原始数据的预处理同时也是Excel数据挖掘程序中的数据准备阶段。从被审计单位采集的原始数据,其数据结构可能不完全符合数据挖掘的要求,不利于审计人员从中发现问题。因此,审计人员要从被审计数据信息集中选择适用于数据挖掘的数据,将原始数据转换成审计人员可识别的格式,并剔除数据结构中的干扰项目,使财务数据和业务数据更能直接地反映对应的经济业务,以便控制数据挖掘的准确性。Excel数据挖掘程序对原始数据的预处理,包括浏览数据、清除数据和为数据分区三大模块。浏览数据允许审计人员创建基于Excel表或Excel区域数据的基本统计信息,还可以生成相应的直方图进行分析。清除数据分为离群值和重新标记两部分,离群值允许审计人员从Excel区域的一列中删除罕见的值、或者高于或低于指定阈值的值;重新标记允许审计人员更改Excel区域一整列中的离散标签,这样做可以合并标签或消除无意义的数据标签。数据分区允许审计人员在现有数据结构内创建分区,现有数据可以是Excel表内的数据,也可以是Anal-ysisServices查询。

(三)数据建模针对准备好的审计数据,按审计任务的所属类别,确定将要进行的挖掘操作类型或模型。Excel提供了分类、估计、聚类分析、关联和预测等工具,审计人员可以直接根据操作向导操作,选择有效的数据挖掘算法,产生一些数学分析模型并加以实现。除了提供的这些工具外,审计人员还可以根据审计业务的特别需求,在高级功能中选择创建挖掘模型向导,该向导允许审计人员选择用于挖掘模型的算法,制定算法使用的参数,以及指定输入数据中要使用的列。审计人员还可以利用向导将新建的数据挖掘模型添加到现有的挖掘结构中,这样新创建的模型与挖掘结构中的其他模型相同。

(四)准确性验证进行模型评价,解释并评估挖掘结果,测试模型的准确性。模型的建立是一个迭代循环过程,根据模型对数据的分析结果,对模型进行准确性验证,如果模型的效果不令人满意,可利用反馈机制重新运用挖掘工具进行建模、分析,直到模型可以把每一次的分析结果清晰、准确、明了地表述给有关审计人员为止。Excel数据挖掘程序提供了准确性图表、分类矩阵和利润图三个检验方法。准确性图表允许审计人员根据测试的数据评估现有模型的性能,如果模型是分类模型,该向导将生成一个提升图,显示与假设的理想模型相比的模型性能,如果模型是估计模型,将生成一个散点图,显示测试数据的模型估计值和实际值。分类矩阵将模型应用于测试数据的结果和测试数据的实际值进行比较,然后生成,同时显示正确分类和错误分类的矩阵。利润图显示与挖掘模型的使用相关联的估计利润增长情况,以确定在商业应用场景中公司应该与那些客户联系。

(五)发现规律审计人员运用合适的数据挖掘算法对审计数据进行处理,发现数据中隐藏的规律,并寻找异常数据(离群点、孤立点),审计人员可根据不同被审计单位的行业背景、业务特点和数据模式,运用关联规则发现、序列模式挖掘等不同数据挖掘技术方法,获得被审计单位的数据规律,以检测是否存在异常。

(六)审计职业判断统计的信息包括业务规模、异常数据和业务流程违规等情况,这既是审计工作的核心,也是数据挖掘技术在审计中运用的主要成果的体现。审计人员可以根据统计结果进行审计职业判断,对发现的问题进行综合分析并进行改进。

随着信息化的不断推进,企业ERP系统的普及,以及被审计单位的数据仓库日趋成熟完善,审计人员面对被审计单位的庞大财务数据和海量业务数据,必须探索和创新审计技术和方法,应用有效的数据分析工具。Excel是审计人员最为熟悉的数据分析软件,最新版本所提供的数据挖掘功能,能够有效地进行估计预测分析和分类分析,从而有助于离群点和孤立点的发现,是审计人员能够掌握和便于操作使用的审计数据挖掘软件包。运用基于Excel的审计分析技术和方法,对被审计单位的海量数据进行分析,获得审计线索,发现审计疑点,提高审计效率和效果,有效控制审计风险提供了一种有效的工具,也为审计信息化的深入发展和普及应用奠定了基础。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

基于Excel的审计数据挖掘方法与路径研究_数据挖掘论文
下载Doc文档

猜你喜欢