数据挖掘在风险导向审计中的应用,本文主要内容关键词为:导向论文,数据挖掘论文,风险论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、面向审计业务的数据挖掘步骤
随着ERP和电子商务的普及应用,以现场人工操作为主的传统审计方式已不能适应网络时代经济发展的需求,连续审计应运而生。连续审计是指审计人员无论何时何地,都可通过网络,访问被审计单位的数据中心,开展实时在线审计。其过程包括数据采集、数据传输、数据存储与数据处理四个阶段。在数据处理环节,可以运用数据挖掘、在线分析处理等手段对采集到的海量数据进行分析处理。限于篇幅,以下仅讨论数据挖掘在审计分析中的运用。
数据挖掘技术在审计分析中应用的基本过程是:1.利用数据库系统的数据导入导出功能、ODBC和审计软件等方法采集被审计单位信息系统的数据。2.对数据进行清洗、集成、转换和规约等预处理工作。3.依据法规、财务业务处理逻辑、数据勾稽关系以及审计经验等途径构建模型,从审计数据中提取信息和知识.这是一个循环迭代的创新过程,要经过多次的试验、反馈、修正,才能获得一个高质量的模型。4.对业务范围、识别无效、数据异常等情况进行事件统计。5.利用OLAP(联机数据分析处理)工具对审计数据进行切片、切块、转轴、上卷、下钻等多方位、多角度的职业分析,以迅速找到审计线索并提出处理建议。
二、面向审计业务的数据挖掘方法
(一)分类和预测 分类是通过分析数据特征(如:结构性指标、盈利性指标、现金流量指标等),选择训练样本,构建模型(即分类器),将数据划分为不同的类别,并采取不同的审计策略。如:在存货审计时,根据重要性原则将存货分为A、B、C 三种类型,不同类型存货确定不同的抽查规模。常用的分类算法有决策树分类法、贝叶斯分类法、神经网络分类法、遗传分类法、模糊集分类法、K-最近邻分类法、粗糙集分类法等。预测是根据历史资料找出规律,创建模型,并依模型预测未知的或缺省的数据值。当预测值与审计值不一致甚至差异较大时,可列为审计重点。如:在坏账准备审计时,根据债务人的资信状况、历史数据,账龄分析,预测出的坏账准备与被审计单位实际计提的坏账准备存在较大差异时,审计人员可能据此认为坏账准备存在重大错报风险,应予以充分关注。
(二)聚类分析 聚类分析是根据同一聚类的对象相似,不同聚类对象相异的原理,将审计对象分成若干个群体(簇),它常用来检测局外情况。如:在控制测试过程中,用聚类分析法进行交易分组:在工程项目招标的控制环节中,用聚类分析法构造投标人的评价指标体系,对投标人进行量化考核和判别分类,为选择投标人提供客观公正的参考意见;在客户关系管理中,以客户的消费额或利润贡献等为标准,将客户分为三个类别(即关键客户群、主要客户群、普通客户群),并采取不同的营销策略和管理措施。
(三)关联规则 关联规则挖掘可以发现大量数据集合间有价值的联系。在审计中,运用关联规则可以分析安全事件间的关联,检测审计数据中存在的潜在关系,提高审计风险预警水平。如:根据客房数量、租金水平和空置率,可以检查一栋酒店大楼租金收入的完整性;根据存货进、销、存记录以及产品产量与成本项目的联系,可以检查被审计单位成本费用的合理性;利用相关账户余额、四大财务报表金额以及财务比率之间的勾稽关系,可以发现企业是否有假账真做、真账假做等现象。然而,关联规则仍然可能得出某些数据关系的错误判断,主要原因是审计数据的时间效应。为克服这种因素造成的风险,加权关联规则应用到了审计业务中。
(四)序列模式 序列模式与关联模式相似,但序列模式的对象是以时间的先后来区别的。在审计中,运用序列分析找出被审计单位入侵行为的序列关系,发现隐藏在审计数据中有规律的事件序列模式。
(五)离群点挖掘 离群数据挖掘是从错综复杂的数据中挖掘出不满足一般模式或规律、行为异常的小部分数据(即离群点)的过程。离群点通常掺杂在高维数据的异常数据中,这些异常数据可能给企业带来重大影响,如在账表中的个别异常数据可能预示着企业的违规行为。通过运用离群点挖掘算法,可有效地进行审计数据预处理,快速定位可疑数据,自动提取管理模式和业务模式。所以,离群点挖掘在贷款审批、信用卡欺诈、电子商务犯罪、网络入侵检测、医疗分析、天气预报等众多领域得到成功应用。但对于大规模动态变化的高维数据集时,离群点挖掘算法的计算量太大,耗的时间较多。因此,增量式离群点挖掘算法逐渐受到业界青睐。
(六)异常点检测 异常点检测是数据挖掘中常用的方法之一,它是从海量审计数据中挖掘出具有异常行为和特征的数据对象,主要应用于低维数据空间,如IT系统入侵检测、信用卡透支检测等领域。
(七)孤立点检测 孤立点检测是一个重要的数据挖掘类型,用来发现与审计数据源中的异常值(即孤立点)。审计中的可疑点通常表现为孤立点,可能是数据变异(如:季节性生产的企业,旺季销量很可观,而淡季销量严重下滑,应属于正常情况),也可能是执行错误或舞弊违规(如:某上市公司在某一年报中资产减值准备出现很大变动,可能是企业利用短期资产减值准备进行盈余管理)。但是,并非全部孤立点均是错误数据。所以,还需运用检查、观察、询问、函证、重新计算、重新执行和分析程序等常规审计方法,并结合被审计单位实际情况,才能查找出相应的错误数据。
三、数据挖掘在风险导向审计中的应用
(一)调查评估被审计单位及其环境 运用数据挖掘的分类方法从数据仓库中提取被审计单位信息,包括行业状况、法律与市场环境、单位性质、单位战略、经营范围、经营风险、会计政策、财务业绩评价、业务处理流程以及IT系统的硬件、软件、文档资料和数据库系统等。然后,用分类和预测方法分析历史数据和经营指标,并通过对内部控制、单位评分、财务比率等方面的关联分析,寻找风险诱因,并以此为标准,评估单位审计风险是否在可接受的水平。
(二)控制测试 控制测试的主要过程如下:(1)确定测试的程序。信息系统控制测试分为一般控制测试和应用控制测试两个方面。一般控制测试就是审查被审单位的各项控制是否健全以及执行效果,包括:组织控制测试、程序开发与变更控制的测试、程序和数据访问控制的测试、计算机运行控制的测试等。应用控制测试主要是针对信息系统程序控制进行审查,包括:业务流程的测试、输入、处理、输出控制的测试等。通常先进行一般控制测试,若发现一般控制存在严重薄弱环节,则需增加应用控制测试的工作量。在特殊情况下,也可以两者同时测试。(2)确定测试对象。测试对象主要包括内部控制系统的不足和关键控制环节。此时,要在测试技术、测试难度、测试成本与测试效果等因素之间进行权衡。(3)选择测试工具和技术。比较著名的数据挖掘工具有:如国外的Visual Assurance(德勤公司)、COSO软件(国际内部审计师协会)、Intelligent Miner(IBM公司)、QUEST(IBM公司Almaden研究中心)、Enterprise Miner(SAS公司)、MineSet(SGI公司和美国Standford 大学)、Clementine(SPSS公司)、DBMiner(加拿大Simon Fraser大学)、Weka(新西兰Waikato大学)等,其中Weka是一款开源的数据挖掘工具,它功能强大,集成了大部分数据挖掘算法,提供了可视化的界面,有较好的数据预处理功能,可以方便地进行二次开发。国内有Dminer(上海复旦德门公司)、Open Miner(东北大学软件中心)、Geni-Sage Data Mining Analysis System(天津天才博通公司)、Highway Decision Center(青岛海尔青大公司)等数据挖掘工具。借助国外的数据挖掘工具,可以测试控制运行的有效性和确定控制是否得到执行,也可以用于各种交易事项、账户余额、财务报告披露的细节测试与实质性分析程序。而国内的数据挖掘工具主要用于安全审计中的具体数据挖掘。(4)设计测试方法与数据。在控制测试环节中,应采用手工测试和计算机辅助测试相结合的方式。手工测试可采用观察、询问、检查、重新执行、穿行测试等方法,计算机辅助测试可采用平行模拟、集成测试、数据检测、程序编码审查与比较、跟踪、快照、数据查询、账表分析、审计抽样、统计分析、数值分析等方法。(5)进行测试,分析和评价测试结果。分析评价每项控制措施的测试结果,进而评价整个内部控制系统的有效性,以确定实质性测试的范围。
(三)实质性程序 在实质性程序阶段,审计人员综合运用数据挖掘方法对评估的被审单位重大错报风险实施细节测试和实质性分析程序。包括:对财务报告及其所依据的账簿、凭证记录核对或调节,对财务报告编制中所作的重大会计分录与相关调整。借助于数据挖掘技术、计算机辅助审计技术和电子表格,审计人员能详细审查海量数据,快速筛选出隐藏的样本,“洞察”到异常数据的死角,提高审阅大量交易的效率和效果。如:在存货实质性程序过程中,利用关联规则、聚类分析等方法,将被审期间的存货周转率、毛利率、存货与流动资产总额之比等财务指标与预算期望值、历史数据、行业数据作比较,若结果在预期或正常的范围内,则为存货余额的“存在”、“完整性”、“计价与分摊”认定提供了有力的佐证,反之,则需实施更详细的细节测试。在销售与收款交易的实质性程序阶段,运用孤立点检测、离群点挖掘、关联规则等方法,可以发现交易额大的销售、未开销售发票、凭证就记入总账和报表的销售、临近年终的异常销售等,为审计人员提供审计线索,以便进一步追踪调查,落实问题。
(四)完成审计工作和编制审计报告审计人员在完成上述审计步骤后,还应整理、评价审计证据;复核审计工作底稿和财务会计报告,考虑期后事项;汇总审计差异,提请被审单位调整或披露;与被审单位沟通,形成审计意见,编制审计报告;实施后续审计。在这个过程中,也可以借助于数据挖掘工具、计算机辅助审计软件和电子表格自动完成或辅助完成审计工作。
总之,数据挖掘式审计在我国尚处于初级阶段,许多方面还需加强研究和完善。如:(1)在综合利用已有的数据挖掘技术基础上,开发出新的数据挖掘方法和算法,提高数据挖掘的效率和效果。特别是要创新数据采集方法和数据处理方法,使数据采集和处理更通用、更方便。如:传统的数据挖掘算法面对TB级以上的海量审计数据集时显得力不从心。云计算——这一具有超强计算能力、低能耗、低成本等优势的新型计算技术给数据挖掘式审计带来了新的曙光,它解决了海量审计数据挖掘的高效计算与分布式存储问题。因此,将已有的数据挖掘算法部署到云计算环境下实现,探索新的基于云计算平台的并行数据挖掘技术,可以为更丰富、更复杂的海量审计数据挖掘问题提供新的理论和方法。(2)提高数据挖掘系统的适应性和可维护性,当被审计系统升级更新后,数据挖掘系统也能轻易地进行修改调整。(3)建立健全审计检测风险评价指标体系,定量评价数据挖掘技术带来的检测风险,将审计风险降至可接受的低水平。(4)XBRL在财务业务一体化的推广和应用是信息化潮流所向,构建基于XBRL的数据挖掘模型,审计分析以XBRL格式表示的财务业务数据是一个具有现实意义的重大课题。(5)提高审计人员的综合素质。由于数据挖掘方法各式各样,每种方法在运用时都要综合多学科的知识和技能,这就要求审计人员不但要精通审计业务,掌握数据挖掘的技术,而且还要熟练运用数据挖掘工具,因此,技能培训就显得尤为重要。
标签:数据挖掘论文; 大数据论文; 数据挖掘算法论文; 审计软件论文; 控制测试论文; 数据单位论文; 审计方法论文; 风险导向审计论文; 审计流程论文; 审计职业论文; 聚类论文;