数据挖掘技术在现代审计中的运用研究,本文主要内容关键词为:数据挖掘论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
审计人员的职责就是从数据仓库所包含的海量数据中获取有用的审计证据,并发表适当的审计意见。在此环境下,利用数据挖掘技术能够实现对大量原始数据进行审查和分析,从中寻找出一定的数据特征,发现可疑数据,以提高审计工作效率,降低审计风险,最大限度地保证审计质量。
一、数据挖掘技术是提高信息时代审计工作质量和效率的重要工具
数据挖掘是信息时代背景下发展起来的新兴技术,利用该技术可以从数据库中提取隐含的、未知的和潜在的有用信息,帮助审计人员进行数据分析,以便发现异常信息。利用数据挖掘技术对被审计单位的海量数据进行发掘式审计,是现代审计技术方法一大突破,也是信息技术发展的尽然结果,具有开拓性意义。
数据挖掘式审计是适合现代信息技术环境的一项新型审计取证方法。审计系统中引入数据挖掘技术,显示出巨大优势,这是现代审计技术方法发展的一次飞跃。
数据挖掘技术在审计中的独特功能是传统审计方法无法取代的。每一个被审计单位的计算机系统甚至其网络中都蕴藏着大量的财务或非财务电子数据,传统的审计方法面对被审计单位错综复杂的环境和海量数据,显得束手无策,只有利用数据挖掘技术,才能完成审计工作。数据挖掘作为一种先进的信息技术,能够帮助审计人员在极短的时间里筛选出具有代表性的审计样本,在一定程度上降低了审计风险。只有进行全面审计,才能有效消除抽样审计风险,而数据挖掘软件的运用,使全面审查被审计对象总体数据成为可能。
数据挖掘技术还可以发现信息系统中的非法入侵数据,以确认被审计单位信息系统的安全性,拓展审计的边界。随着数据挖掘技术的迅猛发展,通过对大量被审计单位日志数据进行系统分析,可以建立自动化的非法入侵检测系统。
二、数据挖掘审计法的基本路径
数据挖掘是在对数据全面而深刻认识的基础上,对数据内在和本质的高度抽象与概括,也是对数据的认识从感性到理性的升华。审计人员利用数据挖掘技术,从原始数据起步,深入到详细数据当中查找证据,通过对数据的深入分析,寻找并发现数据规律,借以发现异常现象。利用数据挖掘技术进行审计的基本路径如图1所示。
图1 数据挖掘审计的基本路径
首先,接收被审计单位的数据日志,收集系统信息,并要求各部门提交统一格式的审计数据。数据挖掘技术运用的切入点就是获取大量的数据,这既是数据挖掘式审计的工作起点,也是其最为重要的一个环节。
其次,对获得的审计数据实施预处理,其工作包括格式转换、数字净化、提炼等。从被审计单位获得的原始数据可能是杂乱无章的,往往存在一些干扰项,不利于审计人员从中发现问题。因此,审计人员应将原始数据转换成审计人员可识别的格式,并剔除干扰项目,使数据能真正反映业务的真实规律,以便控制数据挖掘的准确性。
第三,运用合适的数据挖掘算法对审计数据进行处理,发现数据中隐藏的规律,并寻找异常数据。审计人员可根据不同被审计单位的行业背景、业务特点和数据模式,运用关联规则发现、序列模式挖掘等不同数据挖掘技术方法,获得被审计单位的数据规律,以检测是否存在异常。
第四,数据统计,并根据统计结果进行审计职业判断。统计的信息包括业务规模、异常数据、识别失效和业务流程违规等情况,这既是审计工作的核心,也是数据挖掘技术在审计中运用的主要成果的体现。
最后,审计人员应系统进行审计数据的分析处理(OLAP)及趋势预测分析。审计人员根据数据分析,可以进一步判断被审计单位存在的问题,并指出改进方法和思路。
三、数据挖掘式审计的主要技术方法
审计人员通过数据分析获得审计线索,确定疑点并排除、落实的过程,实质是发现问题并对其进行检测的过程。运用数据挖掘技术获得蕴涵在数据内部的模式、规律,从而发现经济业务的异常。在审计业务工作中,可利用离群点挖掘、孤立点检测、异常点检测、聚类分析、关联规则发现、分类和预测、序列模式挖掘等方法,获取有效的审计证据。
离群点挖掘技术就是通过发现和分析明显偏离其他数据、不满足一般模式或规律数据的离群数据,找到有价值审计信息的一种技术方法,即从大量复杂的数据中挖掘出存在于小部分异常数据中的新颖的、与常规数据模式显著不同的数据模式。离群数据的分析可能比一般数据包含更有价值的信息。如审计人员在对销售收入进行审查时,可以根据以往的经验分析出其销售业务的基本规律,再利用离群点挖掘技术,对本年度销售数据进行分析,可以将偏离正常业务范围的异常数据进行割离,并对其进行仔细审核,这样就大大节省了审计资源。此外,审计人员还可利用此技术自动从被审计单位销售数据中提取业务模式和管理行为模式,从而减少人力投入,减轻审计工作人员负担,提高审计结论的准确性。
孤立点检测是数据挖掘的一项重要技术,用束发现数据源中显著不同于其他数据的对象。在审计数据源中,经常含有一定数量的异常值,它们与审计数据源的其他数据不同或不一致,通常将这类数据称为孤立点(Out-lier)。孤立点是数据源中与众不同的数据,怀疑这些数据并非随机偏差,而是产生于完全不同的机制。由于审计中的可疑数据往往表现为孤立点,可能是度量或执行错误所致,也可能是固有数据变异性的结果。故通过检测并去除数据源中的孤立点,可达到数据清理的目的,从而提高数据源的数据质量;采用孤立点检测的相关算法来处理审计数据,可以达到审计目的。如在对企业产品生产成本进行审查时,可以利用孤立点检测技术,将可能存在的与生产技术指标数据相差较大的成本数据剥离出来,审计人员再用该企业具体生产指标对这些数据进行逐一审查确认,以发现舞弊现象。
异常点检测也是数据挖掘技术的重要研究内容,它是从大量审计数据对象中挖掘少量具有异常行为模式的数据对象。在很多情况下,这些审计数据对象较之正常行为模式包含了更多审计人员感兴趣的信息。它被广泛应用于基于网络的审计信息系统入侵检测等风险控制领域。数据挖掘方法用于异常检测,从大量的日志数据中自动生成简洁而精确的检测模型,提取出网络入侵或正常行为的实际模式,去除了人工对入侵模式进行分析和编码的必要以及对正常模式进行特征选择时的推断,可以减少审计主观判断的风险。如集团公司在对全国各销售点的营销费用进行审查时,可以根据各地营销规模与费用之间的关系建立模型,再利用异常点检测技术,对数据库系统中的各项营销费用进行逐笔梳理,分离出可疑信息,并对其进行详细审查和确认,确保营销数据的真实可靠。
聚类分析方式多种多样,基于聚类分析的入侵检测系统通常建立一个检测模型,即从审计数据中抽象概括出系统正常行为或异常行为模式,以此作为检测入侵的依据。数据聚类将审计资料数据中较接近的划归一类,根据不同的数据标准特征,将被查对象数据分成几个群体。如在对采购业务内部控制进行测试时,为测试采购业务各控制环节的执行情况,可以用聚类分析技术将被审计单位的所有采购业务按相似特征进行聚类分析,此时,审计人员可以根据被审计单位的具体采购业务,采用不同的聚类分析方法:系统聚类法、分解法、加入法、动态聚类法、模糊聚类法、运筹方法等。这样,审计人员就无需对大量采购业务进行单项鉴别,而是按照一定类别进行审查分析,大大提高了审计工作效率。在审计实践中,审计人员根据以往的经验,将需要分析的审计数据进行标准化,划分类别,然后用分类分析方法分析该审计数据集合,挖掘出每个类别的分类规则;接着按这些分类规则重新对这个集合进行划分,以获得更好的分类结果。这样,审计人员可以循环使用这两种分析方法直至得到满意的结果。审计人员在选择不同的方法时,可以根据被审计单位的具体业务类别、数据特征等信息进行确定,此方法在对集团公司的存货业务、相关经营费用审计中可以得到广泛运用。
关联规则发现是通过分析资料,找出某一事件或资料中会同时出现的东西。数据挖掘中的关联规则具有独特作用,它用于发现大量数据集合间有意义的关联或相关联系,并侧重于数据中不同领域之间的联系,其应用前景十分广阔。审计信息系统运用关联规则提取数据之间的关联特征,可以有效分析安全事件间的相关性,提高审计风险报警事件的准确率。如审计人员在对被审单位的成本进行审查确认时,面对大量料、工、费相关数据,无从入手,此时可利用关联规则技术,发现其各成本项目与生产数量之间的关联性,再根据存货仓库盘点数据及相关出、入库记录,确定其产量,根据关联规则确定的关联性,可以确定该被审计成本合理与否。审计人员还可将加权关联规则引入审计工作,这在某种程度上可以解决数据的时间效应问题。
在审计信息系统中,分类是对各类数据按一定规则和特质分为不同类别,并根据不同类别采用适合的审计策略。分类是将事件分为正常和异常两种事件。审计人员首先应对系统审计数据和网络审计数据进行预处理,然后再进行分类。在审计实践中,首先要对所有系统进行编号,然后取适当长度的序列进行挖掘分析。审计活动必须考虑审计的时间限制和审计结果的风险程度,这与经济活动在成本效益上的权衡思路是一致的。在数据预处理过程中,寻找适当统计数据参与分类分析,可以同时提高精确度和挖掘分析速度。对于网络数据,较好的方法是先挖掘时间频度数据和关联数据,然后用得出来的统计数据进行分类。常用的分类方法有决策树分类法、统计方法、粗集方法等。运用分类可以大大减小审计工作量,减少审计风险。在审计实践中,近几年来的研究提出了一类称为关联分类的新分类方法,将关联规则挖掘和分类集成起来,以发现审计数据的异常和关键风险点。
序列模式作为数据挖掘的一种重要方式,其序列发现和关联关系密切,所不同的是序列发现中相关对象是以时间来区分的。对审计数据进行序列挖掘分析,就是从网络事件审计数据库中挖掘出被审计单位正常行为和异常行为的频繁序列模式,发现审计数据之间的前后(因果)联系。如审计人员可利用序列模式挖掘被审计单位的生产领料业务,获取数据库记录,发现企业生产领料数据中的一些经常以某种规律出现的事件序列模式,这些频繁领料业务发生的时间序列模式,可帮助审计人员在构造生产领料业务中的异常检测模型时选择有效的统计特征,然后利用该特征发现存在的异常现象。在对序列模式的运用方面,审计人员可以根据大量历史数据,挖掘出被审计单位数据的分布及其规律,从而确认账簿数据的合理性和真实性,实现审计工作目标。
数据挖掘技术还应在实践中不断发展和完善,伴随着信息技术的进一步发展,审计实践要与时俱进,让更多、更新的数据挖掘技术应用于审计实践。
四、数据挖掘审计的具体步骤
在审计中应用数据挖掘技术,首先是从被审计单位的数据库中提取以前年度财务报表,挖掘并分析财务报表数据规律,结合被审计单位组织经营性质、行业状况,确定组织风险水平高低状况,通过时间序列模式分析历年数据和经济指标,评估组织审计风险的可接受水平。审计人员在此基础上,确定审计范围和审计重点。其次,在对被审计单位的经济业务进行实质性测试时,对存在于数据库的海量数据进行一系列的数据挖掘,从中发现异常现象,为进一步收集审计证据提供相关信息。数据挖掘技术在审计中的具体应用步骤如下:
第一,评估被审计单位,即了解被审计单位及其环境(包括内部控制)。用数据挖掘分类技术从被审计单位的数据库中提取以前年度财务报表及会计政策的选择和运用、经营目标、战略以及相关经营风险等信息。根据财务报表分析结果以及企业性质、行业状况,再用分类和预测方法评定企业经营风险水平的高低状况。最后通过时间序列模式分析历年数据和经济指标,评估企业风险的可接受水平。此外,还可以通过关联分析,确定被审计单位各类风险诱因,如财务比率、企业评分等级、内部控制等。然后以风险诱因为标准,确定各审计范围的风险水平,明确审计工作的重点。
第二,内控制度的符合性测试。许多数据挖掘软件可用于内控测试的风险评估。在国外,由于很多公司都已采用COSO控制模型,一些公司或组织设计了相应的审计软件包,如德勤的Visual Assurance、国际内审协会的COSO软件、Patrol 400等。这类审计软件可以用于持续监控企业活动,近似于自动审计。审计人员借助这些软件可以发现高风险交易、编制例外事项报告、查处舞弊及跟踪趋势变化。特别重要的是这些软件包还能记录计算机使用痕迹,以测试一些控制环节,如密码的启用、保密文件的浏览等。其他的数据挖掘软件还有Risk Ranking Advisor,可以在各类Windows操作系统下运行,可以为审计计划、执行和管理提供较为全面的技术方法,帮助审计人员进行内部控制的评估,以发现控制环节的缺陷和不足,确定信息系统的异常数据发生根源。
为测试各控制环节的执行情况,可以用聚类分析技术对具有相似特征的会计交易进行分组。以批准材料采购这一控制环节为例,通过聚类分析可以发现:(1)由非授权人批准的交易(越权代理);(2)授权人变动的交易,如某个利润中心的业务按规定始终由甲签字授权,但其中有几笔交易变成由乙授权;(3)始终由规定授权人批准的交易;(4)不属于任何聚类的交易,如离群交易(outlier)等。
第三,实质性测试审计。在通常情况下,全面审查被审计对象的总体是有困难的,一般只能用适当的抽样方法选取总体的一部分作为样本,对样本进行审查。如果样本之外有重大错漏,则审计人员很有可能做出错误的审计结论。抽样审计的这种客观局限性是造成审计风险的重要原因。数据挖掘作为一种先进的信息技术,能够帮助审计人员在较短的时间里筛选出原先并不明显的代表性样本,增强样本的代表性,这在一定程度上降低了审计风险,而且审计效率显著提高。可以说,样本选择是数据挖掘应用最重要的领域,也是最有发展潜力的领域之一。
在实质性测试时,审计人员可以运用多种数据挖掘技术对被审计单位的财务数据及经营数据进行聚类分析或关联规则分析,从中发现存在问题或异常现象。以应付账款的实质性测试为例,运用关联规则中的Apriori类算法,将具有相似特征的会计数据分离,可以发现:(1)金额明显异于其他月份的应付账款;(2)重复记账的应付账款;(3)与总账、明细账金额不等的同一笔应付账款;(4)资产负债表日前后的应付账款,以确认是否存在隐瞒负债的现象:(5)重复发生非常规交易的应付账款,如每月底购买相同金额的固定资产等。
通过数据挖掘的关联分析,审计人员再凭借专业判断,对所选样本进一步审查。但样本毕竟不同于总体本身,抽样审计风险仍然存在。要想彻底消除这种风险,只有进行全面审计。
随着数据挖掘技术的不断发展和完善,被审计单位的数据仓库日趋成熟完善,审计技术方法也在探索中创新,越来越多的数据挖掘技术被运用于审计风险研究中,以不断提高审计质量,降低审计风险,实现审计价值最大化。
五、在审计中运用数据挖掘技术的局限性
数据挖掘技术在审计中的应用尚处于起步阶段,它的应用还存在如下局限性:
首先,存在被审单位数据质量问题。数据挖掘技术的应用有赖于数据本身的质量,如果数据本身是虚假的,或有错误,特别是审计对象中的数据已被被审计单位篡改,那么再先进的数据挖掘技术也无法得出有意义的结论。
其次,使用数据挖掘技术需要一定的投入。数据挖掘技术的应用除会发生相关的数据编制成本外,数据维护、数据分析及人员培训业等也有成本,特别是一些数据软件的成本等。因此,利用数据挖掘技术进行审计取证,需要适当考虑成本因素。
第三,对人员素质要求较高。如在误用检测中,系统中的入侵检测规则须由安全专家通过手工编码提供;在异常检测中,审计数据特征和测度是根据模型创建者的经验和知识选择的。所以,使用数据挖掘技术的人员必须经过专业培训,他们不仅要能识别各种挖掘技术,而且能正确选择和应用,最后还要对结果做出分析和评价。
尽管如此,利用数据挖掘技术对被审计单位的海量数据进行分析,获得审计线索,发现审计疑点,提高审计效率和效果,有效控制审计风险,已显示出传统审计方法无法比拟的巨大优势,数据挖掘技术应用的广阔前景是不容忽视的。
标签:数据挖掘论文; 审计风险论文; 关联规则论文; 大数据论文; 数据挖掘算法论文; 审计软件论文; 审计计划论文; 审计质量论文; 会计与审计论文; 审计方法论文; 审计职业论文; 分类数据论文; 审计目的论文; 聚类论文;