孤立点分析方法在现代审计中的运用研究,本文主要内容关键词为:孤立论文,方法论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
本文基于数据挖掘技术中的孤立点分析方法来发现一些异常的审计现象,孤立点分析方法先对这些大量的审计数据进行预处理(除噪),然后建立数据挖掘模型,运用此模型分析出具有一定特征且小比例的异常数据,供审计人员决策分析时参考。
一、孤立点分析方法
孤立点分析是数据挖掘技术中用来检测审计数据中异常数据的一项重要技术。由于审计分析中的疑点数据往往表现为孤立点,通常情况下,在对被审计数据进行分析时,常常选择孤立点分析技术。
(一)孤立点
孤立点是数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同的机制。在聚类分析中,有的数据对象不属于任何的类或簇,这样的数据对象在聚类中称为噪声,而在孤立点分析中,则称为孤立点。孤立点是个相对的定义,特别地,在审计领域,审计数据初始分布模型假设的不同,或研究者在不同的检测背景下,都会得出不同的结论。
鉴于很多人为或非人为的原因都会导致孤立点的产生,如人为执行错误或人为故意操纵数据为达到某种目的而致使孤立点的产生,再如仪器测量错误、系统故障、数据总体中的自然偏差或固有的数据变异都会导致孤立点的产生,我们要对孤立点产生的原因进行全面分析。但最重要的是,审计人员要对这些孤立点保持敏感性,并分析出孤立点背后产生的深层次原因,来获取有价值的审计信息。
(二)孤立点分析方法
1.孤立点分析方法的概念
孤立点分析方法可简述为:给定一个有n个数据点或对象的集合及预期的孤立点数目k,发现与剩余的数据相比是显著异常的、孤立的、或不一致的前k个对象的过程。因此,孤立点分析实际上可以被看做两个子问题:
(1)在给定的数据集合中定义什么样的数据是不一致的;
(2)找到一个有效的方法来检测这样的不一致数据。
2.孤立点分析方法介绍
(1)基于统计的方法
当数据集的概率分布及参数(如正态分布、泊松分布等,均值、方差)已知或需经多次验证并试图得出数据真实的概率分布或参数特征时,一般使用基于统计的方法。此方法尤其用于数值型数据。孤立点的确定主要是通过检验偏离统计模型的不一致数据,并统计出其个数,分析其性态。
(2)基于距离的方法
Knorr和Ng提出了一种体现孤立点本质的定义,即若一个数据对象与数据域中大多数对象之间的距离(相异度)都大于某个阈值,将此数据对象确认为一个孤立点。阈值的设定是在对被审计数据清洗,并检验其有效性之后,据审计数据所属行业的特点,将行业常规值预先设定为阈值,或经公式计算得出阈值。此方法有效地避免了基于统计方法中数据分布特征确定的问题。
(3)基于偏离的方法
基于偏离的孤立点挖掘是通过检查一组对象的主要特征来确定孤立点。与给出的描述“偏离”的对象被认为是孤立点。此孤立点挖掘有两种常用的技术:第一种序列异常技术,是一种基于相异度函数(往往是审计数据集的总方差)的有效方法,预先定义样本集的一般特征,其余“偏离”这些特征的样本属于异常样本。第二种OLAP数据立方体技术,在审计时,对那些标为异常的单元下钻,可能会发现更细节或较低层次的异常。
(4)基于密度的方法
Breuning等人基于密度聚类思想的启发,于2000年提出了一种基于局部密度来检测孤立点的新方法,通过该数据对象周围区域的局部密度,与它邻近的局部密度之比来确定该对象的局部孤立点因子(Local Outlier Factor,LOF),LOF的值越大说明该对象越可能是孤立点,需引起审计人员多加注意。该方法对发现局部孤立点有很好的效果。
(5)基于距离和密度的聚类和孤立点检测方法
基于距离和密度的聚类和孤立点检测算法(Distance & Density Based Clustering and Outlier Detection Algorithm,简称DDBCOD),是将基于距离和密度这两种方法融合来确定聚类和孤立点。经过反复验证,证明融合了两者优点的DDBCOD算法可以对任意形状的聚类进行识别,可以有效地识别出高维数据中的孤立点。
(6)基于人工神经网络模型的孤立点
Williams等提出的人工神经网络孤立点检测算法(Replitor Neural Networks,RNN),数据源往往使用通用统计数据集(一般较小)和专用数据挖掘数据集(较大,并且是现实的数据集),RNN算法对大的或小的数据集的孤立点检测结果都达到了预期效果,但它不适于检测含有放射状的孤立点数据集。
孤立点分析技术在审计中的具体应用在两方面:一是审计数据预处理过程中,审计人员对审计数据清理和检测之后,通过规则集中预定义的孤立点识别规则,来识别此类数据是否为孤立点。二是异常检测(即让经验丰富的审计人员判别孤立点是否可疑)。
审计人员在进行审计时,对可用的原始数据进行采集、清洗以及验证,使之达到建模的需求,然而最关键的一步是在明确了挖掘任务之后,据数据的类型和特征,寻找与之相适应的孤立点算法,则审计人员选取以上介绍的孤立点分析方法的一种或几种的组合,来满足客户对寻求异常数据的审计需求。
二、孤立点分析方法在审计运用中的一般流程
图1是孤立点分析方法在审计中运用的一般流程,具体流程如下:
①审计人员提出需求,此需求往往是根据审计人员的经验和敏锐的洞察力识别出被审计单位财务数据或经营业务有些异常,需找出数据或业务中的噪点(孤立点),数据挖掘人员通过和审计人员的沟通来加深对审计需求的理解。在此进行的理解具体有业务理解和数据理解,其中业务理解包括根据需求确定审计项目目标、评估审计目标的资源和审计人员的假设、确定数据挖掘目标、生成项目计划,数据理解包括对被审计单位的信息系统和业务流程进行理解、采集原始数据并分析、初步检测数据质量、探索数据变量。
②数据挖掘人员在理解需求的前提下检验此需求能否用孤立点分析方法解决。一般情况下都是可以采用孤立点分析方法来分析疑点数据的,首先对孤立点检测算法的参数和孤立点识别规则进行预定义,然后调用数据清理算法对被审计数据进行清理,来提高定位孤立点的精准度。
③数据挖掘人员提出挖掘模型,并向审计人员详细的介绍此模型的功能和作用,进而他们可以对模型的算法细节进行商讨并加以确认,最后对数据挖掘模型进行试用。
④审计人员在理解挖掘模型的基础上,对模型所产生的挖掘结果进行评价。
⑤审计人员对所试用的数据挖掘模型得出的结果进行评价时,若此数据挖掘模型不符合审计需求,此时,要对模型以及模型的输入参数值等进行反复的修正和完善,即不断调试模型的输入参数值,不断完善模型来迎合审计需求。
⑥若数据挖掘结果是异常并且是重要的,则符合审计需求。
⑦若数据挖掘结果是异常但是合理的(若由于固有数据变异性引起的结果等),或异常但影响较小,达不到重要性水平,此时审计人员对原来假设审计数据有异常的情况不予处理。此重要性水平,主要依据审计人员的职业判断和对审计项目的了解情况等。
另外,在建立数据挖掘模型初期,审计人员对审计数据的理解与把握程度,审计人员提出的需求与孤立点算法的融合程度,这两个方面的因素对数据挖掘模型的建立起着决定性的作用。因此,审计人员和数据挖掘人员对审计需求的理解、孤立点分析算法及数据挖掘模型的确定、算法与审计需求的融合,这些过程将是一个不断反馈、不断论证的过程,以确保最终形成针对性强、实时的、最优的挖掘模型及方案。
综上所述,建立数据挖掘模型是一个与或的过程,需要进行不断的论证,通过分析提出的不同特征的数据或目标,来确定最佳孤立点分析的算法,从而达到审计的目的。当然,最佳算法只是相对的,只是符合当前挖掘出的数据、目标及审计环境。对于实时的用户需求及实际的审计目标,作为审计人员要深刻理解各类算法的相似点和相异点,集各类算法之所长,合理的组合或改进,形成符合审计需求的孤立点分析算法。可以说,在数据挖掘过程,人的因素是最重要的,在算法选择和模型建立时都需要人的参与,同时需要具备扎实的专业技能和经验丰富的审计人员和数据挖掘人员,需要他们时时沟通和配合。对于挖掘得出的结果,审计人员还需结合自己对审计项目的了解程度,并证实先前的孤立点假设,寻找出疑点,并分析出现这些异常现象的原因,给客户一个满意的、可以正常使用的数据挖掘模型。对于挖掘结果可能是审计问题线索证据的,需要审计人员进一步追踪、查阅相关资料进行延伸调查,对新的疑点运用恰当的孤立点算法进行深入挖掘,探寻异常问题的本质。
三、总结
数据挖掘技术,已从研究阶段逐步走向了实际应用阶段。数据挖掘技术中有可能用于审计的技术可以和孤立点分析方法结合起来使用,可能会达到较好的效果,可能用于审计中的技术如统计分析技术,常运用在信息系统开发审计阶段,它可发现偏差数据,即对审计数据分析得出的预测值和预定义的审计值进行比较,易于发现异常审计数据,获得审计线索;又如聚类分析技术可确定审计重点,在审计过程中,通过聚类分析技术对被审计单位的同类型的财务数据或业务数据进行分类,使其成为有相似特性的聚类,进而发现审计中需要重点关注的异常区域特征。并且借助该技术对计算机日志的审查,可对系统安全运行起到重要保护作用;再如关联分析技术,用于发现大量数据集合间隐藏的有意义的关联,常运用在财务和业务数据审计中,挖掘出财务报表数据属性间可能的相互影响,减小审计工作量,并为后续审计活动提供参考和支持。数据挖掘的主要目的是向管理者提供分析决策上的支持,能够帮助管理人员在较短的时间从大量的数据中筛选出具有代表性、规律性的数据样本,从而为精确分析、判断、决策提供有力的数据支撑。但是,审计工作中不仅仅需要通过数据挖掘来寻找规律性、代表性的数据,同时对异常的、典型的数据最为关注。数据挖掘中孤立点分析方法主要用于发现隐藏大量正常数据下的少量异常数据。对于大多数的被审计单位,是可以尝试使用孤立点分析技术,检测出一些特殊的、反常的数据,发现审计线索,验证是否存在舞弊、违背规律和规定,可有效提高审计效率,降低审计风险,符合成本效益原则。
标签:数据挖掘技术论文; 大数据论文; 数据挖掘算法论文; 审计计划论文; 审计质量论文; 审计目标论文; 审计方法论文; 审计流程论文; 审计职业论文; 聚类论文; 数据分析论文;