数据挖掘在计算机辅助审计中的应用_数据挖掘论文

数据挖掘在计算机辅助审计中的应用,本文主要内容关键词为:数据挖掘论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

(一)数据挖掘

数据挖掘是从大量数据中发现正确的、新颖的、潜在有用并能够被理解的知识的过程。数据挖掘综合了各个学科技术,有很多的功能,主要功能如下:

1.关联分析

关联分析就是从给定的数据集中发现频繁出现的模式知识,即关联规则。关联规则反映一个事件和其他事件之间依赖或关联的知识,它的一般形式如下:

其中,并且,I为项目集,事务集D中的每个事务都是项目集I的子集。如果包含X的事务中c%同时包含Y,我们说规则的可信度为c%。如果D中s%的事务包含X∪Y,我们说规则的支持度为s%。一个典型的关联规则实例是“80%购买面包的顾客同时也会购买牛奶”,最为著名的关联规则发现方法是R.Agrawal提出的Apriori算法。关联分析广泛应用于市场营销、事务分析等应用领域。

2.分类和预测

分类的目的就是找出一个分类函数或分类模型(分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。分类和回归都可用于预测,不同的是,分类的输出是离散的类别值,而回归的输出则是连续数值。

要构造分类器,需要有一个训练样本数据集作为输入,训练集中每个元组的类别已知。分类挖掘算法可以对已有的分类进行归纳,即从训练样本数据中学习,从而建立分类模型。再根据已知的分类规则,预测未知数据实例的类别。

3.聚类

聚类分析是将数据对象分成几类,使得各类内部数据对象间的相似度最大,而各类间对象的相似度最小。聚类分析与分类预测方法的明显不同之处在于,分类预测获取模型所使用的训练数据其类别是已知的,属于有指导的学习方法;而聚类分析所分析和处理的数据均是无类别标签的,属于无指导的学习方法。通过聚类,可以发现数据的整个分布情况,以及数据属性之间所存在的有趣的、有价值的相关联系。

4.孤立点挖掘

数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。这些数据对象是孤立点(又叫离群)。大部分数据挖掘方法将孤立点视为噪声或异常而丢弃。然而,在一些应用中(如欺骗检测、审计),异常的事件可能比正常出现的那些更令人关注。

(二)数据挖掘在审计中的应用

1.关联分析

在财务数据或经济数据中,同类或不同类会计科目及数据项之间可能存在某种对应关系,通过挖掘算法(如Apriori算法),按照非财务逻辑关系的规律来挖掘,可发现一些隐藏的经济活动规律,这些被挖掘出来的关联规则,可以用来丰富审计知识库,为审计人员的进一步工作提供参考。

通过对以往审计过的企业大量历史数据进行挖掘,以建立审计特征行为模板。当发现同类企业(含该企业)近期数据挖掘结果与该模板偏离较大时,可以根据挖掘结果重点审计。如通过数据挖掘技术,可以发现一个单位的车辆数和养路费、汽车保险费等日常维护支出存在一定的关联,当这个关系异于常值时,也许能据此发现是否存在用账外资产买车的行为,进而查出“小金库”问题。

另一方面,通过对审计出重大问题的企业财务数据进行挖掘,得到可以引导发现问题的关联规则,同样可以用来丰富审计知识库。比如,有学者曾对2003年至2006年受到证监会处罚的66家上市公司的财务数据进行挖掘,得到不少“有趣”的关联规则,如“连续两年亏损,第三年经营业绩又没有得到根本改善的上市公司,有80%的可能存在财务舞弊”。

2.分类

某种意义上讲,审计的部分工作就是对被审计单位进行分类,只不过通常只需要简单的分成两个类:有财务舞弊和无财务舞弊。因此可以应用现已开发出来的分类算法进行辅助审计。分类挖掘的重点是特征选取、选择训练样本和分类器。

特征选择是模型进行计算的基础,指标变量选择的好坏直接影响到挖掘结果的质量。国内外已有很多关于这方面的文献可供参考,一般可选择下列指标:

(1)盈利能力指标

包括总资产净利润率、资产报酬率、净资产收益率、营业收入净利润率、每股收益、营业毛利率、股东权益净利润率等。

(2)结构性指标

包括资产负债率、固定资产比率、营运资金对资产总额比率、应收账款占主营业务收入比重、营业利润比重、产权比率等。例如签订销售合同物权尚未转移时确认收入或者将库存商品确认为主营业务收入,同时增加应收账款,使主营业务收入虚增,形成白条利润,同时又通过应收账款虚增了资产,这样会造成应收账款占主营业务收入的比重发生异常。

(3)效率指标

包括总资产周转率、存货周转率、应收账款周转率、固定资产周转率、股东权益周转率。

(4)现金流量指标

包括主营业务收入现金比率、现金流量对流动负债比率等。

(5)流动性指标

包括流动比率、速动比率、利息保障倍数等。

(6)成长性指标

包括主营业务收入增长率、每股净资产、资本保值增值率、资本积累率、资本积累率、净利润增长率等。

训练样本的选择就是合理挑选舞弊样本和非舞弊样本,供计算机学习和训练。训练样本的选择应具有代表性,尽量覆盖所有特征值,并具备一定规模。

分类器的选择,可直接参考数据挖掘领域现有的研究成果,有条件的审计机构也可以有针对性的自主开发分类器。

3.聚类

聚类在审计中的应用,就是利用聚类算法,将被审计单位自动分成两个类,他们分别代表舞弊类和非舞弊类,或者分成三个类(增加一个“不确定”类)。聚类算法大都需要设置各种参数,参数不同,得到的聚类结果也不同。如何设置参数,使得结果有效的聚成两类,且正好分别代表舞弊和非舞弊类,是一个难题,目前尚无解决方案。这无疑限制了该方法在审计中的应用。

4.孤立点挖掘

在审计工作中,可以通过数据挖掘,找出那些与一般行为有显著不同的孤立点,从而确认为审计重点,实施审计程序后获取审计证据。

孤立点的甄别是一个复杂的过程,不能简单以偏离平均数为标准。偏离正常的数据可能来源于两类:第一类是错误的数据,这种错误可能是由于会计记录或相关记录的伪造、篡改或无视会计准则故意为之等舞弊行为导致的错误,也可能是由于员工的非故意行为引起的,如输入数据的错误。第二类是交易或事项正常性质的反映,如某一公司总经理的工资,自然远远高于公司其他雇员的工资。又如,很多企业的财务数据呈季节波动特性,某个时段的数据偏高,另一个时段的数据偏低,这可能与其行业特点有关,应视为正常。好的孤立点挖掘算法应考虑此类情况。

数据挖掘可以为我们找到疑点和重点,要形成审计证据,还需要审计人员进行专业性的分析判断,采取重新计算、审阅、盘存和函证等进一步的审计程序,获取充分、适当的审计证据,进而提出审计结论、出具审计报告。

(三)数据挖掘的工具与挖掘步骤

1.数据挖掘工具

由于数据挖掘技术有良好的应用前景,各大软件公司如IBM、SPSS、SAS以及大学等研究机构对此开展了研究,一批数据挖掘系统软件纷纷出台,并被应用到各个领域。其中比较有代表性的商业软件有:

(1)SPSS公司的C1ementine;

(2)SAS公司的Enterprise Miner;

(3)Salford公司的系列产品,包括CART,MARS,Tree Net,LOGIT等;

(4)IBM公司的Intelligent Miner;

由于上述商用数据挖掘工具价格较高,两种免费的挖掘工具受到关注:加拿大Simon Fraser大学开发的DBMiner和新西兰Waikato大学研发的Weka。

WEKA是一个开放源码的数据挖掘平台,其中集成了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、关联规则挖掘、分类、聚类等,并提供了丰富的可视化功能。同时,由于其源码的开放性,WEKA不仅可以用于完成常规的数据挖掘任务,也可以用于二次开发,并挂接自主开发的数据挖掘程序。

2.数据挖掘的方法与步骤

上述数据挖掘工具在计算机辅助审计中一般操作步骤分为5步:

(1)确定业务对象与审计目标

首先要了解被审计的业务及其数据特性,并确定审计目标。不了解业务和数据,就无法准备数据,也无法解释挖掘的结果。

(2)数据采集

建立模型前,要导出被审计单位的财务数据。结合数据字典和数据库说明文档,了解被导出数据的含义。

(3)数据整理和准备

根据需要去掉不感兴趣的数据或数据项,转换数据格式(挖掘工具对输入的数据格式常有特别的要求)。对于分类挖掘,还需要准备训练样本,包括正常数据样本和问题数据样本。

(4)选择挖掘算法,实施数据挖掘

数据挖掘工具一般都提供了多种挖掘算法,即便完成同一个挖掘任务,也有多种算法可选。

(5)分析、评价与解释挖掘结果

挖掘工具常提供可视化的工具展现挖掘结果,最后要对该结果进行分析、评价,并合理解释挖掘的结果。结果不理想时,可以寻求别的算法,或调整挖掘算法的有关参数。

挖掘结果为审计人员提供问题的线索,审计人员仍需根据线索进一步追踪检查相关资料,落实问题。

标签:;  ;  ;  ;  ;  ;  ;  ;  

数据挖掘在计算机辅助审计中的应用_数据挖掘论文
下载Doc文档

猜你喜欢