大数据环境下基于孤立点分析的审计抽样方法,本文主要内容关键词为:孤立论文,环境论文,方法论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、孤立点分析方法介绍 孤立点是在运用计算机进行数据处理过程中呈现离散状态的小规模数据对象,这一小部分数据对象与数据中的一般规律和趋势有着显著差异。孤立点分析主要利用数据挖掘理论模型和分析方法,发现数据在集中态势下所出现的异常值。对于审计分析来说,异常的数据、事件、频率等往往具有特殊含义或隐藏重要信息,可从中找到违法违规行为的线索。 孤立点分析方法主要分为两个步骤:第一步,在给定的数据集合中先确定变量属性,即获取所需财务数据和非财务数据并进行分类,然后进行因子分析。因子分析是指从多个变量指标中选择少数具有代表性的综合变量指标,继而达到数据降维目的的一种多元统计方法。因子分析的主要模型为:X=AF+ε,其中,X代表原始数据指标,F代表X的公共因子,A代表因子载荷矩阵,ε为特殊因子。在因子分析过程中,首先通过解释总方差可获得累计方差贡献率,此指标越高表明公共因子对所有原始数据的代表程度越高,则公共因子的可信度越高,其次计算输出因子载荷矩阵(通常使用正交旋转成分矩阵表示),得到标准化的公共因子近似表示标准化的原始数据的系数矩阵,因子载荷矩阵中的元素数值越高表明公共因子对原始数据解释程度越好,有利于对公共因子进行命名,从而得到降维后的数据指标。 第二步,检测和挖掘数据集合中呈现离散状态的小规模数据,即发现孤立点。目前传统方法主要采用基于统计、距离、偏差或密度的方法来寻找孤立点,而在云计算技术的支持下,可以通过系统设定更复杂的运算方法对所掌握的几乎无限的计算资源进行智能计算。 二、大数据环境下基于孤立点分析的审计抽样方法分析 高校基建工程结算审计所需资料文件多、非财务数据复杂多变、分析内容繁重,并且涵盖政策性和专业技术性问题。政府审计往往存在限于审计人员和时间相对不足,只能选取部分样本进行重点审计的情况。笔者以政府审计中的高校基建工程结算审计为例,演示基于孤立点分析方法的审计抽样模型的构建原理,并在此基础上进行具体案例分析。 (一)审计抽样模型构建原理演示 第一步,确定被审计数据集合的变量属性,并进行因子分析。以高校基建工程结算审计为背景,调查学生公寓建设资金的支出是否合理有效,有无违反规定挪用、贪污公款情况,通常需要考察工程合同总价款、工程结算总价款与建筑面积、使用面积、辅助面积、工期时长、混凝土体积、钢筋工程量、屋面卷材(涂膜)防水、保温隔热屋面(天棚、墙面)、门窗工程、采暖管道、排水管道、电缆电线等数据之间的关系是否正常合理。而在大数据环境下,与合同价款相关的指标不仅局限于本文所列示的变量,还可根据实际需要增加其他所需变量。此分析过程涵盖的变量较多,虽然变量越多可使研究过程越优化,但同时也会提高分析复杂性,为避免变量间出现多重共线性问题而影响分析结果,需进行因子分析,以达到降维目的。 第二步,发现孤立点。笔者利用基于距离的孤立点分析方法,即使用K-means算法的聚类分析来寻找孤立点,目的是找出与宿舍楼建设综合情况相比差异较大的建筑项目,并利用因子散点图分析引起差异的原因所在。该算法的基本思想是:初始随机给定K个簇中心(K值根据实际情况设定),根据最邻近原则将待分类样本点分到各簇,并按平均法重新计算各簇质心,以确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值,最终将K簇中包含观测点最少的一簇作为“孤立组”。根据上述的实际情况,认定若孤立组中包含的观测点数量占其总观测点数量的10%以下,则此孤立组包含的观测点被视为孤立点。此规则依据的是大部分观测点的聚集会使小部分“异常”观测点显现出来。之后利用三维因子散点图对所有数据进一步分析,可直观展现孤立点产生的原因。标签:大数据论文; 审计抽样论文; 因子分析论文; 因子载荷论文; 抽样分布论文; 审计方法论文; 散点图论文; 聚类论文; 矩阵论文; 变量论文;