大数据环境下基于孤立点分析的审计抽样方法,本文主要内容关键词为:孤立论文,环境论文,方法论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、孤立点分析方法介绍 孤立点是在运用计算机进行数据处理过程中呈现离散状态的小规模数据对象,这一小部分数据对象与数据中的一般规律和趋势有着显著差异。孤立点分析主要利用数据挖掘理论模型和分析方法,发现数据在集中态势下所出现的异常值。对于审计分析来说,异常的数据、事件、频率等往往具有特殊含义或隐藏重要信息,可从中找到违法违规行为的线索。 孤立点分析方法主要分为两个步骤:第一步,在给定的数据集合中先确定变量属性,即获取所需财务数据和非财务数据并进行分类,然后进行因子分析。因子分析是指从多个变量指标中选择少数具有代表性的综合变量指标,继而达到数据降维目的的一种多元统计方法。因子分析的主要模型为:X=AF+ε,其中,X代表原始数据指标,F代表X的公共因子,A代表因子载荷矩阵,ε为特殊因子。在因子分析过程中,首先通过解释总方差可获得累计方差贡献率,此指标越高表明公共因子对所有原始数据的代表程度越高,则公共因子的可信度越高,其次计算输出因子载荷矩阵(通常使用正交旋转成分矩阵表示),得到标准化的公共因子近似表示标准化的原始数据的系数矩阵,因子载荷矩阵中的元素数值越高表明公共因子对原始数据解释程度越好,有利于对公共因子进行命名,从而得到降维后的数据指标。 第二步,检测和挖掘数据集合中呈现离散状态的小规模数据,即发现孤立点。目前传统方法主要采用基于统计、距离、偏差或密度的方法来寻找孤立点,而在云计算技术的支持下,可以通过系统设定更复杂的运算方法对所掌握的几乎无限的计算资源进行智能计算。 二、大数据环境下基于孤立点分析的审计抽样方法分析 高校基建工程结算审计所需资料文件多、非财务数据复杂多变、分析内容繁重,并且涵盖政策性和专业技术性问题。政府审计往往存在限于审计人员和时间相对不足,只能选取部分样本进行重点审计的情况。笔者以政府审计中的高校基建工程结算审计为例,演示基于孤立点分析方法的审计抽样模型的构建原理,并在此基础上进行具体案例分析。 (一)审计抽样模型构建原理演示 第一步,确定被审计数据集合的变量属性,并进行因子分析。以高校基建工程结算审计为背景,调查学生公寓建设资金的支出是否合理有效,有无违反规定挪用、贪污公款情况,通常需要考察工程合同总价款、工程结算总价款与建筑面积、使用面积、辅助面积、工期时长、混凝土体积、钢筋工程量、屋面卷材(涂膜)防水、保温隔热屋面(天棚、墙面)、门窗工程、采暖管道、排水管道、电缆电线等数据之间的关系是否正常合理。而在大数据环境下,与合同价款相关的指标不仅局限于本文所列示的变量,还可根据实际需要增加其他所需变量。此分析过程涵盖的变量较多,虽然变量越多可使研究过程越优化,但同时也会提高分析复杂性,为避免变量间出现多重共线性问题而影响分析结果,需进行因子分析,以达到降维目的。 第二步,发现孤立点。笔者利用基于距离的孤立点分析方法,即使用K-means算法的聚类分析来寻找孤立点,目的是找出与宿舍楼建设综合情况相比差异较大的建筑项目,并利用因子散点图分析引起差异的原因所在。该算法的基本思想是:初始随机给定K个簇中心(K值根据实际情况设定),根据最邻近原则将待分类样本点分到各簇,并按平均法重新计算各簇质心,以确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值,最终将K簇中包含观测点最少的一簇作为“孤立组”。根据上述的实际情况,认定若孤立组中包含的观测点数量占其总观测点数量的10%以下,则此孤立组包含的观测点被视为孤立点。此规则依据的是大部分观测点的聚集会使小部分“异常”观测点显现出来。之后利用三维因子散点图对所有数据进一步分析,可直观展现孤立点产生的原因。 (二)具体案例分析 近年来,随着招生规模的不断扩大,A市各高校均加紧基础设施建设,以保证学生的正常学习与生活。2005-2014年,全市25所高校共建成学生公寓178栋。为确保财政资金使用的安全有效,A市教委联合纪委、监察部拟对该市高校近十年来的新建学生公寓楼进行工程结算审计。限于人员和时间安排,不能对178栋公寓进行全面审计,因此拟基于孤立点分析进行审计样本的选取。 第一步,获取178栋学生公寓的相关数据建立数据集,包括工程合同总价款、工程结算总价款、建筑面积、使用面积、辅助面积、工期时长、混凝土体积、钢筋工程量、屋面卷材(涂膜)防水、保温隔热屋面(天棚、墙面)、门窗工程、采暖管道、排水管道、电缆电线等信息。此处需要注意的是,如前所述,大数据环境下实际数据集中所采集的数据信息会比本例列示的更多,限于篇幅,笔者仅以建筑面积()、使用面积()、辅助面积()和工期时长(Time)4个输入向量为例,探究其对工程合同总价款()和工程结算总价款()的影响(见表1)。确定好变量属性后,需要对这6个指标进行因子分析,首先得到解释总方差(如表2所示),从中可以看出累计方差贡献率为90.974%,表明前3个因子可以代表90.974%的原始数据,可信度较高,因此提取这3个因子为公共因子。其次通过旋转成分矩阵可对3个公共因子进行解释命名(如表3所示)。F1是公共因子“Area”,主要反映建筑面积、使用面积和辅助面积;F2是公共因子“Price”,主要反映工程合同总价款、工程结算总价款;F3是公共因子“Time”,主要反映了工期时长。 第二步,对以上3个公共因子进行K-means算法的聚类分析,以便寻找孤立点。在第一次聚类分析中,178组观测数据被分为4类(如表4所示),从中可以看出,所有记录没有缺失值,均有效。这个结果表明大部分数据间都是有相关性的,主要分布在1、2、4簇,只有第3簇的数据游离在其他数据之外。第三簇8个观测点占178观测点的4.5%,低于上文所述的10%,因此这8个观测点为孤立点。因为每个观测量所属类别及距离类中心的欧式距离已经作为新变量保存在数据表中,通过数据表中的类别变量,可得出这8个观测点对应的建筑编号分别是:11,20,35,55,60,77,124,132。为判断这8个孤立点所存在的问题,需利用三维因子散点图进行直观的反映(如图1所示)。因为Price、Area、Time3个变量是观测点的基础影响因素,笔者选择它们作为坐标轴,从中可以很容易地找到这8个孤立点,进而发现这8个点在价格或面积因素上明显偏离其他点。至此,通过一次聚类分析已经找到8个孤立点,但是仅以此作为审计范围显然不够,应通过多次迭代过程,以确保发现数据集中的所有孤立点。因此还需要对1、2、4簇中的观测点分别进行聚类分析。具体分析步骤与上文所述一致,不再重复。最后对四次聚类分析汇总结果(如表5所示),进而找到了19个孤立点,再将这19孤立点作为审计抽样的样本,结合因子散点图所示的偏差进行全面审计。 图1 第一次聚类分析因子散点图标签:大数据论文; 审计抽样论文; 因子分析论文; 因子载荷论文; 抽样分布论文; 审计方法论文; 散点图论文; 聚类论文; 矩阵论文; 变量论文;