基于数据挖掘技术的审计数据质量控制探析,本文主要内容关键词为:探析论文,质量控制论文,数据挖掘论文,数据论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
一、数据挖掘技术概述
数据挖掘是通过数学分析从大型数据集中发现数据模式和规律(即“数据挖掘模型”)的过程,其基本步骤分六步:定义问题、准备数据、浏览数据、生产模型、浏览和验证模型、部署和更新模型。上述模型生成过程中,有4种常用的数据挖掘分析方法,即分类分析、聚簇分析、关联分析和序列分析。它在传统的DBMS数据处理的基础上,通过对数据进行统计、分析、综合和推理等更深层次的处理,发现更多的知识和信息。
二、数据挖掘技术顺应了审计数据质量控制的现实需要
审计人员的职责是从被审计单位提供的海量数据中获取有用的审计证据,并发表适当的审计意见。但是,随着信息化的发展,被审计单位信息系统趋于多样性,数据来源多、种类杂,数据格式不统一,信息表示代码化,加上被审计单位可能有意更改、隐瞒数据真实情况等诸多影响因素,审计获取的电子数据质量就很可能存在问题。不完整、不正确或重复等有质量问题的审计数据,会直接给后续的审计分析工作带来障碍,降低审计效率,甚至影响审计证据的客观合理性。因此,利用一定的技术手段对审计数据进行检查,对发现的数据质量问题进行分析,找原因并采取措施加以控制,就显得尤为重要。
三、数据挖掘技术在审计数据质量控制中的应用
(一)数据挖掘分析方法在审计数据质量控制中的具体应用
1.分类分析
分类的主要功能是根据数据的属性将数据分派到不同的组中。在操作中,从数据库中选出已经分好类的样本数据库作为训练集,在该训练集上运用数据挖掘分类的技术建立分类模型,然后根据数据属性对没有分类的数据进行分类。比如,某医院将某一病种患者分为“高发人群”、“一般人群”和“低发人群”三类,各类患者有不同的属性和特点。审计根据这些关键属性建立分类模型,将医院当年的患者进行分析,判断其属于哪一种类型,得出数据与医院当年收入结构进行对比分析,进一步判断医院当年收入数据的真实性和完整性。
2.聚簇分析
聚类分析面对的是一组未明确分类的数据,其任务是根据一些聚簇规则(或数据的相似性)把数据按相似特征归成若干类,从而发现数据的分布模式和数据属性间的规律,找出对全体数据的描述。实际应用中,我们可以通过将当年数据与往年数据比较、当年各月数据比较等,分析出被审计单位数据的真实性及准确性。
3.关联分析
关联分析的目的是发现隐藏在数据间的相互关系,通过挖掘发现一组数据项与另一组数据项的密切度或关系(关联规则置信度),并加以分析或利用,以实现对审计数据质量的验证。关联分析方法的应用可分两种情况:
一是对于关联规则明显的数据项,可通过建立简单模型加以验证。比如,选择一种折旧方法,建立“资产原值”、“入账日期”、“月折旧率”、“资产净值”和“累计折旧”之间的数学模型,然后将采集到的某单位固定资产信息引入,重新计算其固定资产折旧额并分析其合理性,以此来判断该单位固定资产信息提供的完整性和可靠性。
二是对于一些看起来不太相关的数据项,在挖掘后发现有较高的关联程度,就需要分析原因,可能会发现有价值的结论。比如,在比对某商业银行提供的贷款数据时发现,年龄在40岁以上的贷款人占30%,年龄在40岁以上的担保人占33%,二者无明显关联。经抽样比对,发现存在40岁以上贷款人身份证号码与40岁以上担保人身份证号码一致的情况,在此基础上,审计建立数据模型分析所有贷款人和担保人之间的关联性,发现15%的贷款人身份证号码出现在担保人身份证号码中,经审计进一步核实,部分为循环担保业务,即A、B互相担保或A、B、C封闭式循环担保等,部分则为数据错误。
4.序列分析
关联分析发现数据项同时出现的规律,序列分析发现数据项出现的时间上或序列上的规律,从审计数据库中挖掘出被审计单位正常行为和异常行为的频繁序列模式,发现审计数据之间的前后(因果)联系。审计人员可以根据大量历史数据,对序列模式加以运用,以确认账簿数据的合理性和真实性。比如在审核企业销售数据时,可利用序列模式对被审计单位的生产领料数据进行挖掘,通过一些频繁领料业务发生的时间序列模式表现出的统计特征来发现存在的异常现象。
(二)基于数据挖掘技术的审计数据质量控制具体实现路径
数据挖掘是在对数据全面而深刻认识的基础上,对数据内在和本质的高度抽象与概括,也是对数据的认识从感性到理性的升华。如图1所示,利用数据挖掘技术进行审计数据质量控制的具体实现路径可简述为:首先进行原始数据的采集;其次将采集到的原始审计数据进行预处理,目的是对数据进行初步清理、选择和将其转换为数据挖掘算法能识别的格式;然后对转换后的数据执行数据挖掘,找出规律,建立模型;再对模型进行验证及运用,结合审计人员的职业判断,找出可疑数据;最后提出切实可能的解决方案,实现审计数据质量的不断完善。
1.数据采集
审计数据采集是按照审计目标对被审计单位信息系统中的电子数据进行采集的过程,是数据挖掘技术审计应用的前提和基础。通常,在进行数据采集前,审计人员应确定数据采集的范围、内容及重点。常用的数据采集策略有3种:一是通过数据接口采集,如ODBC、ADO等;二是直接复制;三是通过备份文件恢复。
2.数据预处理
原始数据的预处理也是数据挖掘的数据准备阶段,它包括数据清理、数据选择和数据转换。(1)数据清理。数据采集成功后,审计人员首先要对采集到的数据进行初步清理,排除遗漏、冗余、明显错误和采集失误等,所采取的方法有两类:一是技术性验证,二是业务性验证。(2)数据选择和转换。在这一阶段,审计人员还要根据挖掘任务从合成的数据库中选择性地提取与挖掘有关的数据,并根据数据挖掘要求进行格式转换,如调整字段属性、宽度、含义等,要剔除数据结构中的干扰项目,使其能更直接地反映对应的经济业务,以便控制数据挖掘的准确性。
3.建立模型
模型建立与调整是数据挖掘过程的核心部分。审计人员根据审计任务的所属类别,结合不同被审计单位的行业背景、业务特点和数据模式,运用关联规则发现、序列模式挖掘等不同数据挖掘技术方法,发现数据中隐藏的规律,确定将要进行的挖掘操作类型或模型并加以实现。在模型的建立过程中,还可用到图表、分类矩阵和利润图等辅助分析工具,如果模型是分类模型,可生成一个提升图,如果模型是估计模型,可生成一个散点图等。
4.模型验证
模型的建立是一个迭代循环的过程。对建立好的模型要进行试用,并由熟悉被审计单位业务的审计人员对挖掘结果进行评价。如果挖掘结果令人不满意,可利用反馈机制对模型以及模型的输入参数取值等进行反复修正和完善,甚至重新建模、分析,直到模型可以把每一次的分析结果清晰、准确、明了地表述给审计人员为止。
5.发现异常数据
数据挖掘不仅是一项应用技术,更是一个技术应用的过程。建立数据模型的目的是将其应用于对审计数据的分析,审计人员要根据这些特征向量模型或行为描述模型对被审计单位数据进行总体评价,判断和比较出审计数据在真实性、一致性和准确性等方面的质量状况,发现异常数据。
6.处理并完善
针对挖掘出的数据质量问题,审计人员要根据自己对审计项目的具体了解来逐一进行分析,判断其是否属于数据质量问题,属于可纠正类还是不可纠正类,对于可纠正的数据质量问题,要及时纠正。其次,对重新获取的审计数据,审计人员还要利用关系模型、业务规则或抽样方法等进行再次核对,如检查空值、冗余、错误数据是否有效消除,利用已有的统计指标与纸质凭证、报表进行核对分析等,直到确定数据为不可再完善状态为止。
四、基于数据挖掘技术的审计数据质量控制应用策略探讨
尽管数据挖掘技术在一些行业已有成功的应用,在计算机审计领域优势也很明显,但在审计实践应用中尚处于初级阶段,究其原因无非两个:人的因素和环境的影响。要想更好地将数据挖掘技术应用于审计数据质量控制,以大幅提高工作效率和效果,就需要从以下几方面加以改进:
(一)优化硬件环境
重视硬件设施的建设,这是数据挖掘技术应用的基础性工作。数据挖掘需要有一定存储量和运算能力的计算机,要有能提供信息传递和信息共享的畅通网络。目前,我国审计机关的信息化装备基本可以满足工作的需要,但各地情况参差不齐。条件好的地方可试点性探索一些“高、精、尖”设备,强大现场审计实施系统;条件差的地方应该根据自身的实际情况,构建适合的硬件解决方案,包括选择技术架构、进行服务器和客户端的配置等。
(二)树立新观念
近年来,计算机审计被大力推广,极大地提高了现场审计效率,但同时被审计单位提供的数据也越来越“完善”,可发现的审计线索越来越少,问题越来越隐蔽。一方面是审计环境发生了重大变化,另一方面,目前多是利用审计人员的经验和计算机查询技术相结合进行处理,易于发现个案,但对审计对象整体的情况缺乏全面把握。随着业务流程和信息技术的创新,以往的模型及经验已适应不了新形势。
因此,从长远来看,要突破这种面对海量数据无从下手的境况,就必须变被动为主动,从传统的审计观念中走出来,逐步养成利用数据挖掘等新技术来发掘潜藏问题和线索的习惯,以实现对审计对象整体情况的全面把握。
(三)正确运用数据挖掘技术,重视人才培养和开发
应用数据挖掘技术进行审计数据质量控制,对审计人员素质要求较高,不仅要精通业务,而且需要熟练掌握数据挖掘技术和工具,能正确把业务需求转化为数据挖掘的各步操作,最后对结果做出分析和评价。随着计算机审计的大力提倡,目前国家审计人员在计算机审计能力方面较之前大有提高,但还不能满足实际工作需要,特别是新兴技术创新发展的需要。因此,必须对审计人员实施专业培训,重视后续教育,完善知识结构,学习新的管理、会计、统计知识和相关财务法律法规,注重培养审计人员的创新思维。
同时,审计机关还要把好审计人员组合关,在实施每个项目前,科学合理配置审计组人员。综合考虑审计人员的经验程度、计算机应用能力高低甚至年龄的大小等,尽量组成结构合理的审计小组,这对审计实施有重要意义。
(四)注重知识和经验的积累运用
审计人员还要将数据挖掘分析得到的知识集成到审计业务信息系统的组织结构中去,以便能在随后的审计工作中组织和运用经验,借鉴以前的数据挖掘思路,以提高其数据分析能力和业务水平。
信息化的不断推进促使被审计单位信息系统日趋完善,审计人员要充分了解企业海量财务数据中蕴含的复杂信息,全面准确分析被审计单位的经济活动,仅仅依靠传统的数据检索查询机制和统计分析方法是非常困难的,探索和创新审计技术和方法尤为迫切。在审计系统中采用先进的数据挖掘技术,对被审计单位的海量数据进行分析判断,提高审计质量,控制审计风险,这也是现代化发展对审计事业提出的新思路和要求。
标签:数据挖掘论文; 大数据论文; 数据挖掘算法论文; 审计质量论文; 会计与审计论文; 分类数据论文; 数据单位论文; 审计目标论文; 审计方法论文; 审计职业论文; 数据分析论文;