摘要:针对电子数据采集计算机审计的现状,本文分析了数据清理在电子数据采集中的重要性,并根据数据清理的原理,解决了电子数据采集中常见的问题。数据清理,数据清理是电子数据采集应用中的一个例子。最后,文章总结了本文的工作,指出了电子数据采集中数据清理的研究方向。
关键词:计算机审计;电子数据;清理分析
1.前言
为了有效开展网络环境下的审计监督工作,有必要对网络环境下计算机审计数据的获取和处理进行科学研究。其中,电子数据采集是一项重要任务。目前,审计数据采集和转换主要存在以下问题:第一,审计不能收集被审计单位的所有数据。它需要进行排序和筛选。它可能需要原始和真实的数据,或者可能需要处理和合成。第二,在收集数据时,对审计系统进行详细的了解和分析往往为时已晚,因此不清楚哪些数据很重要,哪些数据不重要。通常要确定一个范围并收集所有数据,然后尝试处理它。第三,考虑到数据的全面性和丰富性以及数据收集的风险,收集数据通常会更好。因此,收集的审计数据往往有很多重复,数据量巨大;第四,一些数据属性的价值是不确定的。在收集数据时,无法获取数据属性的值,导致数据不完整。
从上面可以看出,数据清理在电子数据收集中起着重要的作用,以使收集的电子数据能够满足审计分析的需要。因此,本文根据数据清理的原理,研究电子数据采集中常见问题的数据清理方法。
2.数据清理原理概述
数据清理也称为数据清理,简单地说,数据清理就是从数据源中去除错误和不一致,使用相关技术(如数理统计,数据挖掘或预定义的清理规则等)从数据中检测和消除错误的数据,不完整的数据和重复的数据等等,从而提高数据的质量。数据清理的业务知识和清理规则的制定取决于审计人员的经验积累和综合判断能力。
3.数据清理主要方法
数据清理研究的内容很多,根据电子数据采集的实际需要,本文主要研究相似重复记录清理、不完整数据清理以及数据标准化。
3.1清理类似的重复记录
为了减少收集到的电子数据中的冗余信息,类似的重复记录清理是一项重要任务。类似的重复记录是指客观地表示现实世界中相同实体的记录,但由于格式和拼写方面的差异,数据库系统无法正确识别记录。类似的重复记录清理过程可以描述如下:首先,将需要在数据源中清理的数据带入系统;然后,执行数据清理,从算法库中调用排序模块,并执行排序算法。根据相似度检测模块对记录中的记录进行排序,称为相似度检测算法,用于检测范围内相邻记录之间的相似度,并计算记录之间的相似度,并根据预定义的重复标识规则,以确定是否类似于重复记录。为了检测更多的重复记录,排序不够,应该使用几轮排序,比较几轮,每轮使用不同的键进行排序,然后将所有检测到的重复记录类似聚类在一起,以便完成类似的检测重复记录;最后,根据检测到的每组相似副本的预定义合并/清除规则,完成类似重复记录的组合处理。为了防止丢失可能的审计证据,要删除的记录可以单独备份。
类似的重复记录清理的关键步骤可以总结如下:对类似的重复记录组合/去除的相似性检测记录进行排序,其作用解释如下:第一,记录排序。为了找到数据源中的所有重复记录,需要比较每个可能的记录对,因此检测相似的重复记录是一项昂贵的操作。当收集的电子数据量很大时,这会导致无效的和不可行的解决方案。为了减少记录间的比较次数,提高检测效率,常用的方法只在一定范围内记录相对距离较远,先对表中记录的数据进行排序,然后进行与近纪录对比。
第二,记录相似的测试。记录类似的检测是类似重复记录清洁过程中的重要步骤。通过记录相似的测试,可以确定两个记录是否与重复记录相似。第三,类似的重复记录合并/清除。当类似的重复记录完成时,处理重复的记录。
期刊文章分类查询,尽在期刊图书馆对于一组类似的重复记录,通常有两种方法:第一种方法是将一组类似的重复记录中的一条记录视为正确,将其他记录视为包含错误消息的重复记录。任务是从数据库中删除重复记录。在这种情况下,一些常见的处理规则是:
手动规则是从一组相似副本中选择最准确的记录之一,并从数据库中删除其他重复记录的最简单方法。随机规则是指从一组类似的重复记录中随机选择记录保留,并从数据库中删除其他重复记录。在许多情况下,最新的记录更好地代表了一组类似的重复记录。例如,您越接近当前日期,信息的准确性可能越高,而且当前帐户比您的退休帐户上的地址更具权威性。基于此分析,最新规则是在每组相似重复记录中选择最新记录,并从数据库中删除其他重复记录。完整的规则是从类似的一组重复记录中选择最完整的一组记录,并从数据库中删除其他重复记录。重复的规则是重复率越高,信息可能越准确,例如,如果三个记录中的两个供应商具有相同的电话号码,则重复的电话号码可能是正确的。基于这种分析,实用规则是指从一组类似的重复记录中进行选择,其他记录选择一个匹配次数最多的记录,并从数据库中删除其他重复记录。计算机审计员可以将上述方法定义为规则并将其存储在规则库中供用户根据特定的业务需求进行选择和使用。
第二种方法是查看每个类似的重复记录作为信息源的一部分。那么目的是将一组重复记录组合起来以产生具有更完整信息的新记录。该方法通常是手动处理的。
4.提高类似重复记录的检测效率
快速完成数据清理非常重要,因此有必要提高类似重复记录的检测效率,并节省有限的人力,时间和设备。从前面的分析可以看出,在重复记录过程中类似的检测,记录间相似性的检测是一个重要的问题,关键的一步是记录每个领域中的相似测试,其效率直接影响效率的算法中,大部分字段在记录中使用编辑距离算法(Chen wei and qiu-lin ding,2003 to test,由于OCmXn的编辑距离算法的复杂性),当大量数据采用高效的过滤方法来减少不必要的编辑距离计算,会导致类似的测试时间过长。因此,为了提高类似重复记录的检测效率,可以使用长度过滤方法来减少不必要的编辑距离计算。
4.1清理不完整的数据
收集数据时,数据不完整,因为它无法获取某些数据属性的值。为了满足审计分析,特别是审计模型分析的需要,对数据源进行清理不完整的数据,不完整的数据清理原则如图3所示,记录和删除图一样要非常小心。
4.2数据标准化
在电子数据采集中,由于可能存在采集数据格式的差异,因此,通过数据标准化可将特定类型的数据转化为统一格式,从而为审计分析提供便利。对于数据标准化来说,一般可以分为两种情况:首先是数据的标准化,如日期,通常由系统内部的函数进行转换。其次是数据标准化,例如“域值转换”,通常通过定义IF THEN规则来完成。
5.结语
由于审计对象复杂,审计思路和方法创新,如何有效运用先进的数据清理技术和方法进行审计实践,使得收集到的电子数据满足审计分析的需要,是一个值得研究的问题。本文在分析数据清理原理的基础上,针对计算机审计在电子数据采集和研究方面的需要,介绍了类似的清晰重复记录,不完整的数据清理和数据标准化方法以及数据清理 在应用电子数据收集的一个例子中,为解决电子数据收集的数据清理问题提供了理论指导。另外,由于被审计的表单数据的多样性,除了结构化数据之外,未来还可能存在半结构化数据XML(Extensible Markup Language,可扩展标记语言)数据,因此XM L数据清理问题 也将是一个值得研究的问题。
参考文献:
[1]陈伟、丁秋林,2003,“数据清理中编辑距离的应用及Java编程实现”,《电脑与信息技术》第6期
[2]陈伟、丁秋林、谢强,2004,“交互式数据迁移系统及其相似检测效率优化”,《华南理工大学学报》(自然科学版)第2期
[3]审计署计算机技术中心,2004,《计算机审计数据采集与处理技术的总体设计报告》
论文作者:谭云祥
论文发表刊物:《基层建设》2018年第20期
论文发表时间:2018/8/17
标签:数据论文; 类似论文; 电子论文; 规则论文; 数据采集论文; 不完整论文; 方法论文; 《基层建设》2018年第20期论文;