打造称手的审计数据处理工具
太自红
数据分析在审计工作中发挥着十分重要的作用,当前多数审计人员已掌握了在Excel和数据库中进行筛选比对的技能。然而现实工作环境下,审计人员面对数据,遇到最大的问题是数据格式不规范,量大难处理,如何高效处理数据考验着计算机审计人员的能力和水平。本文将介绍笔者和同事在工作实践中,不断总结编写了的一系列数据处理工具和方法,高效解决了数据收集、清洗、转换、分拆问题,极大地提高了审计工作效率。
一、多种形式的数据收集合并
电子表格的收集合并是工作中时常遇到的一个问题,审计现场收集的电子数据资料,因为年度和地区的不同,数据常常分散存储在多个工作簿和工作表中,为了实现对数据的统一分析必须将数据进行归集合并和整理。常见有以下几种形式的合并整理:(1)从选择的工作簿中,逐个把工作表数据复制到合并工作簿的不同工作表下。(2)从选择的工作簿中,把所有工作表数据复制到合并工作簿的同一工作表下。(3)预设需要提取的数据列,从工作簿中提取相关列数据后,复制到合并工作簿同一工作表下。上述工作在数据量小的情况下可以手工操作,但面对成百上千张数据表时,将变成一个十分繁重的工作。针对此种需求我们设计了比较通用的工作簿合并工具(图1),实现了几百张数据表可在几秒时间内完成合并归集。
(图1并表工具)
二、根据内容分割符拆分多行的问题
数据的格式规范决定了数据能否在数据库中参与比对,工作常会遇到这样的情况,被审单位为了自身工作方便,提供的资料中,一些关键信息使用标点符号隔开的形式合并存储。审计中为了实现对关键信息的比对,需要对关键数据进行提取分离。如图2中提供的产权登记信息,原数据以产权号为单位,共有产权人用标点符号隔开来组合存储,审计对数据进行关联分析时,产权人证件号作为一个重要信息需要做图2中的拆分转换才能够参与比对。
(图2数据分拆示例)
上述转换是数据清洗过程中非常必要的操作,EXCEL现有工具虽然提供了数据分列功能,但分列后的数据仍需要大量繁琐整理,才能实现上图转换效果。为此我们用VBA编写了分拆整理工具(图3),在工具交互窗口下输入需要分拆的列和分隔符号以及分拆后需要保持文本格式的数据列,最终完成上述的分拆转换操作。
此外,为了进一步发挥农田水利工程的灌溉效益,提高水资源利用效率,还应该重视对基础水利设施的建设和保护,要进一步划分责任,明确责任方,确保农田水利工程运行完好,不存在开裂渗透现象。同时,还应该进一步对照大规模的灌溉区域,实行统一化的管理,实现农户之间的有效监督,避免各自为政,使得先进的节水灌溉技术难以在广大基层地区推广应用。
(图3分隔符拆分工具)
三、批量视图构建完成数据库的汉化翻译
入库的数据一方面需要做专门的清洗转换,另一方面还需要灵活处理运用。对一些特殊的数据处理,数据库提供的系统函数难于满足,因此定义一系列处理函数显得十分必要,我们根据工作需要定义了以下一些函数:(1)身份证号的处理函数,身份证号是重要关联比对字段,对它的处理能极大地提升数据质量。针对身份证号的函数有合法性检测、字符串全半角转换、隐藏的非法字符(一些既不是空格肉眼也难于观察到的字符)清除、15位升级18位。(2)字符串相似度匹配函数,一些数据无法用like运算符关联比对,如在使用公司名称关联数据时,由于数据来源的不同,公司名称有的简称有的全称,like运算符无法表达关系,可以通过计算两个字符串的相似度来做关联,确定相似度在一定范围内的数据为关联结果,然而SQl数据库并没有提供字符相似度计算函数,所以在结合了单个字符的匹配性和位置权重后我设计了字符串相似度函数。(3)索引的批量自动建立问题,索引的建立能够让数据库的比对更加高效,在索引构建时由于一些关联字段虽然在不同数据表中但名称一致,为了工作的快捷设计了批量构建索引的函数,极大地提高了数据的管理水平。
《史记》:“始皇三十七年,上会稽,祭大禹,望于南海,刻石颂德……”。《水经注》云:“秦始皇登(会)稽山刻石纪功,尚在山侧”。
(图4视图创建语句生成)
四、数据入库后的规范清洗和灵活运用
被审计单位提供业务数据库后,分析组一个重要工作是对数据进行翻译转换使数据库具有可读性,通过对照数据字典进行表名和字段名的转换。创建汉化视图是转换的一种主要方式,实际工作中如果依据数据字典逐条编写视图语句,不仅耗时且难于保障转换的准确性。最有效的方式是把数据字典按表名、中文表名、列名、中文列名四个要素规范整理后,运用工具批量生成视图创建语句,图4为批量生成视图创建语句的vba代码。
青铜峡市7个镇不同作物硒含量变幅在0.001~0.293 mg/kg,其中螺丝菜的硒平均含量最高,为0.103 mg/kg,白菜的最低,为 0.002 6 mg/kg。参照国家富硒稻谷、《宁夏富硒农产品地方标准》和安康市《富硒食品硒含量分类标准》中的作物硒含量,所检测的215件农产品中49.30%达到了富硒标准。
五、数据疑点库的批量分发问题
数据集中分析,疑点分散核查是当前审计的一种重要工作方式,省市审计机关对大量数据集中分析后,将多个疑点数据保存到数据库下,分散核查时再将数据按地区按种类导出,分发到各核查小组。而手工操作将是一个繁重的工作,为此我们设计了数据库审计疑点批量分拆导出工具(图5),在工具中输入数据库连接参数连向疑点数据库,疑点列表获取菜单帮助选择需要导出的数据表,导出范围配置界面填写好需要导出的地区,计算机根据上述配置,从数据库自动抽取指定的地区和指定表,并以地区为单位生成工作簿,从而分拆出各个地区的疑点数据。
(图5数据库疑点分拆导出工具)
六、审计现场数据任意拆分的问题
在现场组织审计工作中,电子表格的数据分拆也是时常遇到的问题,如审计组根据工作安排,需把工作簿数据按照数据内容中的审计地区和资金类别,拆分成不同的电子工作簿,交各组员开展相关工作。当地区和资金种类繁多时,从电子表格中筛选数据然后复制到不同工作表成了一项繁重工作。为简化此项工作,我们设计了灵活的工作簿拆分工具(图6),拆分工具能够实现对工作簿按照自定的属性组合(不同列中内容项组合)完成拆分,考虑了多表头工作表情况还增加了表头终止号选项,同时为实现把具有相同属性的不同工作表拆分到同一工作簿下,还设计了相应的勾选项和属性组合编号。
(图6工作簿拆分工具)
数据审计的道路上我们将面临各种挑战,只有在工作实践中认真总结规律,充分发挥知识技能的作用,不断创新技术方法,才能更好地迎接挑战,以问题为导向形成实用的经验技能,甚至固化成一劳永逸的数据处理工具,是每位计算机审计人员努力的一个方向。
(作者单位:江西省审计厅)
标签:审计工作效率论文; 数据处理工具论文; 审计人员论文; EXCEL论文; 工作环境论文; 数据格式论文; 数据收集论文; 分拆问题论文; 江西省审计厅论文;