大数据审计中的特征工程论文

大数据审计中的特征工程论文

大数据审计中的特征工程

曹 杰

(南京审计大学 政府审计学院,江苏 南京211815)

摘 要: 随着被审计单位大数据数据库的构建和应用,文本、图片、地理信息等非结构化数据呈几何倍增,数据特征维度复杂化的同时其价值密度也被稀释,这要求我们要寻找到方法来应对大数据带给审计业务开展、提高审计效率和质量的挑战。与此同时,在大数据审计的探索发展中,如何系统、科学地重新审视并构造传统审计系统以适应大数据时代审计发展要求是一个重要课题。本文从重构审计数据预处理角度出发,探索在大数据审计中如何应用特征工程。研究发现:特征工程能够根据审计目标筛选出相应特征并降低审计数据特征维度,进而降低审计数据分析难度并提高审计效率。

关键词: 大数据审计;特征工程;特征选择

一、引言

十三届全国人大一次会议上,胡泽君审计长提及“积极推进大数据审计,坚持科技强审,通过信息化、数字化,努力提高审计监督的质量和效益。”大数据时代的到来,越来越多的企事业单位开始在日常经营管理和决策中运用大数据技术并在此过程中产生大量电子数据。随着大数据技术不断推广应用,审计人员所面对的审计环境和审计对象也发生了变化。为了适应这种变化以及实现审计全覆盖目标的要求,审计人员应当跟上潮流学习如何运用大数据技术去挖掘审计线索和证据,推动审计技术革新,优化审计工作效率和质量。大数据的基本特点是规模庞大、类型繁多、价值密度低、处理速度快。随着领导干部自然资源资产离任审计、扶贫审计和政策跟踪落实审计等新型审计业务的开展,一些文本、图片、视频、地理信息、气象等审计人员以前较少接触的非财务信息不断增多。而这些信息或者数据一般都是非结构化的,非结构化数据的增加,意味着审计人员需要处理的无关、冗余的数据及数据特征增加。这无疑会增加审计人员工作量,降低审计效率和质量。这时就需要应用特征工程,对数据特征进行降维和删减以便后期数据分析。

本文所讨论的大数据审计是大数据技术在各行业推广的审计大环境以及审计全覆盖驱动下,以信息为审计主题,在审计过程中应用大数据技术。现在大数据审计相关研究仍然处于初步探索阶段,有学者从大数据技术对审计行业革新角度出发,认为大数据技术能推动审计业务类型、审计方法和审计组织模式的变革和创新,进而提高审计效率、质量和审计覆盖率①-③。大数据同时会拓展审计人员的关注范围,改变审计人员的一些认知,且对审计人员的相关知识结构有更高要求④⑤。也有学者从具体审计业务角度出发,探索大数据在扶贫审计、金融审计、环境审计等业务中的实际应用⑥-⑧。其中陈伟从运用R语言探索大数据可视化技术应用于审计线索特征挖掘角度出发,认为大数据能通过大数据可视化分析问题的规律性挖掘出更深层次的问题。

以上文献较多地探讨了审计中应用大数据的前景或者如何在审计中应用大数据技术,较少提及审计中应用大数据技术的重要方面——特征工程(feature engineering)。特征工程可以使信息损失最小化,以提高后期数据分析效率以及易化数据可视化。其中特征选择(feature subset selection)是实现这一目的的主要过程⑨⑩。特征选择的方法有过滤式、封装式和嵌入式三种,现在许多学者搭配使用这三种方法,如基于filter-wrapper混合的遗传算法(genetic algorithm),以弥补单一方法的缺陷进而提高特征提取的性能和精度

二、特征工程在大数据审计中的重要性

不论是何种类型的审计业务,审计都与信息休戚相关。从商朝甲骨文记载核实贡入的审计萌芽,到近代查尔斯对南海公司账簿的舞弊审计,再到如今随着信息化发展而广泛运用的计算机审计,审计都是要搜集并利用信息对财务活动及其相关的资料进行确认(assurance)。而随着信息、信息载体和信息技术的变革与发展,审计内容和审计方法也在吸收运用新内容和新技术中不断变化与革新。大数据时代的来临无疑在给信息带来变革的同时也给审计带来挑战和机遇。

(一)传统审计数据处理的局限性

传统审计数据处理的局限性并不是在于没有使用特征工程,相反,不论是计算机辅助审计还是以前对账簿进行审计,审计人员都会去搜集和分析与财务活动相关的信息和数据以印证其真实性、合法性和效益性。这些信息和数据可以说是特征,审计筛选出相关信息和数据的过程可以看成简单的特征选择。但随着被审计单位大数据数据库的构建及相关技术的应用,一些文本、图片、视频、地理信息等之前较少涵盖的非结构化数据也被记录进数据库中。由于受到审计技术手段的局限性,以往审计人员会根据抽选的样本、问题交易和经验判断对这些数据的采集和审计程序的选择有所取舍。这就可能产生数据采集及分析不够全面,审计效率低下的问题。

非机构化数据的增加会导致数据结构的维数和样本数的几何倍增,导致“维数灾难”和“过度拟合”等问题,这无疑对审计人员处理高维数据的能力提出挑战。如何从被审计单位的高维数据解析出审计疑点及问题的内在路径,显然是增强审计科学性的一个重要课题。如若存在一些潜在问题和风险因未在数据分析中被析出或识别,就有可能导致审计人员得出错误结论,进而增大审计失败的风险。

在审计资源有限和审计人员专业素养缺乏的前提下,此类观点存在的缺点或者需要解答的问题有以下几个方面:首先,如何定义全样本的样本范围,这个问题是审计边界在数据上的体现,即使理解为收集数据时进行全样本采样,我们仍然需要根据审计目标筛选出我们需要的特征数据集。其次,是否注意到大数据技术本身存在的局限性。大数据虽包罗万象,但并不意味着所有数据和信息皆能拿来审计,维数的几何倍增无法提高审计效率反而会给数据分析带来沉重的负担。现有技术功能局限,可能无法帮助审计人员完成所有任务,如一些材料和产品的库存盘点,我们仍需要传统的方法。现存技术存在一定误差,这对审计数据的准确性很有影响,如在地理数据采集中运用遥感技术对土地面积进行测量时,由于遥感精度问题,其测量会存在相应误差。最后,此类观点是否忽视了大数据审计技术普及情况和发展规律,抛弃传统审计方法和思维就大数据论审计。

(二)特征工程对审计发展的重要意义

基于2016年该病种次均费用、次均耗材费、直接可控成本占比等大幅上升,医院数据中心分析发现,该病种直接可控成本中高值耗材同比增长77.17%,远高于药品、试剂、设备等只有个位数的增长率。进一步深入分析,原来一款单价为2.8万元的椎体扩张球囊导管在2016年的使用量比2015年增加88个,其大量使用直接导致该病种各项费用的上升。

大数据时代审计亟待解决的问题,除了数据规模和结构变化使得传统审计技术方法的局限愈发凸显,传统审计思维或者说是数据分析处理思维的局限性也逐渐显露。考虑审计黑箱模型(auditing black-box model),即将被审计单位看作一个黑箱,审计是从外部探知黑箱内部情况。传统审计通过对获取的财务数据及经营活动相关资料进行分析,以问题金额或者风险为导向,以时间线为脉络分析相关数据和事件的真实性、合理性、合法性和效益性并得出相应审计结论。这是典型的处理关系型数据的思维,这种思维的局限性在于探得的真相可能依然是表象,不一定探索到问题的根源;由于视野过于集中,容易忽视一些问题之间的内在关联及逻辑。在这种思维模式下,审计人员主要关注与问题金额或违规问题相关的直接因素,而间接影响因素可能会被忽略。

特征选择是特征处理的重要步骤。特征选择主要考虑两个方面:特征是否发散和与目标的相关性。从这两方面考虑利用上文提及的三种方法对初步处理的审计特征数据进行降维和筛选。比如我们结合使用嵌入式方法中的L1(Lasso regularization)和L2(Ridge Regression)两种基于惩罚项的特征选择方法,可以在筛选特征的同时降低特征维度。L1能保留与审计目标具有同等相关性的特征,其他特征的权值则被惩罚为0。L1存在一个问题就是可能把相关性差别不大的特征筛除掉,继而考虑结合两种方法。

三、如何在审计中应用特征工程

本文存在的缺点以及可以改进之处如下:(1)本文没有实际案例分析,仅从技术实现层面分析特征工程在大数据审计中的应用。(2)本文未详细探索特征工程作为审计数据预处理子系统在整个审计系统如何同其他子系统交互以及运作。这些缺点有待于今后的进一步研究来解决。

(一)确定大数据审计中的特征获取方案和使用方案

特征获取方案就是解决数据从何获取、如何获取和如何储存的问题。相较于计算机辅助审计从数据库拷贝或利用专门数据采集软件,大数据为数据特征采集提供了更丰富的技术,尤其是通过API实时抓取的技术,如Apache Nutch、Redis、Scrapy等,这些数据采集技术又可分为系统日志采集系统、网络数据采集系统和数据库采集系统。在数据存储方面,大数据为解决非结构化数据存储问题,提供了HBase、MongoDB非关系型数据库存储技术条件。

特征使用方案是根据审计目标确定需要哪些数据以及评估数据的可用性。这需要审计人员根据自身经验判断及对审计业务理解,尽可能找出影响目标的所有特征因素。对于文字、日志、图片等这些非结构化数据利用特征提取技术进行初步特征提取,如从各合同扫描图片中提取交易内容、甲乙双方名称、签字、图章等。在确定获取特征范围前需要评估特征的可用性,需要考虑评估因素有特征获取难度、覆盖率和准确率等。对于被审计单位一些不普遍的、专业性高的特殊业务活动,审计人员在确定特征获取范围时应当考虑选取与其他业务共通的部分,或考虑使用专业方法对该业务进行审计。

(二)大数据审计中的特征处理过程及特征选择

特征处理是特征工程的核心部分。从被审计单位采集的特征数据会存在格式不统一、数据冗余、缺失值及定性特征不能直接使用等问题,我们需要对其进行特征清洗、预处理。特征清洗主要是解决异常样本和数据不平衡对后续数据挖掘带来的影响。审计对于异常交易和异常值非常敏感,这常常意味着被审计单位存在违规问题。在获取到被审计单位的特征数据之后,审计人员可以初步筛选出异常值,包括缺失值和离群值,对这些异常值进行初步审查。同时,审计人员可以考虑将异常样本提出重新形成审计问题特征样本子集,探索问题形成路径。

数据预处理则主要是先对单一特征进行处理,再对众多特征进行降维和特征选择。对于格式和规格不统一的特征数据,我们应对特征数据进行重新编码。然后,对其进行无量纲化(dimensionless)处理,比较常用的方法有z-zone标准化、min-max归一化和区间缩放法等,其目的就是在表征不同或单位不同的特征间可比性中消除其间的影响因素,以便后期利用机器学习训练相关模型获得相关知识。

现有一些学者提出,大数据审计应利用全样本进行总体分析的想法。这一观点虽然具有前瞻性,但是否符合大数据审计发展实际及规律让人存疑。这一想法的思维原点是审计发展中的局限或者不足,可能给审计抽样带来风险。

我转过脸往前跑去,不想让大梁看到我的一脸泪水。走了好远,我回头望,大梁还站在那儿,旁边只有那棵孤零零的乌桕树……我想早去早回,急匆匆地往前赶。手里紧紧攥着那拨浪鼓,有时碰出一记或清亮或浑浊的鼓声。余音袅袅,我感觉狼剩儿就等在那余音的尽头。当年只要传来这清浊相杂的鼓声,跟着肯定就跑来了我的狼剩儿。这鼓声已经十三年冇再响起了。有两回槐生要玩这拨浪鼓,我都冇可,我怕听到那鼓声。今朝这鼓声我不怕,我爱听。我攥着这鼓声,像是攥着一根丝线,线的那一头就是我的狼剩儿。

我们都有一个共识就是大数据不仅改变计算机审计,而且也改变审计行业。借助大数据框架,可以构建审计大数据库以及云平台,但如何运用仍然需要结合审计特点和需求。在数据激增和传统技术方法存在局限的情况下,特征工程筛选特征易化数据分析的作用能够帮助审计人员更方便地使用大数据,进而为形成审计知识库、推进审计智能化做铺垫。在大数据行业中有一句话,“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。因此,在推进大数据审计及审计智能化的进程中,特征工程在审计特色化方面能起到举足轻重的作用。

特征选择步骤完成之后,就基本可以进行数据分析了,只是特征维度可能仍然是复杂的,这可能对审计效率产生影响。在这种情况下,则可以考虑利用主成分分析法(PCA)或线性判别分析法(LDA)对特征进一步降维。在其他类似审计业务中采取相同特征时,为了防止特征质量下降以及有效性的丧失,审计人员需要对所选取的特征进行监控,对丧失有效性的特征予以剔除并对相关性上升的特征予以重点关注。

四、总结

研究特征工程在大数据审计中的应用对指导审计实践具有重要意义,特征工程可以在大数据审计系统中承担数据预处理的任务,相较于以往审计的数据预处理步骤和方法更加系统、科学,能帮助审计人员应对非结构化数据增多带来的数据维度复杂化问题且为数据可视化提供具有比较性的特征集,同时,为审计中应用机器学习和人工智能提供特征数据训练集进而推动审计信息化和智能化发展。在特征选择这一重要步骤中,审计人员应灵活运用封装式、过滤式和嵌入式三类特征选择方法,以挑选出适当的审计数据特征并降低数据维度。建议在审计过程中,根据审计目标应用特征工程对数据进行预处理以降低数据分析复杂程度并提高审计效率。

特征工程并非新鲜事物,其研究最早从20世纪60年代就开始了,只是由于当时技术限制,所能获取的特征数据较少,主要进行统计学方面的研究,且基本假定各特征之间相互独立。但在大数据中,特征工程(主要是特征选择)的假定并不对特征间的相互独立性有强制要求。不仅是基本假定的不同,从整个数据处理分析系统构造来看,由于系统规模增大,重构系统框架结构时,我们都要考虑是否应当将以往的步骤构造成一个子系统。特征工程可以看作在大数据审计系统中的数据预处理子系统,按处理步骤先后分为特征使用方案、特征获取方案及特征处理。本文以Python中preprocessing特征工程步骤为基础,探索其在审计中的应用。

政府可以重点支持品牌出口企业,对品牌出口企业在申请专利和注册商标方面给予政策支持,在企业自主创新和加强知识产权保护等方面也给予相应的政策优惠。政府可以建立出口品牌专项基金,鼓励扶持品牌建设。政府还可以通过完善保护知识产权的法律法规以及相应的制度,规范品牌竞争秩序,加强品牌保护,防范品牌风险。

注释:

①秦荣生.大数据、云计算技术对审计的影响研究[J].审计研究,2014,(6):23-28.

②牛艳芳,薛岩,孟祥雨.云计算环境下的审计业务模式变革研究[J].南京审计学院学报,2014,(4):95-103.

又如鲍照的《代春日行》采用民间谣谚的三言句,隔句押韵,描写了岁首青年男女郊外春游的欢乐情景,尾句“两相思。两不知”描写了春游中的青年男女彼此产生了爱慕相思之情的隐秘微妙的心理状态。沈德潜评曰:“声情骀荡。末六字比‘心悦君兮君不知’更深。”(《古诗源》卷十一)

③陈骏,时现.审计全覆盖驱动下的审计技术方法创新研究[J].审计研究,2018,(5):22-29.

④Warren,D.,K.Moffitt,and P.Byrnes.How accounting records will change with Big Data[J].Accounting Horizons,2015,(29):53-67.

《人力资源社会保障部 食品药品监管总局关于表彰全国食品药品监督管理系统先进集体和先进工作者的决定》影印件

⑤王秋菲,秦爽,石丹.大数据的审计风险识别与控制问题研究[J].会计研究,2018,(24):93-100.

⑥陈伟,居江宁.基于大数据可视化技术的审计线索特征挖掘方法研究[J].审计研究,2018,(1):16-20.

⑦吕劲松,王忠.金融审计中的数据分析[J].审计研究,2014,(5):26-31.

各种各样的外科治疗都有其优点和缺点,但还没有可以说哪种手术方法更好,必须根据疾病的发展、意识状态、血肿状况、全身状况、手术时间等各种因素和决定。对血肿60毫升以上的患者适用于颅内血肿的清除,尤其是血液肿胀位于大脑皮层或脑疝的形成患者。对血肿高血压脑出血患者(30~60毫升),尤其是血肿较深的患者适用于微创血肿穿刺引流[2]。对于有并发症不能容忍大手术患者,采用微创血肿穿刺引流为一种积极有效的治疗。有越来越多的微创技术,由于其创伤小、操作简单、脑损伤小,已成为一种常见的手术方法。

⑧马志娟,梁思源.大数据背景下政府环境责任审计监督全覆盖的路径研究[J].审计研究,2015,(5):28-34.

⑨Kira K,Rendell L A.The feature selection problem:traditional methods and a new algorithm[C].Tenth National Conference on Artificial Intelligence.AAAIPress,1992:129-134.

⑩Deepak Panday,Renato Cordeiro de Amorim,and Peter Lane.Feature weighting as a tool for unsupervised feature selection[J].Information Processing Letters,2018:44-52.

⑪El Akadi A,Amine A,and El Ouardighi A.Atwo-stagegene selection scheme utilizing MRMR filter and GA wrapper[J].Knowledge&Information Systems,2011,(26):487-500.

⑫张文杰,蒋烈辉.一种基于遗传算法优化的大数据特征选择方法[J].计算机应用研究,2018,(37):45-62.

在确定扭矩限制器打滑扭矩时,需要核对机组的扭矩疲劳载荷谱,保证打滑扭矩设定值大于扭矩疲劳载荷谱中的最大值。根据风电机组的设计和运行经验,一般打滑扭矩设定值为齿轮箱输出额定扭矩的1.5~1.8倍左右。

⑬Philip Adler,Casey Falk,Sorelle A.Friedler et al..Auditing black-box modelsfor indirect influence[J].Knowledge&Information Systems,2018,(54):95-122.

芍药苷对6羟基多巴胺诱导的PC12细胞损伤的保护作用研究 …………… 顾晓苏,王芬,胡丽芳,等 283

取大鼠脑组织(处死前已注射FITC-D)置于4%多聚甲醛溶液中固定24 h后,常规脱水、石蜡包埋、切片(5 μm),参照Weidner法[21]测定大鼠脑组织梗死区域的MVD。寻找梗死区域内5个血管密集区,于200倍荧光倒置显微镜下计算该区域内被染成绿色的微血管数目。每份切片均选取5个高倍视野计数,取其平均值。

Feature Engineering in Big Data Audit

Cao Jieli
(School of Government Audit,Nanjing Audit University,Nanjing 211815,Jiangsu)

Abstract: With the construction and application of large data database of auditees,unstructured data such as text,picture and geographic information are geometrically doubled,and the dimension of data features is complicated while its value density is diluted,which requires us to find ways to deal with the large data for the development of audit business and improve audit efficiency.Quality challenges.At the same time,in the exploration and development of big data audit,how to systematically and scientifically re-examine and construct the traditional audit system to meet the requirements of audit development in the era of big data is an important issue.From the perspective of reconstructing audit data preprocessing,this paper explores the application of Feature Engineering in large data audit.It is found that feature engineering can filter out the corresponding features according to audit objectives and reduce the dimension of audit data characteristics,thus reducing the difficulty of audit data analysis and improving audit efficiency.

Key words: big data audit;feature engineering;feature selection

中图分类号: F239

文献标识码: A

收稿日期: 2019-07-08

基金项目: 明朝审计制度及其环境变迁研究(编号:KYCX18_1661)

作者简介: 曹杰(1995— ),男,江苏张家港人,硕士研究生,政府审计方向。

标签:;  ;  ;  ;  

大数据审计中的特征工程论文
下载Doc文档

猜你喜欢