大数据审计中的可视化分析_大数据论文

大数据审计中的可视分析,本文主要内容关键词为:可视论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

      近年来,随着信息技术与经济社会深度融合,以数据分析为核心的计算机审计成为国家审计的重要手段。互联网、物联网以及智能移动终端的迅猛发展,催生了数据量激增、信息量爆炸的大数据时代,大数据正成为国家审计持续发展的重要战略资源。

      传统的数据分析方法在大数据环境下亟待变革。传统的数据分析方法,一般是业务审计人员依据抽象的业务流程提出审计思路,计算机人员再根据其思路反复编写修改程序来验证审计思路可行性,这是一种“验证型审计”方式。在巨量(Volume)、多样(Variety)、高速(Velocity)、价值高密度低(Value)的大数据环境中,这种验证型审计方式某种程度上说有些“误打误撞”、“盲人摸象”,数据分析工作量大,在审计宽度、审计深度方面都面临较大风险。

      可视分析是大数据审计取得突破的重要方向。大数据审计的目标是把隐没在海量的、异构的、杂乱无章的电子数据中的信息集中、萃取和提炼出来,揭示其内在规律,为评价被审计单位经济活动和相关资料的真实性、合法性、效益性提供有力的线索或直接的证据。客观上,大数据环境要求计算机审计工作从“验证型审计”方式转变为“发掘型审计”方式。这既需要先进的人工智能,包括智能搜索、数据挖掘等,也需要人的感知能力、认知规律与分析过程的有机融合,包括人机交互、可视建模、图形展示等。可视分析是以可视化技术和自动化分析模型为核心,辅助用户对大规模复杂数据集进行分析推理的科学与技术。通过可视化的自动建模技术将大数据以直观的图形形式展示,审计人员往往能够一眼洞悉数据背后隐藏的信息,不再受制于枯燥晦涩的数据分析算法。因此,以人为中心的探索式可视分析是大数据审计不可或缺的重要手段或方法。

      一、可视分析的概念与相关研究

      在1986年10月美国国家科学基金会举办的图形、图像处理和工作站讨论会上,科学计算可视化概念第一次被正式提出。经过近30年的发展,可视化技术的范围逐渐延展为科学计算可视化、数据可视化、信息可视化和知识可视化四类,其主要区别是处理对象以及目的不同(张卓,2010),如图1所示。

      

      可视化技术与人机交互、认知科学、数据挖掘、信息论、决策理论等研究领域交叉融合,产生了新的研究方向——可视分析。Thomas和Cook在2005年给出了可视分析的概念:一种通过交互式可视化界面来辅助用户对大规模复杂数据集进行分析推理的科学与技术。可视分析的运行过程是数据-知识-数据的循环过程,中间经过两条主线:可视化技术和自动分析模型。可视化领域国际顶级会议IEEE VisWeek自2006年起每年举办“可视分析科学与技术”会议(IEEE Conf.on Visual Analytics Science and Technology,简称IEEE VAST),可视分析正式成为一个独立的研究分支。

      可视分析的初始研究目标之一是面向大规模、动态、模糊或者常常不一致的数据集进行分析,其与大数据分析的场景高度吻合。大数据可视分析是指在运用大数据自动分析挖掘方法的同时,利用支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术,有效融合机器的计算能力和人的认知能力,以获得对于大规模复杂数据集的洞察力。

      大数据分析的研究得到一些国内外学者的关注(程学旗等,2014;刘智慧等,2014;方巍等,2014),国内大数据可视分析的研究还比较鲜见(任磊等,2014;张俊,2013),大数据审计中的可视分析研究目前几乎还是空白。大数据可视分析的研究范围主要包括分析过程的认知理论、信息/数据可视化理论以及人机交互与用户界面理论。研究表明,大数据的主流可视化技术包括文本可视化、网络(图)可视化、时空数据可视化、多维数据可视化技术;支持可视分析的人机交互技术主要包括支持可视分析过程的界面隐喻与交互组件、多尺度/多焦点/多侧面交互技术、面向Post-WIMP的自然交互技术。关于大数据审计的研究文献比较稀缺(秦荣生,2014),个别文献在特定的审计项目中探索了可视化技术的应用(邱玉慧等,2014;李强等,2011),但均未对大数据审计可视分析方法进行系统研究。

      二、大数据审计的可视分析需求

      (一)图形图像数据审计的可视分析

      在交通运输、资源环保、人口地理、建筑市政、制造业、医学医疗等行业或业务的审计中,计算机中承载业务的数据主要是融合几何信息、像素信息的图形图像数据,大数据可视分析具有得天独厚的优势。

      与传统的数据分析技术相比,可视分析技术更倾向于发掘型分析,它的特点主要表现在:一是具有友好的人机交互能力,可视化数据分析的所有操作完全通过鼠标人机交互完成,即便无计算机专业背景的审计人员也能轻松应用。二是具有丰富的图形展示功能,有助于审计人员把握整体情况,明确审计重点,获得审计思路,提高审计质量。尤其适合于地理信息、人口信息、基建工程、医学图像、机械制造等数据的立体展示及数据分层(分类)汇总。三是具有强大的图形分析功能,可交互构建和调整曲线、曲面、点云等数学模型。适合于对海量数据进行趋势分析,为查找异常提供线索。四是具有多样图形运算功能,可替代部分数据库编程工作,提取异常数据。如两个信息系统间数据的模糊匹配,在海量数据的情况下,其速度比传统的数据库编程方式快几万倍;又如按地理位置划分税率的税收审计,如城建税、土地使用税等,数据库编程根本无法实现,图形化运算则可快捷实现。五是部分可视化分析软件提供丰富的工程核算功能,可快捷地计算不规则形体的面积、体积、质量、密度等,适合于投资审计领域的工程量核算、退耕还林检查、建设征地核查等。(见图2)

      (二)结构化数据审计的可视分析

      除了图形图像数据,承载被审计单位主体业务的数据基本都是结构化数据,此时,大数据分析的主要途径是商业智能与数据挖掘。商业智能软件和数据挖掘软件底层的多维分析、趋势分析、关联分析、多元分析(如判别分析、聚类分析、主成分分析、因子分析、典型相关分析)基于深奥复杂的统计分析模型和数据挖掘算法,尽管它们支持丰富、直观、漂亮的图表展示,但往往并未深入结合人机交互的理论和技术,难以全面支持可视分析的人机交互过程,审计人员通常一筹莫展,只能望洋兴叹。限于篇幅,下文仅以多维分析和关联分析为例讨论可视分析技术在大数据审计场景下的应用。

      

      1.可视多维分析。多维分析是以海量数据为基础的复杂分析技术,可以对以多维形式组织起来的数据进行上卷、下钻、切片、切块、旋转等各种分析操作,实现立体式、多角度、多侧面观察和剖析数据。审计数据分析需求的特殊性与现有工具的局限性之间存在突出矛盾,制约了多维分析技术在审计中的应用。审计数据分析是抽丝剥茧、去伪存真、溯本求源的过程,常需频繁转变分析视角、颠覆分析思路、调整分析模型,这要求多维分析模型能够简单部署、快速调整、灵活应变。但现有的工具难以满足需求:一是灵活性不够强,工具要求“维”数据和“度量”数据预先创建,且创建过程相当耗时,但审计思路调整往往意味着新“维度”,需耗费相当长时间进行维度的再次创建,无法适应审计数据分析模型的快速调整、灵活应变的需求。二是分析模型的建立相当复杂。由于缺少自动分析模型,难以人机交互地可视建模,需要计算机人员编制程序来实现,普通审计人员望而却步,而计算机人员将审计人员的分析思路转化为分析模型的过程常常“走样”。引入可视多维分析技术,基于内存的数据引擎技术,无需关注数据结构的差异,“维”数据和“度量”数据不需预先创建,能根据审计需求变化及时调整;不再依赖计算机人员编写SQL程序,可完全通过图形化用户界面自动地、交互地构建审计模型,审计人员自己构建模型保证不“走样”;根据数据的特点智能识别审计分析需求,匹配适当的分析模型和图表展示方式。

      2.关联关系可视分析。关联是指两个或两个以上对象或属性之间存在某种规律性,分为简单关联、时序关联和因果关联。关联分析的目的在于发现海量数据集中的关联性或相关性,揭示事物某些属性出现的规律和模式,众所周知的“啤酒和尿布”的故事即是关联分析的成功实例。审计实践中,揭示单位、人物、资金、事项等对象或属性之间的关联关系或相关关系,挖掘背后隐藏的利益链条是履行审计监督职责的应有之义。关联分析的算法晦涩难懂,建模过程和分析结果都依赖于抽象、复杂的统计理论,审计人员往往可望而不可即。引入可视分析技术,将结构化、半结构化和非结构化数据转化为图形,可为审计人员提供直观的实体关系图,借助丰富的可视化分析算法和分析工具,可快速找到审计线索和审计思路,提高工作效率。可视化的建模工具能帮助审计人员对同一数据从不同角度进行建模,建立网络、时间、空间和统计等多个视图。利用链接分析、路径分析、群集分析、社会网络分析等可视化分析算法和分析工具,审计人员可直观地分析图形中数据之间显示的和隐含的关联关系、时间关系和空间关系,寻找审计思路、发掘审计线索。(见图3)

      三、大数据审计中的可视分析实践

      近年来,审计机关在大规模数据的可视分析方面进行了持续不断的探索,增强了对可视分析的认识,为大数据审计可视分析信息系统的构建积累了一定的经验。

      (一)可视分析软件概述

      市场上还没有针对审计专用的可视化数据分析软件,当前的可视化数据分析软件往往侧重于具体的应用领域。Excel操作简单,提供了基本二维图形分析能力,但能处理的数据量有限。Matlab、Maple、SPSS和SAS是比较流行的科学计算可视化软件,提供了强大的数学建模和统计分析能力,在科学研究领域应用较广。目前,市场流行的地理信息系统软件有ArcInfo、MapInfo等,它们支持以可视化形式分析基于地理信息的统计信息,具有充分展示数据的空间地理位置信息的能力,与关系型数据库紧密集成,且具有可视化的SQL查询功能,非常适合对与地理位置相关的测绘测量数据的分析,如GPS、遥感遥测、国土资源、环保农业、以地域划分的税种的审计。成熟的计算机辅助设计软件AutoCAD、Revit Architecture、Imageware具有强大的三维图形运算能力与工程核算能力,能处理千万级的大规模数据点,通过图形运算自动计算工程数据,适用于海量数据的趋势分析以及基建项目的工程核算。IBM SPSS Modeler、MineSet和DBMiner都是知名的数据挖掘系统,拥有直观的操作界面、自动化的数据准备、成熟的预测分析模型,其在数据可视化和算法可视化方面不断完善,能完全图形化地配置数据挖掘程序。近年来,以可视多维分析为核心的商业智能解决方案快速崛起,如Tableau、QlikView、PowerPivot等,这些解决方案部署周期短、适应性强,能根据实际需求快速进行调整变换,除依旧擅长数据可视化外,还结合了先进的自动化分析技术及图形化建模技术,即使非计算机专业人员也能快速掌握并熟练运用。IBM I2是一款适用于调查、分析、办案人员的可视化数据分析软件,可快速地分析关联关系、时间关系和空间关系,非常适合大数据审计中进行相关关系分析等。

      (二)交通调度数据的可视分析实践

      

      1.应用可视分析明确审计思路。如,在某急救系统审计项目中,为评估其业务效益以解决长期以来群众反映强烈的“叫车难、等车时间长”等问题,审计人员决定分析其业务系统。据了解,该单位的业务系统由调度系统和GPS系统组成,两个系统中均包含海量、无序的空间地理位置数据。应用传统的SQL编程方法处理速度慢,无法提前把握业务的整体情况,审计只能“边走边看”,审计质量难以控制。于是审计人员决定通过图形化直观的展示,以提前把握业务的整体情况,缩小审计范围,节省审计资源。具体步骤如下:(1)准备数据并导入可视化软件。首先,审计组取得了被审计单位的调度系统、GPS系统的数据库备份;然后在数据清理的基础上,将审计期间(近3年)的呼救位置、急救站位置等信息导入可视化分析软件中,数据以年份分层、属性分类的方式组织。(2)多样化展示数据,捕获审计线索。审计人员按年份、车辆用途3(急救、非急救、转院)、关键时刻点(呼救时刻、调度开始时刻、调度结束时刻、出车时刻、到达现场时刻、病人上车时刻、到达医院时刻)等属性分类叠加地展示急救车、急救站的地理位置数据,并通过放大/缩小、视角旋转等功能详细展示可疑区域(见图4)。通过直观的展示,审计人员敏锐地捕捉到可疑线索。例如,急救呼叫位置集聚于火车站、老居民小区集中带等特殊区域;急救需求远高于非急救和转院的需求;急救车接受任务出车时刻大多在途中而非在急救站;调度系统中记录的待送往医院的位置与GPS系统中急救车实际送达位置不一致。(3)依靠可视化分析功能,支撑审计评价。审计人员利用“偏差分析”功能分析急救呼叫位置与急救站的偏差(见图5),观察到急救呼叫位置对急救站的集聚性特征,于是利用统计功能计算出集聚于各个急救站的急救呼叫的次数,以判断急救站配备的急救车辆数量是否适当;根据集聚性特征,审计人员利用“区域抽取”功能分割开集聚于各个急救站的急救呼叫的位置,然后,利用“同心度”分析功能计算各分割块的重心(见图6),以初步评价急救站的选址是否科学。

      2.应用可视分析查找异常。依然使用前面院前急救系统审计项目的案例。为核查数据展示时发现的“调度系统中记录的待送往医院的位置与GPS系统中急救车实际送达位置不一致”的问题,考虑急救车实际送达位置的GPS值与医院的GPS值之间肯定存在细微误差,需要对两个系统中的相关数据进行“模糊匹配”。若使用SQL编程方法进行“模糊匹配”,不但计算量大且速度慢,审计人员利用图形运算功能(布尔运算)进行“模糊匹配”,设定模糊误差为Delta,用调度系统中的地理位置数据(见图7)“减去”GPS系统中的地理位置数据(见图8),轻松快速地得到了疑点数据(见图9)。进而,审计人员形成了“急救车司机可能提前按键缩短任务执行时间以提高绩效考核数据”的审计思路,然后审计人员利用刚刚得到的疑点数据核查急救车在相关任务执行中的实际情况。

      (三)其他数据的可视分析实践

      某市教育资源库建设项目是该市教育信息化重大应用项目,建设目标是为全市教育单位和教师提供优质丰富的教育资源,成为“校长管理的参谋、教师教学的助手、学生学习的工具和终身教育的课堂”。作为资源库建设效益评价的一个方面,审计人员运用可视分析软件Tableau Desktop对资源库的建设绩效和使用绩效进行了统计分析。

      

      

      

      

      1.应用可视多维分析评价建设绩效。为评价教育资源库建设的成效,可运用可视化软件对教育资源的分布、更新情况进行多维统计分析。审计人员将可视化分析软件链接上被审计单位的数据库后,通过鼠标将资源类型、年份拖拽为“维度”,资源数量为“度量”,可视化软件自动运用“树地图”分析方法,各类资源分布极不均匀的情况一目了然(见图10),进而切换为“显示文本表”数据表现方式,各类资源详尽的分布比例数值清晰明了(见图11)。运用鼠标“旋转”两个维度后,可视化软件自动以“填充气泡图”展示,可见,资源更新频率呈现逐年下降趋势(见图12)。然后审计人员将资源类型“维度”“切片”为“高等教育”,观察发现高等教育资源在2004年之后几乎未更新(见图13)。

      

      

      

      

      

      

      

      

      2.应用可视趋势分析评价使用绩效。为分析教育资源库的使用效益,审计人员继而对资源访问量的年度变化情况进行统计分析。审计人员拖拽鼠标将学年、学期(分为暑假、第一学期、寒假、第二学期,分别从第1周开始计算学周)选取为“维度”,访问次数为“度量”,可视化软件自动地以“柱状图”形式直观地展示年度变化情况,显示2005~2008学年访问量基本呈上升趋势(见图14)。由于数据截止时间为2009年10月,审计人员通过鼠标进行了学年“维度”上的“切块”操作,剔除2009年的数据。拖拽学期到图形区域,立刻发现2006年第二学期访问量占比明显偏低,2006年暑假、2007年寒假的访问量均为零(见图15),核实得知,业务系统的日志功能在上述期间的确被人为关闭。以2008年为例,审计人员综合利用“切块”操作将2008年分成寒假、暑假、第一学期、第二学期等四个阶段,然后利用“上卷”操作对各阶段按周汇总资源的访问量,最后生成“折线图”来可视化分析展现资源访问的趋势性特征(见图16)。审计人员观察该时序图即发现,对教育资源的访问明显集中在寒、暑假的最后一个星期,即开学前的一个星期,而两个学期过程中的访问量相对较小。审计人员推测教师在学期开始前和前期备课时使用需求大,经过与部分教师的访谈,核实了这一推测。资源库“教师教学的助手”的定位目标部分得到验证。

      四、构建大数据审计可视分析系统

      (一)大数据可视分析流程

      大规模数据审计中的可视分析的持续探索实践得知,与传统的数据分析流程相比,可视化数据分析流程发生了一定的变化(见图17、图18),主要步骤如下:

      1.数据采集。采集被审计单位的信分析工具等。四是业务应用层,指针对财务、业务审计需求,满足多行业、“全样本”的大数据可视分析要求的一系列应用功能,如资金往来可视关联分析、物料成本可视分析、相关关系可视分析、社会网络可视分析、多行业可视数据挖掘、多行业可视多维分析以及审计思维导图、交通物流可视分析、环境资源可视分析等。五是信息交互层,指在国家审计数据交换中心、省市交换分中心的基础上,实现各业务层面的大数据可视分析工作协同开展。

      

      

      

      大数据审计是新时期审计事业发展的战略方向,可视分析是大数据审计不可或缺的重要方法息系统中审计所需的电子数据。

      2.选取可视分析软件。根据数据特点,判断可视分析需求,选取合适的软件工具。

      3.数据的处理与整合。对采集到的数据进行预处理和整理,去除冗余、无效的数据,并导入选取的可视分析软件。

      4.图形化展示。利用可视分析软件中丰富的图形、图像展示功能,运用合适的展现形式将已整理好的数据进行图形化的展示,帮助审计人员更好地理解信息。

      5.获取审计思路。凭借丰富的色彩、缩放、视角、层次等可视化展现功能将数据从多角度、多层次立体地观察数据隐含的规律,缩小审计范围,查找审计思路。

      6.可视化建模(自动、交互建模)。借助自动化分析模型,通过图形化用户界面,交互地构建审计模型。

      7.可视化提取疑点数据。利用可视化软件提供的强大的交互能力,通过鼠标、键盘操作,审计人员可轻松提取所需的疑点数据。

      (二)大数据审计可视分析系统框架

      按照审计署“五层两翼”的信息系统设计要求,系统架构分为基础设施层、数据资源层、应用支撑层、业务应用层、信息交互层、信息安全保障体系和标准规范体系(见图19)。

      

      一是基础设施层,主要包括支撑应用运行的服务器、存储设备、网络设备、安全设备等。二是数据资源层,指基于国家审计数据中心、省市数据分中心,为应用系统提供数据管理和支撑。三是应用支撑层,基于SOA架构设计,为实现大数据可视分析提供支撑的一系列引擎、组件或基础工具,如信息可视化引擎、人机交互引擎、数理统计引擎、人工智能引擎、数据挖掘引擎、图形处理引擎、多维分析工具、趋势分析工具、关联分析工具、社会网络分析工具、地理信息和手段。大数据可视分析方法有机融合了人面对可视化信息时强大的感知认知能力与计算机的分析计算能力优势,在可视化技术的基础上,强调认知、可视化、人机交互的交叉与融合,能有效地弥补计算机自动化分析方法的劣势与不足,是审计模式从“验证型”向“发掘型”转变的重要途径。

      当前,国内针对大数据审计需求的可视分析技术研究还十分鲜见,迫切需要更多学者及计算机审计专家的关注与支持。在日渐兴起的大数据审计浪潮中,大数据可视分析平台的构建以及应用是计算机审计当前和今后一个时期需要持续研究的课题。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

大数据审计中的可视化分析_大数据论文
下载Doc文档

猜你喜欢