可视化技术在审计数据分析中的应用研究,本文主要内容关键词为:数据论文,技术论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。
随着计算机技术在经济活动中的广泛应用,客观上要求审计人员的作业方式必须做出相应的调整,信息系统审计成为必然。作为信息系统审计的重要组成部分,数据分析是为了把隐没在海量的、杂乱无章的电子数据中的信息集中、萃取和提炼出来,揭示其内在规律,为评价被审计单位经济活动和相关资料的真实性、合法性、效益性提供有力的线索或直接的证据。
审计中常用的数据分析软件有EXCEL、ACCESS、SQLServer、现场审计实施系统(AO)等,利用审计软件进行数据分析的常用步骤如下:首先,采集被审计对象信息系统中的数据;然后,在对这些数据分析和理解的基础上将其转换为审计软件所需要的数据形式;最后,运用计算机审计软件对采集到的电子数据进行分析复核,通常包括运行审计软件中预定义的数据分析功能或编写小程序小模块等方式。这些方法能初步达到数据审计的要求,但在审计过程中,审计人员往往无法预先把握整体业务情况,只能依据抽象的业务流程提出审计思路,计算机人员再根据其思路在浩瀚的数据海洋中反复地验证审计思路的可行性。某种程度上来说,审计过程有些“误打误撞”,不仅数据分析工作量大,计算机技能要求高,审计质量也难以控制。可视化技术的发展使其在数据审计中的应用大有可为。基于可视化技术,业务审计人员在一定程度上可摆脱数据库SQL编程语言的束缚,通过鼠标操作就能得到直观的图形化分析结果。审计人员依据图形化展现的总体业务情况,能选定审计重点,有效地约束审计范围,查找审计线索,提炼审计思路,控制审计质量。
一、可视化技术概述
(一)可视化技术的起源。早在20世纪初,人们已经将表格和统计图等原始的可视化技术应用到了科学数据分析中。1986年10月,在美国国家科学基金会的图形、图像处理和工作站讨论会上,提出了科学计算可视化(Visualization in Scientific Computation)概念,从此可视化技术被正式提出。1987年,由布鲁斯·麦考梅克等人所编写的美国国家自然科学基金会报告《Visualization in Scientific Computing》,对可视化技术领域产生了大幅度的促进和刺激。现代可视化技术,指的是利用计算机的图形图像处理技术,把各种数据信息转换成的合适的图形图像在屏幕上展示出来并进行人际交互,以便于人们接受、理解原始数据、信息的技术方法。它作为一门交叉学科涵盖了许多研究领域,包括:计算机图形学、计算机视觉、计算机辅助设计、几何学、感知心理学和人机交互等技术。
(二)可视化技术的分类。通常情况下,人们习惯于将可视化分为以下四类:科学计算可视化(Visualization in Scientific Computation)、数据可视化(Data Visualization)、信息可视化(Information Visualization)和知识可视化(Knowledge Visualization)。这四类可视化的主要区别在于可视化处理对象以及目的的不同。科学计算可视化主要用于处理科研领域实验产生和收集的海量数据,力求真实的反应数据原貌,利于模拟实验的进行;数据可视化较为笼统,一般用于处理数据库和数据仓库中储存的数据,目的在于以可视化的方式呈现数据,利于使用者观察;信息可视化是指利用计算机支撑的、交互的,用抽象数据的可视表示,来增强人们对非物理抽象信息的认知;知识可视化是指将人们的个体知识以图解的手段表示出来,形成能够直接作用于人的感官的知识外在表现形式,从而促进知识的传播和创新。
1.科学计算可视化。上世纪80年代,科学数据大量产生,由于缺乏有效的辅助工具和手段,90%以上的数据都白白浪费,严重影响了科学发现与科学交流。1987年,美国国家自然科学基金会在华盛顿召开了科学计算可视化首次专题讨论会,认为“将图形和图像技术应用于科学计算是一个全新领域”,指出科学家们不仅需要分析由计算机得出的计算数据,而且需要了解在计算过程中数据变化的情况,这些都需要借助于计算机图形学及图像处理技术。
科学计算可视化也可称作科学可视化,是指通过运用计算机图形图像处理等相关技术,将科学计算过程中得到的大量数据转换为适当的图形界面显示出来,并能进行人际交互处理的一系列理论、方法和技术。科学计算可视化应用广泛,气象预报、医学图像处理、物理、油气勘探、地学、有限元分析、生命科学等众多领域都已经离不开科学计算可视化了。
2.数据可视化。一般认为,数据可视化是指对大型数据库或者数据仓库中的数据进行可视化。数据可视化借助于计算机的快速处理能力,并结合计算机图形图像学方面的技术,能够把海量的数据以图形、图像或者动画等多种可视化形式更加友好地展现给人们。这使得用户可以不再局限于通过关系数据库来分析处理数据,能以更加直观的方式来观察研究数据。丰富的交互手段能够显著改善用户的使用体验,是可视化技术的价值倍增器。用户可以通过人机交互的手段对显示数据进行分类、筛选,并控制图表的生成,便于以最佳的方式看到想要的数据。人机交互使得数据可视化技术更利于发现数据背后隐藏的规律,为人们分析使用数据、发现规律获取知识提供了强有力的手段。数据可视化技术的应用非常广泛,特别在商务、金融领域有广阔的应用空间。
广义的数据可视化则在一定程度上或全部包含了科学计算可视化、信息可视化和知识可视化。数据可视化涉及几种主流技术:
(1)基于几何的技术,以几何画法或几何投影的方式来表现数据库中的数据(例如,传统的折线图和柱状图),是目前最为常用的技术,比较有特点的是平行坐标法(Parallel Coordinates);
(2)面向像素的技术,将每一个数据项的数据值对应于一个带颜色的屏幕像素,对于不同的数据属性以不同的窗口分别表示,德国慕尼黑大学用这种技术实现了VisDB系统;
(3)基于图标的技术,基本思想是用一个简单图标的各个部分来表示n维数据属性,枝形图法(Stick Figures)最有代表性;
(4)基于层次的可视化技术,主要针对数据库系统中具有层次结构的数据信息,将n维数据空间划分为若干子空间,对这些子空间仍以层次结构的方式组织并以图形表示出来,树图(Tree map)技术是其代表。数据可视化还有其他的技术方法,如3D技术、基于图形的技术等。
数据可视化技术目前尚不成熟,有两个发展趋势:一是数据可视化和数据挖掘技术结合,使得数据可视化系统更加智能化;二是数据可视化技术中人机交互的设计还有待完善。
3.信息可视化。信息可视化这个术语第一次出现在1989年Robertson,Card和Mackinlay发表的用于交互性用户界面的认知协处理器中。信息可视化主要是指利用计算机支撑的、交互的对非空间的、非数值型的和高维信息的可视化表示,以增强使用者对其背后抽象信息的认知。2000年Jim Foley在关于计算机图形学的十大尚未解决的关键问题中,将信息可视化列为第三位。
信息可视化技术已经在信息管理的大部分环节中得以应用,如信息提供的可视化技术、信息组织与描述以及结构描述的可视化方法、信息检索和利用的可视化等。
4.知识可视化。知识可视化曾被称为领域可视化(Domain Visualization)、主题领域可视化(Subject Domain Visualization)、知识域可视化(Knowledge Domain Visualization),指的是对基于领域内容的结构进行的可视化。
知识可视化(Knowledge Visualization)主要是指通过可视化技术来构建和传递各种复杂知识的一种图解手段,以提高知识在目标人群中的传播效率。知识域可视化(Knowledge Domain Visualization)是指对基于领域内容的结构进行可视化,通过使用多种可视化的思维、发现、探索和分析技术从知识单元中抽取结构模式并将其在二维或三维知识空间中表示出来,即对某一知识领域的智力结构的可视化。
知识可视化不只是知识的一种图解,更需要人工智能、知识科学、计算语言学和认知语言学等学科的支持,目前已有的技术方法有:概念图(Concept Map)、思维导图(Mind Map)、认知地图(Cognitive Maps)、语义网络(Semantic Networks)、思维地图(Thinking Maps)等。
5.四种可视化方法比较。四种可视化技术相互联系又互有区别。其从处理对象来看,数据到知识是一个不断抽象的过程,数据是信息的载体,信息是数据的涵义,知识又是信息的结晶。数据、信息、知识以及智慧(Data、Information、Knowledge、Wisdom,DIKW)至今没有一个明确的普遍认可的定义,它们是相对的且依赖于所处环境的,Zeleny认为DIKW金字塔最能准确表达四者之间的相互关系,数据是塔基而智慧是塔尖,Ackoff认为贯穿于DIKW金字塔之间的核心因素是“理解”(understanding),只有通过“理解”,才能从塔基升华到塔尖。
四种可视化技术之间的关系正如图一所示,从广义上看科学计算可视化从属于数据可视化,数据、信息和知识在一定程度也是相通的,因此它们彼此都有交叉(见图一)。但是,它们又有很多差异,图二从可视化对象、处理技术、可视化目的和研究重点等方面,对四种可视化技术进行了全面对比(见图二)。
二、审计中应用可视化技术进行数据分析的方法
在审计中,可视化数据分析方法一般可分为以下几个步骤(见图三):首先,识别数据可视化需求,选取可视化分析软件。审计人员通过分析数据可视化的需求,判断所需的可视化功能,选取合适的软件工具。其次,进行数据预处理去除冗余、无效的数据,并导人选取的软件。再次,凭借丰富的色彩、缩放、视角、层次等可视化数据展现功能从多角度、多层次立体地观察数据隐含的规律,缩小审计范围,查找审计思路。最后,借助可视化建模工具构建曲线、曲面、点云、网格等多样的数学模型,并借力图形化的比对分析、偏差分析、曲率分析等分析工具提取疑点数据。
与传统的数据分析技术相比,可视化数据分析技术的特点表现在一是具有友好的人机交互能力,可视化数据分析的所有操作完全通过鼠标人机交互完成,即便无计算机专业背景的审计人员也能轻松应用。二是具有丰富的图形展示功能,有助于审计人员把握整体情况,缩小审计范围,节省审计资源。尤其适合于地理信息、人口信息、基建工程、医学图像、机械制造等数据的立体展示及数据分层(分类)汇总。三是具有强大的图形分析功能,可交互的构建和调整曲线、曲面、点云等数学模型。适合于对海量数据进行趋势分析,为查找异常提供线索。四是具有多样图形运算功能,可替代部分数据库编程工作,提取异常数据。如两个信息系统间数据的模糊匹配,在海量数据的情况下,其速度比传统的数据库编程方式快几万倍;又如按地理位置划分税率的税收审计,如城建税、土地使用税等,数据库编程根本无法实现,图形化运算则可快捷实现。五是部分可视化分析软件提供丰富的工程核算功能,可快捷地计算不规则形体的面积、体积、质量、密度等,若通过数据库编程计算不仅工作量大而且准确性差。适合于投资审计领域的工程量核算、退耕还林检查、建设征地核查等。
随着计算机操作技术的培训和普及,审计人员已经能熟练运用EXCEL等软件进行可视化数据分析,EXCEL软件操作简单,提供了基本二维图形分析能力,能处理最多32000个数据点。计算机基础较好的审计人员,通过培训可逐步掌握运用MatIab、Mathematics、SPSS等科学计算可视化软件进行图形化分析的技能,这些软件提供了更为强大的数学建模与数值计算能力。目前,市场主流的地理信息系统软件有Arclnfo、Maplnfo等,它们具有充分展示数据的空间地理位置信息的能力,与关系型数据库紧密集成,且具有可视化的SQL查询功能,非常适合对与地理位置相关的测绘测量数据的分析,如GPS、遥感遥测、国土资源、环保农业、以地域划分的税种的审计。另外,成熟的计算机辅助设计软件AutoCAD、Revit Architecture、Imageware具有强大的三维图形运算能力与工程核算能力,能处理千万级的大规模数据点,通过图形运算自动计算工程数据,适用于海量数据的趋势分析以及基建项目的工程核算。
三、审计中应用可视化技术进行数据分析的案例
(一)应用可视化技术明确审计思路。在2009年院前急救系统审计项目中,为评估其业务效益以解决长期以来群众反映强烈的“叫车难、等车时间长”等问题,审计人员决定分析其业务系统。据了解,该单位的业务系统由调度系统和GPS系统组成,两个系统中均包含海量、无序的空间地理位置数据。应用传统的SQL编程方法处理速度慢,无法提前把握业务的整体情况,审计只能采用“边走边看”的形式,审计质量难以控制。于是审计人员决定通过图形化直观的展示,以提前把握业务的整体情况,缩小审计范围,节省审计资源。具体步骤如下:
1.准备数据并导入可视化软件。首先,审计组取得了被审单位的调度系统、GPS系统的数据库备份;然后审计组在数据清理的基础上,将2006年至2009年的呼救位置、急救站位置等信息导入可视化分析软件中,数据以年份分层、属性分类的方式组织。
2.多样化展示数据,捕获审计线索。审计人员按年份(2006-2009)、车辆用途(急救、非急救、转院)、关键时刻点(呼救时刻、调度开始时刻、调度结束时刻、出车时刻、到达现场时刻、病人上车时刻、到达医院时刻)等属性分类叠加地展示急救车、急救站的地理位置数据,并通过放大/缩小、视角旋转等功能详细展示可疑区域。通过直观的展示,审计人员敏锐地捕捉到可疑线索。如急救呼叫位置集聚于火车站、老居民小区集中带等特殊区域;急救需求远高于非急救和转院的需求;急救车接受任务出车时刻大多在途中而非在急救站;调度系统中记录的待送往医院的位置与GPS系统中急救车实际送达位置不一致。
3.依靠可视化分析功能,支撑审计评价。审计人员利用“偏差分析”功能分析急救呼叫位置与急救站的偏差,审计人员观察到急救呼叫位置对急救站的集聚性特征,于是利用统计功能计算出集聚于各个急救站的急救呼叫的次数,以判断急救站配备的急救车辆的数量是否适当;根据集聚性特征,审计人员利用“区域抽取”功能分割开集聚于各个急救站的急救呼叫的位置,然后,利用“同心度”分析功能计算各分割块的重心,以初步评价急救站的选址是否科学。
(二)应用可视化技术查找异常。依然使用前面院前急救系统审计项目的案例。为核查数据展示时发现的“调度系统中记录的待送往医院的位置与GPS系统中急救车实际送达位置不一致”的问题,考虑到急救车实际送达位置的GPS值与医院的GPS值之间肯定有细微误差,需要对两个系统中的相关数据进行“模糊匹配”。若使用SQL编程方法进行“模糊匹配”,不但计算量大且速度慢,审计人员利用了图形运算功能(“布尔运算”)进行“模糊匹配”,设定模糊误差为Delta,用调度系统中的地理位置数据“减去”GPS系统中的地理位置数据,轻松快速地得到了疑点数据。进而,审计人员形成了“急救车司机可能提前按键缩短任务执行时间以提高绩效考核数据”的审计思路,接着,审计人员利用刚刚得到的疑点数据核查急救车在相关任务执行中的实际情况。
(三)应用可视化商业智能技术进行趋势分析。商业智能技术是数据仓库、多维分析、数据挖掘等综合运用以支持商业决策的技术。近年来,各级审计机关在多维分析技术在审计中的应用方面进行了持续不断的探索,将商业智能运用到审计中则实现了验证型审计方式和发掘型审计方式的结合,从一定程度上,审计工作从“瞎子摸象”转变为“纵观全局、有的放矢”。
1.商业智能技术在审计应用中的瓶颈。多维数据分析是以海量数据为基础的复杂分析技术,它可以对以多维形式组织起来的数据进行上卷、下钻、切片、切块、旋转等各种分析操作,通过对数据进行剖析,可以从多个角度、多个侧面观察数据库中的数据,迅速找出数据反映的各类信息。近年来,我国审计机关多维数据分析方面进行了不断地探索,取得了较好的效果。然而,多维分析技术的瓶颈问题也日渐凸显:一是缺乏数据挖掘的能力;二是部署专业技能要求高、部署周期长;三是数据分析模型的构建需要较深的专业知识,需要计算机专业人员编写程序,然而计算机专业人员与审计人员对需求的理解和分析结果的展示方式经常出现差异,无法充分发挥多维数据分析的效益。四是审计业务涉及的行业众多、业务变化快,使得数据源的数据结构多样、多变,使得难以部署可复用的多维分析技术,使用率不高却不得不重复部署;五是多维分析技术要求“维”数据和“度量”预先定义,调整工作量大,因而其难以适应审计工作中数据分析需求持续变化的特点。
2.可视化商业智能技术的特点。传统的商业智能技术部署周期长、计算机知识要求高,而审计业务涉及的行业众多、业务变化快、数据源异构,因而数据分析的需求差异大、变化快、数据结构多样。引入可视化商业智能技术,基于内存的数据引擎技术,审计人员无需关注数据结构的差异,轻松部署数据仓库,且“维”数据和“度量”数据不需预先定义,能根据需求变化及时调整,数据分析运算快,结果实时呈现。
异于传统的建模技术,可视化商业智能技术不再依赖于数据分析人员编写SQL程序,审计人员能完全通过图形化用户界面构建审计模型,这较好地解决了审计人员与数据分析人员在分析需求的理解上经常出现差异的问题。同时,可视化商业智能技术能根据数据的特点智能识别审计人员的可视化需求,自动寻求合适的图形化展示方式,提高审计工作效率。
近年来,可视化商业智能解决方案快速崛起,如Grapheur、Spotfire、Omniscope、PowerPivot,QlikView等。这些解决方案部署周期短、适应性强,能根据实际需求快速进行调整变换。此外,基于数据可视化技术,融入可视化智能建模技术的便捷型商业智能解决方案能智能地识别用户的需求,图形化的建模且自动产生合适的图形化展示,即使非计算机专业人员也能快速掌握并熟练运用。
3.情景案例。某市教育资源库建设项目是该市教育信息化重大应用项目,建设目标是为全市教育单位和教师提供优质丰富的教育资源,成为“校长管理的参谋、教师教学的助手、学生学习的工具和终身教育的课堂”。在资源教育库审计项目中,作为资源库建设效益评价的一个方面,审计人员运用Tableau Desktop软件对资源库访问的时序特征趋势进行了统计分析。以2008年为例,审计人员综合利用“切块”操作将2008年分成寒假、暑假、第一学期、第二学期等四个阶段,然后利用“上卷”操作对各阶段按周汇总资源的访问量,最后生成“折线图”来可视化分析展现资源访问的趋势性特征(见图四)。
审计人员观察该时序图即发现,对教育资源的访问明显集中在寒、暑假的最后一个星期,即开学前的一个星期。审计人员推测教师在学期开始前和前期备课时使用需求大,经过与部分教师的访谈,核实了此项推测。资源库“教师教学的助手”的定位目标部分得到验证。
可视化分析技术是数据趋势分析方法中较理想的一种,在提供审计思路、验证审计疑点方面有着简单、直观的优势。
可视化数据分析技术提供了直观的数据展示方法和便捷的数据处理方法,在多个审计项目的实践中,有效地提高了工作效率,提升了审计质量,取得了令人欣喜的审计效果。
当前,可视化数据分析技术在审计中的应用还处于摸索阶段,该技术的应用还存在以下难点:一是当前的可视化数据分析软件往往侧重于具体的应用领域,市场上还没有针对审计专用的可视化数据分析软件;二是部分传统的数据分析技术依然不可取代,如可视化技术不适用于“平行模拟”类型的数据分析;三是可视化数据分析软件的培训和普及工作还有待加强。但实践已初步表明其在审计工作中有着广泛的应用前景,研究如何将其深入应用于数据审计是计算机审计今后需要持续探索的一个课题。
标签:大数据论文; 数据分析论文; 科学计算论文; 可视化技术论文; 可视化管理论文; 审计软件论文; 数据库软件论文; 审计质量论文; 数据库审计论文; 图数据库论文; 功能分析论文; 审计目标论文; 商业智能论文;