基于关键字的检索方法在非结构化审计数据分析中的应用_数据抽取论文

基于关键字检索的方法在非结构化审计数据分析中的运用,本文主要内容关键词为:结构化论文,关键字论文,方法论文,数据论文,此文献不代表本站观点,内容供学术参考,文章仅供参考阅读下载。

一、非结构化审计数据简述

1、非结构化数据类型。非结构化数据主要包括所有格式的办公文档、文本、图片、图像、XML、HTML、音频、视频、PDF、电子表格等。相对于结构化数据而言,非结构化数据不便用数据库二维逻辑表表现。特点是数据量繁多、格式多样、不利于组织管理。审计最常见的非结构化数据类型是文本、PDF文件、电子表等,具体包括以下方面:(1)年度工作报告、总结。通常包含单位基本情况、年度工作成绩和不足、次年工作安排和打算。(2)规章制度。主要包括财务规章制度、人力资源规章制度、业务规章制度、资产规章制度等。按照规范内容分类主要包括规划建设、资本运营、生产经营、人事与劳资、财务及审计管理、纪检监察等方面的规章制度。(3)会议纪要及记录。会议纪要是用于记载、传达各类会议情况和议定事项的公文。会议记录则是企业在各类会议中由指定人员对会议内容的实时记录。(4)以前年度审计数据。主要包括审计数据、审计报告和其他数据。(5)收发文登记簿。(6)收发文件。

2、非结构化数据分析方法分类。(1)按照存储方式可以分为两种:一是非结构化数据存储在传统的数据库表的对象字段中,这种方式充分利用数据库的事务、管理和安全特性,但数据查询和读写的性能不高。主要技术是利用大型数据库提供的,基于超大数据量的文本数据和结构化的二进制数据上类似LIKE的模糊查询,比如,SQL Server 2005全文检索技术,Oracle的全文检索技术,Oracle Text(9i后的名称)。二是非结构化数据以文件的方式存储在文件系统中,同时将指向文件的链接或路径存储在数据库表中,这种方式数据读写的速度较快,但数据管理不方便,并需要额外考虑事务处理的一致性和数据的安全性。主要技术有三种:其一全文检索技术。是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。其二文本摘要技术。是指从文档中抽取关键信息,用简洁的形式对文档内容进行解释和概括。其三文本分类、聚类等数据挖掘技术。文本分类是将待分类的文本分配到已经存在的某些类别中;文本聚类是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能大,而不同簇间的相似度尽可能小。(2)按审计对象之间的联系可以分为三种:一是部门、单位运转文档。主要包含收发文登记簿、收发文、规章制度,包含维持一个单位或部门正常运转的制度、指令的上传下达以及文档和数据。二是重大或者特殊事项决策文档。主要包含会议纪要及记录,反映一个单位或部门对重大事项或特殊事项的集体讨论决策过程。三是部门或单位总结文档。年度工作报告、总结和以前年度内外部审计数据,反映内部和外部对单位或部门的工作总结和评价、不同年度之间的有共性或者联系和对比以及关联分析结果。

二、关键宇检索分析方法的运用

对非结构化数据的分析,主要是运用统计、对比、关联等方法,综合某一关注事项的相关表述,为确定审计重点提供帮助和依据。在审计实践中,主要结合审计对象之间的联系,利用关键字全文检索技术,对审计接触到的大量Word、PDF非结构化文档,采用关键字搜索相关段落合并方法和表格抽取方法,对经常碰到的非结构化数据分析。

1、对会议纪要的分析。对会议纪要的分析主要是为了掌握在一定审计期间被审计单位作出的重大经济决策事项的总体情况,按涉及的二级单位及主要决策事项类别进行分类汇总、分析,确定重大经济决策事项主要分布在哪些领域及哪些二级单位,并深入分析会议记录及收发文登记簿,了解、核实重大经济决策事项的决策过程。会议纪要具有以下特点:表述比较规范,通常使用“讨论”、“通过”、“同意”、“听取……汇报”等词语表述不同性质的会议事项;通常是一个段落表述一件事情:讨论对象明确。针对会议纪要的特点,对会议纪要的分析可以按如下步骤进行:(1)基于会议纪要的表述方式,提取会议纪要表述关键字,要尽量包含所有的表述方式并且表述关键字尽量不相交。形成会议纪要按表述关键字分类表(如表1所示)和会议纪要按二级单位以及部门分类表(如表2所示)。(2)根据表述关键字,利用Word关键字搜索合并文档方法,对会议纪要内容分类合并相关段落,统计纪要事项。(3)根据内容对决策事项进行分类,选择重点事项重点关注。

表1 会议纪要按表述关键字分类表

表2 会议纪要按二级单位和部门分类表

图1 思路实现技术架构图

2、对收发文、规章制度、年度工作报告的分析。对收发文和规章制度、年度工作报告的分析,可以根据审计需求,关注某一事项管理、经营决策过程、存在问题、采取措施、整改意见等。利用关键字抽取技术,统计、关联、对比分析不同年度的同一问题,或者是同一问题的不同行为(如制度制定、审计建议、整改措施等),为选择重点风险领域提供分析依据。具体步骤如下:(1)对拟分析的文档做预处理,抽取审计关注问题的关键字。(2)利用Word文档关键字搜索合并技术,合并不同年度关注问题的表述。(3)如果涉及表格,则从Word文档中抽取表格。(4)对不同年度的关注问题表述进行关联、对比分析。

三、关键字检索分析方法的技术思路

基于以上分析,采用JDK1.6进行开发实验,基于TOMCAT6和采用BS方式基本能实现其功能要求,技术思路如图1所示。

1、Word和PDF文档搜索合并方法。主要思路:抽取同一目录中包含同一关键字的多个文件的相关段落,合并成一个文本文件,提供给审计人员,辅佐审计人员对重要事项、关联事项进行分析,具体如图2所示。具体步骤如下:步骤一:Word、PDF、Excel文件内容抽取。处理所选文件目录下的所有Word及PDF文档。Word抽取器:负责Word文档的解析及抽取任务,以段落或PDF的行为处理单位。相关的抽取规则由用户定义。Excel抽取器:负责Excel文档的解析及抽取任务,以列为处理单位。相关的抽取规则由用户定义。步骤二:建立索引。为了快速查找文件中的特定内容,根据Word及Excel文件内容的区别,分别为其建立索引。Word索引器:以Word抽取器提供的内容为Word文件建立索引。Excel索引器:以Excel抽取器提供的内容为Excel文件建立索引。步骤三:查询处理。接受用户的查询请求,完成查询任务,并将结果返回给用户。查询准备:接收到用户的查询请求后,按给定的搜索条件进行搜索分析,包括查询关键字的分词、分析涉及的索引文件及原始文件;查询处理:根据“查询准备”阶段的处理结果,进行相关内容的定位、数据统计等任务;生成结果:根据要求将结果保存到TXT文本文件、Excel文件中,并将结果直接返回给用户界面。步骤四:返回查询结果。

2、Word文档表格抽取方法。主要思路:抽取Word文档中的表格表头信息,根据审计人员意图选取合适的表格,抽取Word文档中的多个表格,保存为Excel文件,具体如图3所示。

四、实例说明

现以某企业的会议纪要为例,说明按关键字检索分析方法的实际操作。某企业第二次、第三次总经理办公会议纪要如表3、表4所示。具体操作步骤如下:步骤一:提取会议纪要关键字如下:“传达”、“要求”、“听取、汇报”、“通报”等。步骤二:运用Word文档搜索分析工具,按关键字分别生成含关键字的文本文档。比如,以关键字“要求”搜索“会议纪要”目录下的文件,生成文本文件内容如表5所示。步骤三:形成按关键字分析的分类表,并按照关键字分别摘要会议纪要事项,如表6所示。步骤四:通过在Excel中对“相关事项摘要”去除重复项,完成对会议纪要的整理和分析,如表7所示。

图2:关键字检索并合并文档

图3 Word文档表格抽取

表3 某企业第二次总经理办公会议纪要

表4 某企业第三次总经理办公会议纪要

表5 生成的文本文件内容

表6 按关键字整理会议纪要事项

表7 根据会议纪要关键字整理会议纪要事项

标签:;  ;  ;  ;  ;  

基于关键字的检索方法在非结构化审计数据分析中的应用_数据抽取论文
下载Doc文档

猜你喜欢