网络爬虫技术在大数据审计中的应用
□文/张 露
(安徽财贸职业学院 安徽·合肥)
[提要] 在大数据审计面临着诸多机遇和挑战的大背景下,有效清晰的数据在审计过程中发挥着重大作用,本文分析不同的审计数据的特点以及采集审计数据的方法。在传统数据采集方法基础上研究如何基于Python利用网络爬虫采集审计数据,以为大数据审计技术的发展提供支持。
关键词: 网络爬虫;数据采集;审计分析;Python
一、引言
无论是国家审计还是民间审计,在当今社会经济发展过程中都起到了十分重要的作用,为经济发展“保驾护航”。大数据目前也是各国研究的重点和热点,并将大数据的研究和应用上升到了战略层次。美国注册会计师协会(AICPA)在2014年就对大数据可能对审计产生的影响进行了分析。在全球信息化的大背景下,如何利用大数据降低审计风险,提高审计效率仍然是一个非常重要的命题。2015年中共中央办公厅、国务院办公厅《关于完善审计制度若干重大问题的框架意见》及配套文件中明确提出“构建大数据审计工作模式,构建国家审计数据系统和数字化审计平台,探索建立审计实时监督系统,实施联网审计”。刘国城、王会金(2017)将大数据审计平台分拆为采集、预处理、分析和可视化四个子平台,基于方法支撑、过程建模和运行机理等方面对各个子平台作以专项研究,旨在为大数据审计实践提供建设性思路。秦荣生(2014)指出大数据、云计算技术的产生和发展,正在逐渐影响审计技术和方法的发展。
大数据具有数据体量巨大、处理速度快、数量种类多和商业价值高的特点。被审计对象的信息化促使审计人员在审计方法上更加的信息化,如果将这些大量的、散落的、无序的数据进行集中化、结构化,将其变成能够方便获得可读取的审计数据,并通过审计分析程序发现更加有效和清晰的审计线索,那么大数据将会发挥重大的商业价值。由此可见,数据是审计分析的重要前提,获取高质量数据往往能够帮助审计人员快速发现风险点进行应对,大大提高审计的效率和效果。目前,尚未有成熟的审计大数据收集与整理技术,这影响了大数据在审计中使用的效率。本文将基于目前大数据的研究现状,主要探讨审计人员应当如何利用网络爬虫技术从网络渠道获取所需审计数据,从而扩充审计数据的范围,获得更多的审计线索,提高审计分析效果。
二、审计大数据采集分析
(一)审计大数据类型。大数据审计区别于传统的审计模式,传统审计模式倾向于依据被审计单位提供的相关资料去鉴证其是否真实可靠。而大数据审计是一种实时审计,强调审计人员应当主动地去获取企业内部和企业外部的数据,企业内部的业务数据主要依靠被审计单位提供,而外部数据,比如法律、银行、税务、供应商、客户、物流等其他数据需要审计人员去挖掘和分析。从目前来看,审计大数据可以分为两类:一类是结构化数据,它由明确定义的数据类型组成,比如数字、货币、日期等,其模式可以使其易于搜索。这种数据一般储存在数据库里,比如企业ERP系统中的销售数据、生产数据、财务数据等;另一类是非结构化数据,是指那些不方便用数据库二维逻辑来表现的数据,如办公文档、文本、图片、HTML图像等,审计人员需要的外部数据以非结构化数据类型居多。
1991年孙尚清主持出版的《中国旅游经济发展战略研究报告》为标志,提出了“吃住行游购娱”六要素概念[3]。吃位于第一位,可见人们在旅游过程中对美食的渴望度,吃甚至在一些旅游目的地中作为重要的资源优势,独具特色的地方风味美食兼具了自然与人文资源的结合。所以品尝不同特色的地方食物是游客选择旅游目的地的重要考量。
(二)审计大数据采集方法
幸福作为人类生活永恒的追求的向往,近乎是生活美好的代名词。“生活和幸福原来就是一个东西。一切的追求,至少一切健全的追求都是对于幸福的追求。”[10]292法律的幸福人形象建构立基于人类生活世界对幸福的追求和向往,生活世界是以人和人的生活为中心的世界,实质上是探讨优良和最幸福的生活的观念。作为以人的生活世界为基础的法律,通过法律中人之形象“幸福人”的建构,可使法律的幸福价值彰显。“幸福人”的形象在法律上是一个总括性假设,是诸部门法的人之形象的诸多特性的集合呈现,它在宪政上的架构是在否定性框架上极具丰富的概括性内涵,具有广阔权利发展空间。
利用网络爬虫技术实施审计分析程序的原理主要是能够从被审计单位外部获取更加充足的、高质量的审计数据,而这些数据比被审计单位提供的数据更加可靠,同时可以将获取的新数据与被审计单位提供的内部数据进行对比,帮助审计人员扩大范围,发现更多相关线索,同时也使得审计证据更加充分可靠。
利用网络爬虫技术实施审计分析程序的过程主要有以下几步:首先,锁定目标。根据审计目标确定想要获取的目标数据,明确这些数据主要分布的网页是什么;其次,目标网页分析。为了更高效率的抓取到相关数据,要对目标网页进行结构上的分析,主要是其数据访问的路径和逻辑;再次,数据抓取。通过选择好的软件执行命令,获得数据结果进行保存;最后,数据分析。将通过上述程序获得的数据进行清洗,获得目标数据,可以结合比如SQL查询、Excel分析、数据可视化等技术对数据进行进一步的分析、扩展和确认。
目前,审计数据采集大部分采用的是上述的前三种方法,往往依托一定的数据库基础,能够获得的信息大多基于被审计单位,最后一种网上采集数据的方法由于没有统一的方法和技术,耗费大量时间和经历,往往难以实现,这大大限制了审计人员进行审计分析的范围,同时也使审计的取证率难以达到预期,从某种程度上提高了审计风险。在大数据审计背景下,审计人员执行分析程序不能仅仅将眼光局限于内部数据,更应当从网络公开数据中获取更加全面的信息,但是这些信息大多以网页等格式存在,难以被审计人员直接用于分析,所以本文提出可以利用网络爬虫技术抓取网页上的信息,并整理成一定的格式,方便审计人员从海量数据中发现审计线索,使审计分析程序发挥更大的效用。
1、直接拷贝读取。审计人员首先判断出自己需要的审计数据,然后根据被审计单位使用的财务软件(如金蝶、用友)的使用特点,利用软件数据库已经预设好的指令去提取转换审计人员所需要的数据,并将其保存为Excel等格式。
网络爬虫技术又被称为网络蜘蛛,是一种按照被设定的规则自动获取网页内容的程序脚本。目前,网络爬虫技术被越来越多的运用于互联网中,它能够根据不同的程序代码设定指令,自动获取网页内任何权限的信息数据。程序开始后,按照设定程序,网络爬虫会不断地从URL抓取用户需要的内容,直到满足停止条件,并对抓取到的数据进行分类整合处理,用户可以根据自己的查询需求,从中筛选自己所需要的数据。通过网络爬虫能够为大数据分析提供更高质量的数据源。
3、中间文件采集。指审计人员与被审计单位约定好数据的格式,被审计单位按照要求将自己的相关数据转换成约定的格式,比如说文本文件格式,这种大部分数据库都能够直接读取的格式,从而省去了两种不同数据库对接的问题。
图1 基于Python的网络爬虫代码示例
三、网络爬虫在审计大数据采集中的应用
4、网上采集。除了被审计单位或者上级审计机关提供的相关数据以外,审计人员仍然需要从被审计单位外部获得相关的工商、税务、行业、媒体等公开数据以进行多方面的审计分析,这些数据并不是被直接提供的结构化数据,需要审计人员采用一定的方法从网上进行采集。
目前养殖行业飞速发展,为孕育更好的品种,将优良的基因传递下去,人们开始采用人工授精方式,效果很好,不仅能确保下一代养殖牛基因的优良,还能提高养殖者的利润,是现代化养殖中较为常用的繁殖形式。通过人工授精可以提高母牛的繁殖效率,科学地利用人工授精技术是提高我国养殖业综合质量的关键因素,在未来发展中,人工授精受胎必定会更加广泛地应用于各个养殖业,为养殖者带来更多的价值。
综上,对于临床疑诊为TIO,99mTc-HYNIC-TOC SPECT显像结果阴性的患者,68Ga-DOTA-TATE PET/CT可作为补充检查有效地检出TIO致病肿瘤。TIO致病肿瘤68Ga-DOTA-TATE PET/CT图像上均可见生长抑素受体高度表达。另外,同机CT具有一定的特点,骨组织肿瘤局部可见溶骨性骨质破坏或局灶性骨质密度增高,四肢长骨病变常呈偏心性生长,部分累及骨皮质;软组织肿瘤多呈密度均匀等或低密度结节,具有以上影像学特点倾向于TIO致病肿瘤的诊断。
2、开放数据互联(ODBC)。如果被审计单位与审计人员使用的是可以对接的数据库,可以通过相关的数据访问接口访问被审计单位所使用的业务系统数据库,并将数据进行还原后转出,成为审计人员可以直接利用的数据。
表1基于Python的网络爬虫结果示例
图2 基于Python的网络爬虫抓取企业具体信息示例
四、网络爬虫在审计大数据采集中应用案例
XX集团有限公司创建于1957年,现已发展形成节能环保、钢铁制造及金属贸易、智能健康、教育与技术服务等产业格局的大型企业集团。截至2017年底,拥有全资及控股一级子公司34家。2017年,完成销售收入933亿元、利润25亿元,甲会计师事务所接受委托对该公司进行2017年年度财务报表审计。审计人员在审计过程中发现该公司下一子公司有大量进行一次性交易的客户,并且这些客户都采用了赊购的方式,所以审计人员对这些交易产生了怀疑,认为被审计单位的应收账款“存在”认定有重大错报风险。为进一步获得审计证据,审计人员首先需要被审计单位提供数据库内关于客户的信息并进行查验以验证这些客户的真实性。此时,被审计单位提供信息的可靠性较差,审计人员只能考虑从外部获得审计数据进行比较分析,从而判断客户信息的准确性。如果考虑直接从官方网站获得具体工商数据,审计人员将面临权限受限和工作量巨大等问题。此时,网络爬虫技术能够为这一难题提供很好的解决方案,提高工作效率。
在选择网络爬虫技术时,审计人员选择了目前应用范围相对较广的Python。相对于其他网络爬虫技术,基于Python的网络爬虫技术具有以下优点:一是简洁方便。Python语言最大的特点就是只需要一个简单的编辑器就能满足大部分用户的网络爬虫技术需求,可以让操作人员很快的适应环境,而不用花费过多的精力;二是具有框架技术。如果所需要抓取的数据量较大,则可以使用Python的Scrapy框架实现,它能提供一个功能强大的模板来实现爬虫,仅仅需要按照需求进行简单的修改就可以使用,而不是去进行重新的开发。
审计人员通过Python实现了网络爬虫,从“天眼查”网站上获取相关企业的工商信息。其中部分代码如图1所示,获得的部分结果如表1、图2所示。最终审计人员通过网络爬虫技术迅速获得了审计需要的相关数据,筛选出目标企业,进一步进行了审计分析,与被审计单位提供的有关信息进行比对,得出了其中有18家企业信息涉嫌造假,实为虚构交易的结论,为应收账款的进一步审计提供了重要审计证据。(图1、图 2、表 1)
五、结语
随着大数据在审计中的运用广泛,高效的数据采集办法也是值得研究的重要内容。本文通过研究大数据的特点,以及对审计数据的采集办法进行分析,提出了基于Python的数据爬虫在审计数据采集中的运用,帮助审计人员快速高效地从网页上获得相关数据,为进一步的审计分析奠定了基础,这也为大数据在审计中的应用技术研究提供了支持。
从调研文献来看,国内外目前对稠油热采过程中H 2 S生成领域的研究主要针对生成机理和反应物,对硫酸盐溶解度影响的研究较少。此外,水对TSR反应的作用尚不清楚。因此,本研究开展了不同硫酸盐的TSR实验研究,以了解硫酸盐对H 2 S产生的影响。
主要参考文献:
[1]秦荣生.大数据、云计算技术对审计的影响研究[J].审计研究,2014(6).
[2]刘国城,王会金.大数据审计平台构建研究[J].审计研究,2017(11).
[3]韦玮.精通Python网络爬虫[M].北京机械工业出版社,2017.
本文为2017年安徽财贸职业学院“内涵提升全员行动计划”科学研究项目(人文社科):“大数据在审计分析程序中的运用研究”(项目编号:2017nhrwc15)
中图分类号: F239
文献标识码: A
收录日期: 2019年1月18日
标签:网络爬虫论文; 数据采集论文; 审计分析论文; Python论文; 安徽财贸职业学院论文;