面向RPA的电子发票信息形式转换处理论文

面向RPA的电子发票信息形式转换处理论文

面向RPA的电子发票信息形式转换处理

谢军 胡发刚 安徽宿州学院

摘要: 这篇文章探讨电子发票信息形式的转换在RPA前期的作用,阐述发票中非结构化数据转化为结构化数据的必要性,针对电子发票PDF形式提出具体的形式转换的处理方法,为加速会计核算人工智能化进程提供参考。

关键词: 电子发票;机器人流程自动化;键值对

近期,备受关注的《电子商务法》经十三届全国人大常委会第五次会议表决通过,并于2019年1月1日起施行。《电子商务法》第十四条明确,“电子商务经营者销售商品或者提供服务应当依法出具纸质发票或者电子发票等购货凭证或者服务单据。电子发票与纸质发票具有同等法律效力。”可以说,《电子商务法》的推出,将会推动电子发票在国内企业中的广泛运用。

对尾矿和废石采集代表性的样品开展分析难度较大。一是选矿厂排放的尾矿不能代表整个尾矿库尾矿的基本特征;二是需要多个浅钻取样,成本较高,且难以取到尾矿库底部早期排放的尾矿,而采用深钻取样会破坏尾矿库的坝体,引发安全事故,是管理方不允许的。

在实际调查分析研究期间可以发现,各区域与各层次调查学生具有的困难具有较大差距,在遇到问题时学生不知道使用怎样的方法与思路对问题进行分析与思考,若根据实际需求对动点问题进行分类与总结,可使学生在问题解答期间具有较为良好的思路。其中函数动点问题可分为三种类型分别为:与反比例函数结合、与一次函数结合以及与二次函数结合,其中与各种函数知识进行结合都可在题干与图中发现相应的信息。同时,也需要学生对函数的表达式、图形以及性质等具有较为良好的了解与掌握。

一、RPA的前期流程

财务领域的机器人流程自动化(RPA),是当前比较流行的财务数字化应用技术,把财务相关的数据输入—处理—决策—输出的流程进行分析、拆解,再用机器人软件模拟人的操作,把原本需要很多人力在会计软件、ERP软件、报表软件,甚至CRM软件和税务软件等各种软件平台上完成的填写、菜单点击、执行命令、输出报表、报送等动作,交由机器人来完成,并且每个动作都可以追溯[1]

RPA这些优势为企业中提供了提升财务核算效率的手段,直观地管理核算过程,但是一方面机器人完全按照既定规则完成动作,坚定不移地遵守;另一方面RPA需要以电子表格、网络表单或数据库的形式提供结构化数据,以便机器人完美地工作。认知智能结合机器学习在RPA中提供了这种功能,可以处理非结构化或半结构化数据,并将其转化为结构化形式,然后由机器人处理。例如,结合光学字符识别技术(OCR)、语音识别等认知技术,从输入端将发票信息转化为计算机可以处理的信息再交由机器人进行后续处理流程。比如,光学字符识别技术可以把纸质的凭证发票、账册、合同的信息扫描到计算机里,并识别为电子逻辑信息,然后交给机器人去做记账、报表处理[2];而语音识别技术可以帮助机器人识别、接收人的语音指令,甚至从人的语音当中识别出数字信息并且进行处理。

二、电子发票信息形式转换的作用

电子发票是现代信息社会的产物,是在购销商品、提供服务或者接受服务以及从事其他经营活动中,开具、收取的数据电文形式的收付款凭证。电子发票与传统发票的区别主要有两点:一是从传统的物理介质发展为数据电文形式,二是打破了纸质发票作为会计记账凭证的传统,具备会计档案电子记账的条件。国家税务总局公告2015年第84号《关于推行通过增值税电子发票系统开具的增值税电子普通发票有关问题的公告》正式规定打印版式电子发票的法律效力、基本用途和基本使用规定等与税务机关监制的增值税普通发票相同。

开国洪武,多昌明博大之音;成化以后,多台阁雍容之作,久而千篇一律,愈演愈弊。四库馆臣认为,七子派结束了台阁体的统治局面,“不可谓之无功”,[2]528但同时“割剥字句”[2]552“食古不化”[2]528,发展到后期,赝古之势愈烈,以至于盖棺定论——“古文一脉,自明代肤滥於七子”。[2]585

9.支持提取标签内容。

对发票来说,数据是相同的,但由于格式可能会有所不同、形式不同,发票中存储的信息成为非结构化数据。如果机器人获得了这种非结构化数据,它可能会突然停止运行。这时通过机器学习,从发票表格中提取元数据并将其输入到记录系统中,一旦输入,机器人就可以使用这些数据进行后续处理。利用搜索功能提取发票中记录的开票日期、金额、货物或应税劳务、服务名称等元数据信息,将加强企业管理整个财务风险组合,加速会计核算人工智能化进程。

三、电子发票信息的识别

8.支持提取纲要(TOC)。

4.支持中日韩语言和垂直书写。

在Python语言中,PDFMiner是一个可以从PDF文档中提取信息的工具,与其他PDF相关的工具不同,它注重获取和分析文本数据。PDFMiner允许获取PDF某一页中文本的准确位置和一些诸如字体、行数的文本信息。它包括一个PDF转换器,可以把PDF文件转换成HTML等格式;还包括一个扩展的PDF解析器,可以用于除文本分析以外的其它用途。PDFMiner的内置工具pdf2txt.py可以从PDF文件中提取所有文本内容。

7.PDF与HTML转换。

按:“旧寓”,旧宅;故居。“旧寓”一词,后世文献频见,例如《敬业堂诗集·目录》:“十二月十七日出阜成门,重过苑西旧寓。”又卷三十六:“余自甲申以后僦居城南道院者三年,今春寓直西郊,五月驾幸山庄避暑,余仍回旧寓。”《洪北江诗文集》卷第十二:“三月晦前一日清晓,独游法源寺,看海棠花下,值冯户部敏昌因同过寺旁亡友黄二景仁旧寓,室已倾圯,不可入。”《明史钞略》第二千六百九十八册下:“时廷机久处庙中,复还旧寓,请告一百二十余疏。”皆其例。《汉语大词典》收有同义的【旧宅】【旧宇】【旧居】等系列词,“旧寓”与【旧宅】【旧宇】【旧居】为同构同义词。“旧寓”一词,《汉语大词典》未收。

1.完全使用python编写。

2.解析,分析,并转换成PDF文档。3.支持PDF-1.7规范。

实时荧光定量PCR结果(图3A~B)显示,乳腺癌他莫昔芬耐药细胞MCF-7R和T47DR中PGRN的mRNA水平分别高于敏感细胞MCF-7和 T47D(t= 3.10,P= 0.035;t=4.30,P=0.012)。蛋白质印迹法检测结果(图3C~D)显示,耐药细胞MCF-7R和T47DR中PGRN蛋白的表达水平明显高于敏感细胞(t=14.30,P< 0.001;t= 7.70,P= 0.002)。

5.支持各种字体类型(Type1、 TrueType、Type3 和 CID)。

6.支持基本加密(RC4)。

PDFMiner官方网页(https://euske.github.io/pdfminer/)列举出其特点包括:

目前PDF形式在移动终端、电脑上易于阅读、不易编辑,电子发票较多采用这种形式。虽然可以通过采集电子发票元数据的途径,来获取电子发票中包含的信息[3,4],但由于采集元数据的工具尚不完备,本文介绍一种通过定制模板获取电子发票信息的方法。

根据表3分析可知,粘土矿物的形成主要有如下两种机理:一是直接由岩溶作用产生沉淀,如红粘土中的埃洛石,其在碳酸盐岩中也含有。二是原生矿物直接被粘土矿物替代,如红粘土中的伊利石,而直接替代的原因是由于交代作用,地表水及地下水流体中含有Al、Fe、Mn等,与原生矿物发生交代作用。这里需要指出,岩溶作用对母岩的破坏作用是彻底的,化学溶蚀残余物质不具有母岩的结构骨架,而是疏松多孔的砂状残余物,与花岗岩的物理风化相比,碳酸盐岩之上的红粘土的化学风化是强风化,且这种化学风化只有很少的不容物质富集起来。

在传统的方式中,财务会计人员接触最多的是结构化的数据,如三十年前开始采用的会计电算化中使用简单的关系型数据库作为财务信息的存储、查询和报送工具,财务领域最核心的三张表——资产负债表、利润表和现金流量表以及账册,也是结构化数据。随着财务管理越来越向前端延伸去支撑业务,财务工作面对的不仅仅是结构化的财务数据,而可能会面临很多业务数据,比如客户信息、公司产业信息等,在这些大量的业务数据中,相当多的数据可能是非结构化的数据,有些信息甚至可以从社交媒体当中产生,这些信息反映了用户群的偏好和聚焦程度,并可作为投资估值和市场决策依据,在资本市场上也为投资机构和监管部门所关注。对企业来说,财务工作所需的信息不是任凭几张表格就可以囊括的。

10.通过分组文本块重建原始的布局(Layout)。

Layout布局分析返回的PDF文档中的每个页面LTPage对象,这个对象和页内包含的子对象,形成一个树结构,LTPage:表示整个页,可能会含有LTTextBox,LTFigure,LTImage,LTRect,LTCurve 和LTLine子对象。LTTextBox即文字所在的矩形区域。

转换处理的步骤:

(1)利用以上PDFMiner的特点,首先获取电子发票中的“开票日期”、“纳税人识别号”、“货物或应税劳务、服务名称”、“数量”、“单价”、“价税合计”等文字的坐标位置,即所在矩形区域的坐标,形成一个发票信息的认知模板。例如,“开票日期”的坐标位置是(580,46,610,52)。使用pdf2txt.py提取所在矩形区域的文本内容并输出。

(2)然后在各个信息区域右侧或者下方的矩形区域提取文本内容并输出。

四、发票信息的整理与输出

键值对的键(Key)是数据的标识信息,值(Value)是数据本身。将以上提取的发票信息认知模板作为键,其附近区域的内容作为对应键的值,形成互联网常用的json数据形式输出。在RPA中json形式的数据既可以单独使用,也可以与既存的结构化数据库字段进行匹配,保存在结构化数据库中,作进一步处理和分析。如果需要,这种键值对也很容易转换成为XML数据形式。PDFMiner的内置工具dumppdf.py把PDF文件内容转变成pseudo-XML格式,但是转换的结果中多数键值不能有效对应。

在对零件进行加工工艺设计时,工人会根据零件的加工要求和特点选择合适的工序和加工定位起点,确定好加工定位起点后,并保证各个自由度在可控制范围之内,并把尺寸标注在工序简图上。任何夹具设计,其首要任务是选择和设计相对应的定位元件来满足加工零件的定位精度。为了便于分析说明,该出引入“定位基准”的概念。当工件以旋转的面(如圆和孔等)定位时,称它的旋转轴线为定位基准线,而旋转面本身则称为定位基准面。工件在夹具上进行定位时,定位基准与定位元件必须要与定位作用的表面接触,才能保证其定位精度完成加工。

当发票的“货物或应税劳务、服务名称”中出现“(详见销货清单)”时,需要进一步按上文转换处理的步骤提取PDF的下一页发票信息,包括“货物(劳务)名称”、“规格型号”等。

五、结论与展望

电子发票将对财务工作产生深远影响[5],财务是一个强规则领域,电子化批量处理发票数据将财务领域内可重复、有规律可循的事务流程和报告流程交给机器人处理。在以上提出的处理方法的基础上,电子发票包含的有效信息将转换成会计记账信息,这有助于加速提高财务决策效率。

参考文献:

[1]程平,王文怡.基于RPA的财务共享服务中心费用报销优化研究[J].会计之友,2018(13):146-151.

[2]彭晶.智能识别技术在企业信息化系统中的应用探讨[J].信息与电脑(理论版 ),2018(14):118-120+125.

[3]马仲凯.电子发票元数据集探析[J].管理工程师,2018,23(04):42-49.

[4]张雅君,李泽锋.电子发票核心元数据构成与捕获研究[J].北京档案,2018(08):30-32.

[5]陈立,刘纤云.“互联网+”环境下电子发票对企业财务工作的影响[J].会计之友,2016(13):92-93.

基金项目: 项目名称:从大量文本中实时挖掘商业信息,项目来源:宿州学院教授(博士)研究项目,项目编号:2015jb14

标签:;  ;  ;  ;  

面向RPA的电子发票信息形式转换处理论文
下载Doc文档

猜你喜欢