基于MaskR-CNN的满文文档版面分析论文

基于Mask R-CNN的满文文档版面分析

陈 璇,贺建军,李厚杰,武林秀

(大连民族大学 信息与通信工程学院,辽宁 大连116605)

摘 要: 提出一种基于Mask R-CNN深度学习框架的满文文档版面分析方法,将满文文档版面分析问题转化为基于深度学习的图像实例分割问题。使用ResNet101网络和FPN网络构成的卷积神经网络自动提取满文文档图像特征,特征图经过RPN网络和RoI Align层生成新的特征图。新特征图经过全连接层完成感兴趣区域的类别和边框预测,并经过全卷积神经网络对感兴趣区域的像素进行分类得到mask预测,最终实现满文文档图像的实例分割。通过《新满汉大辞典》的文档图像构建了满文文档图像数据集,算法在该满文文档图像数据集上进行了实验。实验结果表明,本算法在满文文档版面分析中取得了较好的检测和分割效果。

关键词: 满文文档;版面分析;实例分割;Mask R-CNN

满文距今已有四百多年的历史了,是中华民族珍贵的文化遗产,更是世界民族文化的瑰宝[1]。满文文档电子化可以很好的将满文资料保存下来,而满文文档版面分析是构成满文文档电子化的重要步骤。正确有效地满文文档版面分析可以很大程度上确保满文文本行识别的精准度,同时也可以将满文文档版面中不同区域划分出来,使得满文文档版面风格变得更加清晰明了。《新满汉大辞典》[2]不仅是国内满文学习最有权威的工具书之一,也是保护传承满文文化和维护民族团结最为有力的体现。因此,以《新满汉大辞典》构建满文文档图像数据集并进行满文文档版面分析具有重要的研究意义。

通过鸡胚绒毛尿囊膜试验研究, 10种防晒剂均有不同程度的刺激性,其中苯基苯并咪唑磺酸和二苯酮-3为强刺激性物质,其余防晒剂为中等刺激性物质。

徐州地处江苏最北端,与山东、安徽和河南接壤,是淮海经济区的中心城市,也是国家“一带一路”重要节点城市.近几年,徐州从传统的工业城市转型,开展建设创新型城市.2017年,徐州荣膺“全国文明城市”称号,正式跨入全国文明城市行列.传统工业城市正式实现了转变,从以前的“脏乱差”成功逆袭.自2005年起,政府将徐州新旧城市公园进行逐步改造并实施对居民免费开放政策.至2016年2月,徐州市区森林覆盖率达32.6%,排名全省第一,且市区所有的公园免费向居民开放[24].基于此,选择徐州作为案例地,研究公园免费开放对城市居民感知及行为上的影响.

1)64卦序数分布,呈多回字型对称规律(图7),解决了《易经》64卦序分布无数量逻辑对称规律的缺陷,在数理逻辑上整个系统对称平衡,每一卦序的位置、大小具有稳定性和唯一性。

文档版面分析就是分割出文档版面中不同的区域并且实现不同区域类别的检测。传统的版面分析方法包括自顶向下的方法、自底向上的方法和混合型方法[3]。自顶向下法中最为典型的是基于投影的方法[4],它从文档版面图像的整体出发分割出文档版面的不同区域,虽然操作简便、速度快、效果直观但是处理复杂版面的效果不佳。自底向上法包括基于连通域的方法,从文档版面图像的连通域着手,按照具体特征进行版面分割,虽然可以处理复杂的文档版面但是存在效率低的不足。混合型方法包括基于纹理[5]、基于形状、基于综合特征、基于形态学和基于背景间隔的方法等,虽然实用性强,但是计算量大并且受到算法融合的约束。基于深度学习的语义分割应用到了版面分析问题中[6-7],却未能同时完成版面区域分割和区域类别检测两项版面分析任务。

通过对文档版面分析文献的归纳总结,发现现有的文档版面分析存在以下三个不足:一是现有的版面分析方法中仅可以独立完成文档版面分割或者文档版面不同区域类别检测,任务较为单一;二是几乎很少有研究者将版面分析问题归类为基于深度学习的图像实例分割问题;三是目前没有针对满文文档版面分析的公开数据集。

目前,小米最主要是在线上进行销售,所以其成本构成较为简单。包括四个最为主要的部分:研发成本,生产成本,销售成本和其他成本。 研发成本主要是产品在研发过程中所产生的成本,比如研发人员的薪酬、研发的费用等;生产成本主要在生产过程中产生的成本,小米的生产成本主要是代工厂的加工费;销售成本主要包括广告费以及销售人员的薪酬等;其他成本是指在经营过程中产生的办公费等。

1 Mask R-CNN算法描述

Mask R-CNN[8]是由何凯明等人2017年在Faster R-CNN[9]目标检测算法基础上提出的一种灵活而简便的目标实例分割算法框架,可以同时完成检测任务和分割任务。Mask R-CNN使用ResNet残差网络来取代Faster R-CNN中的VGG网络进行特征提取。Mask R-CNN使用基于双线性插值法的RoI Align层来解决Faster R-CNN网络中RoI Pool层带来的检测框位置偏移问题,进而得到更加精确的检测目标位置。Mask R-CNN还引入了Fully Convolution Networks[7]层来实现图像的语义分割。Mask R-CNN可以独立完成类别预测任务和掩膜预测任务,针对每一个感兴趣区域RoI产生一个二值掩膜,从而避免了不同类别之间掩膜预测的冲突问题。Mask R-CNN在未使用数据增强方法时得出的检测结果就超过了coco 2016分割挑战赛的冠军算法。

本实验采用基于不同IoU(Intersection over Union)阈值的平均准确率AP(Average Precision)对每幅满文文档版面图像的分析结果进行评价,采用mAP(mean Average Precision)对满文文档版面分析整体性能进行评价[11]。IoU计算公式如公式(2)所示,AP值计算公式如式(3),mAP值计算公式如式(4)。

图1 Mask R-CNN 框架

2 基于Mask R-CNN的满文文档版面分析

2.1 构建满文文档图像数据集

L =L cls +L box +L mask

a)原始满文文档版面图像 b)满文文档图像生成的mask图像

图2 满文文档数据集图像

2.2 基于Mask R-CNN的满文文档版面分析算法

AP =P (R )dR ,

大数据的出现和计算机性能的提升促进了深度学习的发展。将满文文档版面分析问题视为基于深度学习的图像实例分割问题,可以在实现满文文档不同区域目标检测的同时也实现满文文档不同区域的语义分割。本文基于深度迁移学习和Mask R-CNN图像实例分割框架,提出一种满文文档版面分析算法。该算法在基于《新满汉大辞典》文档构建的满文文档图像数据集上进行了验证,取得了较好的实验效果。

将满文文档图像送入到由ResNet101网络和FPN网络构成的卷积神经网络中进行特征提取,经过卷积神经网络生成的特征图输入到RPN中生成区域建议框。再把生成的区域建议框和由特征提取生成的最高维特征图一起传入到RoI Align层进行像素矫正和进一步特征提取。从RoI Align层得到的特征图经过全连接层完成感兴趣区域的类别和边框预测,经过FCN全卷积神经网络对感兴趣区域的像素进行分类得到mask预测,最终实现满文文档图像的实例分割,从而完成满文文档版面分析任务。基于Mask R-CNN构建的满文文档版面分析算法的网络结构如图3。

图3 满文文档版面分析算法的网络结构图

在基于Mask R-CNN构建的满文文档版面分析算法中,损失函数由目标检测分类损失L cls 、目标检测边框回归损失L box 和目标掩膜分割损失L mask 构成,联合损失函数公式

通过对施工现场实际勘察,依据现场实际情况,记录对应的设计标高、基坑实际开挖深度。必须保证土方施工充分配合支护施工。如果施工场地较为开阔、平坦,可在适当位置搭设钢筋、模板加工厂与材料堆放场。采取水平分段、垂直分层的施工方法,每开挖一段,支护一段。

目前没有公开的满文文档图像数据集来完成满文文档版面分析任务,所以使用labelme[10]图像标注工具针对《新满汉大辞典》的满文文档构建了满文文档数图像数据集。将pdf版本的《新满汉大辞典》转换成图2(a)所示的jpg格式满文文档图像,使用labelme图像标注工具对满文文档图像进行标注并生成json格式的标注文件,再将json格式的标注文件转换成yaml格式文件、带有类别名称的txt文件和图2(b)所示的png格式mask图。把原始的满文文档图像存放在rgb文件夹中,把生成的json标注文件存放在json文件夹中,把mask图放在mask文件夹中。

(1)

3 实验结果与分析

本实验的系统配置是Ubuntu 16.0.4操作系统,使用了8G的NVIDIA GeForce GTX 1080显卡。TensorFlow是gpu 1.3.0版本的, keras是基于tensorflow的2.0.8版本。为了使gpu版本的tensorflow与CUDA和CUDNN版本匹配,安装了CUDA 8.0.44和CUDNN6.0.21。实验中测试一幅满文文档版面图像的平均时间是0.52 s。

本实验在基于《新满汉大辞典》构建的满文文档图像数据集上训练了模型并且进行测试。目前,使用labelme图像标注工具构建的满文文档图像数据集一共包含140幅满文文档图像,其中100幅用于训练,20幅用于验证,20幅用于测试。标注类别包括页眉、页码、满文和横向文本四个类别。本实验在进行训练时使用在coco数据集上训练好的自然场景80类实例分割模型作为预训练模型对各网络参数进行初始化。非极大值抑制的阈值设置为0.7,学习率和动量分别设置为0.001和0.9。迭代次数为50 000次,每迭代1 000次保存一次模型。

Mask R-CNN整体上包括两个阶段:第一个阶段是使用FPN网络生成候选框集和;第二个阶段是完成分类任务和边框回归及mask回归任务。首先把输入图像以及图像所包含的目标类别、边界坐标和mask掩码用卷积神经网络提取特征并生成相应的特征图,然后将该特征图送到FPN中生成N个建议窗口并把它们映射到由卷积神经网络生成的最后一层卷积特征图上。RoI Align层针对每一个感兴趣区域生成固定尺寸的特征图,再通过FCN框架预测出不同实例的类别。最终达到目标分类、边框回归及mask回归的目的,完成图像实例分割的任务。Mask R-CNN算法框架如图1。

(2)

Mask R-CNN在coco数据集上80个类别的实例分割效果可以达到先进水平,但在coco数据集上分割80个类别的任务属于对自然场景图像的实例分割。本文处理的满文文档版面分析是要在满文文档图像上对页眉,页码,满文和横向文本四个类别实现实例分割。

(3)

(4)

式中:area (P )指的是预测的boxes集合或mask集合;area (G )指的是真实的boxes集合或mask集合;P 为查准率;R 为查全率;N 为训练集大小。一般情况下,查准率和差全率呈现负相关关系。查准率较高时,查全率较低;查全率较高时,查准率较低。P和R的计算如

(5)

(6)

式中:TP 表示为本来是正例且判断为正例的数量;FP 表示为本来是反例却判断为正例的数量;FN 表示为本来为正例却判断为反例的数量;TN 表示本来是反例且判断为反例的数量。

本实验采用基于不同IoU阈值的mAP 来评价满文文档版面分析结果,得到的评价指标结果见表1。其中mAP 50是基于IoU=0.5计算出来的,mAP 75是基于IoU=0.75计算得出的,mAP 是对mAP 50,mAP 55,mAP 60,mAP 65,mAP 70,mAP 75,mAP 80,mAP 85,mAP 90,mAP 95求平均得出的。

表1 测试集评价指标结果统计

本文算法在基于《新满汉大辞典》构建的满文文档图像数据集上进行实验得到的部分测试结果与真实情况对比。测试集中页眉类类别存在较多漏检情况如图4;每幅满文文档图像中满文类类别数量较多,也存在一定的漏检情况如图5;较好的测试结果如图6。

a)满文文档标注图 b)满文文档测试结果图

图4 页眉类漏检测试结果图

a)满文文档标注图 b)满文文档测试结果图

图5 满文类漏检测试结果图

a)满文文档标注图 b)满文文档测试结果图

图6 正确测试结果图

4 结 语

本文利用Mask R-CNN算法对基于《新满汉大辞典》构建的满文文档图像数据集进行了训练和测试。实验结果表明,将满文文档版面分析问题归类为图像实例分割问题是有效而准确的。Mask R-CNN对满文文档版面分析具有较好的实例分割效果,在此基础上进一步研究并实现满文文本行识别。

在四年的时间里,李丽经常和师兄师姐联系,并在假期的时候去他们的公司实习。很快所有的师兄师姐都喜欢上了这个勤奋爱学的师妹。李丽在师兄师姐的指导下,也学到了很多知识。在大四上半学期,当别的同学还在四处为工作奔波的时候,李丽已经接到了好几个师兄师姐入职的邀请。

参考文献:

[1] 吴元丰. 满文与满文古籍文献综述[J]. 满族研究, 2008, (1): 99-113.

[2] 胡增益, 李树兰, 王庆丰. 新满汉大辞典[M]. 乌鲁木齐: 新疆人民出版社, 1994.

[3] ESKENAZI S, GOMEZ-KRAMER P, OGIER J M. A comprehensive survey of mostly textual document segmentation algorithms since 2008[J]. Pattern Recognition, 2016, 64:1-14.

[4] 王莉丽,陈晔,刘玲.基于投影轮廓分析的文本图像版面分割算法研究[J]. 数字技术与应用, 2017(3):164-165.

[5] 刘仁金, 高远飙, 郝祥根. 文本图像页面分割算法研究[J]. 中国科学技术大学学报, 2010, 40(5): 500-504.

[6] CHEN K , SEURET M J,et al. Convolutional Nearal Networks for Page Segmentation of Historical Dovument Images[J].Proceedings of the 2017 14th IAPR International Conference on Document Analysis and Recognition, 2017(1):965-97.

[7] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2014, 39(4): 640-651.

[8] HE K, GKIOXARI G, DOLLAR P, ET AL. Mask R-CNN[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, PP(99): 1-1.

[9] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.

[10] RUSSELL B C, TORRALBA A, MURPHY K P, et al. LabelMe: A Database and Web-Based Tool for Image Annotation[J]. International Journal of Computer Vision, 2008, 77(1-3): 157-173.

[11] 周志华. 机器学习[M].北京: 北京大学出版社, 2016.

Manchu Document Layout Analysis Based on Mask R-CNN

CHEN Xuan, HE Jian-jun, LI Hou-jie, WU Lin-xiu

(School of Information and Communication Engineering, Dalian Minzu University, Dalian Liaoning 116605, China)

Abstract: Manchu document layout analysis method based on Mask R-CNN deep learning framework was proposed in this paper, which turned the Manchu document layout analysis problem into an image instance segmentation problem based on deep learning. The convolutional neural networks which were composed of ResNet101 network and FPN network extracted Manchu document image features automatically. The feature map was sent to the RPN network and RoI Align layer to generate a new feature map. Then, the fully connected layer was used to complete the classification and the bounding box regression. At the same time, the full convolutional neural network was used to complete the pixel classification of the regions of interest to obtain the mask prediction. Finally, the instance segmentation of the Manchu document image was realized. In this paper, the Manchu document image dataset was constructed by the document images of New Manchu Dictionary , and the algorithm was performed on this dataset. Experimental results show that the algorithm can achieve effective detection and segmentation in Manchu document layout analysis.

Key words: Manchu document; layout analysis; instance segmentation; Mask R-CNN

中图分类号: TP391

文献标志码: A

收稿日期: 2019-04-15;最后修回日期:2019-05-03

基金项目: 国家科技支撑计划项目(2012BAJ18B06);国家民委科研项目(12DLZ011);辽宁省自然科学基金项目(20180550625);辽宁省教育厅科学研究一般项目(L2014540);中央高校基本科研业务费专项资金资助项目(DC110313, DC120101073)。

作者简介: 陈璇(1994-),女,山东泰安人,大连民族大学信息与通信工程学院硕士研究生,主要从事深度学习及图像处理研究。

文章编号: 2096-1383(2019)03-0240-06

(责任编辑 王楠楠)

标签:;  ;  ;  ;  ;  ;  

基于MaskR-CNN的满文文档版面分析论文
下载Doc文档

猜你喜欢