基于深度学习的场景文字检测研究论文_姚子汭，罗金满

广东电网有限责任公司东莞供电局 523000

摘要：现在计算机的发展越来越快，现在计算机在视觉领域的主流算法就变成了深度学习的目标检测和图像分割算法，虽然场景文字检测任务有时候会受到目标检测和图像的影响，在现在这几年也有了很大的突破。

关键词：深度学习；场景；文字检测

作为一种传承文化的媒介，文字已经超越了时间和空间的界限，从古代到现在文字都充当着非常重要的角色。文字和图像、视频的区别就在于文字本身的魅力，因为文字有着更强的逻辑性和表达力，利用文字能够更有效的进行场景信息的利用。现在场景文字在很多的地方都有着广泛的应用，包括：无人驾驶、车牌识别等，所以现在这项研究已经成为非常热门的话题。

一、基于传统方法的场景文学检测：

场景文字检测的发展历程前期主要是研究传统的手工设计的特征，在2014年的时候才出现了深度学习的方法。其实传统的场景文字检测只有两种方法就是：基于滑动窗口的方法和基于连通域的方法。

基于滑动窗口的方法就是把文字当作是一种特殊的纹理来对待，根据纹理的属性用分类器来分出图像中的文字和非文字的区域。纹理的属性有很多种包括：文字上下的地梯度和波形分布等。

基于连通域的方法就是利用一些特定的算法来选择一些组件，再利用人工设计的规则和自动训练的费雷器把一些非文字的组件进行过滤。代表性的算法有很多，这些算法主要关注的是图像的边缘和像素点，在通过检测边缘或者是提取图像极端区来进行字符的检测，在根据自定义的规则把提取出来的组件合成文字。这种方法的效率非常高，但是有一个缺点就是涉及连接字符的时候表现就不是很好。这几年有很多的人也提出了新的方法来进行文字检测。

二、基于深度学习的目标检测和图像分割的算法的内容：

计算机视觉领域的三大任务就是图像的分类、目标的检测和图像的分割，现在最流行的场景文学检测的方法用的就是通用目标和图像分割算法。

1、基于深度学习的目标检测：

目标检测主要目的既要识别出图中物体的类别，又要知道物体具体的位置所在。而基于深度学习的目标检测算法主要包括：基于目标候选区域的算法和基于回归方法的算法。前者主要是把检测算法分成两个阶段，第一阶段就是要产生候选的区域，在对候选的区域进行分类和边界框的回归。后者不需要产生候选的区域就能够直接得到物体的类别概率和位置的坐标。目标检测任务最主要的就是要知道模型分类和定位的准确性还有测试的速度。

2、图像分割：

在图像分割的时候是需要根据不同的任务分为：语义分割和实例分割两种，语义分割就是不仅要识别物体的类别和定位，还要标注每个目标的界限，但是不需要区分同类的物体，但是实例分割区就需要区分同类的物体。

三、基于深度学习的场景文字检测内容：

在之前的几年中，基于深度学习的场景文字检测发展的非常好，也超过了传统的方法。这些算法可以分成：基于通用目标检测的方法和基于提箱分割的方法。两种方法各有各的优点。

1、基于目标检测的方法：

在基于目标检测方法里面有很多需要基于R-CNN模型的改进工作。在检测的时候首先要分成一些固定宽度的小块，加入双向长短时记忆循环神经网络来连接蚊子块，这样就能提高文字的检测精准度。如图：

2、基于图像分割的方法：

要想更好的解决水平文字的定位问题就要用基于目标检测的方法，但是在一些非水平文字的时候还需要一些精心设计的角度信息的候选框生成的方法，所以要想检测一些倾斜的文字，就需要基于图像分割的方法。如图：

要想解决倾斜文字的检测问题就要用图像分割的方法，但是在使用这个方法的时候需要有非常复杂的处理方法来解决多行文字挨在一起难区分的问题，并且还要用基于边界框回归的方法。这样就会有一个缺点就是速度会慢。

3、端到端场景文字检测的内容：

这个检测方法也是很多人研究的方法：这类框架大部分分成两类：一类就是需要把两个任务分成两个阶段来进行，首先就是要使用文字定位模型来生成文字区域后选矿，之后在用一些单独的文字识别模型对定位的文字进行识别处理。另一种就是把两个步骤合在一起，用一个单一的模型对文字定位和识别任务进行统一的训练，真正的实现端到端的文字检测。如表1：

表1

4.关于数据集和评估协议的内容：

算法的开发和比较需要一些公开的数据集和相关的评估协议作为参考：

5、数据集的内容：

如表2，就像人们介绍了场景文字检测任务的一些常用的数据集：

表2

6、评估的协议：

在场景文字检测评估协议中，主要是以ICDAR鲁棒性阅读比赛评估协议为主。在场景文字检测的时候有3个主要的性能评估目标。文字检测准确率就是交集区和预测文字区域面积的比值。召回率就是交集区域和标准文字区域面积的比值。

在ICDAR2003评估协议中需要用到的公式有：

在准确率和召回率方面需要用到的公式为：

7、算法性能比较：

如表3是现在5年的场景文字检测算法的性能，因为每个算法的试验数据集都是非常多的，所以在比较的时候只能挑一些代表性的进行比较。

、

表3

从表中可以看出：Jiang等人提出的混合算法是取得了很好的性能。Yang突出的算法也取得了很好的性能，这个算法就是在图像分割的方法进行文字检测的。

四、基于深度学习的场景文字检测算法的改进：

1、在基于深度学习的场景文字检测算法中用更自然的方式对图像进行编码：

自然场景中的一些文字分布的都非常的复杂，虽然有些能够沿着字符分布方向有一个合理的路径，但是这样就能够经常会出现一些不确定性。所以在未来的时候，可以尝试用二维RNN来进行图像编码，这样就能更好的捕获图像全局的信息。

2、在基于深度学习的场景文字检测算法中减少算法时空的复杂度：

现在基于深度学习的尝尽文字检测算法都是比较复杂的，在使用的时候会存在大量的计算和存储的资源，这就使模型会变得有一些局限性。所以在未来的时候可以采用一些近似的方法来减少计算量，压缩模型的尺寸。

3、在基于深度学习的场景文字检测算法中增强模型的泛化功能：

因为在深度学习的方法中需要有大量的样本存在，这些样本的种类和质量还有数量都是对算法的表现有着很重要的决定作用。但是这些样本收集工作也会需要很多的人力和物力。所以在未来中，可以用一些新的神经网络理论和结构，在和无监督学习进行结合，这样就能够减少对样本的依赖性，也能更好的有一个泛化的效果。

结论：通过对基于深度学习的场景文字检测算法进行分析研究的时候可以看出：传统的场景文字检测的方法还是存在很多的问题，并且还通过分析知道了现在这5年基于深度学习的场景文字的主要研究方法有哪些和存在的问题是什么，并对此进行了分析和论述，并且提供了相关的数据集和评估的协议。

现在很多的地方都用了场景文字检测应用，但是在实际生活中场景还是非常复杂多变的，自然场景下的文字检测还是有很多的问题和挑战存在：

（1）在处理随机复杂文字的时候：传统的处理方法只关注的是碎屏文字，经过这几年的发展，现在对于弯曲的文字检测与识别有了更多的关注。

（2）在处理多语言文字识别的时候：从研究发现，现在大部分的算法还是针对英文和阿拉伯数字的设计，所以在以后的日子里，还应该对多语言场景的文字检验和识别进行研究。

（3）在端到端实时监测和识别的时候：现在基于深度学习的方法都在研究监测和识别，端到端完成识别的结果研究的很少，这就导致模型在速度上会出现滞留的现象，所以很难用在一些移动端的设备上，所以端到端的技术还需要进一步的进行研究。

参考文献：

[1]蒋兵.语种识别深度学习方法研究[D].中国科学技术法学，2015.

[2] ZHU Y, YAO C BAI X Scene text detection and recognition:Recent advances and future trends[J].Front Comput Sci,2014,10(1)：19-36.

[3]YEQ,DOERMANND.Tsxt detection and recognition in imagery:A survey[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(7):1480-1500.

论文作者:姚子汭，罗金满

论文发表刊物:《科技新时代》2019年5期

论文发表时间:2019/7/22

标签：文字论文; 算法论文; 场景论文; 方法论文; 深度论文; 图像论文; 目标论文; 《科技新时代》2019年5期论文;

基于深度学习的场景文字检测研究论文_姚子汭，罗金满

猜你喜欢