论文《TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes》
(1) 数据集
文章中提到了4个数据集:
1) Total-Text;(新开源曲线文本数据集)
2) SCUT-CTW1500; (新开源曲线文本数据集)
3) ICDAR 2015;(经典数据集)
4) MSRA-TD500.(经典数据集)
(2) 文本检测总体评述:
现有文本检测方法有一个共同的假设:
文本实例的形状大体上是线性的;因此采用相对简单的表征方法(轴对齐矩形、旋转矩形四边形);
处理不规则形状的文本实例时,依然会暴露问题;
对于带有透视变形(perspective distortion)的曲形文本(curved text)传统方法在精确估计的几何属性方面力不从心;
文本实例不同表征方法的对比,图a是轴对齐矩形,图b是旋转矩形,图c是四边形;图d是TextSnake。
TextSnake文章的贡献:
本文提出一种灵活而通用的表征,可用于任意形状的场景文本;
提出一种有效的场景文本检测方法;
该方法在包含若干个不同形式(水平,多方向,曲形)的文本实例数据集取得了最优效果。
(3) TextSnake方法
表征方法:
TextSnake图示
说明:将一个文本区域(黄色表示)表征为一系列有序而重叠的圆盘(蓝色),其中每个圆盘都有一个中心线(绿色,即对称轴或骨架)贯穿,并带有可变的半径 和方向 ;
从数学公式上分析,包含若干个字符的文本实例t可以被看作是一个序列S(t), ,其中 表示第i个圆盘,n表示圆盘的数量,每个圆盘D带有一组几何属性,r被定义为t的局部宽度的一半,方向 是贯穿中心点c的中心线的正切;
注意:圆盘并非一一对应于文本实例的字符,但是圆盘序列的几何属性可以改正不规则形状的文本实例,并将其转化为对文本识别器更加友好的矩形等;
Pipeline:
方法框架图
为检测任意形状的文本,借助FCN模型预测文本实例的几何属性。基于FCN的网络预测文本中心线(TCL),文本区域(TR)以及几何属性(包括r, , )的分值图;由于TCL是TR的一部分,通过TR而得到Masked TCL,假定TCL没有彼此重合,需要借助并查集(disjoint set)执行实例分割,Striding Algorithm用于提取中心轴点,并最终重建文本实例。
网络架构:
图例所示
在FPN和U-net的启发下,本文提出一个方案,可逐渐融合来自主干网络不同层级的特征;
主干网络可以是用于图像分类的卷积网络,比如VGG-16/19和ResNet,这些网络可以被分为5个卷积阶段和若干个额外的全连接层;
本文移除全连接层,并在每个阶段后将特征图馈送至特征融合网络。
预测
后处理算法图例:后处理算法框架。 法案(a)集中:将给定点重新定位到中心轴; 法案(b)跨越:对文本实例末尾的定向搜索; 动作(c)滑动:通过沿中心轴滑动圆形来重建;
馈送之后,网络输出TCL,TR以及几何图,对于TCL和TR,阈值分别设为T_tcl和T_tr,接着,TCL和TR的交叉点给出TCL最后的预测。通过并查集,可以有效把TCL像素分割进不同的文本实例。最后,StridingAlgorithm被设计以提取用来表示文本实例形状和进程(course)的有序点,同时重建文本实例区域;
StridingAlgorithm的流程如上图所示。它主要包含3个部分:Act(a)Centralizing,Act(b)Striding和Act(c)Sliding。首先,本文随机选择一个像素作为起点,并将其中心化。接着,搜索过程分支为两个相反的方向——striding和centralizing直到结束。这一过程将在两个相反方向上生成两个有序点,并可结合以生成最终的中心轴,它符合文本的进程,并精确描述形状。
?? TCL网络预测文本中心线,非常窄,这样做有什么好处?不会对文本检测出现边缘没有覆盖的问题么?
!!结果图示
TextSnake对于文本实例的进程及形状的精确描述具有预测的能力,而这一能力来自于对TCL进行预测,它比整个文本实例窄很多,这样做有两个优点:
纤细的 TCL 可以更好地描述进程和形状;
TCL 彼此不会重叠,因此实例分割得以一种十分简单而直接的方式完成,由此简化 pipeline.
(4)实验结果
Total-Text
CTW1500
MSRA-TD500
ICDAR 2015
---------------------
作者:蹦跶的小羊羔
来源:CSDN
原文:https://blog.csdn.net/yql_617540298/article/details/82431424
版权声明:本文为博主原创文章,转载请附上博文链接!
|
|