论文:
https://arxiv.org/pdf/1908.10998.pdf
摘要
2.方法
采用CRNN作为基线网络,并在其中插入deformable modules,插入的位置是在cnn的中间部分,作者说:浅层学到的是基本特征,深层特征图的尺寸太小(一般最后为H/4×W/32)学到的偏移可能不够精确,文字检测中一般将deformable 加到cnn的最后,但是文字检测图片的尺寸要大很多
,加入了残差模块,和自适应的最大值池化
网络结构
3. 实验
训练数据为:
- MJSynth Dataset
- SynthText in the Wild Dataset
测试数据有:
- totaltext
- IC13
- IC15
- SVT
- IIIT5K
图片resize到200×64,用CTC loss,SGD优化器,64的batchsize,lr=0.00005(好小)
结果:
DConv+resblock相较于单独的DConv和resblock并没有提高多少。
DConv放置位置的影响
放到较深的层,最多用两层。