当前位置: 开发笔记 > 编程语言 > 正文

场景文字检测之CTPN

作者：卢-lydia09 | 来源：互联网 | 2023-09-12 18:44

论文：DetectingTextinNaturalImagewithConnectionistTextProposalNetworkGithub（caffe版本）:https:gi

论文：Detecting Text in Natural Image with Connectionist Text Proposal Network

Github（caffe版本）:https://github.com/tianzhi0549/CTPN

Github（tensorflow版本）:https://github.com/eragonruan/text-detection-ctpn

整体框架：

（1）首先一张图片经过VGG16基础网络，在conv5_3层引出，一共经过4个pooling操作，所以此时的conv5的大小为原图的1/16，维度为b*h*w*c（c=512）。

（2）在featuremap conv5上，由一个3*3的滑动窗口进行width方向的滑动。每一个3*3*c的向量会经过BLSTM转化为256维的向量。然后一共w个这样的向量，维度为b*h*w*c（c=256）。

（3）经过一个512维度的全连接层，维度变化为b*h*w*c（c=512）。

（4）这里k为anchor的个数，一共包含10个anchor，即k=10，从11-273像素，每次乘以1.4。该阶段分别输出垂直回归的中心点偏移和高度的偏移（vertical coordinates），维度为b*h*w*c*k（c=2,k=10），每个anchor回归的框的得分（score），维度为b*h*w*c*k（c=2），边框边缘的左右偏移值（side-refinement），维度为b*h*w*c*k（c=1）。

CTPN核心思想：

如上图所示，左面为传统RPN预测的框，右面为CTPN的框。由于RPN中anchor感受野的问题，不可能有一个anchor可以像传统的人车物检测那样覆盖了整行的文本。因此CTPN提出了宽度固定为16个像素的anchor策略。然后再将所有anchor预测结果进行NMS合并。

整体的思想还是非常novel的。

LOSS:

CTPN整体包含了3个loss，分类的Ls，边框回归的Lv，边框左右的回归的偏移Lo。

Ls为传统的softmax_cross_entropy_loss，其中，i表示所有预测的anchor中的第i个，Si_hat={0,1}，Ns为归一化参数，表示所有的anchor的总和。

Lv使用的smooth_L1_loss，其中，j表示所有IOU>0.5的anchor中的第j个，Nv为归一化参数，表示所有的anchor和groudtruth的IOU>0.5的anchor数总和。λ1为多任务的平衡参数，λ1=1.0。

参数v的解释如上面的式子。实际需要预测的数值就是vc和vh，groundtruth为vc_hat和vh_hat。vc表示了实际的中心坐标和anchor中心的偏移，然后和anchor高度的比值，一句话说，就是，相对于anchor的中心坐标的归一化偏移量。同理，vh表示了归一化后的高度的伸缩量。

在实际预测的时候，只需要将式子反过来算，就可以算出cy和h，也就是最终的边框的中心坐标和高度。

Lo也是使用的smooth_L1_loss，其中，k表示边界anchor中的第k个，即预测和groundtruth相距32个像素的边界anchor的集合。Nv为归一化参数，表示所有边界anchor数总和。λ1为多任务的平衡参数，λ1=2.0。

o表示在x方向的归一化的偏移量。cx表示anchor的中心，Xside表示预测的中心。

如上图，红色的表示有side-refinement的结果，黄色为没有side-refinement的结果。可以看出经过side-refinement操作，可以使得边界更准确。

双向LSTM:

上图第一行表示没有使用BLSTM，第二行表示使用了BLSTM，可以看出，BLSTM可以起到将断开的区域连接起来的效果。并且使得边界更加准确。

总结：

优点：

CTPN对于检测的边框在上下左右4个点上都比较准确，这点比EAST要好。

缺点：

（1）CTPN只可以检测水平方向的文本，竖直方向的话就会出现一个字一个字断开的想象。倾斜角度的话需要修改后处理anchor的连接方式，但是应该会引入新的问题。

（2）CTPN由于涉及到anchor合并的问题，何时合并，何时断开，这是一个问题。程序使用的是水平50个像素内合并，垂直IOU>0.7合并。或许由于BLSTM的引入，导致断开这个环节变差。所以对于双栏，三栏的这种文本，ctpn会都当做一个框处理，有时也会分开处理，总之不像EAST效果好。

推荐阅读

include
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
ip
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
string
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09
string
Automated Region Validation in AWS SDK Provider

This feature automatically validates new regions using the AWS SDK, ensuring compatibility and accuracy. ... [详细]

蜡笔小新 2024-11-13 21:40:42
ip
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
window
window下的python安装插件

window下的python安装插件,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-11-12 15:14:05
runtime
pytorch(一)：torch构建数据集并训练一个神经网络

目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]

蜡笔小新 2024-11-14 13:06:38
dll
在VSCode中添加自定义外部命令

通过将常用的外部命令集成到VSCode中，可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令，从而简化命令执行过程。 ... [详细]

蜡笔小新 2024-11-13 16:57:15
include
com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例

com.sun.javadoc.PackageDoc.exceptions()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-13 10:47:33
flutter
Flutter 开发中集成极光推送的详细步骤

本文详细介绍了如何在 Flutter 项目中集成极光推送服务，包括配置和测试的具体步骤。 ... [详细]

蜡笔小新 2024-11-13 00:53:40
string
Android 自定义加载对话框 CustomProgressDialog

本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog，包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]

蜡笔小新 2024-11-12 21:51:00
include
单片微机原理P3：80C51外部拓展系统

　　外部拓展其实是个相对来说很好玩的章节，可以真正开始用单片机写程序了，比较重要的是外部存储器拓展，81C55拓展，矩阵键盘，动态显示，DAC和ADC。0.IO接口电路概念与存 ... [详细]

蜡笔小新 2024-11-12 19:51:29
string
微信公众号推送模板40036问题

返回码错误码描述说明40001invalidcredential不合法的调用凭证40002invalidgrant_type不合法的grant_type40003invalidop ... [详细]

蜡笔小新 2024-11-12 16:31:32
string
MySQL 5.7 学习指南：SQLyog 中的主键、列属性和数据类型

本文介绍了 MySQL 5.7 中主键（Primary Key）和自增（Auto-Increment）的概念，以及如何在 SQLyog 中设置这些属性。同时，还探讨了数据类型的分类和选择，以及列属性的设置方法。 ... [详细]

蜡笔小新 2024-11-12 15:57:04
string
com.hazelcast.config.MapConfig.isStatisticsEnabled()方法的使用及代码示例

com.hazelcast.config.MapConfig.isStatisticsEnabled()方法的使用及代码示例 ... [详细]

蜡笔小新 2024-11-12 14:33:17

卢-lydia09

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章