当前位置: 开发笔记 > 前端 > 正文

tensorflowLSTM+CTC实现端到端OCR

作者：小帅哥小羊儿_309 | 来源：互联网 | 2023-05-18 01:09

最近在做OCR相关的东西，关于OCR真的是有悠久了历史了，最开始用tesseract然而效果总是不理想，其中字符分割真的是个博大精深的问题，那么多年那么多算法，然而应用到实际总是有诸多问题。比如说非等

最近在做OCR相关的东西，关于OCR真的是有悠久了历史了，最开始用tesseract然而效果总是不理想，其中字符分割真的是个博大精深的问题，那么多年那么多算法，然而应用到实际总是有诸多问题。比如说非等间距字体的分割，汉字的分割，有光照阴影的图片的字体分割等等，针对特定的问题，特定的算法能有不错的效果，但也仅限于特定问题，很难有一些通用的结果。于是看了Xlvector的博客之后，发现可以端到端来实现OCR，他是基于mxnet的，于是我想把它转到tensorflow这个框架来，顺便还能熟悉一下这个框架。本文主要介绍实现思路，更加细节的实现方法见另一篇。

正文

生成数据

利用captcha来生成验证码，具体生成验证码的代码请见这里，共生成4-6位包含数字和英文大小写的训练图片128000张和测试图片400张。命名规则就是num_label.png，生成的图片如下图
code = image_name.split('/')[2].split('_')[1].split('.')[0] code = [SPACE_INDEX if code == SPACE_TOKEN else maps[c] for c in list(code)] self.labels.append(code) print(image_name,' ',code) @property def size(self): return len(self.labels) def input_index_generate_batch(self,index=None): if index: image_batch=[self.image[i] for i in index] label_batch=[self.labels[i] for i in index] else: # get the whole data as input image_batch=self.image label_batch=self.labels def get_input_lens(sequences): lengths = np.asarray([len(s) for s in sequences], dtype=np.int64) return sequences,lengths batch_inputs,batch_seq_len = get_input_lens(np.array(image_batch)) batch_labels = sparse_tuple_from_label(label_batch) return batch_inputs,batch_seq_len,batch_labels

需要注意的是tensorflow lstm输入格式的问题，其label tensor应该是稀疏矩阵，所以读取图片和label之后，还要进行一些处理，具体可以看代码
关于载入图片，发现12.8w张图一次读进内存，内存也就涨了5G，如果训练数据加大，还是加一个pipeline来读比较好。

网络结构

然后是网络结构

1234567891011121314151617181920212223242526272829303132333435363738

graph = tf.Graph()with graph.as_default():    inputs = tf.placeholder(tf.float32, [None, None, num_features])    labels = tf.sparse_placeholder(tf.int32)    seq_len = tf.placeholder(tf.int32, [None])    # Stacking rnn cells    stack = tf.contrib.rnn.MultiRNNCell([tf.contrib.rnn.LSTMCell(FLAGS.num_hidden,state_is_tuple=True) for i in range(FLAGS.num_layers)] , state_is_tuple=True)    # The second output is the last state and we will no use that    outputs, _ = tf.nn.dynamic_rnn(stack, inputs, seq_len, dtype=tf.float32)    shape = tf.shape(inputs)    batch_s, max_timesteps = shape[0], shape[1]    # Reshaping to apply the same weights over the timesteps    outputs = tf.reshape(outputs, [-1, FLAGS.num_hidden])    # Truncated normal with mean 0 and stdev=0.1    W = tf.Variable(tf.truncated_normal([FLAGS.num_hidden,                                         num_classes],                                        stddev=0.1),name='W')    b = tf.Variable(tf.constant(0., shape=[num_classes],name='b'))    # Doing the affine projection    logits = tf.matmul(outputs, W) + b    # Reshaping back to the original shape    logits = tf.reshape(logits, [batch_s, -1, num_classes])    # Time major    logits = tf.transpose(logits, (1, 0, 2))    global_step = tf.Variable(0,trainable=False)    loss = tf.nn.ctc_loss(labels=labels,inputs=logits, sequence_length=seq_len)    cost = tf.reduce_mean(loss)    #optimizer = tf.train.MomentumOptimizer(learning_rate=learning_rate,    # momentum=FLAGS.momentum).minimize(cost,global_step=global_step)    optimizer = tf.train.AdamOptimizer(learning_rate=FLAGS.initial_learning_rate,            beta1=FLAGS.beta1,beta2=FLAGS.beta2).minimize(loss,global_step=global_step)    # Option 2: tf.contrib.ctc.ctc_beam_search_decoder    # (it's slower but you'll get better results)    #decoded, log_prob = tf.nn.ctc_greedy_decoder(logits, seq_len,merge_repeated=False)    decoded, log_prob = tf.nn.ctc_beam_search_decoder(logits, seq_len,merge_repeated=False)    # Inaccuracy: label error rate    lerr = tf.reduce_mean(tf.edit_distance(tf.cast(decoded[0], tf.int32), labels))

这里我参考了stackoverflow的一篇帖子写的，根据tensorflow 1.0.1的版本做了微调，使用了Adam作为optimizer。
需要注意的是ctc_beam_search_decoder是非常耗时的，见下图

和greedy_decoder的区别是，greedy_decoder根据当前序列预测下一个字符，并且取概率最高的作为结果，再此基础上再进行下一次预测。而beam_search_decoder每次会保存取k个概率最高的结果，以此为基础再进行预测，并将下一个字符出现的概率与当前k个出现的概率相乘，这样就可以减缓贪心造成的丢失好解的情况，当k=1的时候，二者就一样了。

结果

—update—
稍微调一调，网络可以跑到85%以上。
把网络用在识别身份证号，试了73张网上爬的（不同分辨率下的）真实图片，错了一张，准确率在98%左右（不过毕竟身份证号比较简单）

大概14个epoch后，准确率过了50%，现在跑到了73%的正确率。
accuracy
最后，代码托管在Github上。

后记

百度出了一个warpCTC可以加速CTC的计算，试用了一下CPU的版本发现好像没什么速度的提升，不知道是不是姿势不对，回头再试试GPU的版本。
对于更加细节的实现方法（输入输出的构造，以及warpCTC和内置ctc_loss的异同）放在了另一篇博客。

warpCTC的GPU版本试过之后发现速度差不多,但是能极大的减少CPU的占用
对于不同的优化器，数据，同样的参数是不能普适的。往往之前的参数可以收敛，换个optimizer，数据，网络就不能收敛了。这个时候要微调参数。对于不同的优化器之间区别，文末有一篇神文可以参考

如果有发现问题，请前辈们一定要不吝赐教，在下方留言指出，或者在github上提出issue

推荐阅读

label
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
label
基于目标检测结果的特定类别图像与XML文件快速分析方法

本文介绍了一种根据目标检测结果，从原始XML文件中提取并分析特定类别的方法。通过解析XML文件，筛选出特定类别的图像和标注信息，并保存到新的文件夹中，以便进一步分析和处理。 ... [详细]

蜡笔小新 2024-12-19 17:32:58
正则
【度量学习】Siamese Network

基于2-channelnetwork的图片相似度判别一、相关理论本篇博文主要讲解2015年CVPR的一篇关于图像相似度计算的文章：《LearningtoCompar ... [详细]

蜡笔小新 2024-12-12 19:11:33
html
利用Java与Tesseract-OCR实现数字识别

本文深入探讨了如何利用Java语言结合Tesseract-OCR技术来实现图像中的数字识别功能，旨在为开发者提供详细的指导和实践案例。 ... [详细]

蜡笔小新 2024-12-12 10:47:15
html
京东AI创新之路：周伯文解析京东AI战略的独特之处

2018年4月15日，京东在北京举办了人工智能创新峰会，会上首次公开了京东AI的整体布局和发展方向。此次峰会不仅展示了京东在AI领域的最新成果，还标志着京东AI团队的首次集体亮相。本文将深入探讨京东AI的发展策略及其与BAT等公司的不同之处。 ... [详细]

蜡笔小新 2024-12-06 22:57:11
layout
深入解析Android自定义View面试题

本文探讨了Android Launcher开发中自定义View的重要性，并通过一道经典的面试题，帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识，还提供了实际操作建议。 ... [详细]

蜡笔小新 2024-12-28 11:15:04
layout
理解感受野与锚框在目标检测中的应用

本文探讨了卷积神经网络（CNN）中感受野的概念及其与锚框（anchor box）的关系。感受野定义了特征图上每个像素点对应的输入图像区域大小，而锚框则是在每个像素中心生成的多个不同尺寸和宽高比的边界框。两者在目标检测任务中起到关键作用。 ... [详细]

蜡笔小新 2024-12-27 12:03:44
view
2023年京东Android面试真题解析与经验分享

本文由一位拥有6年Android开发经验的工程师撰写，详细解析了京东面试中常见的技术问题。涵盖引用传递、Handler机制、ListView优化、多线程控制及ANR处理等核心知识点。 ... [详细]

蜡笔小新 2024-12-26 17:45:48
vue.js
从零开始构建完整手机站：Vue CLI 3 实战指南（第一部分）

本系列教程将引导您使用 Vue CLI 3 构建一个功能齐全的移动应用。我们将深入探讨项目中涉及的每一个知识点，并确保这些内容与实际工作中的需求紧密结合。 ... [详细]

蜡笔小新 2024-12-26 13:30:37
view
帝国CMS多图上传插件详解及使用指南

本文介绍了一款用于帝国CMS的多图上传插件，该插件通过Flash技术实现批量图片上传功能，显著提升了多图上传效率。文章详细说明了插件的安装、配置和使用方法。 ... [详细]

蜡笔小新 2024-12-26 13:30:01
view
TensorFlow 2.0 实战：多层感知机（MLP）网络入门

本教程详细介绍了如何使用 TensorFlow 2.0 构建和训练多层感知机（MLP）网络，涵盖回归和分类任务。通过具体示例和代码实现，帮助初学者快速掌握 TensorFlow 的核心概念和操作。 ... [详细]

蜡笔小新 2024-12-22 19:56:15
view
Shiro功能拓展：登录失败重试次数限制

本文详细介绍了如何在Apache Shiro框架中实现对用户登录失败重试次数的限制，通过自定义密码匹配器来增强系统的安全性。该方法不仅能够有效防止暴力破解攻击，还能确保合法用户的账户安全。 ... [详细]

蜡笔小新 2024-12-03 21:39:23
view
TensorFlow 2.0 中的 Keras 数据归一化实践

数据预处理是机器学习任务中的关键步骤，特别是在深度学习领域。通过将数据归一化至特定范围，可以在梯度下降过程中实现更快的收敛速度和更高的模型性能。本文探讨了如何使用 TensorFlow 2.0 和 Keras 进行有效的数据归一化。 ... [详细]

蜡笔小新 2024-12-03 18:24:01
view
TensorFlow核心函数解析与应用

本文详细介绍了TensorFlow中几个常用的基础函数及其应用场景，包括常量创建、张量扩展以及二维卷积操作等，旨在帮助开发者更好地理解和使用这些功能。 ... [详细]

蜡笔小新 2024-12-02 18:09:09
label
吴裕雄探讨混合神经网络模型在深度学习中的应用：结合RNN与CNN优化网络性能

本文由吴裕雄撰写，深入探讨了如何利用Python、Keras及TensorFlow构建混合神经网络模型，特别是通过结合递归神经网络（RNN）和卷积神经网络（CNN），实现对网络运行效率的有效提升。 ... [详细]

蜡笔小新 2024-12-02 10:55:32

小帅哥小羊儿_309

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章