当前位置: 开发笔记 > 人工智能 > 正文

图像学习-验证码识别

作者：Effy | 来源：互联网 | 2023-01-01 09:55

北京上海巡回站|NVIDIADLI深度学习培训2018年1月261月12日

北京上海巡回站 | NVIDIA DLI深度学习培训

2018年1月26/1月12日

产生的验证码

part2、预处理

由于生成的图片不是相同尺寸的，为了方便训练我们需要转换成相同尺寸的。另外由于验证码长度不同，我们需要在label上多加一个符号来表示这个序列的结束。

处理之后的结果就是图像size全部为的label也就是[0,1,3,5,26,26,26,26]，"abcdefg"的label为[0,1,2,3,4,5,6,26]。

由于我们用的是categorical_crossentropy来判断每个输出的结果，所以对label我们还需要把其变成one-hot的形式，那么用Keras现成的工具to_categorical函数对上面的label做一下处理就可以了。比如abdf的label进一步转换成:

[[1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],
[0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],
[0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],
[0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0],
[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1],
[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1],
[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1],
[0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1]]

part 3、构建模型

不借助外部包可以实现的模型

def create_simpleCnnRnn(image_shape, max_caption_len,vocab_size): image_model = Sequential() # image_shape : C,W,H # input: 100x100 images with 3 channels -> (3, 100, 100) tensors. # this applies 32 convolution filters of size 3x3 each. image_model.add(Convolution2D(32, 3, 3, border_mode='valid', input_shape=image_shape)) image_model.add(BatchNormalization()) image_model.add(Activation('relu')) image_model.add(Convolution2D(32, 3, 3)) image_model.add(BatchNormalization()) image_model.add(Activation('relu')) image_model.add(MaxPooling2D(pool_size=(2, 2))) image_model.add(Dropout(0.25)) image_model.add(Convolution2D(64, 3, 3, border_mode='valid')) image_model.add(BatchNormalization()) image_model.add(Activation('relu')) image_model.add(Convolution2D(64, 3, 3)) image_model.add(BatchNormalization()) image_model.add(Activation('relu')) image_model.add(MaxPooling2D(pool_size=(2, 2))) image_model.add(Dropout(0.25)) image_model.add(Flatten()) # Note: Keras does automatic shape inference. image_model.add(Dense(128)) image_model.add(RepeatVector(max_caption_len)) # 复制8份 image_model.add(Bidirectional(GRU(output_dim=128, return_sequences=True))) image_model.add(TimeDistributed(Dense(vocab_size))) image_model.add(Activation('softmax')) sgd = SGD(lr=0.002, decay=1e-6, momentum=0.9, nesterov=True) image_model.compile(loss='categorical_crossentropy', optimizer=sgd, metrics=['accuracy']) return image_model

借助recurrentshop和seq2seq可以实现的结构

def create_imgText(image_shape, max_caption_len,vocab_size): image_model = Sequential() # image_shape : C,W,H # input: 100x100 images with 3 channels -> (3, 100, 100) tensors. # this applies 32 convolution filters of size 3x3 each. image_model.add(Convolution2D(32, 3, 3, border_mode='valid', input_shape=image_shape)) image_model.add(BatchNormalization()) image_model.add(Activation('relu')) image_model.add(Convolution2D(32, 3, 3)) image_model.add(BatchNormalization()) image_model.add(Activation('relu')) image_model.add(MaxPooling2D(pool_size=(2, 2))) image_model.add(Dropout(0.25)) image_model.add(Convolution2D(64, 3, 3, border_mode='valid')) image_model.add(BatchNormalization()) image_model.add(Activation('relu')) image_model.add(Convolution2D(64, 3, 3)) image_model.add(BatchNormalization()) image_model.add(Activation('relu')) image_model.add(MaxPooling2D(pool_size=(2, 2))) image_model.add(Dropout(0.25)) image_model.add(Flatten()) # Note: Keras does automatic shape inference. image_model.add(Dense(128)) image_model.add(RepeatVector(1)) # 为了兼容seq2seq，要多包一个[] #model = AttentionSeq2Seq(input_dim=128, input_length=1, hidden_dim=128, output_length=max_caption_len, output_dim=128, depth=2) model = Seq2Seq(input_dim=128, input_length=1, hidden_dim=128, output_length=max_caption_len, output_dim=128, peek=True) image_model.add(model) image_model.add(TimeDistributed(Dense(vocab_size))) image_model.add(Activation('softmax')) image_model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

return image_model

part 4、模型训练

之前写过固定长度的验证码的序列准确率可以达到99%，项目可以参考这里。

另外，我们在用Keras训练的时候会有一个acc，这个acc是指的一个字符的准确率，并不是这一串序列的准确率。也就是说在可以预期的情况下，如果你的一个字符的准确率达到了99%，那么如果你的序列长度是5的时候，理论上你的序列准确率是0.99^5 = 0.95, 如果像我们一样序列长度是7，则为0.99^8=0.923。

所以当你要看到实际的验证集上的准确率的时候，应该自己写一个callback的类来评测，只有当序列中所有的字符都和label一样才可以算正确。

class ValidateAcc(Callback): def __init__(self, image_model, val_data, val_label, model_output): self.image_model = image_model self.val = val_data self.val_label = val_label self.model_output = model_output def on_epoch_end(self, epoch, logs={}): # 每个epoch结束后会调用该方法 print '\n———————————--------' self.image_model.load_weights(self.model_output+'weights.%02d.hdf5' % epoch) r = self.image_model.predict(val, verbose=0) y_predict = np.asarray([np.argmax(i, axis=1) for i in r]) val_true = np.asarray([np.argmax(i, axis = 1) for i in self.val_label]) length = len(y_predict) * 1.0 correct = 0 for (true,predict) in zip(val_true,y_predict): print true,predict if list(true) == list(predict): correct += 1 print "Validation set acc is: ", correct/length print '\n———————————--------'val_acc_check_pointer = ValidateAcc(image_model,val,val_label,model_output)

记录每个epoch的模型结果

check_pointer = ModelCheckpoint(filepath=model_output + "weights.{epoch:02d}.hdf5")

训练

image_model.fit(train, train_label, shuffle=True, batch_size=16, nb_epoch=20, validation_split=0.2, callbacks=[check_pointer, val_acc_check_pointer])

part 5、训练结果

在39866张生成的验证码上，27906张作为训练，11960张作为验证集。

第一种模型:

序列训练了大约80轮，在验证集上最高的准确率为0.9264，但是很容易变化比如多跑一轮就可能变成0.7，主要原因还是因为预测的时候考虑的是整个序列而不是单个字符，只要有一个字符没有预测准确整个序列就是错误的。

第二种模型:

第二个模型也就是上面的create_imgText，验证集上的最高准确率差不多是0.9655（当然我没有很仔细的去调参，感觉调的好的话两个模型应该是差不多的，验证集达到0.96之后相对稳定）。

part 6 、其它

看起来还是觉得keras实现简单的模型会比较容易，稍微变形一点的模型就很纠结了，比较好的是基础的模型用上其他包都可以实现。keras 2.0.x开始的版本跟1.0.x还是有些差异的，而且recurrentshop现在也是支持2.0版本的。如果在建模型的时候想更flexible一点的话，还是用tensorflow会比较好，可以调整的东西也比较多，那下一篇可以写一下img2txt的tensorflow版本。

part 7、代码

代码戳这里（https://github.com/Slyne/CaptchaVariLength）

part 8、后续

现在的这两个模型还是需要指定最大的长度，后面有时间会在训练集最多只有8个字符的情况下，利用rnn的最后一层进一步对于有9个以及以上字符的验证码效果，看看是不是可以再进一步的扩展到任意长度。（又立了一个flag~）

原文链接：https://www.jianshu.com/p/bce3b2850406

查阅更为简洁方便的分类文章以及最新的课程、产品信息，请移步至全新呈现的“LeadAI学院官网”：

www.leadai.org

请关注人工智能LeadAI公众号，查看更多专业文章

推荐阅读

nlp
AI算法工程师从入门到上瘾

设定一个非常清晰的目标清晰的目标就比如说你要做NLP，你要知道NLP的应用有智能问答，机器翻译，搜索引擎等等。然后如果你要做智能问答你要知道现在最发达的技术是深度学习，使用的算法有 ... [详细]

蜡笔小新 2024-09-27 12:06:03
tensorflow
DNNBrain：北师大团队出品，国内首款用于映射深层神经网络到大脑的统一工具箱...

导读深度神经网络(DNN)通过端到端的深度学习策略在许多具有挑战性的任务上达到了人类水平的性能。深度学习产生了具有多层抽象层次的数据表示;然而，它没有明确地提供任何关 ... [详细]

蜡笔小新 2024-09-26 12:34:26
深度
生成模型自编码器（Autoencoder，AE）

自编码器（Autoencoder，AE）基本意思就是一个隐藏层的神经网络，输入输出都是x，并且输入维度一定要比 ... [详细]

蜡笔小新 2024-09-26 10:19:40
人工智能
python绘图设置正交坐标等距_Python:线性代数机器学习背后的优化原理 (五十五)...

线性代数：机器学习背后的优化原理线性代数作为数学的一个分支，广泛应用于科学和工程中，掌握好线性代数对于理解和从事机器学习算法相关工作是很有 ... [详细]

蜡笔小新 2024-09-26 10:09:12
pytorch
PyTorch 2.0来了！100%向后兼容，一行代码将训练提速76%！

点击下方卡片，关注“CVer”公众号AICV重磅干货，第一时间送达点击进入—CV微信技术交流群转载自：机器之心PyTorch官方 ... [详细]

蜡笔小新 2024-09-25 12:08:56
pytorch
机器学习、深度学习、人工智能、云计算、和大数据之间有什么内在联系

本文主要介绍关于深度学习,pytorch,百度云服务器,百度机器学习,BCC的知识点，对【BCCBML使用记录百度云服务器百度机器学习深度学习】和【机器学习、深度学习、人工智能、云计算、和大 ... [详细]

蜡笔小新 2024-09-24 17:16:11
tensorflow
【历史上的今天】5 月 18 日：微软反垄断诉讼；携程旅行网上线；谷歌首次公布 TPU

整理|王启隆透过「历史上的今天」，从过去看未来，从现在亦可以改变未来。今天是2022年5月18日，在1939年的今天，彼得 ... [详细]

蜡笔小新 2024-09-24 17:15:58
神经网络
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
神经网络
2018年人工智能大数据的爆发，学Java还是Python？

本文介绍了2018年人工智能大数据的爆发以及学习Java和Python的相关知识。在人工智能和大数据时代，Java和Python这两门编程语言都很优秀且火爆。选择学习哪门语言要根据个人兴趣爱好来决定。Python是一门拥有简洁语法的高级编程语言，容易上手。其特色之一是强制使用空白符作为语句缩进，使得新手可以快速上手。目前，Python在人工智能领域有着广泛的应用。如果对Java、Python或大数据感兴趣，欢迎加入qq群458345782。 ... [详细]

蜡笔小新 2023-12-14 20:08:28
深度
阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾

本文介绍了阿里Treebased Deep Match(TDM)的学习笔记，同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法，再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用，并介绍了TDM的背景和优势。最后，文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]

蜡笔小新 2023-12-14 19:24:58
神经网络
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
nlp
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
人工智能
同事工资打听话题，如何提高自己的薪水

本文讨论了同事工资打听的话题，包括同工不同酬现象、打探工资的途径、为什么打听别人的工资、职业的本质、商业价值与工资的关系，以及如何面对同事工资比自己高的情况和凸显自己的商业价值。故事中的阿巧发现同事的工资比自己高后感到不满，通过与老公、闺蜜交流和搜索相关关键词来寻求解决办法。 ... [详细]

蜡笔小新 2023-12-14 16:22:57
深度
显卡驱动对游戏的影响及其提升效果的研究

本文研究了显卡驱动对游戏体验的提升效果，通过比较新旧驱动加持下的RTX 2080Ti显卡在游戏体验上的差异。测试平台选择了i9-9900K处理器和索泰RTX 2080Ti玩家力量至尊显卡，以保证数据的准确性。研究结果表明，显卡驱动的更新确实能够带来近乎50%的性能提升，对于提升游戏体验具有重要意义。 ... [详细]

蜡笔小新 2023-12-13 21:52:19
tensorflow
推荐系统遇上深度学习(十七）详解推荐系统中的常用评测指标

原创：石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值， ... [详细]

蜡笔小新 2023-12-13 19:35:25

Effy

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章