当前位置: 开发笔记 > 人工智能 > 正文

cnn识别不定长英文验证码

作者：VASTEw | 来源：互联网 | 2023-07-20 12:18

本程序作为一个基础版的CNN使用教程，以识别简单的英文验证码作为目标完成一个简单的实例。在这个实例中，我们会涉及到以下三步，并通过这三部曲

本程序作为一个基础版的CNN使用教程，以识别简单的英文验证码作为目标完成一个简单的实例。在这个实例中，我们会涉及到以下三步，并通过这三部曲来带大家体验深度学习的魅力。

仅2分，可直接运行的程序：https://download.csdn.net/download/qq_32791307/10651274

1. 对数据的基本读取、处理并生成batch

2. 搭建简单的CNN模型

3. 训练并得出结果

2. 其次有了样本之后，我们需要对样本进行以下的操作。

第一步：获取图片和图片名称的代码，非常简单，注释如下。

def get_image_name():#获得目录下所有图片all_image = os.listdir(&＃39;D:/tensorflow3_captcha/train/&＃39;)#打散训练集random_file = random.randint(0,8000) #拓展名获取， eg: 123.txt 分为[0] 123 ,[1] txtbase = os.path.basename(&＃39;D:/tensorflow_captcha/train/&＃39; + all_image[random_file])name = os.path.splitext(base)[0]#读取图片并转为灰度图image = cv2.imread(&＃39;D:/tensorflow_captcha/train/&＃39; + all_image[random_file],cv2.IMREAD_GRAYSCALE) # cv2.imshow("tu",image) # cv2.waitKey(0) # print(name)return name,image

第二步：确定字母次序为0-9a-zA-Z得到字母对应位置标签. 如 a 对应标签为 11

#ord(c)随机给定一个无符号数，ord(&＃39;0&＃39;)=48 #字符固定位置 def char2pos(c): if c ==&＃39;_&＃39;:k=62return kk= ord(c)-48# ord(c)为0-9时的位置 #ord(c)为大写字母时的位置，因为0-9占了10位，所以是ord(c)-ord(&＃39;A&＃39;)+10=ord(c)-55if k > 9: #如ord(&＃39;C&＃39;)=67-55=12k = ord(c) - 55 #ord(c)为小写字母时的位置,0-z占了35位 if k > 35: #ord(&＃39;c&＃39;)=99-61=38k = ord(c) - 61if k > 61:raise ValueError(&＃39;No Map&＃39;)return k

第三步：名字标签与one-hot编码的形式互相转换。（注：1,2,3对应one-hot示例 [ [0 ,1 ,0 ,0], [0 ,0 ,1 ,0], [0 ,0 ,0 ,1]]）

#名字转向量标签 def name2vec(name):vector = np.zeros(max_captcha*char_set) for i, c in enumerate(name): idx = i * char_set + char2pos(c)vector[idx] = 1return vector #return 不能忘！！导致loss = nan # print (vector);print(idx)#向量标签转名字,为了结果可以对应，也可以名字向量互转用字典代替。 def vec2name(vec):char_pos = vec.nonzero()[0]name=[]for i, c in enumerate(char_pos):char_idx = c % char_setif char_idx <10:char_code = char_idx + ord(&＃39;0&＃39;)elif char_idx <36:char_code = char_idx - 10 + ord(&＃39;A&＃39;)elif char_idx <62:char_code = char_idx- 36 + ord(&＃39;a&＃39;)elif char_idx == 62:char_code = ord(&＃39;_&＃39;)else:raise ValueError(&＃39;error&＃39;)name.append(chr(char_code))return "".join(name)

第四步：制作batch。（注：batch_size 一般大小为2的n次方，常用大小为32，64）

def get_next_batch(batch_size):batch_x = np.zeros([batch_size,image_height*image_width])batch_y = np.zeros([batch_size,max_captcha*char_set])for i in range(batch_size): #格式注意range,np.zeros([])name,image = get_image_name()batch_x[i,:] = image.flatten()/255batch_y[i,:] = name2vec(name)return batch_x,batch_y

二. 搭建简单的CNN模型

通常，我会将搭建过程分为前后两期，前期定义输入变量，定义weight、bias 、conv2d、max_pool等所需要的‘积木块’。后期开始堆积积木块。各大著名网络结构可以看为积木搭建的图纸，只要我们有安装图纸，前期只要定义好各类所需的‘积木块’，后期就可以按图索骥就好。本次只是简单的堆积了一个模型，大家也可以去体验更多的网络结构。下面，我们开始吧！

第一步：定义各类变量

X = tf.placeholder(tf.float32,[None,image_height*image_width]) Y = tf.placeholder(tf.float32,[None,max_captcha*char_set]) y_in = tf.sparse_placeholder(tf.int32) seq_length=tf.placeholder(tf.int32,[None]) keep_prob = tf.placeholder(tf.float32) # dropout#这里的learn_rate比较详细，不麻烦的话也可以直接用learn_rate=0.0001作为学习速率 global_step = tf.Variable(0, trainable=False) learn_rate = tf.train.exponential_decay(INITIAL_LEARNING_RATE,global_step,DECAY_STEPS,LEARNING_RATE_DECAY_FACTOR,staircase=True)#define weight biaes def weight(shape):#tf.truncated_normal(shape, mean, stddev)initial = 0.01*tf.random_normal(shape)return tf.Variable(initial)def biases(shape):initial = 0.1*tf.random_normal(shape) #tf.constant(0.1,shape=shape)return tf.Variable(initial)#define conv and pool ，padding有&＃39;SAME&＃39;和&＃39;VALID&＃39;两种 def conv2d(x,w):return tf.nn.conv2d(x,w,strides=[1,1,1,1],padding=&＃39;SAME&＃39;) def max_pool(x):#ksize是pool的窗口大小=[1,height,width,1]也就是卷积核大小;return tf.nn.max_pool(x,ksize=[1,2,2,1],strides=[1,2,2,1],padding=&＃39;SAME&＃39;)#因为是2x2的池化，所以输出是池化一次就/2 ，和权重的卷积取多少无关

第二步：积木堆积，本次所用图片大小为80*170, 所以第一次的卷积输出为40*85

模仿的VGG16

def cnn(weight,biases): img_x = tf.reshape(X,[-1,image_height,image_width,1])#### conv layer 1 ####w_conv1 = weight([3,3,1,32]) #3X3的卷积核，第一层输出32b_conv1 = biases([32])h_conv1 = tf.nn.relu(conv2d(img_x,w_conv1)+b_conv1)h_pool1 = max_pool(h_conv1) #outsize = 40*85 conv1 = tf.nn.dropout(h_pool1, keep_prob)#### conv layer 2 #### w_conv2 = weight([3,3,32,64]) #3X3的卷积核，第2层输出64b_conv2 = biases([64])h_conv2 = tf.nn.relu(conv2d(conv1,w_conv2)+b_conv2)h_pool2 = max_pool(h_conv2) #20,42.5 conv2 = tf.nn.dropout(h_pool2, keep_prob) #### conv layer 3 ####w_conv3 = weight([3,3,64,64]) #3X3的卷积核，第2层输出64b_conv3 = biases([64])h_conv3 = tf.nn.relu(conv2d(conv2,w_conv3)+b_conv3)h_pool3 = max_pool(h_conv3) #10, 21.25--->10,22 conv3 = tf.nn.dropout(h_pool3, keep_prob) ## ## Fully connected layer 1 ####w_fc1 = weight([10*22*64,1024])b_fc1 = biases([1024]) # h_pool3_flat = tf.reshape(h_pool3,[-1,10*22*64])h_pool3_flat = tf.reshape(conv3, [-1, w_fc1.get_shape().as_list()[0]])h_fc1 = tf.nn.relu(tf.matmul(h_pool3_flat,w_fc1)+b_fc1)#[64,1024]h_fc1_drop = tf.nn.dropout(h_fc1,keep_prob)## ## out 输出特征 ####w_out = weight([1024,max_captcha*char_set])b_out = biases([max_captcha*char_set])#out用的sigmoid,loss对应sigmoid#out = [64,1024]*[1024,378]+378 =[64,378]out = tf.matmul(h_fc1_drop,w_out)+b_out #sigmoid ,注意行列顺序，HXWreturn out , h_fc1

三. 训练并验证

1. 开始训练前容易犯的错误是没有初始化变量。

2.sess.close不加也可以，但是加上是个好习惯。

3.其实也可以单独定义 loss,accuracy。

4.及时使用tf.train.Saver()来储存模型。这样可以多次训练模型。用saver.restore即可快速恢复训练。

def train_cnn():output, conv_3 = cnn(weight,biases) #output 64*378 # loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=output,labels=Y))loss = tf.reduce_mean(tf.nn.sigmoid_cross_entropy_with_logits(logits=output, labels=Y))train_step = tf.train.AdamOptimizer(0.001).minimize(loss)predict = tf.reshape(output,[-1,max_captcha,char_set])label = tf.reshape(Y,[-1,max_captcha,char_set]) # print(label,&＃39;\n&＃39;,predict)max_idx_pre = tf.argmax(predict,2) #沿char_set找最大值索引即63个里最大的。max_idx_lab = tf.argmax(label,2)accuracy = tf.metrics.accuracy(labels=max_idx_lab,predictiOns=max_idx_pre) #tuplesaver = tf.train.Saver()sess = tf.Session()init_op = tf.group(tf.global_variables_initializer(), tf.local_variables_initializer()) # the local var is for accuracy_opsess.run(init_op)step = 0while True: ######需要恢复模型，继续训练时可使用以下注释部分 # model_file=tf.train.latest_checkpoint(&＃39;model/&＃39;) # saver.restore(sess,model_file ) batch_x,batch_y = get_next_batch(64)_,loss_ ,out= sess.run([train_step,loss,output] ,feed_dict={X:batch_x,Y:batch_y,keep_prob: 0.6}) # print(&＃39;step:&＃39;,step) # print(out.shape)if step%100 == 0:batch_x_test,batch_y_test = get_next_batch(64)acc = sess.run(accuracy,feed_dict={X:batch_x_test,Y:batch_y_test, keep_prob: 1.})[1]print(&＃39;train loss: &＃39; , loss_,&＃39;train acc: &＃39;, acc)if acc > 0.8 :saver.save(sess,"model/my_captcha.ckpt", global_step=step)break step += 1sess.close() train_cnn()

四. 训练过程中可能出现的问题

1. 训练的 Loss和Acc 可能值会上下波动，这是正常现象，只要整体Loss趋势变小，Acc变大即可

2. 训练时间需要长一些，因为样本比较复杂，且没预处理，请耐心等待。

3. 如果训练很长时间测试的Acc却达不到很高的水平，可以尝试增加样本数量。

推荐阅读

人脸识别
双路径GAN实现侧脸到正面人脸图像的高保真合成

由中科院自动化所、中科院大学及南昌大学联合研究提出了一种新颖的双路径生成对抗网络（TP-GAN），该技术能通过单一侧面照片生成逼真的正面人脸图像，显著提升了不同姿态下的人脸识别效果。 ... [详细]

蜡笔小新 2024-12-20 17:34:05
pytorch
新手指南：在Windows 10上搭建深度学习与PyTorch开发环境

本文详细记录了一名新手在Windows 10操作系统上搭建深度学习环境的过程，包括安装必要的软件和配置环境变量等步骤，旨在帮助同样初入该领域的读者避免常见的错误。 ... [详细]

蜡笔小新 2024-12-17 03:14:23
神经网络
利用Java与Tesseract-OCR实现数字识别

本文深入探讨了如何利用Java语言结合Tesseract-OCR技术来实现图像中的数字识别功能，旨在为开发者提供详细的指导和实践案例。 ... [详细]

蜡笔小新 2024-12-12 10:47:15
深度学习
图像分类算法的优化策略与实践

本文探讨了《Bag of Tricks for Image Classification with Convolutional Neural Networks》论文中的多项技术，旨在通过具体实例和实验验证，提高卷积神经网络在图像分类任务中的性能。文章详细介绍了从模型训练加速、网络结构调整到训练参数优化等多个方面的改进方法。 ... [详细]

蜡笔小新 2024-12-09 16:01:40
深度
吴恩达推出TensorFlow实践课程，Python基础即可入门，四个月掌握核心技能

量子位报道，deeplearning.ai最新发布了TensorFlow实践课程，适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]

蜡笔小新 2024-12-08 17:26:10
pytorch
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
pytorch
如何用GPU服务器运行Python

如何用GPU服务器运行Python-目录前言一、服务器登录1.1下载安装putty1.2putty远程登录 1.3查看GPU、显卡常用命令1.4Linux常用命令二、 ... [详细]

蜡笔小新 2024-12-06 11:54:09
人工智能
TensorFlow 入门：MNIST 数据集实战

本文详细介绍了 TensorFlow 的入门实践，特别是使用 MNIST 数据集进行数字识别的项目。文章首先解析了项目文件结构，并解释了各部分的作用，随后逐步讲解了如何通过 TensorFlow 实现基本的神经网络模型。 ... [详细]

蜡笔小新 2024-12-05 13:06:15
人工智能
KKCMS代码审计初探

本文主要介绍了KKCMS的安装过程及其基本功能，重点分析了该系统中存在的验证码重用、SQL注入及XSS等安全问题。适合初学者作为入门指南。 ... [详细]

蜡笔小新 2024-12-04 09:30:07
人工智能
MySQL索引详解与优化

本文深入探讨了MySQL中的索引机制，包括索引的基本概念、优势与劣势、分类及其实现原理，并详细介绍了索引的使用场景和优化技巧。通过具体示例，帮助读者更好地理解和应用索引以提升数据库性能。 ... [详细]

蜡笔小新 2024-12-25 19:52:47
人工智能
如何使用jQuery阻止事件冒泡

本文详细介绍了如何使用jQuery防止事件冒泡，确保子元素的点击事件不会触发父元素或祖先元素的相应事件。通过具体的代码示例和解释，帮助开发者更好地理解和应用这一技术。 ... [详细]

蜡笔小新 2024-12-25 19:47:37
人工智能
Composer Registry Manager：PHP的源切换管理工具

本文介绍了一个用于Composer的源切换管理工具——Composer Registry Manager。该项目旨在简化Composer包源的管理和切换，避免与常见的CRM系统混淆，并提供了详细的安装和使用指南。 ... [详细]

蜡笔小新 2024-12-25 19:34:14
tensorflow
吴裕雄探讨混合神经网络模型在深度学习中的应用：结合RNN与CNN优化网络性能

本文由吴裕雄撰写，深入探讨了如何利用Python、Keras及TensorFlow构建混合神经网络模型，特别是通过结合递归神经网络（RNN）和卷积神经网络（CNN），实现对网络运行效率的有效提升。 ... [详细]

蜡笔小新 2024-12-02 10:55:32
深度
深入理解TensorFlow中的张量及其应用

本文探讨了如何在TensorFlow中使用张量来处理和分析数字图像，特别是通过具体的代码示例展示了张量在图像处理中的作用。 ... [详细]

蜡笔小新 2024-12-02 10:29:18
人工智能
利用神经网络破解数学难题：求解偏微分方程的新途径

一项来自Quantamagazine的最新研究揭示，借助人工智能的深度学习技术，特别是深度神经网络，科学家们能够在数学建模领域取得突破，显著提高了处理复杂系统中偏微分方程的速度与效率。 ... [详细]

蜡笔小新 2024-12-01 14:44:13

VASTEw

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章