基于Python实现的卷积神经网络分类MNIST数据集

作者：年少不轻易谈情 | 来源：互联网 | 2023-08-10 09:48

而深度本身是卷积神经网络的一个超参数，在数值上等于使用的滤波器的数量，而每个滤波器是不一样的，在输入数据中寻找的特征。对于图像数据，因为像素的数量过多，全连接神经网络需要非常多的的

卷积神经网络分类MNIST数据集
目录
人工智能第七次实验报告 1
卷积神经网络分类MNIST数据集 1
一、问题背景 1
1.1 卷积和卷积核 1
1.2 卷积神经网络简介 2
1.3 卷积神经网络的细节讨论 3
二、实现说明 3
2.1 构建神经网络模型 3

为输入输出分配占位符 3

构建卷积层和池化层 4

构建全连接层 5

动态调整网络参数 6
2.2 运行模型 6
三、程序测试 7
3.1 运行说明 7
3.2 运行输出 7
3.3 对比BP神经网络 8
四、实验总结 8
1.2卷积神经网络简介
卷积神经网络&＃xff08;CNN&＃xff0c;Convolutional Neural Network&＃xff09;是一个多层的神经网络&＃xff0c;每层由多个二维平面组成&＃xff0c;每个平面由多个独立神经元组成。卷积神经网络中C层和S层&＃xff0c;C层为特征提取层&＃xff0c;也称为卷积层&＃xff0c;是卷积神经网络的核心&＃xff0c;S层位特征映射层&＃xff0c;也称为下采样层。

在卷积层&＃xff0c;卷积神经网络利用卷积核对图像进行滤波&＃xff0c;可以得到显著的边缘特性。在卷积神经网络中&＃xff0c;每一个就卷积层都紧跟着一个下采样层&＃xff0c;卷积层负责探测上一层特征的局部连接&＃xff0c;下采样层负责把相似的特征合并起来。下采样层合并相似特征的过程降低了特征图的空间分辨率&＃xff0c;达到了数据降维的效果。
在卷积神经网络中&＃xff0c;输入矩阵通过卷积过程形成卷积层&＃xff0c;卷积结果在通过下采样过程形成规模减小的特征映射矩阵。卷积过程用一个可训练的滤波器去卷积一个输入特征矩阵&＃xff0c;加上一个偏置后得到卷积层。下采样过程将邻域内若干的像素通过池化操作变为一个像素&＃xff0c;经过加权和增加偏置后&＃xff0c;通过一个激活函数&＃xff0c;产生一个缩小的特征映射图。
一般卷积神经网络除了卷积层和下采样层之外&＃xff0c;还会在输出段加入全连接层&＃xff0c;全连接层的输入就是每一个深度最终特征提取的结果&＃xff0c;全连接神经网络最后再对这些结果进行分类。
1.3卷积神经网络的细节讨论
神经元的空间排列&＃xff1a;
与常规神经网络不同&＃xff0c;卷积神经网络的各层中的神经元是三维排列的&＃xff1a;宽度、高度和深度。宽度和高度与特征图的宽高一一对应。
而深度本身是卷积神经网络的一个超参数&＃xff0c;在数值上等于使用的滤波器的数量&＃xff0c;而每个滤波器是不一样的&＃xff0c;在输入数据中寻找的特征。本文转载自http://www.biyezuopin.vip/onews.asp?id&＃061;16722从上一张卷积神经网络图上可以看到&＃xff0c;卷积神经网络结构的最后部分将会把全尺寸的图像压缩为包含分类评分的一个向量&＃xff0c;向量是在深度方向排列的。
局部连接&＃xff1a;
与局部连接相反的是全局连接&＃xff0c;对应到一个全连接的神经网络。对于图像数据&＃xff0c;因为像素的数量过多&＃xff0c;全连接神经网络需要非常多的的参数&＃xff0c;这对于算法效率是难以接受的&＃xff0c;故使用局部连接的思路&＃xff1a;每个神经元只对局部进行感知&＃xff0c;即层中的神经元将只与前一层中的一小块区域连接&＃xff0c;然后再更高层汇总来得到全局信息。
局部连接的空间大小叫做神经元的感受野&＃xff0c;感受野的大小与滤波器的空间尺寸相等。权值共享&＃xff1a;
每个神经元参数设为相同&＃xff0c;即权值共享&＃xff0c;也即在同一深度上&＃xff0c;每个神经元用同一个卷积核去卷积图像。
池化&＃xff1a;
计算图像一个区域上的某个特定特征的平均值&＃xff08;或最大值&＃xff09;&＃xff0c;这种聚合操作就叫做池化 &＃xff08;平均池化/最大池化&＃xff09;。使用池化可以很好的实现数据降维并防止过度拟合。
通常在连续的卷积层之间会周期性地插入一个池化层。它的作用是逐渐降低数据体的空间尺寸&＃xff0c;这样的话就能减少网络中参数的数量。汇聚层使用最大池化操作&＃xff0c;对输入数据体的每一个深度切片独立进行操作&＃xff0c;改变它的空间尺寸。最常见的形式是汇聚层使用尺寸2&＃215;2的滤波器&＃xff0c;以步长为2 来对每个深度切片进行降采样&＃xff0c;将其中75%的激活信息都丢掉。
二、实现说明
2.1构建神经网络模型
所构建的网络模型&＃xff1a;卷积层 &＃043; 池化层 &＃043; 卷积层 &＃043; 池化层 &＃043; 全连接层 &＃043; 全连接层

from matplotlib import pyplot as plt import tensorflow as tf import datetime from tensorflow.examples.tutorials.mnist import input_data def weight_variable(shape): # 权重正态分布初始化 initial &＃061; tf.truncated_normal(shape, stddev&＃061;0.1) # shape表示生成张量的维度&＃xff0c;mean是均值&＃xff0c;stddev是标准差 return tf.Variable(initial) def bias_variable(shape): # 偏置量初始化 initial &＃061; tf.constant(0.1, shape&＃061;shape) # value&＃061;0.1,shape是生成的维度 return tf.Variable(initial) def conv2d(x, W): # 定义2维的卷积图层 return tf.nn.conv2d(x, W, strides&＃061;[1, 1, 1, 1], padding&＃061;&＃039;SAME&＃039;) # strides&＃xff1a;每跨多少步抽取信息&＃xff0c;strides[1, x_movement,y_movement, 1]&＃xff0c; [0]和strides[3]必须为1 # padding&＃xff1a;边距处理&＃xff0c;“SAME”表示输出图层和输入图层大小保持不变&＃xff0c;设置为“VALID”时表示舍弃多余边距(丢失信息) def max_pool(x): return tf.nn.max_pool(x, ksize&＃061;[1, 2, 2, 1], strides&＃061;[1, 2, 2, 1], padding&＃061;&＃039;SAME&＃039;) # ksize 池化窗口的大小一般是[1, height, width, 1]&＃xff0c;所以这两个维度设为了1 # strides 和卷积类似&＃xff0c;窗口在每一个维度上滑动的步长&＃xff0c;一般也是[1, stride,stride, 1] if __name__ &＃061;&＃061; &＃039;__main__&＃039;: x &＃061; tf.placeholder(tf.float32, [None, 784]) y &＃061; tf.placeholder(tf.float32, [None, 10]) keep_prob &＃061; tf.placeholder(tf.float32) # 创建神经网络第1层&＃xff0c;输入层&＃xff0c;激活函数为relu W_layer1 &＃061; weight_variable([784, 500]) b_layer1 &＃061; bias_variable([500]) h1 &＃061; tf.add(tf.matmul(x, W_layer1), b_layer1) h1 &＃061; tf.nn.relu(h1) # 创建神经网络第2层&＃xff0c;隐藏层&＃xff0c;激活函数为relu W_layer2 &＃061; weight_variable([500, 1000]) b_layer2 &＃061; bias_variable([1000]) h2 &＃061; tf.add(tf.matmul(h1, W_layer2), b_layer2) h2 &＃061; tf.nn.relu(h2) # 创建神经网络第3层&＃xff0c;隐藏层&＃xff0c;激活函数为relu W_layer3 &＃061; weight_variable([1000, 300]) b_layer3 &＃061; bias_variable([300]) h3 &＃061; tf.add(tf.matmul(h2, W_layer3), b_layer3) h3 &＃061; tf.nn.relu(h3) # 创建神经网络第4层&＃xff0c;输出层&＃xff0c;激活函数为softmax W_layer4 &＃061; weight_variable([300, 10]) b_layer4 &＃061; bias_variable([10]) predict &＃061; tf.add(tf.matmul(h3, W_layer4), b_layer4) y_conv &＃061; tf.nn.softmax(tf.matmul(h3, W_layer4) &＃043; b_layer4) cross_entropy &＃061; tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits&＃061;predict, labels&＃061;y)) train_step &＃061; tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) correct_prediction &＃061; tf.equal(tf.argmax(y_conv, 1), tf.argmax(y, 1)) accuracy &＃061; tf.reduce_mean(tf.cast(correct_prediction, &＃039;float&＃039;)) i_list2 &＃061; [] train_error2 &＃061; [] test_acc2 &＃061; [] with tf.Session() as sess2: sess2.run(tf.global_variables_initializer()) # 初始化变量 starttime &＃061; datetime.datetime.now() mnist &＃061; input_data.read_data_sets(&＃039;MNIST_data/&＃039;, one_hot&＃061;True) for i in range(1000): batch &＃061; mnist.train.next_batch(100) if i % 50 &＃061;&＃061; 0: cross_entropy_now &＃061; sess2.run(cross_entropy, feed_dict&＃061;{x: batch[0], y: batch[1], keep_prob: 1}) print(&＃039;step %d, training error %g&＃039; % (i, cross_entropy_now)) res &＃061; accuracy.eval(session&＃061;sess2, feed_dict&＃061;{x: mnist.test.images, y: mnist.test.labels, keep_prob: 1.0}) print(&＃039;test accuracy %g&＃039; % res) if i !&＃061; 0: i_list2.append(i) train_error2.append(cross_entropy_now) test_acc2.append(res) sess2.run(train_step, feed_dict&＃061;{x: batch[0], y: batch[1], keep_prob: 0.8}) endtime &＃061; datetime.datetime.now() print(&＃039;Cost: &＃039; &＃043; str(endtime - starttime)) x &＃061; tf.placeholder(tf.float32, [None, 784]) # 输入数据 None表示行不定 x_image &＃061; tf.reshape(x, [-1, 28, 28, 1]) # 将原图reshape为4维&＃xff0c;-1表示数据是黑白的&＃xff0c;28*28&＃061;784&＃xff0c;1表示颜色通道数目 y &＃061; tf.placeholder(tf.float32, [None, 10]) W_conv1 &＃061; weight_variable([5, 5, 1, 32]) # 按照[5,5,输入通道&＃061;1,输出通道&＃061;32]生成一组随机变量 b_conv1 &＃061; bias_variable([32]) h_conv1 &＃061; tf.nn.relu(conv2d(x_image, W_conv1) &＃043; b_conv1) # 输出size 28*28*32(因为conv2d()中x和y步长都为1&＃xff0c;边距保持不变) h_pool1 &＃061; max_pool(h_conv1) # 把h_pool1的厚度由32增加到64&＃xff0c;长宽由14*14缩小为7*7 W_conv2 &＃061; weight_variable([5, 5, 32, 64]) b_conv2 &＃061; bias_variable([64]) h_conv2 &＃061; tf.nn.relu(conv2d(h_pool1, W_conv2) &＃043; b_conv2) h_pool2 &＃061; max_pool(h_conv2) # 第一层全连接 # 把h_pool2由7*7*64&＃xff0c;变成1024*1 W_fc1 &＃061; weight_variable([7 * 7 * 64, 1024]) b_fc1 &＃061; bias_variable([1024]) h_pool2_flat &＃061; tf.reshape(h_pool2, [-1, 7 * 7 * 64]) # 把pooling后的结构reshape为一维向量 h_fc1 &＃061; tf.nn.relu(tf.matmul(h_pool2_flat, W_fc1) &＃043; b_fc1) keep_prob &＃061; tf.placeholder(tf.float32) h_fc1_drop &＃061; tf.nn.dropout(h_fc1, keep_prob) # 第二层全连接 # 按照keep_prob的概率扔掉一些&＃xff0c;为了减少过拟合 W_fc2 &＃061; weight_variable([1024, 10]) b_fc2 &＃061; bias_variable([10]) predict &＃061; tf.add(tf.matmul(h_fc1_drop, W_fc2), b_fc2) y_conv &＃061; tf.nn.softmax(tf.matmul(h_fc1_drop, W_fc2) &＃043; b_fc2) cross_entropy &＃061; tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits&＃061;predict, labels&＃061;y)) # 计算误差 train_step &＃061; tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # 通过使用动量&＃xff08;参数的移动平均数&＃xff09;来改善传统梯度下降&＃xff0c;促进超参数动态调整 correct_prediction &＃061; tf.equal(tf.argmax(y_conv, 1), tf.argmax(y, 1)) # 找出预测正确的标签 accuracy &＃061; tf.reduce_mean(tf.cast(correct_prediction, &＃039;float&＃039;)) # 得出通过正确个数除以总数得出准确率 i_list &＃061; [] train_error &＃061; [] test_acc &＃061; [] with tf.Session() as sess: sess.run(tf.global_variables_initializer()) # 初始化变量 starttime &＃061; datetime.datetime.now() mnist &＃061; input_data.read_data_sets(&＃039;MNIST_data/&＃039;, one_hot&＃061;True) for i in range(1000): batch &＃061; mnist.train.next_batch(100) if i % 50 &＃061;&＃061; 0: cross_entropy_now &＃061; sess.run(cross_entropy, feed_dict&＃061;{x: batch[0], y: batch[1], keep_prob: 1}) print(&＃039;step %d, training error %g&＃039; % (i, cross_entropy_now)) res &＃061; accuracy.eval(session&＃061;sess, feed_dict&＃061;{x: mnist.test.images, y: mnist.test.labels, keep_prob: 1.0}) print(&＃039;test accuracy %g&＃039; % res) if i !&＃061; 0: i_list.append(i) train_error.append(cross_entropy_now) test_acc.append(res) sess.run(train_step, feed_dict&＃061;{x: batch[0], y: batch[1], keep_prob: 0.8}) endtime &＃061; datetime.datetime.now() print(&＃039;Cost: &＃039; &＃043; str(endtime - starttime)) ax1 &＃061; plt.subplot(121) ax1.plot(i_list, test_acc, &＃039;b&＃039;, label&＃061;"CNN") ax1.plot(i_list, test_acc2, &＃039;g&＃039;, label&＃061;"BP") ax1.set_title("test accuracy") plt.legend() ax2 &＃061; plt.subplot(122) ax2.set_title("training error") ax2.plot(i_list, train_error, &＃039;b&＃039;, label&＃061;"CNN") ax2.plot(i_list, train_error2, &＃039;g&＃039;, label&＃061;"BP") plt.legend() plt.show()

推荐阅读

get
YOLOv7基于自己的数据集从零构建模型完整训练、推理计算超详细教程

本文介绍了关于人工智能、神经网络和深度学习的知识点，并提供了YOLOv7基于自己的数据集从零构建模型完整训练、推理计算的详细教程。文章还提到了郑州最低生活保障的话题。对于从事目标检测任务的人来说，YOLO是一个熟悉的模型。文章还提到了yolov4和yolov6的相关内容，以及选择模型的优化思路。 ... [详细]

蜡笔小新 2023-12-14 18:28:01
process
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
input
不同优化算法的比较分析及实验验证

本文介绍了神经网络优化中常用的优化方法，包括学习率调整和梯度估计修正，并通过实验验证了不同优化算法的效果。实验结果表明，Adam算法在综合考虑学习率调整和梯度估计修正方面表现较好。该研究对于优化神经网络的训练过程具有指导意义。 ... [详细]

蜡笔小新 2023-12-13 16:05:14
bit
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
match
android listview OnItemClickListener失效原因

最近在做listview时发现OnItemClickListener失效的问题，经过查找发现是因为button的原因。不仅listitem中存在button会影响OnItemClickListener事件的失效，还会导致单击后listview每个item的背景改变，使得item中的所有有关焦点的事件都失效。本文给出了一个范例来说明这种情况，并提供了解决方法。 ... [详细]

蜡笔小新 2023-12-14 14:25:50
input
CF：3D City Model（小思维）问题解析和代码实现

本文通过解析CF：3D City Model问题，介绍了问题的背景和要求，并给出了相应的代码实现。该问题涉及到在一个矩形的网格上建造城市的情景，每个网格单元可以作为建筑的基础，建筑由多个立方体叠加而成。文章详细讲解了问题的解决思路，并给出了相应的代码实现供读者参考。 ... [详细]

蜡笔小新 2023-12-13 14:17:11
process
clone的fork与pthread_create创建线程有何不同

本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境，其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时，子进程只是完全复制父进程的资源，这样得到的子进程独立于父进程，具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制，另外通过fork创建子进程系统开销很大。因此，在某些情况下，使用clone或pthread_create创建线程可能更加高效。 ... [详细]

蜡笔小新 2023-12-12 20:00:06
process
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
php
手机移动端HTML5和JavaScript如何实现视频上传和压缩视频质量？

本文讨论了在手机移动端如何使用HTML5和JavaScript实现视频上传并压缩视频质量，或者降低手机摄像头拍摄质量的问题。作者指出HTML5和JavaScript无法直接压缩视频，只能通过将视频传送到服务器端由后端进行压缩。对于控制相机拍摄质量，只有使用JAVA编写Android客户端才能实现压缩。此外，作者还解释了在交作业时使用zip格式压缩包导致CSS文件和图片音乐丢失的原因，并提供了解决方法。最后，作者还介绍了一个用于处理图片的类，可以实现图片剪裁处理和生成缩略图的功能。 ... [详细]

蜡笔小新 2023-12-12 15:58:44
js
wepy小顺序受权点击作废受权失利的计划

本文介绍了在wepy中运用小顺序页面受权的计划，包含了用户点击作废后的从新受权计划。 ... [详细]

蜡笔小新 2023-12-12 11:09:24
js
VUE2.0+ElementUI2.0表格el-table循环动态列渲染的写法详解

先看看ElementUI里关于el-table的template数据结构：<template><el-table:datatableData><e ... [详细]

蜡笔小新 2023-12-11 14:47:02
js
统一知识图谱学习和建议：更好地理解用户偏好

本文介绍了一种将知识图谱纳入推荐系统的方法，以提高推荐的准确性和可解释性。与现有方法不同的是，本方法考虑了知识图谱的不完整性，并在知识图谱中传输关系信息，以更好地理解用户的偏好。通过大量实验，验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]

蜡笔小新 2023-12-11 11:11:02
php
揭秘阿里云WAF背后神秘的AI智能防御体系

背景应用安全领域，各类攻击长久以来都危害着互联网上的应用，在web应用安全风险中，各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]

蜡笔小新 2023-12-11 01:30:52
format
Gitlab接入公司内部单点登录的安装和配置教程

本文介绍了如何将公司内部的Gitlab系统接入单点登录服务，并提供了安装和配置的详细教程。通过使用oauth2协议，将原有的各子系统的独立登录统一迁移至单点登录。文章包括Gitlab的安装环境、版本号、编辑配置文件的步骤，并解决了在迁移过程中可能遇到的问题。 ... [详细]

蜡笔小新 2023-12-10 14:38:53
format
[echarts] 同指标对比柱状图相关的知识介绍及应用示例

本文由编程笔记小编为大家整理，主要介绍了echarts同指标对比柱状图相关的知识，包括对比课程通过率最高的8个课程和最低的8个课程以及全校的平均通过率。文章提供了一个应用示例，展示了如何使用echarts制作同指标对比柱状图，并对代码进行了详细解释和说明。该示例可以帮助读者更好地理解和应用echarts。 ... [详细]

蜡笔小新 2023-12-09 10:02:11

年少不轻易谈情

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章