python深度学习第三讲——用python写神经网络梯度下降（手写字符识别mnist）

作者：Anruoxia52 | 来源：互联网 | 2023-10-15 11:38

机器学习使用训练数据进行学习。使用训练数据进行学习，严格来说，就是针对训练数据计算损失函数的值，找出使该值尽可能小的参数。因此࿰

机器学习使用训练数据进行学习。使用训练数据进行学习&＃xff0c;严格来说&＃xff0c;就是针对训练数据计算损失函数的值&＃xff0c;找出使该值尽可能小的参数。因此&＃xff0c;计算损失函数时必须将所有的训练数据作为对象。也就是说&＃xff0c;如果训练数据有100个的话&＃xff0c;我们就要把这100个损失函数的总和作为学习的指标。

果要求所有训练数据的损失函数的总和&＃xff0c;以交叉熵误差为例&＃xff0c;可以写成&＃xff1a;

通过除以N&＃xff0c;可以求单个数据的“平均损失函数”。通过这样的平均化&＃xff0c;可以获得和训练数据的数量无关的统一指标。比如&＃xff0c;即便训练数据有1000个或10000个&＃xff0c;也可以求得单个数据的平均损失函数。

所谓mini-batch学习&＃xff0c;就是从训练数据中随机选择一部分数据&＃xff08;称为mini-batch&＃xff09;&＃xff0c;再以这些mini-batch为对象&＃xff0c;使用梯度法更新参数的过程。

神经网络的学习分成下面4个步骤。
步骤1&＃xff08;mini-batch&＃xff09;
从训练数据中随机选出一部分数据&＃xff0c;这部分数据称为mini-batch。我们
的目标是减小mini-batch的损失函数的值。
步骤2&＃xff08;计算梯度&＃xff09;
为了减小mini-batch的损失函数的值&＃xff0c;需要求出各个权重参数的梯度。
梯度表示损失函数的值减小最多的方向。
步骤3&＃xff08;更新参数&＃xff09;
将权重参数沿梯度方向进行微小更新。

步骤4&＃xff08;重复&＃xff09;
重复步骤1、步骤2、步骤3。

神经网络的学习按照上面4个步骤进行。这个方法通过梯度下降法更新参数&＃xff0c;不过因为这里使用的数据是随机选择的mini batch数据&＃xff0c;所以又称为随机梯度下降法&＃xff08;stochastic gradient descent&＃xff09;。“随机”指的是“随机选择的”的意思&＃xff0c;因此&＃xff0c;随机梯度下降法是“对随机选择的数据进行的梯度下降法”。深度学习的很多框架中&＃xff0c;随机梯度下降法一般由一个名为SGD的函数来实现。SGD来源于随机梯度下降法的英文名称的首字母。
下面&＃xff0c;我们来实现手写数字识别的神经网络。这里以2层神经网络&＃xff08;隐藏层为1层的网络&＃xff09;为对象&＃xff0c;使用MNIST数据集进行学习。

# coding: utf-8 import sys, os sys.path.append(os.pardir) # 为了导入父目录的文件而进行的设定 from common.functions import * from common.gradient import numerical_gradientclass TwoLayerNet:def __init__(self, input_size, hidden_size, output_size, weight_init_std&＃61;0.01):# 初始化权重self.params &＃61; {}self.params[&＃39;W1&＃39;] &＃61; weight_init_std * np.random.randn(input_size, hidden_size)self.params[&＃39;b1&＃39;] &＃61; np.zeros(hidden_size)self.params[&＃39;W2&＃39;] &＃61; weight_init_std * np.random.randn(hidden_size, output_size)self.params[&＃39;b2&＃39;] &＃61; np.zeros(output_size)def predict(self, x):W1, W2 &＃61; self.params[&＃39;W1&＃39;], self.params[&＃39;W2&＃39;]b1, b2 &＃61; self.params[&＃39;b1&＃39;], self.params[&＃39;b2&＃39;]a1 &＃61; np.dot(x, W1) &＃43; b1z1 &＃61; sigmoid(a1)a2 &＃61; np.dot(z1, W2) &＃43; b2y &＃61; softmax(a2)return y# x:输入数据, t:监督数据def loss(self, x, t):y &＃61; self.predict(x)return cross_entropy_error(y, t)def accuracy(self, x, t):y &＃61; self.predict(x)y &＃61; np.argmax(y, axis&＃61;1)t &＃61; np.argmax(t, axis&＃61;1)accuracy &＃61; np.sum(y &＃61;&＃61; t) / float(x.shape[0])return accuracy# x:输入数据, t:监督数据def numerical_gradient(self, x, t):loss_W &＃61; lambda W: self.loss(x, t)grads &＃61; {}grads[&＃39;W1&＃39;] &＃61; numerical_gradient(loss_W, self.params[&＃39;W1&＃39;])grads[&＃39;b1&＃39;] &＃61; numerical_gradient(loss_W, self.params[&＃39;b1&＃39;])grads[&＃39;W2&＃39;] &＃61; numerical_gradient(loss_W, self.params[&＃39;W2&＃39;])grads[&＃39;b2&＃39;] &＃61; numerical_gradient(loss_W, self.params[&＃39;b2&＃39;])return gradsdef gradient(self, x, t):W1, W2 &＃61; self.params[&＃39;W1&＃39;], self.params[&＃39;W2&＃39;]b1, b2 &＃61; self.params[&＃39;b1&＃39;], self.params[&＃39;b2&＃39;]grads &＃61; {}batch_num &＃61; x.shape[0]# forwarda1 &＃61; np.dot(x, W1) &＃43; b1z1 &＃61; sigmoid(a1)a2 &＃61; np.dot(z1, W2) &＃43; b2y &＃61; softmax(a2)# backwarddy &＃61; (y - t) / batch_numgrads[&＃39;W2&＃39;] &＃61; np.dot(z1.T, dy)grads[&＃39;b2&＃39;] &＃61; np.sum(dy, axis&＃61;0)da1 &＃61; np.dot(dy, W2.T)dz1 &＃61; sigmoid_grad(a1) * da1grads[&＃39;W1&＃39;] &＃61; np.dot(x.T, dz1)grads[&＃39;b1&＃39;] &＃61; np.sum(dz1, axis&＃61;0)return grads

mini-batch实现&＃xff1a;

# coding: utf-8 import sys, os sys.path.append(os.pardir) # 为了导入父目录的文件而进行的设定 import numpy as np import matplotlib.pyplot as plt from dataset.mnist import load_mnist from two_layer_net import TwoLayerNet# 读入数据 (x_train, t_train), (x_test, t_test) &＃61; load_mnist(normalize&＃61;True, one_hot_label&＃61;True)network &＃61; TwoLayerNet(input_size&＃61;784, hidden_size&＃61;50, output_size&＃61;10)iters_num &＃61; 10000 # 适当设定循环的次数 train_size &＃61; x_train.shape[0] batch_size &＃61; 100 learning_rate &＃61; 0.1train_loss_list &＃61; [] train_acc_list &＃61; [] test_acc_list &＃61; []iter_per_epoch &＃61; max(train_size / batch_size, 1)for i in range(iters_num):batch_mask &＃61; np.random.choice(train_size, batch_size)x_batch &＃61; x_train[batch_mask]t_batch &＃61; t_train[batch_mask]# 计算梯度#grad &＃61; network.numerical_gradient(x_batch, t_batch)grad &＃61; network.gradient(x_batch, t_batch)# 更新参数for key in (&＃39;W1&＃39;, &＃39;b1&＃39;, &＃39;W2&＃39;, &＃39;b2&＃39;):network.params[key] -&＃61; learning_rate * grad[key]loss &＃61; network.loss(x_batch, t_batch)train_loss_list.append(loss)if i % iter_per_epoch &＃61;&＃61; 0:train_acc &＃61; network.accuracy(x_train, t_train)test_acc &＃61; network.accuracy(x_test, t_test)train_acc_list.append(train_acc)test_acc_list.append(test_acc)print("train acc, test acc | " &＃43; str(train_acc) &＃43; ", " &＃43; str(test_acc))# 绘制图形 markers &＃61; {&＃39;train&＃39;: &＃39;o&＃39;, &＃39;test&＃39;: &＃39;s&＃39;} x &＃61; np.arange(len(train_acc_list)) plt.plot(x, train_acc_list, label&＃61;&＃39;train acc&＃39;) plt.plot(x, test_acc_list, label&＃61;&＃39;test acc&＃39;, linestyle&＃61;&＃39;--&＃39;) plt.xlabel("epochs") plt.ylabel("accuracy") plt.ylim(0, 1.0) plt.legend(loc&＃61;&＃39;lower right&＃39;) plt.show()

推荐阅读

join
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
io
深入浅出TensorFlow数据读写机制

本文详细介绍TensorFlow中的数据读写操作，包括TFRecord文件的创建与读取，以及数据集（dataset）的相关概念和使用方法。 ... [详细]

蜡笔小新 2024-12-19 16:23:17
io
从零构建递归神经网络：仅用NumPy实现

尽管使用TensorFlow和PyTorch等成熟框架可以显著降低实现递归神经网络（RNN）的门槛，但对于初学者来说，理解其底层原理至关重要。本文将引导您使用NumPy从头构建一个用于自然语言处理（NLP）的RNN模型。 ... [详细]

蜡笔小新 2024-12-26 11:29:15
io
社交网络中的级联行为

社交网络中的级联行为 ... [详细]

蜡笔小新 2024-12-22 16:47:55
utf-8
从 .NET 转 Java 的自学之路：IO 流基础篇

本文详细介绍了 Java 中的 IO 流，包括字节流和字符流的基本概念及其操作方式。探讨了如何处理不同类型的文件数据，并结合编码机制确保字符数据的正确读写。同时，文中还涵盖了装饰设计模式的应用，以及多种常见的 IO 操作实例。 ... [详细]

蜡笔小新 2024-12-26 17:37:25
io
python3小游戏源代码_python 点球小游戏代码

#点球小游戏fromrandomimportchoiceimporttimescore[0,0]direction[left,center,right]defkick() ... [详细]

蜡笔小新 2024-12-23 19:17:34
version
Keras 实战：自编码器入门指南

本文介绍了使用 Keras 框架实现自编码器的基本方法。自编码器是一种用于无监督学习的神经网络模型，主要功能包括数据降维、特征提取等。通过实际案例，我们将展示如何使用全连接层和卷积层来构建自编码器，并讨论不同维度对重建效果的影响。 ... [详细]

蜡笔小新 2024-12-18 17:30:35
filter
Java并发编程：LinkedBlockingQueue的实际应用

本文介绍了Java并发库中的阻塞队列（BlockingQueue）及其典型应用场景。通过具体实例，展示了如何利用LinkedBlockingQueue实现线程间高效、安全的数据传递，并结合线程池和原子类优化性能。 ... [详细]

蜡笔小新 2024-12-27 18:51:49
join
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
scala
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
io
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
join
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
数组
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
io
TensorFlow 2.0 实战：多层感知机（MLP）网络入门

本教程详细介绍了如何使用 TensorFlow 2.0 构建和训练多层感知机（MLP）网络，涵盖回归和分类任务。通过具体示例和代码实现，帮助初学者快速掌握 TensorFlow 的核心概念和操作。 ... [详细]

蜡笔小新 2024-12-22 19:56:15
io
《算法》第四章部分程序 part 19

▶书中第四章部分程序，包括在加上自己补充的代码，有边权有向图的邻接矩阵，FloydWarshall算法可能含负环的有边权有向图任意两点之间的最短路径●有边权有向图的邻接矩阵1 ... [详细]

蜡笔小新 2024-12-17 21:40:17

Anruoxia52

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章