前向传播实战(手写梯度下降与前向计算，不做调参侠)

作者：miedao1592_460 | 来源：互联网 | 2023-09-25 18:08

前向传播实战1、简介2、前向传播实战2.1导入依赖2.2加载数据集2.3创建每个非线性层的W和b参数2.4前向计算2.5自动梯度与梯度更新2.6完整代码3、总结1、简介我们这里使用

前向传播实战

1、简介
2、前向传播实战
- 2.1 导入依赖
- 2.2 加载数据集
- 2.3 创建每个非线性层的W和b参数
- 2.4 前向计算
- 2.5 自动梯度与梯度更新
- 2.6 完整代码
3、总结

1、简介

我们这里使用张量的基本操作去完成三层神经网络的实现&＃xff1a;
$out&＃61;ReLU(ReLu(ReLU(X&＃64;W_1&＃43;b_1)&＃64;W_2&＃43;b_2)&＃64;W_3&＃43;b3)$
采用的数据集是MNIST手写数字图片数据集&＃xff0c;输入节点数为784&＃xff0c;第一层的输出节点数是256&＃xff0c;第二层的输出节点数是128&＃xff0c;第三层的输出节点数是10&＃xff0c;也就是当前样本属于10个类别的概率。

2、前向传播实战

2.1 导入依赖

import os import matplotlib.pyplot as plt import tensorflow as tf import tensorflow.keras.datasets as datasets os.environ[&＃39;TF_CPP_MIN_LOG_LEVEL&＃39;]&＃61;&＃39;2&＃39; plt.rcParams[&＃39;font.size&＃39;] &＃61; 16 plt.rcParams[&＃39;font.family&＃39;] &＃61; [&＃39;STKaiti&＃39;] plt.rcParams[&＃39;axes.unicode_minus&＃39;] &＃61; False

2.2 加载数据集

def load_data():# 加载 MNIST 数据集(x, y), (x_val, y_val) &＃61; datasets.mnist.load_data()# 转换为浮点张量&＃xff0c; 并缩放到-1~1x &＃61; tf.convert_to_tensor(x, dtype&＃61;tf.float32) / 255.# 转换为整形张量y &＃61; tf.convert_to_tensor(y, dtype&＃61;tf.int32)# one-hot 编码y &＃61; tf.one_hot(y, depth&＃61;10)# 在前向计算时&＃xff0c;首先将shape为[b,28,28]的输入张量的视图调整为[b,784],即将每个图片的矩阵数据调整为向量特征&＃xff0c;这样才适合网络的输入格式&＃xff1a;# 改变视图&＃xff0c; [b, 28, 28] &＃61;> [b, 28*28]x &＃61; tf.reshape(x, (-1, 28 * 28))# 构建数据集对象train_dataset &＃61; tf.data.Dataset.from_tensor_slices((x, y))# 批量训练train_dataset &＃61; train_dataset.batch(200)return train_dataset

2.3 创建每个非线性层的W和b参数

每个张量都需要被优化&＃xff0c;所以使用Variable类型&＃xff0c;并使用截断的正态分布初始化权值向量

# 创建每个非线性层的W和b张量参数 def init_paramaters():# 每层的张量都需要被优化&＃xff0c;故使用 Variable 类型&＃xff0c;并使用截断的正太分布初始化权值张量# 偏置向量初始化为 0 即可# 第一层的参数w1 &＃61; tf.Variable(tf.random.truncated_normal([784, 256], stddev&＃61;0.1))b1 &＃61; tf.Variable(tf.zeros([256]))# 第二层的参数w2 &＃61; tf.Variable(tf.random.truncated_normal([256, 128], stddev&＃61;0.1))b2 &＃61; tf.Variable(tf.zeros([128]))# 第三层的参数w3 &＃61; tf.Variable(tf.random.truncated_normal([128, 10], stddev&＃61;0.1))b3 &＃61; tf.Variable(tf.zeros([10]))return w1, b1, w2, b2, w3, b3

2.4 前向计算

第一层计算&＃xff0c;这里显示地进行自动扩展操作&＃xff1a;

# 第一层计算&＃xff0c; [b, 784]&＃64;[784, 256] &＃43; [256] &＃61;> [b, 256] &＃43; [256] &＃61;> [b,256] &＃43; [b, 256]h1 &＃61; x &＃64; w1 &＃43; tf.broadcast_to(b1, (x.shape[0], 256))h1 &＃61; tf.nn.relu(h1) # 通过激活函数

用同样地方法完成第二个和第三个非线性函数层地前向计算&＃xff0c;输出层可以不使用ReLU激活函数&＃xff1a;

# 第二层计算&＃xff0c; [b, 256] &＃61;> [b, 128]h2 &＃61; h1 &＃64; w2 &＃43; b2h2 &＃61; tf.nn.relu(h2)# 输出层计算&＃xff0c; [b, 128] &＃61;> [b, 10]out &＃61; h2 &＃64; w3 &＃43; b3

将真实地标注张量y转变为独热编码&＃xff0c;并计算与out的均方误差&＃xff0c;代码如下&＃xff1a;

# 计算网络输出与标签之间的均方差&＃xff0c; mse &＃61; mean(sum(y-out)^2)# [b, 10]loss &＃61; tf.square(y - out)# 误差标量&＃xff0c; mean: scalarloss &＃61; tf.reduce_mean(loss)

上述的前向计算过程都包裹在with tf.GradientTape() as tape上下文中&＃xff0c;使得前向计算时候能够保存计算图信息&＃xff0c;方便自动求导操作。

2.5 自动梯度与梯度更新

通过tape.gradient()函数求得网络参数得到梯度信息&＃xff0c;结果保存在grads列表变量中&＃xff0c;实现如下&＃xff1a;

# 自动梯度&＃xff0c;需要求梯度的张量有[w1, b1, w2, b2, w3, b3]grads &＃61; tape.gradient(loss, [w1, b1, w2, b2, w3, b3])

并按照公式&＃xff1a;
$θ′&＃61;θ−η⋅∂ζ∂θ\theta &＃39;&＃61;\theta -\eta \cdot \frac{\partial \zeta }{\partial \theta }$
来更新网络参数&＃xff1a;

# 梯度更新&＃xff0c; assign_sub 将当前值减去参数值&＃xff0c;原地更新w1.assign_sub(lr * grads[0])b1.assign_sub(lr * grads[1])w2.assign_sub(lr * grads[2])b2.assign_sub(lr * grads[3])w3.assign_sub(lr * grads[4])b3.assign_sub(lr * grads[5])

其中&＃xff0c;assign_sub()将自身减去给定的参数值&＃xff0c;实现参数的原地(In-place)更新操作。

网络训练误差值的变化曲线如下图所示&＃xff1a;

2.6 完整代码

import os import matplotlib.pyplot as plt import tensorflow as tf import tensorflow.keras.datasets as datasets os.environ[&＃39;TF_CPP_MIN_LOG_LEVEL&＃39;]&＃61;&＃39;2&＃39; plt.rcParams[&＃39;font.size&＃39;] &＃61; 16 plt.rcParams[&＃39;font.family&＃39;] &＃61; [&＃39;STKaiti&＃39;] plt.rcParams[&＃39;axes.unicode_minus&＃39;] &＃61; Falsedef load_data():# 加载 MNIST 数据集(x, y), (x_val, y_val) &＃61; datasets.mnist.load_data()# 转换为浮点张量&＃xff0c; 并缩放到-1~1x &＃61; tf.convert_to_tensor(x, dtype&＃61;tf.float32) / 255.# 转换为整形张量y &＃61; tf.convert_to_tensor(y, dtype&＃61;tf.int32)# one-hot 编码y &＃61; tf.one_hot(y, depth&＃61;10)# 改变视图&＃xff0c; [b, 28, 28] &＃61;> [b, 28*28]x &＃61; tf.reshape(x, (-1, 28 * 28))# 构建数据集对象train_dataset &＃61; tf.data.Dataset.from_tensor_slices((x, y))# 批量训练train_dataset &＃61; train_dataset.batch(200)return train_dataset# 创建每个非线性层的W和b张量参数 def init_paramaters():# 每层的张量都需要被优化&＃xff0c;故使用 Variable 类型&＃xff0c;并使用截断的正太分布初始化权值张量# 偏置向量初始化为 0 即可# 第一层的参数w1 &＃61; tf.Variable(tf.random.truncated_normal([784, 256], stddev&＃61;0.1))b1 &＃61; tf.Variable(tf.zeros([256]))# 第二层的参数w2 &＃61; tf.Variable(tf.random.truncated_normal([256, 128], stddev&＃61;0.1))b2 &＃61; tf.Variable(tf.zeros([128]))# 第三层的参数w3 &＃61; tf.Variable(tf.random.truncated_normal([128, 10], stddev&＃61;0.1))b3 &＃61; tf.Variable(tf.zeros([10]))return w1, b1, w2, b2, w3, b3def train_epoch(epoch, train_dataset, w1, b1, w2, b2, w3, b3, lr&＃61;0.001):for step, (x, y) in enumerate(train_dataset):with tf.GradientTape() as tape: # 默认跟踪的是tf.Variable类型# 第一层计算&＃xff0c; [b, 784]&＃64;[784, 256] &＃43; [256] &＃61;> [b, 256] &＃43; [256] &＃61;> [b,256] &＃43; [b, 256]h1 &＃61; x &＃64; w1 &＃43; tf.broadcast_to(b1, (x.shape[0], 256))h1 &＃61; tf.nn.relu(h1) # 通过激活函数# 第二层计算&＃xff0c; [b, 256] &＃61;> [b, 128]h2 &＃61; h1 &＃64; w2 &＃43; b2h2 &＃61; tf.nn.relu(h2)# 输出层计算&＃xff0c; [b, 128] &＃61;> [b, 10]out &＃61; h2 &＃64; w3 &＃43; b3# 计算网络输出与标签之间的均方差&＃xff0c; mse &＃61; mean(sum(y-out)^2)# [b, 10]loss &＃61; tf.square(y - out)# 误差标量&＃xff0c; mean: scalarloss &＃61; tf.reduce_mean(loss)# 自动梯度&＃xff0c;需要求梯度的张量有[w1, b1, w2, b2, w3, b3]grads &＃61; tape.gradient(loss, [w1, b1, w2, b2, w3, b3])# 梯度更新&＃xff0c; assign_sub 将当前值减去参数值&＃xff0c;原地更新w1.assign_sub(lr * grads[0])b1.assign_sub(lr * grads[1])w2.assign_sub(lr * grads[2])b2.assign_sub(lr * grads[3])w3.assign_sub(lr * grads[4])b3.assign_sub(lr * grads[5])if step % 100 &＃61;&＃61; 0:print(epoch, step, &＃39;loss:&＃39;, loss.numpy())return loss.numpy()def train(epochs):losses &＃61; []train_dataset &＃61; load_data()w1, b1, w2, b2, w3, b3 &＃61; init_paramaters()for epoch in range(epochs): # 20loss &＃61; train_epoch(epoch, train_dataset, w1, b1, w2, b2, w3, b3, lr&＃61;0.001)losses.append(loss)x &＃61; [i for i in range(0, epochs)]# 绘制曲线plt.plot(x, losses, color&＃61;&＃39;blue&＃39;, marker&＃61;&＃39;s&＃39;, label&＃61;&＃39;训练&＃39;)plt.xlabel(&＃39;Epoch&＃39;)plt.ylabel(&＃39;MSE&＃39;)plt.legend()plt.savefig(&＃39;MNIST数据集的前向传播训练误差曲线.png&＃39;)plt.show()if __name__ &＃61;&＃61; &＃39;__main__&＃39;:train(epochs&＃61;20)

看懂上面的代码必须将tensorflow的张量计算十分熟练才可以。

3、总结

刚开始我只会调用keras的API&＃xff0c;不知道底层是怎么计算的&＃xff0c;导致遇到复杂的模型看不懂别人的代码&＃xff0c;现在终于将梯度下降法和前向传播搞明白了(无非就是通过偏导数去更新参数W和b&＃xff0c;然后再计算损失)

推荐阅读

go
探索CNN的可视化技术

神经网络的可视化在理论学习与实践应用中扮演着至关重要的角色。本文深入探讨了三种有效的CNN（卷积神经网络）可视化方法，旨在帮助读者更好地理解和优化模型。 ... [详细]

蜡笔小新 2024-11-24 11:30:28
go
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
text
Python算法实践：多维缩放技术的应用

本文介绍了多维缩放（MDS）技术，这是一种将高维数据映射到低维空间的方法，通过保持原始数据间的关系，以便于可视化和分析。文章详细描述了MDS的原理和实现过程，并提供了Python代码示例。 ... [详细]

蜡笔小新 2024-11-21 20:04:27
text
计算机学报精选论文概览（2020-2022）

本文汇总了2020年至2022年间《计算机学报》上发表的若干重要论文，旨在为即将投稿的研究者提供参考。 ... [详细]

蜡笔小新 2024-11-20 11:08:21
数组
纵坐标|据点_菜菜的sklearn课堂笔记支持向量机线性SVM决策过程的可视化

纵坐标|据点_菜菜的sklearn课堂笔记支持向量机线性SVM决策过程的可视化 ... [详细]

蜡笔小新 2024-11-27 12:58:16
import
LeetCode 363: 寻找不超过K的最大子矩阵和【固定边界+逐步求和+有序列表查询】

本文探讨了在给定矩阵中寻找一个子矩阵，使其元素和不超过K但尽可能大的问题。通过固定上下边界，逐步计算每列的累积和，并利用有序列表快速查找满足条件的前缀和，以达到算法优化的目的。 ... [详细]

蜡笔小新 2024-11-26 23:19:32
import
Python 装饰器与装饰类详解

本文通过具体示例详细介绍了 Python 中的装饰器和装饰类的使用方法，包括带参数的装饰器和装饰类的应用场景。 ... [详细]

蜡笔小新 2024-11-26 13:53:48
import
利用50行Python代码打造经典游戏，既是休闲娱乐，也是编程学习的利器

Free Python Games 是一个适合学生和初学者的项目，它不仅提供了高度的组织性和灵活性，还极大地激发了用户的探索与理解能力。 ... [详细]

蜡笔小新 2024-11-26 12:28:22
go
进程管理：并发、并行、子进程启动与进程池应用

本文介绍了进程的基本概念及其在操作系统中的重要性，探讨了进程与程序的区别，以及如何通过多进程实现并发和并行。文章还详细讲解了Python中的multiprocessing模块，包括Process类的使用方法、进程间的同步与异步调用、阻塞与非阻塞操作，并通过实例演示了进程池的应用。 ... [详细]

蜡笔小新 2024-11-25 16:40:13
import
Python 高级编程技巧：多线程与多进程的对比分析

本文探讨了在Python中多线程与多进程的性能差异，特别是在处理CPU密集型任务和I/O密集型任务时的表现。由于全局解释器锁（GIL）的存在，多线程在利用多核CPU方面表现不佳，而多进程则能有效利用多核资源。 ... [详细]

蜡笔小新 2024-11-24 17:41:05
import
AI炼金术：KNN分类器的构建与应用

本文介绍了如何使用Python及其相关库（如NumPy、scikit-learn和matplotlib）构建KNN分类器模型。通过详细的数据准备、模型训练及新样本预测的过程，展示KNN算法的实际操作步骤。 ... [详细]

蜡笔小新 2024-11-21 11:40:55
go
将图像平移到画布中心python_python – Tkinter画布缩放移动/平移

高级缩放示例.就像谷歌地图一样.它仅缩放图块,但不缩放整个图像.因此,缩放的瓷砖占据了恒定的记忆,并且不会为大型缩放图像调整大小的图像.对于简化的缩放示例lookhere.在Win ... [详细]

蜡笔小新 2024-11-20 15:47:04
import
使用TensorFlow实现Top-K准确率计算的神经网络案例

本文通过一个具体的实例，介绍如何利用TensorFlow框架来计算神经网络模型在多分类任务中的Top-K准确率。代码中包含了随机种子设置、模拟预测结果生成、真实标签生成以及准确率计算等步骤。 ... [详细]

蜡笔小新 2024-11-20 12:37:13
java
jquery java 文件上传_jQuery文件上传

插件描述：这是一个文件上传的展示，看很多插件，并不满意就自己写了一个，可能兼容性不是很好，没有准确进行测试过& ... [详细]

蜡笔小新 2024-11-26 16:41:31
go
利用Scrapy构建的数据采集与分析可视化系统

本文探讨了如何使用Scrapy框架构建高效的数据采集系统，以及如何通过异步处理技术提升数据存储的效率。同时，文章还介绍了针对不同网站采用的不同采集策略。 ... [详细]

蜡笔小新 2024-11-23 16:56:38

miedao1592_460

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章