当前位置: 开发笔记 > 编程语言 > 正文

NeuralNetwork模型复杂度之BatchNormalizationPython实现

作者：制霸 | 来源：互联网 | 2023-09-24 10:40

背景介绍NeuralNetwork之模型复杂度主要取决于优化参数个数与参数变化范围.优化参数个数可手动调节,参数变化范围可通过正则化技术加以限制.本文从参数变化范围出发,以Batc

背景介绍

Neural Network之模型复杂度主要取决于优化参数个数与参数变化范围. 优化参数个数可手动调节, 参数变化范围可通过正则化技术加以限制. 本文从参数变化范围出发, 以Batch Normalization技术为例, 简要演示Batch Normalization批归一化对Neural Network模型复杂度的影响.

算法特征

①. 重整批特征之均值与方差; ②. 以批特征均值与方差之凸组合估计整体特征均值与方差

算法推导

以批数据集\(X_B = \{x^{(1)}, x^{(2)}, \cdots, x^{(n)}\}\)为例, 重整前均值与标准偏差分别如下
\[\begin{align*}
\mu_B &= \frac{1}{n}\sum_i x^{(i)} \\
\sigma_B &= \sqrt{\frac{1}{n}\sum_i (x^{(i)} - \mu_B)^2 + \epsilon}
\end{align*}
\]
其中, \(\epsilon\)代表足够小正数, 确保标准偏差非零.

对此批数据集进行如下重整,
\[x_{\mathrm{new}}^{(i)} = \sigma_{B, \mathrm{new}}\frac{x^{(i)} - \mu_B}{\sigma_B} + \mu_{B, \mathrm{new}}
\]
其中, \(\mu_{B,\mathrm{new}}\)与\(\sigma_{B, \mathrm{new}}\)为待优化参数, 分别代表批数据集重整后均值与标准偏差. 以此手段构建线性层, 重置了数据特征之分布范围, 调整了模型复杂度.

在训练过程中, 采用如下凸组合估计整体特征重整前均值与标准偏差,
\[\begin{align*}
\mu &= \lambda\mu + (1 - \lambda)\mu_{B} \\
\sigma &= \lambda\sigma + (1-\lambda)\sigma_{B}
\end{align*}
\]
其中, \(\lambda\)代表权重参数. 在测试过程中, 此\(\mu\)与\(\sigma\)用于替代\(\mu_B\)与\(\sigma_B\).

数据、模型与损失函数

此处采用与Neural Network模型复杂度之Dropout - Python实现相同的数据、模型与损失函数, 并在隐藏层取激活函数tanh之前引入Batch Normalization层.

代码实现

本文拟将中间隐藏层节点数设置为300, 使模型具备较高复杂度. 通过添加Batch Normalization层与否, 观察Batch Normalization对模型收敛的影响.

code
import numpy import torch from torch import nn from torch import optim from torch.utils import data from matplotlib import pyplot as plt numpy.random.seed(0) torch.random.manual_seed(0) # 获取数据与封装数据 def xFunc(r, g, b): x = r + 2 * g + 3 * b return x def yFunc(r, g, b): y = r ** 2 + 2 * g ** 2 + 3 * b ** 2 return y def lvFunc(r, g, b): lv = -3 * r - 4 * g - 5 * b return lv class GeneDataset(data.Dataset): def __init__(self, rRange=[-1, 1], gRange=[-1, 1], bRange=[-1, 1], num=100,\ transform=None, target_transform=None): self.__rRange = rRange self.__gRange = gRange self.__bRange = bRange self.__num = num self.__transform = transform self.__target_transform = target_transform self.__X = self.__build_X() self.__Y_ = self.__build_Y_() def __build_X(self): rArr = numpy.random.uniform(*self.__rRange, (self.__num, 1)) gArr = numpy.random.uniform(*self.__gRange, (self.__num, 1)) bArr = numpy.random.uniform(*self.__bRange, (self.__num, 1)) X = numpy.hstack((rArr, gArr, bArr)) return X def __build_Y_(self): rArr = self.__X[:, 0:1] gArr = self.__X[:, 1:2] bArr = self.__X[:, 2:3] xArr = xFunc(rArr, gArr, bArr) yArr = yFunc(rArr, gArr, bArr) lvArr = lvFunc(rArr, gArr, bArr) Y_ = numpy.hstack((xArr, yArr, lvArr)) return Y_ def __len__(self): return self.__num def __getitem__(self, idx): x = self.__X[idx] y_ = self.__Y_[idx] if self.__transform: x = self.__transform(x) if self.__target_transform: y_ = self.__target_transform(y_) return x, y_ # 构建模型 class Linear(nn.Module): def __init__(self, in_features, out_features, bias=True): super(Linear, self).__init__() self.__in_features = in_features self.__out_features = out_features self.__bias = bias self.weight = nn.Parameter(torch.randn((in_features, out_features), dtype=torch.float64)) self.bias = nn.Parameter(torch.randn((out_features,), dtype=torch.float64)) def forward(self, X): X = torch.matmul(X, self.weight) if self.__bias: X += self.bias return X class Tanh(nn.Module): def __init__(self): super(Tanh, self).__init__() def forward(self, X): X = torch.tanh(X) return X class BatchNorm(nn.Module): def __init__(self, num_features, lamda=0.9, epsilon=1.e-6): super(BatchNorm, self).__init__() self.__num_features = num_features self.__lamda = lamda self.__epsilon = epsilon self.training = True self.__mu_new = nn.parameter.Parameter(torch.zeros((num_features,))) self.__sigma_new = nn.parameter.Parameter(torch.ones((num_features,))) self.__mu = torch.zeros((num_features,)) self.__sigma = torch.ones((num_features,)) def forward(self, X): if self.training: mu_B = torch.mean(X, axis=0) sigma_B = torch.sqrt(torch.var(X, axis=0) + self.__epsilon) X = (X - mu_B) / sigma_B X = X * self.__sigma_new + self.__mu_new self.__mu = self.__lamda * self.__mu + (1 - self.__lamda) * mu_B.data self.__sigma = self.__lamda * self.__sigma + (1 - self.__lamda) * sigma_B.data return X else: X = (X - self.__mu) / self.__sigma X = X * self.__sigma_new + self.__mu_new return X class MLP(nn.Module): def __init__(self, hidden_features=50, is_batch_norm=True): super(MLP, self).__init__() self.__hidden_features = hidden_features self.__is_batch_norm = is_batch_norm self.__in_features = 3 self.__out_features = 3 self.lin1 = Linear(self.__in_features, self.__hidden_features) if self.__is_batch_norm: self.bn1 = BatchNorm(self.__hidden_features) self.tanh = Tanh() self.lin2 = Linear(self.__hidden_features, self.__out_features) def forward(self, X): X = self.lin1(X) if self.__is_batch_norm: X = self.bn1(X) X = self.tanh(X) X = self.lin2(X) return X # 构建损失函数 class MSE(nn.Module): def forward(self, Y, Y_): loss = torch.sum((Y - Y_) ** 2) return loss # 训练单元与测试单元 def train_epoch(trainLoader, model, loss_fn, optimizer): model.train(True) loss = 0 with torch.enable_grad(): for X, Y_ in trainLoader: optimizer.zero_grad() Y = model(X) lossVal = loss_fn(Y, Y_) lossVal.backward() optimizer.step() loss += lossVal.item() loss /= len(trainLoader.dataset) return loss def test_epoch(testLoader, model, loss_fn): model.train(False) loss = 0 with torch.no_grad(): for X, Y_ in testLoader: Y = model(X) lossVal = loss_fn(Y, Y_) loss += lossVal.item() loss /= len(testLoader.dataset) return loss # 进行训练与测试 class BatchNormShow(object): def __init__(self, trainLoader, testLoader): self.__trainLoader = trainLoader self.__testLoader = testLoader def train(self, epochs=100): torch.random.manual_seed(0) model_BN = MLP(300, True) loss_BN = MSE() optimizer_BN = optim.Adam(model_BN.parameters(), 0.001) torch.random.manual_seed(0) model_NoBN = MLP(300, False) loss_NoBN = MSE() optimizer_NoBN = optim.Adam(model_NoBN.parameters(), 0.001) trainLoss_BN, testLoss_BN = self.__train_model(self.__trainLoader, self.__testLoader, \ model_BN, loss_BN, optimizer_BN, epochs) trainLoss_NoBN, testLoss_NoBN = self.__train_model(self.__trainLoader, self.__testLoader, \ model_NoBN, loss_NoBN, optimizer_NoBN, epochs) fig = plt.figure(figsize=(5, 4)) ax1 = fig.add_subplot() ax1.plot(range(epochs), trainLoss_BN, "r-", lw=1, label="train with BN") ax1.plot(range(epochs), testLoss_BN, "r--", lw=1, label="test with BN") ax1.plot(range(epochs), trainLoss_NoBN, "b-", lw=1, label="train without BN") ax1.plot(range(epochs), testLoss_NoBN, "b--", lw=1, label="test without BN") ax1.legend() ax1.set(xlabel="epoch", ylabel="loss", yscale="log") fig.tight_layout() fig.savefig("batch_norm.png", dpi=100) plt.show() def __train_model(self, trainLoader, testLoader, model, loss_fn, optimizer, epochs): trainLossList = list() testLossList = list() for epoch in range(epochs): trainLoss = train_epoch(trainLoader, model, loss_fn, optimizer) testLoss = test_epoch(testLoader, model, loss_fn) trainLossList.append(trainLoss) testLossList.append(testLoss) print(epoch, trainLoss, testLoss) return trainLossList, testLossList if __name__ == "__main__": trainData = GeneDataset([-1, 1], [-1, 1], [-1, 1], num=1000, \ transform=torch.tensor, target_transform=torch.tensor) testData = GeneDataset([-1, 1], [-1, 1], [-1, 1], num=300, \ transform=torch.tensor, target_transform=torch.tensor) trainLoader = data.DataLoader(trainData, batch_size=len(trainData), shuffle=False) testLoader = data.DataLoader(testData, batch_size=len(testData), shuffle=False) bnsObj = BatchNormShow(trainLoader, testLoader) epochs = 10000 bnsObj.train(epochs)

结果展示

可以看到, Batch Normalization使得模型具备更快的收敛速度, 不过对最终收敛值影响不大, 即在上述重整手段下模型复杂度变化不大.

使用建议

①. Batch Normalization改变了特征分布, 具备调整模型复杂度的能力;

②. Batch Normalization使特征分布在原点附近, 不容易出现梯度消失或梯度爆炸;

③. Batch Normalization适用于神经网络全连接层与卷积层.

参考文档

①. 动手学深度学习 - 李牧

推荐阅读

range
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
range
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
range
Python AlphaShape：基于点集估算图像区域的Alpha形状算法解析

本文探讨了基于点集估算图像区域的Alpha形状算法在Python中的应用。通过改进传统的Delaunay三角剖分方法，该算法能够生成更加灵活和精确的形状轮廓，避免了单纯使用Delaunay三角剖分时可能出现的过大三角形问题。这种“模糊Delaunay三角剖分”技术不仅提高了形状的准确性，还增强了对复杂图像区域的适应能力。 ... [详细]

蜡笔小新 2024-11-03 17:11:41
md5
Keepalived 的健康检查机制与配置方法

Keepalived 提供了多种强大且灵活的后端健康检查机制，包括 HTTP_GET、SSL_GET、TCP_CHECK、SMTP_CHECK 和 MISC_CHECK 等多种检测方法。这些健康检查功能确保了高可用性环境中的服务稳定性和可靠性。通过合理配置这些检查方式，可以有效监测后端服务器的状态，及时发现并处理故障，从而提高系统的整体性能和可用性。 ... [详细]

蜡笔小新 2024-11-09 15:46:26
object
C++ 编程指南：第16条——在对应的新建和删除操作中使用相同的形式

当使用 `new` 表达式（即通过 `new` 动态创建对象）时，会发生两件事：首先，内存被分配用于存储新对象；其次，该对象的构造函数被调用以初始化对象。为了确保资源管理的一致性和避免内存泄漏，建议在使用 `new` 和 `delete` 时保持形式一致。例如，如果使用 `new[]` 分配数组，则应使用 `delete[]` 来释放内存；同样，如果使用 `new` 分配单个对象，则应使用 `delete` 来释放内存。这种一致性有助于防止常见的编程错误，提高代码的健壮性和可维护性。 ... [详细]

蜡笔小新 2024-11-09 12:21:19
uri
利用树莓派畅享落网电台音乐体验

最近重新拾起了闲置已久的树莓派，这台小巧的开发板已经沉寂了半年多。上个月闲暇时间较多，我决定将其重新启用。恰逢落网电台进行了改版，回忆起之前在树莓派论坛上看到有人用它来播放豆瓣音乐，便萌生了同样的想法。通过一番调试，终于实现了在树莓派上流畅播放落网电台音乐的功能，带来了全新的音乐享受体验。 ... [详细]

蜡笔小新 2024-11-05 09:20:37
instance
掌握Android UI设计：利用ZoomControls实现图片缩放功能

本文介绍了如何在Android应用中通过使用ZoomControls组件来实现图片的缩放功能。ZoomControls提供了一种简单且直观的方式，让用户可以通过点击放大和缩小按钮来调整图片的显示大小。文章详细讲解了ZoomControls的基本用法、布局设置以及与ImageView的结合使用方法，适合初学者快速掌握Android UI设计中的这一重要功能。 ... [详细]

蜡笔小新 2024-11-04 14:29:34
import
掌握PHP编程必备知识与技巧——全面教程

掌握PHP编程必备知识与技巧——全面教程在当今的PHP开发中，了解并运用最新的技术和最佳实践至关重要。本教程将详细介绍PHP编程的核心知识与实用技巧。首先，确保你正在使用PHP 5.3或更高版本，最好是最新版本，以充分利用其性能优化和新特性。此外，我们还将探讨代码结构、安全性和性能优化等方面的内容，帮助你成为一名更高效的PHP开发者。 ... [详细]

蜡笔小新 2024-11-03 16:38:49
input
基于OpenCV的图像拼接技术实践与示例代码解析

图像拼接技术在全景摄影中具有广泛应用，如手机全景拍摄功能，通过将多张照片根据其关联信息合成为一张完整图像。本文详细探讨了使用Python和OpenCV库实现图像拼接的具体方法，并提供了示例代码解析，帮助读者深入理解该技术的实现过程。 ... [详细]

蜡笔小新 2024-11-03 12:48:59
uri
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
instance
通过菜单项触发Activity启动过程详解

本文详细解析了通过菜单项触发Activity启动的过程。在Android开发中，菜单项是用户与应用交互的重要途径之一。文章从技术角度深入探讨了如何通过菜单项触发特定Activity的启动，并提供了具体的代码示例和实现步骤。通过对菜单项的响应处理、Intent的创建与传递等关键环节的分析，帮助开发者更好地理解和掌握这一机制。 ... [详细]

蜡笔小新 2024-11-02 18:17:42
join
点互信息在自然语言处理中的应用与优化

点互信息（Pointwise Mutual Information, PMI）是一种用于评估两个事件之间关联强度的统计量，在自然语言处理领域具有广泛应用。本文探讨了 PMI 在词共现分析、语义关系提取和情感分析等任务中的具体应用，并提出了几种优化方法，以提高其在大规模数据集上的计算效率和准确性。通过实验验证，这些优化策略显著提升了模型的性能。 ... [详细]

蜡笔小新 2024-11-02 16:01:23
数组
Python与R语言的功能对比及应用场景分析

Python与R语言在功能和应用场景上各有优势。尽管R语言在统计分析和数据可视化方面具有更强的专业性，但Python作为一种通用编程语言，适用于更广泛的领域，包括Web开发、自动化脚本和机器学习等。对于初学者而言，Python的学习曲线更为平缓，上手更加容易。此外，Python拥有庞大的社区支持和丰富的第三方库，使其在实际应用中更具灵活性和扩展性。 ... [详细]

蜡笔小新 2024-11-01 18:37:10
text
技术日志：深入探讨Spark Streaming与Spark SQL的融合应用

技术日志：深入探讨Spark Streaming与Spark SQL的融合应用 ... [详细]

蜡笔小新 2024-10-30 14:20:53
import
共享单车C语言开发项目：全面分析与实现

在该项目中，参与者需结合历史使用模式和天气数据，以预测华盛顿特区自行车共享系统的租赁需求。数据分析部分首先涉及数据的收集，包括用户骑行记录和气象信息，为后续模型构建提供基础。通过深入的数据预处理和特征工程，确保数据质量和模型准确性，最终实现对自行车租赁需求的有效预测。 ... [详细]

蜡笔小新 2024-10-30 10:33:38

制霸

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章