神经网络——一个很好的解释以及简单实现ImplementingaNeuralNetworkfromScratchinPython–AnIntroduction

作者：aspzc | 来源：互联网 | 2023-09-11 14:23

代码均在这里：Getthecode:Tofollowalong,allthecodeisalsoavailableasaniPythonnotebookonGithu

代码均在这里&＃xff1a;
Get the code: To follow along, all the code is also available as an iPython notebook on Github.

在这篇文章中&＃xff0c;我们将从头开始实现一个简单的3层神经网络。
我们不会推导出所有需要的数学内容&＃xff0c;但是我会尝试直观地解释我们正在做什么&＃xff0c;我也会给出资源给你详细阅读用。

在这里&＃xff0c;我假设你熟悉基本的微积分和机器学习概念&＃xff0c;例如&＃xff0c;你知道什么是分类和正则化。理想情况下&＃xff0c;你还知道一些关于如何使用梯度下降优化的技术。但是即使你不熟悉上述任何列出来的&＃xff0c;仍然可以是很有趣的 : )

然而&＃xff0c;为什么要从头开始实现一个神经网络呢&＃xff1f;即使您计划在未来使用像PyBrain这样的神经网络库&＃xff0c;至少一次从头开始实现一个网络是非常有价值的练习。它可以帮助您了解神经网络的工作原理&＃xff0c;这对设计有效的模型至关重要。

有一点需要注意的是&＃xff0c;这里的代码示例并不是非常有效。它们被设计成比较容易理解。在即将发布的帖子中&＃xff0c;我将探讨如何使用Theano编写一个高效的神经网络实现。 &＃xff08;更新&＃xff1a;now available&＃xff09;

Generating a dataset 生成数据集

让我们从生成一个数据集给我们使用开始。幸运的是&＃xff0c;scikit-learn有一些有用的数据集生成器&＃xff0c;所以我们不需要自己编写代码。我们将使用make_moons函数。

import numpy as np from sklearn import datasets, linear_model import matplotlib.pyplot as plt %matplotlib inline# Generate a dataset and plot it np.random.seed(0) X, y &＃61; sklearn.datasets.make_moons(200, noise&＃61;0.20) plt.scatter(X[:,0], X[:,1], s&＃61;40, c&＃61;y, cmap&＃61;plt.cm.Spectral)

我们生成的数据集有两个类&＃xff0c;绘制为红色和蓝色点。你可以将蓝点作为男性患者&＃xff0c;将红点视为女性患者&＃xff0c;X轴和Y轴是医学测量。

我们的目标是训练一个机器学习分类器&＃xff0c;根据给出的xy坐标来预测正确的分类&＃xff08;男性或女性&＃xff09;。请注意数据不是线性分离的&＃xff0c;我们不能绘制分开两个类的直线。这意味着线性分类器像逻辑回归&＃xff0c;将无法适应数据&＃xff0c;除非你手工设计适用于给定数据集的非线性特征&＃xff08;如多项式&＃xff09;。

事实上&＃xff0c;这是神经网络的主要优点之一。您不需要担心特征工程。神经网络的隐藏层将为你学习feature。

Logistic Regression 逻辑回归

为了说明我们训练一个逻辑回归分类器&＃xff0c;它的输入是xy值&＃xff0c;输出预测类&＃xff08;0或1&＃xff09;。为了方便简单&＃xff0c;我们从scikit-learn中使用 Logistic Regression class.

!!! 代码是GitHub上的那个文件 simple_classification.py

# Train the logistic rgeression classifier clf &＃61; sklearn.linear_model.LogisticRegressionCV() clf.fit(X, y)# Plot the decision boundary plot_decision_boundary(lambda x: clf.predict(x)) plt.title("Logistic Regression")

该图显示了由Logistic回归分类器学到的判定界限。它将数据分离成可以使用直线&＃xff0c;但它无法捕获我们的数据的“月亮形状”。

Training a Neural Network

现在我们来构建一个三层神经网络&＃xff0c;一个输入层&＃xff0c;一个隐藏层和一个输出层。
输入层中的节点数由我们的数据的维度决定&＃xff0c;就是2&＃xff1b;
类似地&＃xff0c;输出层中的节点数由我们所拥有的类的数量所决定&＃xff0c;也是2。&＃xff08;因为我们只有2个类&＃xff0c; 实际上可以只有一个输出节点预测0或1&＃xff0c;但是有2个可以更容易地将网络扩展到更多的类&＃xff09;。
网络的输入将是x和y坐标&＃xff0c;其输出将是两个概率&＃xff0c;一个用于class 0&＃xff08;“female”&＃xff09;&＃xff0c;一个用于class 1&＃xff08;“male”&＃xff09;。
看起来像这样&＃xff1a;

我们可以选择隐藏层的维数&＃xff08;节点数&＃xff09;。我们放入隐藏层中的节点越多&＃xff0c;我们将能够适应的更复杂的功能。但更高的维度会带来成本。
首先&＃xff0c;需要更多的计算来进行预测并学习网络的参数。
更多的参数也意味着我们更容易过度拟合我们的数据。

那么如何选择隐藏层的大小呢&＃xff1f;虽然有一些一般的指导方针和建议&＃xff0c;但它总是取决于你的具体问题&＃xff0c;更像是一门艺术而不是一门科学。稍后我们会着手于隐藏的节点数&＃xff0c;看看它是如何影响我们的输出的。

我们还需要给我们的隐藏层选择激活函数。激活函数&＃xff08;The activation function&＃xff09;将层的输入转换为其输出。非线性激活函数是允许我们拟合非线性假设的。常见选择的激活函数是tanh, the sigmoid function, 或者ReLUs.
我们将使用tanh&＃xff0c;在许多情况下表现相当好。这些函数的一个很好的属性是它们的倒数可以使用原始函数值来计算。
例如&＃xff0c;tanhx的导数就是1−tanh2x. 这是有用的&＃xff0c;因为它允许我们计算tanhx一次&＃xff0c;然后重新使用这个tanhx值来获得导数。

因为我们希望我们的network输出概率&＃xff0c;输出层的激活函数将是softmax&＃xff0c;一种方法简单地将原始score转换为概率。
如果你熟悉logistic function&＃xff0c;you can think of softmax as its generalization to multiple classes.&＃xff08;这句还是放原文比较好 T_T&＃xff09;.

How our network makes predictions

我们的网络使用正向传播去预测&＃xff0c;正向传播只是一堆矩阵乘法和上面定义的激活函数的应用。
x是我们的网络的二维输入&＃xff0c;那么我们如下计算我们的预测y′ &＃xff08;也是二维的&＃xff09;&＃xff1a;

z1&＃61;xW1&＃43;b1
a1&＃61;tanh(z1)
z2&＃61;a1W2&＃43;b2
a2&＃61;y′&＃61;softmax(z2)

zi 是第i层的输入&＃xff0c;ai 是第i层应用激活函数之后的输出。
W1,b1,W2,b2是我们网络的参数&＃xff0c;这些参数我们需要从training data中学习&＃xff08;learn from our training data&＃xff09;. 你可以把它们当做是矩阵&＃xff0c;在网络层之间转换数据的矩阵。
看着上面的矩阵乘法&＃xff0c;我们可以计算出这些矩阵的维数&＃xff1a;
如果我们使用500个节点在隐含层&＃xff0c;那么 W1∈R(2∗500),b1∈R(500),W2∈R(500∗2),b2∈R(2)
现在你可以看到了为什么我们需要更多的参数&＃xff0c;如果我们提高了隐藏层的size。

Learning the Parameters

学习我们网络参数意味着我们需要找到能最小化错误&＃xff0c;在我们的训练数据上。&＃xff08;the error on our training data&＃xff09;。不过&＃xff0c;我们该如何定义我们的error&＃xff1f;
We call the function that measures our error the loss funtion. 我们叫它 loss function。
softmax输出的一个常见的选择是分类交叉熵损失&＃xff08;也称负对数似然值&＃xff09;。
the categorical cross-entropy loss

如果我们有N个训练样本和 C个类&＃xff0c;那么预测值 y’ 相对于真实的 labels y 的损失&＃xff08;loss&＃xff09;&＃xff1a;

![loss](https://img-blog.csdn.net/20171129153846589?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvZ3VvaGFvX3poYW5n/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA&＃61;&＃61;/dissolve/70/gravity/SouthEast) 这个公式看起来很复杂&＃xff0c;但是它真正的作用是总结我们的训练样例&＃xff0c;并且如果我们预测了不正确的类&＃xff0c;那就增加了损失。两个概率分布越远 y&＃xff08;正确的标签&＃xff09;和 y’&＃xff08;我们的预测&＃xff09;&＃xff0c;我们的损失就越大。通过寻找能最小化损失的参数&＃xff0c;we maximize the likelihood of our training data. 我们可以使用**梯度下降 &＃xff08;gradient descent&＃xff09;**来找到最小值我将实现梯度下降的最普通的版本&＃xff0c;也称为批量梯度下降&＃xff0c;具有固定的学习率&＃xff08;batch gradient descent with a fixed learning rate&＃xff09; Variations such as **SGD (stochastic gradient descent) or minibatch gradient descent** typically perform better in practice. 【变体例如 SGD&＃xff08;随机梯度下降&＃xff09;或者小批次梯度下降等通常在实践中表现更好】作为输入&＃xff0c;梯度下降需要相对于我们的参数的损失函数的梯度&＃xff08;导数的向量&＃xff09;: As an input, gradient descent needs the gradients (vector of derivatives) of the loss function with respect to our parameters:

∂L∂W1,∂L∂b1,∂L∂W2,∂L∂b2 为了计算这些梯度&＃xff0c;我们使用著名的**反向传播算法**&＃xff0c;这是一种有效地计算从输出开始的梯度的方法。我不会详细讨论反向传播是如何工作的&＃xff0c;但是在网络上有很多很好的解释。

Implementation&＃xff1a;

We start by defining some useful variables and parameters for gradient descent:

num_examples &＃61; len(X) # training set size nn_input_dim &＃61; 2 # input layer dimensionality nn_output_dim &＃61; 2 # output layer dimensionality# Gradient descent parameters (I picked these by hand) epsilon &＃61; 0.01 # learning rate for gradient descent reg_lambda &＃61; 0.01 # regularization strength

首先让我们来实现我们上面定义的损失函数。我们用这个来评估我们的模型在做什么&＃xff1a;

# Helper function to evaluate the total loss on the dataset def calculate_loss(model):W1, b1, W2, b2 &＃61; model[&＃39;W1&＃39;], model[&＃39;b1&＃39;], model[&＃39;W2&＃39;], model[&＃39;b2&＃39;]# Forward propagation to calculate our predictionsz1 &＃61; X.dot(W1) &＃43; b1a1 &＃61; np.tanh(z1)z2 &＃61; a1.dot(W2) &＃43; b2exp_scores &＃61; np.exp(z2)probs &＃61; exp_scores / np.sum(exp_scores, axis&＃61;1, keepdims&＃61;True)# Calculating the losscorect_logprobs &＃61; -np.log(probs[range(num_examples), y])data_loss &＃61; np.sum(corect_logprobs)# Add regulatization term to loss (optional)data_loss &＃43;&＃61; reg_lambda/2 * (np.sum(np.square(W1)) &＃43; np.sum(np.square(W2)))return 1./num_examples * data_loss

我们还实现了一个辅助函数来计算网络的输出。它按前面定义的那样进行前向传播&＃xff0c;并以最高概率返回类。

# Helper function to predict an output (0 or 1) def predict(model, x):W1, b1, W2, b2 &＃61; model[&＃39;W1&＃39;], model[&＃39;b1&＃39;], model[&＃39;W2&＃39;], model[&＃39;b2&＃39;]# Forward propagationz1 &＃61; x.dot(W1) &＃43; b1a1 &＃61; np.tanh(z1)z2 &＃61; a1.dot(W2) &＃43; b2exp_scores &＃61; np.exp(z2)probs &＃61; exp_scores / np.sum(exp_scores, axis&＃61;1, keepdims&＃61;True)return np.argmax(probs, axis&＃61;1)

最后&＃xff0c;这里是训练我们的神经网络的功能。它使用我们在上面提到的反向传播实现批量梯度下降。

# This function learns parameters for the neural network and returns the model. # - nn_hdim: Number of nodes in the hidden layer # - num_passes: Number of passes through the training data for gradient descent # - print_loss: If True, print the loss every 1000 iterations def build_model(nn_hdim, num_passes&＃61;20000, print_loss&＃61;False):# Initialize the parameters to random values. We need to learn these.np.random.seed(0)W1 &＃61; np.random.randn(nn_input_dim, nn_hdim) / np.sqrt(nn_input_dim)b1 &＃61; np.zeros((1, nn_hdim))W2 &＃61; np.random.randn(nn_hdim, nn_output_dim) / np.sqrt(nn_hdim)b2 &＃61; np.zeros((1, nn_output_dim))# This is what we return at the endmodel &＃61; {}# Gradient descent. For each batch...for i in xrange(0, num_passes):# Forward propagationz1 &＃61; X.dot(W1) &＃43; b1a1 &＃61; np.tanh(z1)z2 &＃61; a1.dot(W2) &＃43; b2exp_scores &＃61; np.exp(z2)probs &＃61; exp_scores / np.sum(exp_scores, axis&＃61;1, keepdims&＃61;True)# Backpropagationdelta3 &＃61; probsdelta3[range(num_examples), y] -&＃61; 1dW2 &＃61; (a1.T).dot(delta3)db2 &＃61; np.sum(delta3, axis&＃61;0, keepdims&＃61;True)delta2 &＃61; delta3.dot(W2.T) * (1 - np.power(a1, 2))dW1 &＃61; np.dot(X.T, delta2)db1 &＃61; np.sum(delta2, axis&＃61;0)# Add regularization terms (b1 and b2 don&＃39;t have regularization terms)dW2 &＃43;&＃61; reg_lambda * W2dW1 &＃43;&＃61; reg_lambda * W1# Gradient descent parameter updateW1 &＃43;&＃61; -epsilon * dW1b1 &＃43;&＃61; -epsilon * db1W2 &＃43;&＃61; -epsilon * dW2b2 &＃43;&＃61; -epsilon * db2# Assign new parameters to the modelmodel &＃61; { &＃39;W1&＃39;: W1, &＃39;b1&＃39;: b1, &＃39;W2&＃39;: W2, &＃39;b2&＃39;: b2}# Optionally print the loss.# This is expensive because it uses the whole dataset, so we don&＃39;t want to do it too often.if print_loss and i % 1000 &＃61;&＃61; 0:print "Loss after iteration %i: %f" %(i, calculate_loss(model))return model

A network with a hidden layer of size 3

让我们看看如果我们训练隐藏层大小为3的网络会发生什么&＃xff1a;

# Build a model with a 3-dimensional hidden layer model &＃61; build_model(3, print_loss&＃61;True)# Plot the decision boundary plot_decision_boundary(lambda x: predict(model, x)) plt.title("Decision Boundary for hidden layer size 3")

这里写图片描述

这看起来很不错。我们的神经网络能够找到一个成功分离类的决策边界。

Varying the hidden layer size 改变隐藏层的大小

在上面的例子中&＃xff0c;我们选择了隐藏层大小3.现在让我们了解隐藏层大小如何改变结果。

plt.figure(figsize&＃61;(16, 32)) hidden_layer_dimensions &＃61; [1, 2, 3, 4, 5, 20, 50] for i, nn_hdim in enumerate(hidden_layer_dimensions):plt.subplot(5, 2, i&＃43;1)plt.title(&＃39;Hidden Layer size %d&＃39; % nn_hdim)model &＃61; build_model(nn_hdim)plot_decision_boundary(lambda x: predict(model, x)) plt.show()

这里写图片描述

我们可以看到隐藏的低维度层很好地捕捉了我们数据的总体趋势。更高的维度容易过度拟合。他们是“记忆”数据而不是拟合一般的形状。如果我们要在一个单独的测试集上评估我们的模型&＃xff08;而且您应该&＃xff01;&＃xff09;&＃xff0c;那么具有较小隐藏层大小的模型由于更好的泛化可能会更好。我们可以用更强的正则化来抵消过度拟合&＃xff0c;但是为隐藏层选择正确的大小是一个更“economical”的解决方案。

英文原博网址在&＃xff1a;
http://www.wildml.com/2015/09/implementing-a-neural-network-from-scratch/

推荐阅读

list
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
js
Go Echo 框架入门指南【1】

本文介绍了 Go 语言中的高性能、可扩展、轻量级 Web 框架 Echo。Echo 框架简单易用，仅需几行代码即可启动一个高性能 HTTP 服务。 ... [详细]

蜡笔小新 2024-11-14 18:30:58
js
Cookie学习小结

Cookie学习小结 ... [详细]

蜡笔小新 2024-11-14 16:26:25
js
SvpplyTable: 实现可扩展和可折叠的菜单动画

SvpplyTable 是一个示例项目，旨在实现类似 Svpply 应用程序中的可扩展和可折叠的菜单动画效果。该项目托管在 GitHub 上，地址为 https://github.com/liuminqian/SvpplyTable。 ... [详细]

蜡笔小新 2024-11-15 15:27:31
list
centos 7.0 lnmp成功安装过程（很乱）

下载nginx[rootlocalhostsrc]#wgethttp:nginx.orgdownloadnginx-1.7.9.tar.gz--2015-01-2412:55:2 ... [详细]

蜡笔小新 2024-11-15 14:20:54
js
vue引入echarts地图的四种方式

一、vue中引入echart1、安装echarts:npminstallecharts--save2、在main.js文件中引入echarts实例: Vue.prototype.$echartsecharts3、在需要用到echart图形的vue文件中引入: importechartsfrom&quot;echarts&quot;;4、如果用到map（地图），还 ... [详细]

蜡笔小新 2024-11-15 13:07:46
js
吴恩达机器学习+deeplearning课程笔记干货链接分享

分享两个GitHub链接，今天看到的，超赞超赞不能更赞了，答应我一定要去看好吗~~~~不论是笔记还是github中分享的其它资源ÿ ... [详细]

蜡笔小新 2024-11-15 09:24:12
js
使用HTML和JavaScript实现视频截图功能

本文介绍了如何利用HTML和JavaScript实现从远程MP4、本地摄像头及本地上传的MP4文件中截取视频帧，并展示了具体的实现步骤和示例代码。 ... [详细]

蜡笔小新 2024-11-15 00:19:42
js
阿里云 Aliplayer高级功能介绍(八)：安全播放

如何保障视频内容的安全，不被盗链、非法下载和传播，阿里云视频点播已经有一套完善的机 ... [详细]

蜡笔小新 2024-11-15 18:04:15
usb
高效重装Windows 10系统指南

如何快速地为您的电脑重装Windows 10系统？本文将详细介绍从下载系统镜像到安装完成的每一步操作。 ... [详细]

蜡笔小新 2024-11-15 17:24:56
usb
四、作为您的 VCS 的 GitHub

四、作为您的 VCS 的 GitHub ... [详细]

蜡笔小新 2024-11-15 16:48:49
js
使用Postman构建API请求

本文介绍了如何使用Postman构建和发送HTTP请求，包括四个主要部分：方法（Method）、URL、头部（Headers）和主体（Body）。特别强调了Body部分的重要性，并详细说明了不同类型的请求体。 ... [详细]

蜡笔小新 2024-11-15 13:35:01
js
兆芯X86 CPU架构的演进与现状（国产CPU系列）

本文详细介绍了兆芯X86 CPU架构的发展历程，从公司成立背景到关键技术授权，再到具体芯片架构的演进，全面解析了兆芯在国产CPU领域的贡献与挑战。 ... [详细]

蜡笔小新 2024-11-14 15:04:34
object
pytorch(一)：torch构建数据集并训练一个神经网络

目录预备知识导包构建数据集神经网络结构训练测试精度可视化计算模型精度损失可视化输出网络结构信息训练神经网络定义参数载入数据载入神经网络结构、损失及优化训练及测试损失、精度可视化qu ... [详细]

蜡笔小新 2024-11-14 13:06:38
object
Java 15 发布，带来多项重要更新！

2020年9月15日，Oracle正式发布了最新的JDK 15版本。本次更新带来了许多新特性，包括隐藏类、EdDSA签名算法、模式匹配、记录类、封闭类和文本块等。 ... [详细]

蜡笔小新 2024-11-14 12:11:09

aspzc

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章