当前位置: 开发笔记 > 后端 > 正文

神经网络知识专题总结

作者：信雨2502873867 | 来源：互联网 | 2023-07-20 13:29

Datawhale干货译者：张峰，Datawhale成员结构总览一、神经网络简介对于非线性分类问题（如图1所示）࿰

Datawhale干货译者&＃xff1a;张峰&＃xff0c;Datawhale成员

结构总览

一、神经网络简介

对于非线性分类问题&＃xff08;如图1所示&＃xff09;&＃xff0c;“非线性”意味着你无法使用形式为&＃xff1a;

的模型准确预测标签。也就是说&＃xff0c;“决策面”不是直线。之前&＃xff0c;我们了解了对非线性问题进行建模的一种可行方法 - 特征组合。

现在&＃xff0c;请考虑以下数据集&＃xff1a;

图 2. 更难的非线性分类问题

图 2 所示的数据集问题无法用线性模型解决。为了了解神经网络可以如何帮助解决非线性问题&＃xff0c;我们首先用图表呈现一个线性模型&＃xff1a;

图 3. 用图表呈现的线性模型

每个蓝色圆圈均表示一个输入特征&＃xff0c;绿色圆圈表示各个输入的加权和。要提高此模型处理非线性问题的能力&＃xff0c;我们可以如何更改它&＃xff1f;

1.1 隐藏层

在下图所示的模型中&＃xff0c;我们添加了一个表示中间值的“隐藏层”。隐藏层中的每个黄色节点均是蓝色输入节点值的加权和。输出是黄色节点的加权和。

图 4. 两层模型的图表

此模型是线性的吗&＃xff1f;是的&＃xff0c;其输出仍是其输入的线性组合。

在下图所示的模型中&＃xff0c;我们又添加了一个表示加权和的“隐藏层”。

图 5. 三层模型的图表

此模型仍是线性的吗&＃xff1f;是的&＃xff0c;没错。当你将输出表示为输入的函数并进行简化时&＃xff0c;你只是获得输入的另一个加权和而已。该加权和无法对图 2 中的非线性问题进行有效建模。

1.2 激活函数

要对非线性问题进行建模&＃xff0c;我们可以直接引入非线性函数。我们可以用非线性函数将每个隐藏层节点像管道一样连接起来。

在下图所示的模型中&＃xff0c;在隐藏层 1 中的各个节点的值传递到下一层进行加权求和之前&＃xff0c;我们采用一个非线性函数对其进行了转换。这种非线性函数称为激活函数。

图 6. 包含激活函数的三层模型的图表

现在&＃xff0c;我们已经添加了激活函数&＃xff0c;如果添加层&＃xff0c;将会产生更多影响。通过在非线性上堆叠非线性&＃xff0c;我们能够对输入和预测输出之间极其复杂的关系进行建模。简而言之&＃xff0c;每一层均可通过原始输入有效学习更复杂、更高级别的函数。如果你想更直观地了解这一过程的工作原理&＃xff0c;请参阅 Chris Olah 的精彩博文。

常见激活函数

以下 S 型激活函数将加权和转换为介于 0 和 1 之间的值。

曲线图如下&＃xff1a;

图 7. S 型激活函数

相较于 S 型函数等平滑函数&＃xff0c;以下修正线性单元激活函数&＃xff08;简称为 ReLU&＃xff09;的效果通常要好一点&＃xff0c;同时还非常易于计算。

ReLU 的优势在于它基于实证发现&＃xff08;可能由 ReLU 驱动&＃xff09;&＃xff0c;拥有更实用的响应范围。S 型函数的响应性在两端相对较快地减少。

图 8. ReLU 激活函数

实际上&＃xff0c;所有数学函数均可作为激活函数。假设 σσ 表示我们的激活函数&＃xff08;ReLU、S 型函数等等&＃xff09;。因此&＃xff0c;网络中节点的值由以下公式指定&＃xff1a;

TensorFlow 为各种激活函数提供开箱即用型支持。但是&＃xff0c;我们仍建议从 ReLU 着手。

1.3 小结

现在&＃xff0c;我们的模型拥有了人们通常所说的“神经网络”的所有标准组件&＃xff1a;

一组节点&＃xff0c;类似于神经元&＃xff0c;位于层中。
一组权重&＃xff0c;表示每个神经网络层与其下方的层之间的关系。下方的层可能是另一个神经网络层&＃xff0c;也可能是其他类型的层。
一组偏差&＃xff0c;每个节点一个偏差。
一个激活函数&＃xff0c;对层中每个节点的输出进行转换。不同的层可能拥有不同的激活函数。

警告&＃xff1a;神经网络不一定始终比特征组合好&＃xff0c;但它确实可以提供适用于很多情形的灵活替代方案。

二、训练神经网络

本部分介绍了反向传播算法的失败案例&＃xff0c;以及正则化神经网络的常见方法。

2.1 失败案例

很多常见情况都会导致反向传播算法出错。

梯度消失

较低层&＃xff08;更接近输入&＃xff09;的梯度可能会变得非常小。在深度网络中&＃xff0c;计算这些梯度时&＃xff0c;可能涉及许多小项的乘积。

当较低层的梯度逐渐消失到 0 时&＃xff0c;这些层的训练速度会非常缓慢&＃xff0c;甚至不再训练。

ReLU 激活函数有助于防止梯度消失。

梯度爆炸

如果网络中的权重过大&＃xff0c;则较低层的梯度会涉及许多大项的乘积。在这种情况下&＃xff0c;梯度就会爆炸&＃xff1a;梯度过大导致难以收敛。批标准化可以降低学习速率&＃xff0c;因而有助于防止梯度爆炸。

ReLU 单元消失

一旦 ReLU 单元的加权和低于 0&＃xff0c;ReLU 单元就可能会停滞。它会输出对网络输出没有任何贡献的 0 激活&＃xff0c;而梯度在反向传播算法期间将无法再从中流过。由于梯度的来源被切断&＃xff0c;ReLU 的输入可能无法作出足够的改变来使加权和恢复到 0 以上。

降低学习速率有助于防止 ReLU 单元消失。

2.2 丢弃正则化

这是称为丢弃的另一种形式的正则化&＃xff0c;可用于神经网络。其工作原理是&＃xff0c;在梯度下降法的每一步中随机丢弃一些网络单元。丢弃得越多&＃xff0c;正则化效果就越强&＃xff1a;

0.0 &＃61; 无丢弃正则化。
1.0 &＃61; 丢弃所有内容。模型学不到任何规律。

0.0 和 1.0 之间的值更有用。

三、多类别神经网络

3.1 一对多&＃xff08;OnevsAll&＃xff09;

一对多提供了一种利用二元分类的方法。鉴于一个分类问题会有 N 个可行的解决方案&＃xff0c;一对多解决方案包括 N 个单独的二元分类器&＃xff0c;每个可能的结果对应一个二元分类器。在训练期间&＃xff0c;模型会训练一系列二元分类器&＃xff0c;使每个分类器都能回答单独的分类问题。以一张狗狗的照片为例&＃xff0c;可能需要训练五个不同的识别器&＃xff0c;其中四个将图片看作负样本&＃xff08;不是狗狗&＃xff09;&＃xff0c;一个将图片看作正样本&＃xff08;是狗狗&＃xff09;。即&＃xff1a;

这是一张苹果的图片吗&＃xff1f;不是。
这是一张熊的图片吗&＃xff1f;不是。
这是一张糖果的图片吗&＃xff1f;不是。
这是一张狗狗的图片吗&＃xff1f;是。
这是一张鸡蛋的图片吗&＃xff1f;不是。

当类别总数较少时&＃xff0c;这种方法比较合理&＃xff0c;但随着类别数量的增加&＃xff0c;其效率会变得越来越低下。

我们可以借助深度神经网络&＃xff08;在该网络中&＃xff0c;每个输出节点表示一个不同的类别&＃xff09;创建明显更加高效的一对多模型。图9展示了这种方法&＃xff1a;

图 9. 一对多神经网络

四、Softmax

我们已经知道&＃xff0c;逻辑回归可生成介于 0 和 1.0 之间的小数。例如&＃xff0c;某电子邮件分类器的逻辑回归输出值为 0.8&＃xff0c;表明电子邮件是垃圾邮件的概率为 80%&＃xff0c;不是垃圾邮件的概率为 20%。很明显&＃xff0c;一封电子邮件是垃圾邮件或非垃圾邮件的概率之和为 1.0。

Softmax 将这一想法延伸到多类别领域。也就是说&＃xff0c;在多类别问题中&＃xff0c;Softmax 会为每个类别分配一个用小数表示的概率。这些用小数表示的概率相加之和必须是 1.0。与其他方式相比&＃xff0c;这种附加限制有助于让训练过程更快速地收敛。

例如&＃xff0c;回到我们在图 9 中看到的图片分析示例&＃xff0c;Softmax 可能会得出图片属于某一特定类别的以下概率&＃xff1a;

Softmax 层是紧挨着输出层之前的神经网络层。Softmax 层必须和输出层拥有一样的节点数。

图 10. 神经网络中的 Softmax 层

Softmax 方程式如下所示&＃xff1a;

请注意&＃xff0c;此公式本质上是将逻辑回归公式延伸到了多类别。

4.1 Softmax 选项

请查看以下 Softmax 变体&＃xff1a;

完整 Softmax 是我们一直以来讨论的 Softmax&＃xff1b;也就是说&＃xff0c;Softmax 针对每个可能的类别计算概率。
候选采样指 Softmax 针对所有正类别标签计算概率&＃xff0c;但仅针对负类别标签的随机样本计算概率。例如&＃xff0c;如果我们想要确定某个输入图片是小猎犬还是寻血猎犬图片&＃xff0c;则不必针对每个非狗狗样本提供概率。

类别数量较少时&＃xff0c;完整 Softmax 代价很小&＃xff0c;但随着类别数量的增加&＃xff0c;它的代价会变得极其高昂。候选采样可以提高处理具有大量类别的问题的效率。

五、一个标签与多个标签

Softmax 假设每个样本只是一个类别的成员。但是&＃xff0c;一些样本可以同时是多个类别的成员。对于此类示例&＃xff1a;

你不能使用 Softmax。
你必须依赖多个逻辑回归。

例如&＃xff0c;假设你的样本是只包含一项内容&＃xff08;一块水果&＃xff09;的图片。Softmax 可以确定该内容是梨、橙子、苹果等的概率。如果你的样本是包含各种各样内容&＃xff08;几份不同种类的水果&＃xff09;的图片&＃xff0c;你必须改用多个逻辑回归。

转自&＃xff1a;Datawhale&＃xff1b;

END

合作请加QQ&＃xff1a;365242293

数据分析&＃xff08;ID : ecshujufenxi &＃xff09;互联网科技与数据圈自己的微信&＃xff0c;也是WeMedia自媒体联盟成员之一&＃xff0c;WeMedia联盟覆盖5000万人群。

推荐阅读

微信
【度量学习】Siamese Network

基于2-channelnetwork的图片相似度判别一、相关理论本篇博文主要讲解2015年CVPR的一篇关于图像相似度计算的文章：《LearningtoCompar ... [详细]

蜡笔小新 2024-12-12 19:11:33
ci
强人工智能时代，区块链的角色与前景

随着强人工智能的崛起，区块链技术在新的技术生态中扮演着怎样的角色？本文探讨了区块链与强人工智能之间的互补关系及其在未来技术发展中的重要性。 ... [详细]

蜡笔小新 2024-12-07 14:46:21
ci
图像标签与以图搜图技术的应用与实践

本文探讨了图像标签的多种分类场景及其在以图搜图技术中的应用，涵盖了从基础理论到实际项目实施的全面解析。 ... [详细]

蜡笔小新 2024-12-07 14:28:06
spring
java程序员_Java程序员最新职业规划，逆袭面经分享

java程序员_Java程序员最新职业规划，逆袭面经分享 ... [详细]

蜡笔小新 2024-12-16 14:36:24
ci
吴恩达推出TensorFlow实践课程，Python基础即可入门，四个月掌握核心技能

量子位报道，deeplearning.ai最新发布了TensorFlow实践课程，适合希望使用TensorFlow开发AI应用的学习者。该课程涵盖机器学习模型构建、图像识别、自然语言处理及时间序列预测等多个方面。 ... [详细]

蜡笔小新 2024-12-08 17:26:10
ci
《计算机视觉：算法与应用》第二版初稿上线，全面更新迎接未来

经典计算机视觉教材《计算机视觉：算法与应用》迎来了其第二版，现已开放初稿下载。本书由Facebook研究科学家Richard Szeliski撰写，自2010年首版以来，一直是该领域的标准参考书。 ... [详细]

蜡笔小新 2024-11-30 20:56:47
ci
使用Python爬虫技术从网页中提取图片链接的方法与示例

本篇文章将详细介绍如何通过Python编程语言来实现从指定网页上抓取图片链接的功能，并提供了一个实用的代码示例。 ... [详细]

蜡笔小新 2024-12-15 11:58:32
php
Python库在GIS与三维可视化中的应用

Python库极大地扩展了GIS的能力，使其能够执行复杂的数据科学任务。本文探讨了几个关键的Python库，这些库不仅增强了GIS的核心功能，还推动了地理信息系统向更高层次的应用发展。 ... [详细]

蜡笔小新 2024-12-13 17:24:24
php
在Ubuntu 16.04中使用Anaconda安装TensorFlow

本文详细介绍了如何在Ubuntu 16.04系统上通过Anaconda环境管理工具安装TensorFlow。首先，需要下载并安装Anaconda，然后配置环境变量以确保系统能够识别Anaconda命令。接着，创建一个特定的Python环境用于安装TensorFlow，并通过指定的镜像源加速安装过程。最后，通过一个简单的线性回归示例验证TensorFlow的安装是否成功。 ... [详细]

蜡笔小新 2024-12-11 19:07:39
php
深入理解卷积神经网络(CNNs)及其应用

回顾与学习是进步的阶梯。再次审视卷积神经网络(CNNs)，我对之前不甚明了的概念有了更深的理解。本文旨在分享这些新的见解，并探讨CNNs在图像识别和自然语言处理等领域中的实际应用。 ... [详细]

蜡笔小新 2024-12-11 13:41:49
cache
大数据时代的机器学习：人工特征工程与线性模型的局限

本文探讨了在大数据背景下，人工特征工程与线性模型的应用及其局限性。随着数据量的激增和技术的进步，传统的特征工程方法面临挑战，文章提出了未来发展的可能方向。 ... [详细]

蜡笔小新 2024-12-07 11:58:58
cache
TensorFlow 入门：MNIST 数据集实战

本文详细介绍了 TensorFlow 的入门实践，特别是使用 MNIST 数据集进行数字识别的项目。文章首先解析了项目文件结构，并解释了各部分的作用，随后逐步讲解了如何通过 TensorFlow 实现基本的神经网络模型。 ... [详细]

蜡笔小新 2024-12-05 13:06:15
cache
Python 编辑数学公式：比 Word 更高效、更简单

在Word中编辑复杂的数学公式常常让人感到头疼，尤其是处理偏微分方程（PDE）等高级数学内容时。然而，最近GitHub上的一个开源项目latexify_py展示了如何利用Python轻松生成LaTeX数学公式，极大地简化了这一过程。 ... [详细]

蜡笔小新 2024-12-04 15:37:28
cache
深入理解TensorFlow中的张量及其应用

本文探讨了如何在TensorFlow中使用张量来处理和分析数字图像，特别是通过具体的代码示例展示了张量在图像处理中的作用。 ... [详细]

蜡笔小新 2024-12-02 10:29:18
cache
利用神经网络破解数学难题：求解偏微分方程的新途径

一项来自Quantamagazine的最新研究揭示，借助人工智能的深度学习技术，特别是深度神经网络，科学家们能够在数学建模领域取得突破，显著提高了处理复杂系统中偏微分方程的速度与效率。 ... [详细]

蜡笔小新 2024-12-01 14:44:13

信雨2502873867

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章