当前位置: 开发笔记 > 编程语言 > 正文

避免神经网络过拟合的5种技术

作者：尕尕东东东_534 | 来源：互联网 | 2023-09-11 14:58

作者：AbhinavSagar翻译：陈超校对：王琦本文约1700字，建议阅读8分钟。本文介绍了5种在训练神经网络中避

作者&＃xff1a;Abhinav Sagar

翻译&＃xff1a;陈超

校对&＃xff1a;王琦

本文约1700字&＃xff0c;建议阅读8分钟。

本文介绍了5种在训练神经网络中避免过拟合的技术。

最近一年我一直致力于深度学习领域。这段时间里&＃xff0c;我使用过很多神经网络&＃xff0c;比如卷积神经网络、循环神经网络、自编码器等等。我遇到的最常见的一个问题就是在训练时&＃xff0c;深度神经网络会过拟合。

当模型试着预测噪声较多的数据的趋势时&＃xff0c;由于模型参数过多、过于复杂&＃xff0c;就会导致过拟合。过拟合的模型通常是不精确的&＃xff0c;因为这样的预测趋势并不会反映数据的真实情况。我们可以通过模型在已知的数据&＃xff08;训练集&＃xff09;中有好的预测结果&＃xff0c;但在未知的数据&＃xff08;测试集&＃xff09;中较差的表现来判断是否存在过拟合。机器学习模型的目的是从训练集到该问题领域的任何数据集上均有泛化的较好表现&＃xff0c;因为我们希望模型能够预测未知的数据。

在本文中&＃xff0c;我将展示5种在训练神经网络时避免过拟合的技术。

一、简化模型

处理过拟合的第一步就是降低模型复杂度。为了降低复杂度&＃xff0c;我们可以简单地移除层或者减少神经元的数量使得网络规模变小。与此同时&＃xff0c;计算神经网络中不同层的输入和输出维度也十分重要。虽然移除层的数量或神经网络的规模并无通用的规定&＃xff0c;但如果你的神经网络发生了过拟合&＃xff0c;就尝试缩小它的规模。

二、早停

在使用迭代的方法&＃xff08;例如梯度下降&＃xff09;来训练模型时&＃xff0c;早停是一种正则化的形式。因为所有的神经网络都是通过梯度下降的方法来学习的&＃xff0c;所以早停是一种适用于所有问题的通用技术。使用这种方法来更新模型以便其在每次迭代时能更好地适应训练集。在一定程度上&＃xff0c;这种方法可以改善模型在测试集上的表现。但是除此之外&＃xff0c;改善模型对训练集的拟合会增加泛化误差。早停规则指定了模型在过拟合之前可以迭代的次数。

避免神经网络过拟合的5种技术&＃xff08;附链接&＃xff09;

早停

上图展示了这种技术。正如我们看到的&＃xff0c;在几次迭代后&＃xff0c;即使训练误差仍然在减少&＃xff0c;但测验误差已经开始增加了。

三、使用数据增强

在神经网络中&＃xff0c;数据增强只意味着增加数据规模&＃xff0c;也就是增加数据集里中图像的数量。一些热门的图像增强技术有翻转、平移、旋转、缩放、改变亮度、添加噪声等等。获取更全面的参考&＃xff0c;可访问&＃xff1a;

Albumentations&＃xff1a;

https://github.com/albumentations-team/albumentations

Imgaug&＃xff1a;

https://github.com/aleju/imgaug

避免神经网络过拟合的5种技术&＃xff08;附链接&＃xff09;

数据增强

如上图所示&＃xff0c;使用数据增强可以生成多幅相似图像。这可以帮助我们增加数据集规模从而减少过拟合。因为随着数据量的增加&＃xff0c;模型无法过拟合所有样本&＃xff0c;因此不得不进行泛化。

四、使用正则化

正则化是一种降低模型复杂度的方式。它是通过在损失函数中添加一个惩罚项来实现正则化。最常见的技术是L1和L2正则化&＃xff1a;

L1惩罚项的目的是使权重绝对值最小化。公式如下&＃xff1a;

避免神经网络过拟合的5种技术&＃xff08;附链接&＃xff09;

L1正则化

L2惩罚项的目的是使权重的平方最小化。公式如下&＃xff1a;

避免神经网络过拟合的5种技术&＃xff08;附链接&＃xff09;

L2正则化

以下表格对两种正则化方法进行了对比。

L1正则化

L2正则化

1. L1惩罚权重绝对值的总和

1. L2惩罚权重平方和的总和

2. L1生成简单、可解释的模型

2. L2正则化能够学习复杂数据模式

3. L1受极端值影响较小

3. L2受极端值影响较大

L1正则化vs L2正则化

那么哪一种方式更有利于避免过拟合呢&＃xff1f;答案是——看情况。如果数据过于复杂以至于无法准确地建模&＃xff0c;那么L2是更好的选择&＃xff0c;因为它能够学习数据中呈现的内在模式。而当数据足够简单&＃xff0c;可以精确建模的话&＃xff0c;L1更合适。对于我遇到的大多数计算机视觉问题&＃xff0c;L2正则化几乎总是可以给出更好的结果。然而L1不容易受到离群值的影响。所以正确的正则化选项取决于我们想要解决的问题。

五、使用丢弃法&＃xff08;Dropouts&＃xff09;

丢弃法是一种避免神经网络过拟合的正则化技术。像L1和L2这样的正则化技术通过修改代价函数来减少过拟合。而丢弃法修改神经网络本身。它在训练的每一次迭代过程中随机地丢弃神经网络中的神经元。当我们丢弃不同神经元集合的时候&＃xff0c;就等同于训练不同的神经网络。不同的神经网络会以不同的方式发生过拟合&＃xff0c;所以丢弃的净效应将会减少过拟合的发生。

避免神经网络过拟合的5种技术&＃xff08;附链接&＃xff09;

使用丢弃法

如上图所示&＃xff0c;丢弃法被用于在训练神经网络的过程中随机丢弃神经网络中的神经元。这种技术被证明可以减少很多问题的过拟合&＃xff0c;这些问题包括图像分类、图像切割、词嵌入、语义匹配等问题。

结论

简单回顾下上述内容&＃xff0c;我解释了什么是过拟合以及为什么它是神经网络当中常见的问题。接下来我又给出了五种最常见的在训练神经网络过程中避免过拟合的方法——简化模型、早停、数据增强、正则化以及丢弃法。

编辑&＃xff1a;黄继彦

校对&＃xff1a;林亦霖

译者简介

避免神经网络过拟合的5种技术&＃xff08;附链接&＃xff09;

陈超&＃xff0c;北京大学应用心理硕士在读。本科曾混迹于计算机专业&＃xff0c;后又在心理学的道路上不懈求索。越来越发现数据分析和编程已然成为了两门必修的生存技能&＃xff0c;因此在日常生活中尽一切努力更好地去接触和了解相关知识&＃xff0c;但前路漫漫&＃xff0c;我仍在路上。

— 完 —

推荐阅读

stream
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
uri
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
uri
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
uri
AI人工智能学习之回归分析详解

回归分析是一种统计学方法，用于确定变量之间的定量关系。本文将详细介绍回归分析的基本概念、分类、应用及具体操作步骤。 ... [详细]

蜡笔小新 2024-11-15 11:03:56
php
Java 网站开发指南

本文详细介绍了 Java 网站开发的相关资源和步骤，包括常用网站、开发环境和框架选择。 ... [详细]

蜡笔小新 2024-11-14 22:39:58
php
持续集成持续部署持续交付_您不进行持续集成！

持续集成持续部署持续交付今天，我将谈论开发人员的一个误解：持续集成是关于运行自动化集成管道的…什么是持续集成（CI） ... [详细]

蜡笔小新 2024-11-14 20:00:58
version
LeetCode 1736: 替换隐藏数字获取最晚时间

本文详细介绍了如何通过替换隐藏数字来获取最晚时间，适用于 LeetCode 1736 题目。 ... [详细]

蜡笔小新 2024-11-14 18:45:57
php
在VSCode中添加自定义外部命令

通过将常用的外部命令集成到VSCode中，可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令，从而简化命令执行过程。 ... [详细]

蜡笔小新 2024-11-13 16:57:15
php
Spring 切面配置中的切点表达式详解

本文介绍了如何在Spring框架中使用AspectJ风格的切面配置，详细解释了切点表达式的语法和常见示例，帮助开发者更好地理解和应用Spring AOP。 ... [详细]

蜡笔小新 2024-11-13 14:07:16
search
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
search
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
version
ElasticStack 日志监控：Logstash 编码插件详解与生产环境应用实例分析

在ElasticStack日志监控系统中，Logstash编码插件自5.0版本起进行了重大改进。插件被独立拆分为gem包，每个插件可以单独进行更新和维护，无需依赖Logstash的整体升级。这不仅提高了系统的灵活性和可维护性，还简化了插件的管理和部署过程。本文将详细介绍这些编码插件的功能、配置方法，并通过实际生产环境中的应用案例，展示其在日志处理和监控中的高效性和可靠性。 ... [详细]

蜡笔小新 2024-11-09 19:27:28
uri
a16z深入解析：代币设计的常见误区、优化策略及未来趋势分析

a16z深入解析：代币设计的常见误区、优化策略及未来趋势分析 ... [详细]

蜡笔小新 2024-11-06 14:52:58
jar
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
js
Node.js 配置文件管理方法详解与最佳实践

本文详细介绍了 Node.js 中配置文件管理的方法与最佳实践，涵盖常见的配置文件格式及其优缺点，并提供了多种实用技巧和示例代码，帮助开发者高效地管理和维护项目配置，具有较高的参考价值。 ... [详细]

蜡笔小新 2024-11-05 06:40:19

尕尕东东东_534

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章