当前位置: 开发笔记 > 编程语言 > 正文

过拟合及其对策

作者：高傲的辫子 | 来源：互联网 | 2023-09-25 14:03

本文介绍了欠拟合、过拟合相关概念，分析造成它们的原因，总结了防止过拟合的一般策略。1损失函数损失函数（lossfunction࿰

本文介绍了欠拟合、过拟合相关概念&＃xff0c;分析造成它们的原因&＃xff0c;总结了防止过拟合的一般策略。

1 损失函数

损失函数&＃xff08;loss function&＃xff09;&＃xff1a;是用来度量模型预测值f(x)与样本真实标签值y的不一致程度。
给定输入的样本数据x&＃xff0c;模型函数输出一个f(x)&＃xff0c;这个输出的f(x)与样本的真实值标签值y可能是相同的&＃xff0c;也可能是不同的&＃xff0c;为了表示我们拟合的好坏&＃xff0c;就用一个函数来度量拟合的程度。有平方差损失函数、交叉熵损失函数&＃xff0c;对比损失函数&＃xff0c;合页损失函数等。
损失函数是一个实值函数&＃xff0c;它的值越小&＃xff0c;表示模型在训练样本集上拟合地越好。是不是训练集损拟合的越好&＃xff0c;模型的效果会更好呢&＃xff1f; 答案是No。由于训练样本集和测试数据集是不一样的&＃xff0c;在训练集上损失函数越小&＃xff0c;并不代表测试集损失函数越小&＃xff0c;我们希望模型在训练集上有高准确率的同时在测试集上也有高准确率。衡量这种能力的指标就是泛化能力&＃xff0c;这时候不得不提过拟合和欠拟合的概念。

2 学习

学习&＃xff1a;找到一组模型参数&＃xff0c;使得在给定的训练数据样本和对应的目标值上的损失函数最小化。

3 过拟合与欠拟合

欠拟合&＃xff08;under-fitting&＃xff09;&＃xff1a;也称为欠学习&＃xff0c;它的直观表现是算法训练得到的模型在训练集上表现差&＃xff08;测试集表现也差&＃xff09;&＃xff0c;没有学到数据的规律。
引起欠拟合的原因&＃xff1a;
- 模型本身过于简单&＃xff0c;例如数据本身是非线性的但使用了线性模型&＃xff1b;
- 特征数太少无法正确的建立统计关系。
过拟合&＃xff08;over-fitting&＃xff09;&＃xff1a;也称为过学习&＃xff0c;它的直观表现是算法在训练集上表现好&＃xff0c;但在测试集上表现不好&＃xff0c;泛化性能差。过拟合是在模型参数拟合过程中由于训练数据包含抽样误差&＃xff0c;在训练时复杂的模型将抽样误差也进行了拟合导致的。所谓抽样误差&＃xff0c;是指抽样得到的样本集和整体数据集之间的偏差。
引起过拟合的可能原因&＃xff1a;
- 模型本身过于复杂&＃xff0c;以至于拟合了训练样本集中的噪声。此时需要选用更简单的模型&＃xff0c;或者对模型进行裁剪。
- 训练样本太少或者缺乏代表性。此时需要增加样本数&＃xff0c;或者增加样本的多样性。
- 训练样本噪声的干扰&＃xff0c;导致模型拟合了这些噪声&＃xff0c;这时需要剔除噪声数据或者改用对噪声不敏感的模型。

4 方差与偏差

模型的泛化误差来自于两部分&＃xff0c;分别称为偏差和方差。
偏差&＃xff08;bias&＃xff09;是模型本身导致的误差&＃xff0c;即错误的模型假设所导致的误差&＃xff0c;它是模型的预测值的数学期望和真实值之间的差距。
方差&＃xff08;variance&＃xff09;是由于对训练样本集的小波动敏感而导致的误差。它可以理解为模型预测值的变化范围&＃xff0c;即模型预测值的波动程度。
偏差、方差、错误率与模型复杂度的关系如下图所示。通常随着模型的复杂度增加&＃xff0c;偏差也会跟着逐渐增大。

5 如何避免过拟合

5.1 正则化

为了防止过拟合&＃xff0c;可以为损失函数加上一个惩罚项对复杂的模型进行惩罚&＃xff0c;即强制让模型的参数值尽可能小。加上正则化项的目标是让它的值尽可能小&＃xff0c;即参数等于0或者接近于0。\(\lambda\)为惩罚项系数&＃xff0c;是人工设定的大于0的参数。

5.2 剪枝

剪枝是决策树类算法防止过拟合的方法。如果决策树的结构过于复杂&＃xff0c;可能会导致过拟合问题&＃xff0c;此时需要对树进行剪枝&＃xff0c;消掉某些节点让它变得更简单。剪枝的关键问题是确定减掉哪些树节点以及减掉它们之后如何进行节点合并。决策树的剪枝算法可以分为两类&＃xff0c;分别称为预剪枝和后剪枝。前者在树的训练过程中通过停止分裂对树的规模进行限制&＃xff1b;后者先构造出一棵完整的树&＃xff0c;然后通过某种规则消除掉部分节点&＃xff0c;用叶子节点替代。

5.3 数据增广

数据增广是解决过拟合中思想比较朴素的方法。训练集越多&＃xff0c;过拟合的概率越小&＃xff0c;数据增广是一个比较方便有效屡试不爽的方法&＃xff0c;但各类领域的增广方法都不同。

1 在计算机视觉领域中&＃xff0c;增广的方式是对图像旋转&＃xff0c;缩放&＃xff0c;剪切&＃xff0c;添加噪声等。
2 在自然语言处理领域中&＃xff0c;可以做同义词替换扩充数据集。
3 语音识别中可以对样本数据添加随机的噪声。

5.4 dropout

Dropout是神经网络中防止过拟合的方法。dropout的做法是在训练时随机的选择一部分神经元进行正向传播和反向传播&＃xff0c;另外一些神经元的参数值保持不变&＃xff0c;以减轻过拟合。dropout机制使得每个神经元在训练时只用了样本集中的部分样本&＃xff0c;这相当于对样本集进行采样&＃xff0c;即bagging的做法。最终得到的是多个神经网络的组合。

5.5 Early Stopping

提前停止的策略是在验证集误差出现增大之后&＃xff0c;提前结束训练&＃xff1b;而不是一直等待验证集误差达到最小。提前停止策略十分简单,执行效率高&＃xff0c;但需要额外的空间备份参数。

5.6 集成学习

集成学习算法也可以有效的减轻过拟合。Bagging通过平均多个模型的结果&＃xff0c;来降低模型的方差。Boosting不仅能够减小偏差&＃xff0c;还能减小方差。

6 参考文献

[1] 雷明著.机器学习与应用[M].清华大学出版社,2019.

转:https://www.cnblogs.com/zingp/p/10511176.html

推荐阅读

char
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
char
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
cookie
搜狐面试实战：技术问答与心得分享

本文详细记录了一位求职者在搜狐进行的两次面试经历，包括面试的具体时间、面试流程、技术问题及个人感受。通过本次面试，作者不仅获得了宝贵的经验，还成功拿到了搜狐的录用通知。 ... [详细]

蜡笔小新 2024-11-25 12:44:59
char
前端技术分享——利用Canvas绘制鼠标轨迹

作为一名前端开发者，我已经积累了Vue、React、正则表达式、算法以及小程序等方面的技能，但Canvas一直是我的盲区。因此，我在2018年为自己设定了一个新的学习目标：掌握Canvas，特别是如何使用它来创建CSS3难以实现的动态效果。 ... [详细]

蜡笔小新 2024-11-25 09:00:32
char
防范互联网服务提供商的恶意劫持行为

本文探讨了互联网服务提供商（ISP）如何可能篡改或插入用户请求的数据流，并提供了有效的技术手段来防止此类劫持行为，确保网络环境的安全与纯净。 ... [详细]

蜡笔小新 2024-11-23 09:41:45
list
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
list
AI TIME联合2021世界人工智能大会，共探图神经网络与认知智能前沿话题

AI TIME携手2021世界人工智能大会，共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来，WAIC已成为全球AI领域的年度盛会，吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]

蜡笔小新 2024-10-29 11:34:09
list
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
list
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
string
探索Hive UDF的应用

本文介绍了在解决Hive表中复杂数据结构平铺化问题后，如何通过创建视图来准确计算广告日志的曝光PV，特别是针对用户对应多个标签的情况。同时，详细探讨了UDF的使用方法及其在实际项目中的应用。 ... [详细]

蜡笔小新 2024-11-26 11:08:12
string
分布式计算助力链力实现毫秒级安全响应，确保100%数据准确性

随着分布式计算技术的发展，其在数据存储、文件传输、在线视频、社交平台及去中心化金融等多个领域的应用日益广泛。国际知名企业如Firefox、Google、Opera、Netflix、OpenBazaar等均已采用该技术，推动了技术创新和服务升级。 ... [详细]

蜡笔小新 2024-11-24 18:25:00
string
[NOI2012]

来自FallDream的博客，未经允许，请勿转载，谢谢。一天一套noi简直了.昨天勉强做完了noi2011今天教练又丢出来一套noi ... [详细]

蜡笔小新 2024-11-24 17:13:08
string
正则表达式入门指南

本文基于《正则表达式必知必会》（作者：Ben Forta，译者：杨涛），介绍了正则表达式的基本概念及其应用，包括搜索与替换功能，以及元字符的分类与使用。 ... [详细]

蜡笔小新 2024-11-24 13:00:07
char
深入解析Socket结构与实现

本文详细介绍了Socket在Linux内核中的实现机制，包括基本的Socket结构、协议操作集以及不同协议下的具体实现。通过这些内容，读者可以更好地理解Socket的工作原理。 ... [详细]

蜡笔小新 2024-11-24 12:00:27
char
PHP 基础与数据库操作

本文介绍了 PHP 的基本概念、服务器与客户端的工作原理，以及 PHP 如何与数据库交互。同时，还涵盖了常见的数据库操作和安全性问题。 ... [详细]

蜡笔小新 2024-11-17 15:45:08

高傲的辫子

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章