深度学习常用损失函数详细介绍

作者： | 来源：互联网 | 2023-09-05 21:39

个人微信公众号：AI研习图书馆，欢迎关注~深度学习知识及资源分享，学习交流，共同进步~1.引言损失函数是机器学习与深度

个人微信公众号&＃xff1a;AI研习图书馆&＃xff0c;欢迎关注~

深度学习知识及资源分享&＃xff0c;学习交流&＃xff0c;共同进步~

1. 引言

损失函数是机器学习与深度学习里面的重要概念。从名字上就可以看出&＃xff0c;损失函数(Loss Function)反应的是模型对数据的拟合程度。一般来说&＃xff0c;损失函数越小&＃xff0c;说明模型对数据的拟合也越好。同时我们还希望当损失函数比较大的时候&＃xff0c;对应的梯度也会比较大&＃xff0c;这样梯度下降的时候更新也会快一些。

损失函数是用来估量模型的预测值f(x)与真实值Y的不一致程度&＃xff0c;它是一个非负值函数&＃xff0c;通常用L(Y,f(x))来表示&＃xff0c;损失函数越小&＃xff0c;模型的鲁棒性越好。损失函数是经验风险函数的核心部分&＃xff0c;也是结构风险函数的重要组成部分。模型的结构风险函数包括了经验风险项和正则项&＃xff0c;通常可以表示成如下式子&＃xff1a;
在这里插入图片描述
其中&＃xff0c;前面的均值函数表示的是经验风险损失函数&＃xff0c;L表示的是损失函数&＃xff0c;后面的是正则化项。

本文主要收集和整理了深度学习常用的损失函数&＃xff0c;给出函数表达形式&＃xff0c;以及使用介绍和应用场景。

2. 常用损失函数

2.1 MSE损失函数

线性回归中&＃xff0c;最常用的就是最小平方误差(MSE)了。MSE也相当简单:
在这里插入图片描述

MSE的意义相当明确&＃xff1a;如果预测值与真实值的欧式距离越大&＃xff0c;损失函数越大。欧式距离越小&＃xff0c;损失函数越小。同时&＃xff0c;求导也是相当容易&＃xff1a;

其中&＃xff0c;θ是模型中待训练的参数。

一般来说&＃xff0c;MSE是个很中庸的选择。用了MSE&＃xff0c;一般不会有什么大毛病&＃xff0c;但同时也不要指望他有特别优秀的表现。

注&＃xff1a; Sigmoid一般不与MSE配合使用。在深度学习里&＃xff0c;Sigmoid函数是常见的激活函数。特别注意的是&＃xff0c;当使用Sigmoid做激活函数的时候&＃xff0c;损失函数不能选择MSE。

因为Sigmoid的导数为f(x)(1−f(x))。假设当预测值为f(x)&＃61;1而真实值为0的时候&＃xff0c;此时虽然(yi−y˜)很大&＃xff0c;但是f(x)(1−f(x))太小接近0&＃xff0c;收敛速度同样很慢。

2.2 CrossEntropy

交叉熵是从KL散度中引出&＃xff0c;用于衡量两个分布之间差异的大小&＃xff0c;其值总是大于等于0&＃xff0c;两个分布越相似其值越接近于0。训练时的标签可以当成一种分布&＃xff0c;实际输出堪称另一种分布&＃xff0c;常与softmax层结合用于分类模型。
在这里插入图片描述
上面说到KL散度&＃xff08;KL divergence&＃xff09;用于衡量两个分布之间的大小的差异&＃xff0c;这和MSE的度量方法是不一样的。下面讲到的log损失函数也是 divergence 的一种。

2.3 log损失函数

log损失通常用于逻辑回归&＃xff0c;是二分类中常用的损失函数&＃xff0c;若二分类中使用mse损失会造成最后优化函数为非凹函数&＃xff0c;不利于训练。其中 x 表示输出该特征&＃xff0c;y表示所属类别&＃xff0c; p(1/x)表示输入特征 x 属于类别 1 的概率。

在这里插入图片描述
将上面分类书写的形式变换一下&＃xff0c;便得到了BCE_loss&＃xff0c;只不过是换了一个名字而已&＃xff0c;效果与上式相同

逻辑回归是分类网络中基础又重要的一个网络&＃xff0c;GAN网络中的discriminator便是使用这种二分类网络。比较GAN网络的损失函数便会发现相似之处
在这里插入图片描述

2.4 L1 Loss

l1loss即是L1范数下度量的距离&＃xff0c;就是计算网络输出与标签之间对应元素绝对值然后求和。使用pytorch中的定义如下
在这里插入图片描述
其中N表示batch的大小。

2.5 L2 Loss

2.6 Smooth L1

smooth L1是何凯明提出的优化的MSE损失&＃xff0c;能有有效地优化梯度爆炸问题。这个例子表明我们可以根据我们网络的具体表现适当调节我们的损失函数从而解决特定的训练问题。

在这里插入图片描述

2.7 F-divergence

F-divergence是一个大的类&＃xff0c;其中 F表示特定的函数&＃xff0c;当函数 F不同便表示的不同的散度&＃xff0c;上面提到的交叉熵便是 KL散度即 KL-divergence。其中KL使用的 F为 t⋅logtt·logtt⋅logt 。F-divergence损失函数如下&＃xff1a;
在这里插入图片描述

2.8 TV Loss

The total variation (TV) loss encourages spatial smoothness in the generated image.&＃xff08;总变差&＃xff08;TV&＃xff09;损失促进了生成的图像中的空间平滑性&＃xff09;

TV Loss Rubin等人在1990年左右观察到受噪声污染的图像的TV比无噪图像的总变分明显的大。那么最小化TV理论上就可以最小化噪声。图片中相邻像素值的差异可以通过降低TV loss来一定程度上解决。比如降噪&＃xff0c;对抗checkerboard等。

2.9 Softmax &＃43; Cross Entropy Loss&＃xff08;交叉熵&＃xff09;

加入交叉熵的原因是考虑到数值的稳定性。
损失函数&＃xff1a;
在这里插入图片描述
适应场景&＃xff1a;单标签分类问题

该损失函数各个标签之间不独立

2.10 Sigmoid Cross Entropy Loss

损失函数&＃xff1a; 在这里插入图片描述
使用场景&＃xff1a;预测目标概率分布&＃xff0c;可用于多标签学习&＃xff08;如社会年龄估计&＃xff09;

注意&＃xff1a;1.目标输出需要归一化到【0,1】&＃xff1b;损失层的输出要有具体的意义&＃xff1b;各个标签之间相互独立即每一维是独立的。

2.11 Center loss&＃xff08;softMax的一种改进&＃xff09;

在这里插入图片描述

2.12 Focal Loss

Basic Idea&＃xff1a;用一个权重条件函数去降低易分样本对损失的贡献

解决方案&＃xff1a;
在这里插入图片描述
适用场景&＃xff1a;解决one-stage的目标检测中背景样本和前景样本的不平衡问题

2.13 Large-Margin Loss&＃xff08;softmax的改进&＃xff09;

Basic Idea&＃xff1a;在SoftMax Loss中通过约束权重矩阵的夹角引入Margin正则

2.14 Contrastive Loss&＃xff08;Siamess Net&＃xff09;

损失函数&＃xff1a; 在这里插入图片描述
适用场景&＃xff1a;人脸测度学习

2.15 Triplet Loss

在这里插入图片描述
适用场景&＃xff1a;learning to rank &＃xff1b;人脸识别&＃xff08;FaceNet&＃xff09;

2.16 Moon Loss

Basic Idea&＃xff1a;考虑多标签分类中训练和测试阶段样本分布的不平衡

对每个属性计算概率&＃xff1a;
在这里插入图片描述
混合损失函数&＃xff1a;

2.17 Euclidean Loss&＃xff08;欧氏损失&＃xff09;

损失函数;
在这里插入图片描述
适用场景&＃xff1a;实数值回归问题

注意&＃xff1a;欧氏损失前可以增加Sigmoid操作进行归一化&＃xff0c;相应的输出标签也归一化。

2.18 additive angular margin loss&＃xff08;Arcface&＃xff09;

损失函数&＃xff1a;
在这里插入图片描述
subject to&＃xff1a;

本文主要收集和整理了深度学习常用的损失函数&＃xff0c;给出函数表达形式&＃xff0c;以及使用介绍和应用场景&＃xff0c;不足之处&＃xff0c;还请见谅。

您的支持&＃xff0c;是我不断创作的最大动力~

欢迎点赞&＃xff0c;关注&＃xff0c;留言交流~

深度学习&＃xff0c;乐此不疲~

推荐阅读

import
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
string
微信公众号推送模板40036问题

返回码错误码描述说明40001invalidcredential不合法的调用凭证40002invalidgrant_type不合法的grant_type40003invalidop ... [详细]

蜡笔小新 2024-11-12 16:31:32
char
javascript分页类支持页码格式

前端时间因为项目需要，要对一个产品下所有的附属图片进行分页显示，没考虑ajax一张张请求，所以干脆一次性全部把图片out，然 ... [详细]

蜡笔小新 2024-11-12 14:58:57
char
日常开发中常用的正则表达式集合，建议关注并收藏

在日常开发中，正则表达式是处理字符串时不可或缺的工具。本文汇总了常用的正则表达式，帮助开发者高效解决常见问题。例如，验证数字：`1$`；验证n位数字：`^\d{n}$`；验证至少n位数字：`^\d{n,}$`；验证m到n位数字：`^\d{m,n}$`。此外，还涵盖了验证零和非零数字、邮箱地址、手机号码等多种场景，建议关注并收藏以备不时之需。 ... [详细]

蜡笔小新 2024-11-08 16:38:13
char
如何使用KindEditor网页编辑器

本文详细介绍了如何在项目中引入和配置KindEditor网页编辑器，包括脚本引用、初始化编辑器以及文件上传功能的实现。 ... [详细]

蜡笔小新 2024-11-14 09:36:22
char
EST：西湖大学鞠峰组污水厂病原菌与土著反硝化细菌是多重抗生素耐药基因的活跃表达者...

点击蓝字关注我们编译：祝新宇校稿：鞠峰、袁凌论文ID原名：PathogenicandIndigenousDenitrifyingBacte ... [详细]

蜡笔小新 2024-11-13 21:09:41
char
三角测量计算三维坐标的代码_双目三维重建——层次化重建思考

双目三维重建——层次化重建思考FesianXu2020.7.22atANTFINANCIALintern前言本文是笔者阅读[1]第10章内容的笔记，本文从宏观的角度阐 ... [详细]

蜡笔小新 2024-11-13 19:31:37
char
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
import
如何在R中得到矩阵的右特征向量? - How to obtain right eigenvectors of matrix in R?

Edition:theprobleminmyquestionwasIvetriedtofindmatrixSfromequation8butthisequati ... [详细]

蜡笔小新 2024-11-13 17:16:49
list
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
list
解决Only fullscreen opaque activities can request orientation错误的方法

本文介绍了在使用PictureSelectorLight第三方框架时遇到的Only fullscreen opaque activities can request orientation错误，并提供了一种有效的解决方案。 ... [详细]

蜡笔小新 2024-11-13 09:46:25
string
Android 自定义加载对话框 CustomProgressDialog

本文介绍如何在 Android 中自定义加载对话框 CustomProgressDialog，包括自定义 View 类和 XML 布局文件的详细步骤。 ... [详细]

蜡笔小新 2024-11-12 21:51:00
php
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
char
检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0

检查在所有可能的“？”替换中，给定的二进制字符串中是否出现子字符串“10”带 1 或 0 ... [详细]

蜡笔小新 2024-11-12 11:35:01
uri
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19

Tags | 热门标签

RankList | 热门文章