当前位置: 开发笔记 > 前端 > 正文

平方误差损失函数和交叉熵损失函数分别适合什么场景

作者：阴森森林蛀 | 来源：互联网 | 2023-08-13 19:21

平方损失函数更适合输出为连续，且最后一层没有sigmoid或者softMax激活函数的网络交叉熵损失函数更适合分类场景假设网络最后一层输出为zlz^lzl

平方损失函数更适合输出为连续，且最后一层没有sigmoid或者softMax激活函数的网络

交叉熵损失函数更适合分类场景

假设网络最后一层输出为 $z^l$ ，激活函数为 $f (x) = s i g m o i d (x)$ ，预测的label为 $a = f(z^l)$ ，真实标签为 $y$ 。

平方损失函数 $\frac{1}{2}(y-a)^2$ 相对于输出层 $z^l$ 的导数为

$∂L∂zl=−(y−a)f′(zl)\frac{\partial L}{\partial z^l} = -(y-a)f^{&＃39;}(z^l)$

最后一项为激活函数的导数，当激活函数为 $s i g m o i d$ 的时候，如果 $z^l$ 足够大，函数的梯度会趋于饱和，也就是 $f′(zl)f^{&＃39;}(z^l)$ 的绝对值非常小，造成学习变慢

当使用交叉熵损失函数 $L = - y l o g (a) - (1 - a) l o g (1 - a)$ 的时候，对于输出层 $z^l$ 的导数为

$∂L∂zl=(−ya+1−y1−a)f′(zl)\frac{\partial L}{\partial z^l} = (-\frac{y}{a} + \frac{1-y}{1-a})f^{&＃39;}(z^l)$

当激活函数为sigmoid的时候，

$∂L∂zl=(−ya+1−y1−a)a(1−a)=a−y\frac{\partial L}{\partial z^l} = (-\frac{y}{a} + \frac{1-y}{1-a})a(1-a) = a-y$

导数是线性的，不会存在学习过慢的问题

欢迎关注微信公众号（算法工程师面试那些事儿)，本公众号聚焦于算法工程师面试，期待和大家一起刷leecode，刷机器学习、深度学习面试题等，共勉～

算法工程师面试那些事儿

推荐阅读

label
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
label
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
label
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
js
深入理解K近邻分类算法：机器学习100天系列（26）

本文详细介绍了K近邻分类算法的理论基础，探讨其工作原理、应用场景以及潜在的局限性。作为机器学习100天系列的一部分，旨在为读者提供全面且深入的理解。 ... [详细]

蜡笔小新 2024-12-22 18:18:57
js
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
js
数据管理权威指南：《DAMA-DMBOK2 数据管理知识体系》

本书提供了全面的数据管理职能、术语和最佳实践方法的标准行业解释，构建了数据管理的总体框架，为数据管理的发展奠定了坚实的理论基础。适合各类数据管理专业人士和相关领域的从业人员。 ... [详细]

蜡笔小新 2024-12-27 18:29:55
js
深入理解C++中的KMP算法：高效字符串匹配的利器

本文详细介绍C++中实现KMP算法的方法，探讨其在字符串匹配问题上的优势。通过对比暴力匹配（BF）算法，展示KMP算法如何利用前缀表优化匹配过程，显著提升效率。 ... [详细]

蜡笔小新 2024-12-27 14:45:30
js
自学编程与计算机专业背景者的差异分析

本文探讨了自学编程者和计算机专业毕业生在技能、知识结构及职业发展上的不同之处，结合实际案例分析两者的优势与劣势。 ... [详细]

蜡笔小新 2024-12-26 17:53:18
js
Google Clips智能相机悄然上市：自动捕捉生活中的珍贵瞬间

Google最新推出的嵌入AI技术的便携式相机Clips现已上架，旨在通过人工智能技术自动捕捉用户生活中值得纪念的时刻，帮助人们减少照片数量过多的问题。 ... [详细]

蜡笔小新 2024-12-26 17:26:09
js
从零开始构建完整手机站：Vue CLI 3 实战指南（第一部分）

本系列教程将引导您使用 Vue CLI 3 构建一个功能齐全的移动应用。我们将深入探讨项目中涉及的每一个知识点，并确保这些内容与实际工作中的需求紧密结合。 ... [详细]

蜡笔小新 2024-12-26 13:30:37
js
广义线性模型（Generalized Linear Models, GLM）

　　上一篇博客中我们说到线性回归和逻辑回归之间隐隐约约好像有什么关系，到底是什么关系呢？我们就来探讨一下吧。（这一篇数学推导占了大多数，可能看起来会略有枯燥，但这本身就是一个把之前算法 ... [详细]

蜡笔小新 2024-12-24 19:32:12
js
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
js
阿里Java面试全解析：从技术面到HR面的详细攻略

本文作者分享了在阿里巴巴获得实习offer的经历，包括五轮面试的详细内容和经验总结。其中四轮为技术面试，一轮为HR面试，涵盖了大量的Java技术和项目实践经验。 ... [详细]

蜡笔小新 2024-12-23 11:32:02
label
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
label
深度解析：Pairwise与Listwise方法在排序学习中的应用

本文深入探讨了基于Pairwise和Listwise方法的排序学习，结合PaddlePaddle平台提供的丰富运算组件，详细介绍了如何通过这些方法构建高效、精准的排序模型。文章不仅涵盖了基础理论，还提供了实际应用场景和技术实现细节。 ... [详细]

蜡笔小新 2024-12-23 04:23:16

阴森森林蛀

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章