当前位置: 开发笔记 > 编程语言 > 正文

机器学习中的规则化之L0、L1和L2范数

作者：mobiledu2502911415 | 来源：互联网 | 2023-09-15 14:34

监督机器学习问题无非就是再规则化参数的同时最小化误差。*最小化误差是为了让我们的模型拟合我们的训练数据，而规则化参数是防止我们的模型过分拟合我们的训练数据。规则化参数的作用：*使得模型

监督机器学习问题无非就是再规则化参数的同时最小化误差。

*最小化误差是为了让我们的模型拟合我们的训练数据，而规则化参数是防止我们的模型过分拟合我们的训练数据。

规则化参数的作用：

*使得模型简单，且具有好的泛化性能（也就是测试误差小）
*将人对这个模型的先验知识融入到模型的学习当中，使得模型具有稀疏、低秩、平滑等等特性。

规则化符合奥卡姆剃刀原理

*思想：在所有可能选择的模型中，我们应该选择很好地解释已知数据并且十分简单的模型。规则化是结构风险最小化策略的实现，是在经验风险上加了一个正则化项（regularizer)或者惩罚项(penalty term).

一般监督学习可以看做最小化下面的目标函数：

这里写图片描述
- *机器学习大部分模型目标函数基本都是如此，无非就是变换这两项而已。
-第一项LOSS函数：
– square loss, 那就是最小二乘;
– log-Loss, 那就是Logistic Regression;
–Hinge Loss, 那就是SVM;
–exp-Losss, 那就是牛逼的Boosting了;
– …

L0范数与L1范数

*均可以实现稀疏，但是一般不用L0，而用L1，是因为1、L0范数很难优化求解（NP难问题);2、L1范数是L0范数的最优凸近似，而且它比L0范数要容易优化求解。
*稀疏的目的：
– 1.特征选择：它能实现特征的自动选择，稀疏规则化算子的引入就是为了完成特征自动选择的光荣使命，它会学习地如掉这些没有信息的特征，也就是把这些特征对应的权重置为0。
– 2.可解释性：模型中影响的关键分类的关键因素。

L2范数

*它的强大功效：改善机器学习里面的一个非常重要的问题：过拟合。
*我们可以使得w的每一个元素都很小，都接近于0，但与L1范数不同，它不会让它等于0，而是接近于0，这里是有很大的区别的哦。
*越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象。
*L2范数的作用：
–1.学习理论的角度：
L2范数可以防止过拟合，提升模型的泛化能力。
–2.优化计算的角度:
从优化或者数值计算的角度来说，L2范数有助于处理 condition number不好的情况下矩阵求逆很困难的问题。
例如：因为目标函数如果是二次的，对于线性回归来说，那实际上是有解析解的，求导并令导数等于零即可得到最优解为：

然而，如果当我们的样本X的数目比每个样本的维度还要小的时候，矩阵XTX将会不是满秩的，也就是XTX会变得不可逆，所以w*就没办法直接计算出来了。或者更确切地说，将会有无穷多个解（因为我们方程组的个数小于未知数的个数）。也就是说，我们的数据不足以确定一个解，如果我们从所有可行解里随机选一个的话，很可能并不是真正好的解，总而言之，我们过拟合了。
但如果加上L2规则项，就变成了下面这种情况，就可以直接求逆了：

推荐阅读

string
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
string
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
int
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
get
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
tree
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
get
数据分析(4)sklearn入门

如何选择机器学习方法http:scikit-learn.orgstabletutorialmachine_learning_mapindex.html通用学习模式只需要先定义 ... [详细]

蜡笔小新 2024-10-21 03:54:07
get
弱监督目标检测之一最小熵隐变量模型

目标检测是计算机视觉一个非常重要的子任务。目标检测需要发现并准确定位自然图片中的物体。在2012年之前，目标检测主要基于手工设计的特征以及传统分类器。2012年以后，出现了 ... [详细]

蜡笔小新 2024-10-20 17:50:44
int
深度学习: 目标函数

Introduction目标函数是深度学习之心，是模型训练的发动机。目标函数(objectfunction)损失函数(lossfunction)代价函数(costfunction) ... [详细]

蜡笔小新 2024-10-18 18:45:28
int
scikitlearn学习之SVM算法

分隔超平面：将数据集分割开来的直线叫做分隔超平面。超平面：如果数据集是N维的，那么就需要N-1维的某对象来对数据进行分割。该对象叫做超平面，也就是分类的决策边界。间隔：一个点 ... [详细]

蜡笔小新 2024-10-14 22:47:51
int
机器学习十大算法SVM（支持向量机）

概述SVM（支持向量机）是一个二分类的模型，它的主要思想就是间隔最大化，那么问题来了，什么是间隔最大化&#x ... [详细]

蜡笔小新 2024-10-09 12:22:19
int
机器学习算法常见面试题目总结

机器学习算法常见面试题目总结,Go语言社区,Golang程序员人脉社 ... [详细]

蜡笔小新 2024-10-09 10:24:30
int
圣诞节到了，智能菌想送你一份礼物

关注网易智能，聚焦AI大事件，读懂下一个大时代！（机器学习算法地图见文末）圣诞节的赠书活动来了！ ... [详细]

蜡笔小新 2024-09-29 11:06:55
get
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
text
浏览器中的异常检测算法及其在深度学习中的应用

本文介绍了在浏览器中进行异常检测的算法，包括统计学方法和机器学习方法，并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测，可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率，而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]

蜡笔小新 2023-12-12 16:22:39
text
cs231n Lecture 3 线性分类笔记（一）

内容列表线性分类器简介线性评分函数阐明线性分类器损失函数多类SVMSoftmax分类器SVM和Softmax的比较基于Web的可交互线性分类器原型小结注：中文翻译 ... [详细]

蜡笔小新 2023-10-17 19:40:56

mobiledu2502911415

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章