机器学习基础机器学习中的稳定性风险

作者：chunhuai | 来源：互联网 | 2023-09-17 13:59

机器学习中稳定性风险参考资料：如何看待机器学习中的“稳定性”？2017-12-07阿萨姆AI研习社1.下溢(Underflow)和上溢(Overf

机器学习中稳定性风险

参考资料&＃xff1a;如何看待机器学习中的"“稳定性”"&＃xff1f;2017-12-07 阿萨姆 AI研习社

1.下溢(Underflow)和上溢(Overflow)

属于计算稳定性。顾名思义&＃xff0c;溢出是代表内容超过了容器的极限。在机器学习当中&＃xff0c;因为我们大量的使用概率(Probability)&＃xff0c;而概率的区间往往在0至1之间&＃xff0c;这就导致了下溢发生的可能性大大提高。
　　举个简单的例子&＃xff0c;我们常常需要将多个概率相乘&＃xff0c;从此可以看出&＃xff0c;仅仅需要是个1%的概率相乘就可以得到一个极小的结果。而机器学习中往往是成百上千个数字相乘&＃xff0c;类似的情况导致计算机无法分辨0和和一个极小数之间的区别。在这种情况下&＃xff0c;下溢可能导致模型直接失败。
　　相似的&＃xff0c;上溢也是很容易发生的状况。试想我们需要将多个较大的数相乘&＃xff0c;很轻易的就可以超过计算机的上限。64位计算机的数值上限并没有大家想象中那么大。因此在实际模型中&＃xff0c;我们会避免将多个概率相乘&＃xff0c;而转为求其对数(Log)&＃xff0c;举例:这样我们就成功的将多项连乘转化为了多项加法&＃xff0c;避免了可能发生的溢出。而对数还有更多优美的数学的性质&＃xff0c;例如其单调递增性&＃xff0c;易转化为概率模型&＃xff0c;凸优化性等。

2.平滑(Smoothing)与0

属于计算稳定性。和下溢和上溢类似&＃xff0c;我们常常会发现机器学习中遇到“连乘式”中某个元素为0&＃xff0c;导致运算失去意义。
　　以朴素贝叶斯(Naive Bayes)为例&＃xff1a;我们判别一个样本点属于某个分类的概率为其各项特征属于分类的概率之乘积&＃xff0c;即上式。但假设只要有任何一项或者&＃xff0c;那么这个乘式的乘积就会为0。然而出现0往往并不是真的因为其概率为0&＃xff0c;而仅仅是我们的训练数据没有出现过。
　　从某种意义上来说&＃xff0c;这也属于一种计算上的不稳定。常见的做法是用拉普拉斯平滑(Laplace Smoothing)来修正这种计算不稳。简单的说就是人为的给每种可能性加一个例子&＃xff0c;使其概率不再为0。
　　于是某个特征取特定值在分类下的概率就会被修正为&＃xff1a;
　　在这种平滑处理后&＃xff0c;我们所有乘子的取值都不会为0。相似的做法在自然语言处理(NLP)中也常常会用到&＃xff0c;比如N-gram模型的语言模型也往往需要平滑来进行处理&＃xff0c;此文中暂时不表。

3.算法稳定性(Algorithmic Stability)与扰动(Perturbation)

在机器学习或统计学习模型中&＃xff0c;我们常常需要考虑算法的稳定性&＃xff0c;即算法对于数据扰动的鲁棒性。相信关注专栏的读者应该已经听我无数次提起过&＃xff1a;“模型的泛化误差由误差(Bias)和方差(Variance)共同决定&＃xff0c;而高方差是不稳定性的罪魁祸首”。
　　简单的说就是&＃xff0c;如果一个算法在输入值发生微小变化时就产生了巨大的输出变化&＃xff0c;我们就可以说这个算法是不稳定的。此处的算法不仅仅是说机器学习算法&＃xff0c;也代表“中间过程”所涉及的其他算法&＃xff0c;

给出几个具体的例子&＃xff1a;

1&＃xff09;矩阵求逆(Inverting a Matrix)的过程就属于不稳定的&＃xff0c;我们常常会选择避开矩阵求逆。有兴趣的读者可以进一步了解其原因。

2&＃xff09;另一个有趣的例子是神经网络中的批量学习(Batch Learning)&＃xff0c;即训练神经网络时不一个个例子的训练而是批量的学习训练数据。在选择对应的批量尺寸(Batch Size)和相对应的学习速率(Learning Rate)时需要特别小心&＃xff0c;错误的学习率和尺寸会导致不稳定的学习过程。当我们以小批量进行学习的时候&＃xff0c;小样本中的高方差(High Variance)导致我们学到的梯度(Gradient)很不精确&＃xff0c;在这种情况下&＃xff0c;应该使用小学习速率防止我们步子迈得太大&＃xff01;相反的&＃xff0c;当我们的批量尺寸选的较大时&＃xff0c;可以放心的使用较大的速率。

3&＃xff09;决策树(Decision Tree)的性质导致它也属于一种不稳定的模型。训练数据中的微小变化甚至可以改变决策树的结构&＃xff0c;以至于我们对于决策树的可信度总是画上一个问号。为了解决其不稳定的问题&＃xff0c;研究人员发明了集成学习(Ensemble Learning)&＃xff0c;其中的Bagging就通过降低其方差的方法来增强其稳定性。

4&＃xff09;于是为了方便&＃xff0c;我们归纳出一部分稳定模型。比较常见的模型有各种支持向量机(SVM)的衍生模型&＃xff0c;这也是SVM在本世纪初大火的原因的之一:)

4.独立同分布(Independent Identically Distributed)与泛化能力(Generalization Ability)

一个机器学习模型的泛化能力指的是其在新样本上的拟合能力。模型能够获得强泛化能力的数据保证就是其训练数据是独立同分布从母体分布上采样而得。
　　假设我们有一个母体(Population)&＃xff0c;它的分布是1到100的正整数。假设我们有3个从其中中得到的采样&＃xff1a;我们会发现第一个采样好像都是平方数&＃xff0c;第二个采样都是十的倍数&＃xff0c;而第三个采样似乎都是小于10的连续整数。在这种采样下&＃xff0c;我们可以大胆的猜测学习模型无法通过学习这三个数据集而得到良好的泛化能力…因为它们并不是独立同分布的采样。
　　那么读者会问了&＃xff0c;那什么才算是独立同分布的采样&＃xff0c;首先:我们希望采样的数据不是故意的挑选的&＃xff0c;比如刻意挑出了一堆平方数&＃xff1b;我们希望采样的数据是从同一个分布里面挑的&＃xff0c;而不是从几个分布中各挑几个…

因此如何保证我们的训练数据足够稳定呢&＃xff1f;笔者有几句看起来像废话的建议&＃xff1a;
　　1&＃xff09;训练数据越多越好…这样可以降低数据中的偶然性&＃xff0c;降低Variance
　　2&＃xff09;确保训练数据和母体数据及预测数据来自于一个分布。举例&＃xff0c;你不能用统计学家的平均智商来预测生物学家的平均智商&＃xff0c;这不公平…至于对哪一方不公平&＃xff0c;留给读者思考。

因此数据的稳定性的基本前提就是独立同分布&＃xff0c;且数量越多越好。稳定的数据可以保证模型的经验误差(Empirical Risk)约等于其泛化误差(Generalization Risk)。

5.新常态: 类别不平衡

数据的稳定性(Data Stability)。越来越多的机器学习问题都会遭遇不平衡的数据分布&＃xff0c;此处的不平衡可以指很多事情&＃xff0c;比如二分类问题中的正例和反例数量悬殊。但需要注意的是&＃xff0c;如果母体的分布本身就是不平衡的&＃xff0c;千万不要通过采样来使其分布平衡。这样就违反了独立同分布的采样&＃xff01;

面对天生不平衡的数据&＃xff0c;我们有很多做法可以进行处理&＃xff0c;比较常见的再平衡做法包括:
　　1&＃xff09;过采样(Over-Sampling): 将数据量较少的的分类重复利用
　　2&＃xff09;欠采样(Down-Sampling)&＃xff1a;将数据量较多的分类选择性丢弃一部分。

在类似的情况下&＃xff0c;往往集成学习的表现非常好&＃xff0c;这都需要归功于集成学习可以有效的降低Variance。读者必须注意&＃xff0c;无论是过采样还是欠采样都会带来问题&＃xff0c;比如过采样容易导致过拟合&＃xff0c;但欠采样其实浪费了数据。

因此不平衡往往也带来了稳定性问题&＃xff0c;而究其根本还是因为过高的Variance。
　　严格意义上说&＃xff0c;数据稳定性往往特指的是时间序列(Time Series)的稳定性。而笔者此处指的是广义上的数据&＃xff0c;不仅仅是时间序列。从根本上说&＃xff0c;数据的稳定性主要取决于其Variance。

评估机器学习模型的稳定性

评估机器学习模型的稳定性(Stability)和评估机器学习的表现(Performance)有本质上的不同&＃xff0c;不能简单的通过评估准确率这种指标来说一个机器学习稳定与否。举个最简单的例子&＃xff0c;假设一个模型一会儿表现特别好&＃xff0c;一会儿比较特别差&＃xff0c;我们敢用这个模型于实际生产中吗&＃xff1f;说白了&＃xff0c;稳定性还是由于数据的方差Variance决定。

那么有小伙伴说了&＃xff0c;我们或许可以用交叉验证(cross-validation)来评估一个算法模型的稳定性。没错这是个正确的思路&＃xff0c;但最大的问题&＃xff0c;就是交叉验证太慢了。不管是五折(5-fold)还是十折(10-fold)都需要较长的时间及重复运算。
因此我们一般通过计算学习理论(Computational Learning Theory)有时候也叫统计计算理论(Statistical Learning Theory)来对算法进行分析。介绍两个框架供大家参考&＃xff1a;

1&＃xff09;概率近似正确框架(Probably Approximately Correct, PAC)。PAC框架主要回答了一个问题&＃xff1a;一个学习算法是否可以在多项式函数的时间复杂度下从样本中近似的学到一个概念&＃xff0c;并保证误差在一定的范围之内。

2&＃xff09;界限出错框架(Mistake Bound Framework, MBF)。MBF从另一个角度回答了一个问题&＃xff0c;即一个学习模型在学习到正确概念前在训练过程中会失误多少次&＃xff1f;

推荐阅读

ci
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
ci
利用OpenCV和线性SVM实现人脸识别

本文介绍如何使用OpenCV和线性支持向量机（SVM）模型来开发一个简单的人脸识别系统，特别关注在只有一个用户数据集时的处理方法。 ... [详细]

蜡笔小新 2024-11-13 14:50:37
ci
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
ci
吴石访谈：腾讯安全科恩实验室如何引领物联网安全研究

腾讯安全科恩实验室曾两次成功破解特斯拉自动驾驶系统，并远程控制汽车，展示了其在汽车安全领域的强大实力。近日，该实验室负责人吴石接受了InfoQ的专访，详细介绍了团队未来的重点方向——物联网安全。 ... [详细]

蜡笔小新 2024-11-22 13:27:32
format
【转】强大的矩阵奇异值分解(SVD)及其应用

在工程实践中，经常要对大矩阵进行计算，除了使用分布式处理方法以外，就是通过理论方法，对矩阵降维。一下文章，我在 ... [详细]

蜡笔小新 2024-11-16 12:44:31
less
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
string
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
function
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
function
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
express
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
format
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
web
中文分词_中文分词技术小结几大分词引擎的介绍与比较

篇首语：本文由编程笔记#小编为大家整理，主要介绍了中文分词技术小结几大分词引擎的介绍与比较相关的知识，希望对你有一定的参考价值。笔者想说：觉得英文与中文分词有很大的区别， ... [详细]

蜡笔小新 2024-10-13 12:29:25
web
python拓展库丰富吗_这5个Python库太难搞！每位数据科学家都应该了解

全文共3708字，预计学习时长10分钟图源：unsplashPthon之所以能成为世界上最受欢迎的编程语言之一，与其整体及其相关库的生态系 ... [详细]

蜡笔小新 2024-10-12 18:50:53
function
H5技术实现经典游戏《贪吃蛇》

本文将分享一个使用HTML5技术实现的经典小游戏——《贪吃蛇》。通过H5技术，我们将探讨如何构建这款游戏的两种主要玩法：积分闯关和无尽模式。 ... [详细]

蜡笔小新 2024-11-21 20:16:59
function
视觉图像的生成机制与英文术语解析

近期，Google Brain、牛津大学和清华大学等多家研究机构相继发布了关于多层感知机（MLP）在视觉图像分类中的应用成果。这些研究深入探讨了MLP在视觉任务中的工作机制，并解析了相关技术术语，为理解视觉图像生成提供了新的视角和方法。 ... [详细]

蜡笔小新 2024-10-30 09:47:50

chunhuai

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章