当前位置: 开发笔记 > 前端 > 正文

集成学习原理总结(bagging\boosting)

作者：_ZY寶貝_ | 来源：互联网 | 2023-09-10 14:00

转载：集成学习原理总结前言集成学习是目前比较火的机器学习方法，也是面试官考察的一个重点方向。集成学习不是一种机器学习方法，它是通过结合

转载&＃xff1a;集成学习原理总结

前言

集成学习是目前比较火的机器学习方法&＃xff0c;也是面试官考察的一个重点方向。集成学习不是一种机器学习方法&＃xff0c;它是通过结合多个机器学习模型来给出学习结果&＃xff0c;集成学习很好的避免了单一学习模型带来的过拟合问题&＃xff0c;本文简明扼要的对集成学习原理做一个总结。

1. 集成学习概述

2. 集成学习之bagging

3. 集成学习之boosting

4. 集成学习之结合策略

5. bagging和boosting两者之间的区别

6. bagging和boosting的方差和偏差问题讨论

7. 总结

集成学习概述

集成学习能够通过训练数据集产生多个学习模型&＃xff0c;然后通过一定的结合策略生成强学习模型&＃xff0c;如下图&＃xff1a;

集成学习包括Bagging方法和Boosting方法&＃xff0c;下面详细分析这两种方法。

集成学习之Bagging

Bagging即套袋法&＃xff0c;算法过程如下&＃xff1a;

&＃xff08;1&＃xff09; 从训练样本集中随机可放回抽样&＃xff08;Bootstrapping )N次&＃xff0c;得到与训练集相同大小的训练集&＃xff0c;重复抽样K次&＃xff0c;得到K个训练集。

&＃xff08;2&＃xff09; 每个训练集得到一个最优模型&＃xff0c;K个训练集得到K个最优模型。

&＃xff08;3&＃xff09; 分类问题&＃xff1a;对K个模型采用投票的方式得到分类结果&＃xff1b;回归问题&＃xff1a;对K个模型的值求平均得到分类结果。

Bagging算法图如下&＃xff1a;

Bagging法假设训练样本集服从均匀分布&＃xff0c;即1/N。

集成学习之Boosting

Boosting算法中&＃xff0c;每一个样本数据是有权重的&＃xff0c;每一个学习器是有先后顺序的。在PAC&＃xff08;概率近似正确&＃xff09;的学习框架下&＃xff0c;一定可以将弱分类器组装成一个强分类器。

关于Boosting的两个核心问题

&＃xff08;1&＃xff09;每一轮如何改变训练数据的权值和概率分布&＃xff1f;

通过提高那些在前一轮被弱学习器分错样例的权值&＃xff0c;减小前一轮正确样例的权值&＃xff0c;使学习器重点学习分错的样本&＃xff0c;提高学习器的性能。

&＃xff08;2&＃xff09;通过什么方式来组合弱学习器&＃xff1f;

通过加法模型将弱学习器进行线性组合&＃xff0c;学习器准确率大&＃xff0c;则相应的学习器权值大&＃xff1b;反之&＃xff0c;则学习器的权值小。即给学习器好的模型一个较大的确信度&＃xff0c;提高学习器的性能。

Boosting算法如下图&＃xff1a;

其中&＃xff0c;学习器性能越好&＃xff0c;对应的权值也越大。样本权值1初始化为1/N&＃xff0c;即初始样本集服从均匀分布&＃xff0c;后面随着前一个学习器的结果更新样本权值。

集成学习之结合策略

集成学习得到多个学习器后&＃xff0c;结合策略得到最终的结果。通常用到最多的是平均法&＃xff0c;投票法和学习法。

1. 平均法

对于数值类的回归预测&＃xff0c;通常使用的结合策略是平均法&＃xff0c;即对K个学习器的学习结果求平均&＃xff0c;得到最终的预测结果。

2. 投票法

对于分类问题的预测&＃xff0c;通常使用的结合策略是投票法&＃xff0c;也就是我们常说的少数服从多数。即对K个学习器的分类结果作一个统计&＃xff0c;出现次数最多的类作为预测类。

3. 学习法

上面两种结合策略方法比较简单&＃xff0c;可能学习误差较大。因此&＃xff0c;我们尝试用学习法去预测结果&＃xff0c;学习法是将K个学习器的分类结果再次作为输入&＃xff0c;将训练集的输出作为输出&＃xff0c;重新训练一个学习器来得到最终结果。

Bagging和Boosting两者之间的区别

1&＃xff09;训练样本集

Bagging&＃xff1a;训练集是有放回抽样&＃xff0c;从原始集中选出的K组训练集是相互独立的。

Boosting&＃xff1a;每一次迭代的训练集不变。

2&＃xff09;训练样本权重

Bagging&＃xff1a;每个训练样本的权重相等&＃xff0c;即1/N。

Boosting&＃xff1a;根据学习器的错误率不断调整样例的权值&＃xff0c;错误率越大&＃xff0c;权值越大。

3&＃xff09;预测函数的权重&＃xff1a;

Bagging&＃xff1a;K组学习器的权重相等&＃xff0c;即1/K。

Boosting&＃xff1a;学习器性能好的分配较大的权重&＃xff0c;学习器性能差的分配较小的权重。

4&＃xff09;并行计算

Bagging&＃xff1a;K组学习器模型可以并行生成。

Boosting&＃xff1a;K组学习器只能顺序生成&＃xff0c;因为后一个模型的样本权值需要前一个学习器模型的结果。

Bagging和Boosting的方差和偏差问题讨论

其实这一节内容也属于上一节部分&＃xff0c;这是个容易忽视且比较抽象的问题&＃xff0c;我把Bagging和Boosting的方差和偏差问题作一个新的小节&＃xff0c;希望引起大家的注意。

1. Bagging减小模型的方差

bagging对样本进行有放回的重采样&＃xff0c;学习结果是各个学习模型的平均值。由于重采样的样本集具有相似性以及使用相同的学习器模型&＃xff0c;因此&＃xff0c;各学习模型的结果相近&＃xff0c;即模型有近似相等的偏差和方差。

假设Xi为 i 组训练样本集&＃xff0c;各组训练样本集是相互独立的&＃xff0c;不同的训练样本集代表不同的模型&＃xff0c;由概率论可知&＃xff1a;

大家发现了没有&＃xff0c;均值没变&＃xff0c;但是方差却减小到只有原来方差的。因此&＃xff0c;Bagging法是显著的减小了学习器的方差。

2. Boosting是减小模型的偏差

Boosting是从学习模型的优化角度去更新样本权值和分配学习器权值&＃xff0c;因此&＃xff0c;学习模型随着迭代次数的增加&＃xff0c;模型偏差越来越小。Boosting是通过迭代的方式去更新模型&＃xff0c;因此各个子模型的之间是强相关的&＃xff0c;强相关的意思是各模型的相似度很多&＃xff0c;且训练集一直是不变的。因此模型之和并不能降低方差。

总结

Bagging和Boosting方法都是把若干个学习器整合为一个学习器的方法&＃xff0c;Bagging方法可以降低模型的方差&＃xff0c;Boosting方法可以降低模型的偏差&＃xff0c;在实际工作中&＃xff0c;因情况需要选择集成方法。

下面是决策树与这些算法框架进行结合所得到的新的算法&＃xff1a;

1&＃xff09; Bagging &＃43; 决策树 &＃61; 随机森林

2&＃xff09;AdaBoost &＃43; 决策树 &＃61; 提升树

3&＃xff09;Gradient Boosting &＃43; 决策树 &＃61; GBDT

推荐阅读

bootstrap
深入理解C++中的KMP算法：高效字符串匹配的利器

本文详细介绍C++中实现KMP算法的方法，探讨其在字符串匹配问题上的优势。通过对比暴力匹配（BF）算法，展示KMP算法如何利用前缀表优化匹配过程，显著提升效率。 ... [详细]

蜡笔小新 2024-12-27 14:45:30
bootstrap
深入解析：手把手教你构建决策树算法

本文详细介绍了机器学习中广泛应用的决策树算法，通过天气数据集的实例演示了ID3和CART算法的手动推导过程。文章长度约2000字，建议阅读时间5分钟。 ... [详细]

蜡笔小新 2024-12-27 13:44:59
正则
机器学习中的相似度度量与模型优化

本文探讨了机器学习中常见的相似度度量方法，包括余弦相似度、欧氏距离和马氏距离，并详细介绍了如何通过选择合适的模型复杂度和正则化来提高模型的泛化能力。此外，文章还涵盖了模型评估的各种方法和指标，以及不同分类器的工作原理和应用场景。 ... [详细]

蜡笔小新 2024-12-26 18:10:02
label
毕业设计：基于机器学习与深度学习的垃圾邮件（短信）分类算法实现

本文详细介绍了如何使用机器学习和深度学习技术对垃圾邮件和短信进行分类。内容涵盖从数据集介绍、预处理、特征提取到模型训练与评估的完整流程，并提供了具体的代码示例和实验结果。 ... [详细]

蜡笔小新 2024-12-25 17:38:50
label
广义线性模型（Generalized Linear Models, GLM）

　　上一篇博客中我们说到线性回归和逻辑回归之间隐隐约约好像有什么关系，到底是什么关系呢？我们就来探讨一下吧。（这一篇数学推导占了大多数，可能看起来会略有枯燥，但这本身就是一个把之前算法 ... [详细]

蜡笔小新 2024-12-24 19:32:12
label
利用决策树预测NBA比赛胜负的Python数据挖掘实践

本文通过使用2013-14赛季NBA赛程与结果数据集以及2013年NBA排名数据，结合《Python数据挖掘入门与实践》一书中的方法，展示如何应用决策树算法进行比赛胜负预测。我们将详细讲解数据预处理、特征工程及模型评估等关键步骤。 ... [详细]

蜡笔小新 2024-12-23 09:07:40
label
深入理解K近邻分类算法：机器学习100天系列（26）

本文详细介绍了K近邻分类算法的理论基础，探讨其工作原理、应用场景以及潜在的局限性。作为机器学习100天系列的一部分，旨在为读者提供全面且深入的理解。 ... [详细]

蜡笔小新 2024-12-22 18:18:57
html
Coursera ML 机器学习

2019独角兽企业重金招聘Python工程师标准线性回归算法计算过程CostFunction梯度下降算法多变量回归![选择特征](https:static.oschina.n ... [详细]

蜡笔小新 2024-12-22 16:09:09
正则
机器学习核心概念与技术

本文系统梳理了机器学习的关键知识点，涵盖模型评估、正则化、线性模型、支持向量机、决策树及集成学习等内容，并深入探讨了各算法的原理和应用场景。 ... [详细]

蜡笔小新 2024-12-22 09:15:30
bootstrap
深入解析Java虚拟机（JVM）架构与原理

本文旨在为读者提供对Java虚拟机（JVM）的全面理解，涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制，帮助开发者更好地掌握Java编程的核心技术。 ... [详细]

蜡笔小新 2024-12-21 23:50:40
bootstrap
现代人幸福感缺失的原因探究

随着生活节奏的加快和压力的增加，越来越多的人感到不快乐。本文探讨了现代社会中导致人们幸福感下降的各种因素，并提供了一些改善建议。 ... [详细]

蜡笔小新 2024-12-21 16:09:25
bootstrap
Python中HOG图像特征提取与应用

本文介绍如何在Python中使用HOG（Histogram of Oriented Gradients）算法进行图像特征提取，探讨其在目标检测中的应用，并详细解释实现步骤。 ... [详细]

蜡笔小新 2024-12-21 15:32:13
bootstrap
Python 工具推荐 | PyHubWeekly 第二十一期：提升命令行体验的五大工具

本期 PyHubWeekly 为大家精选了 GitHub 上五个优秀的 Python 工具，涵盖金融数据可视化、终端美化、国际化支持、图像增强和远程 Shell 环境配置。欢迎关注并参与项目。 ... [详细]

蜡笔小新 2024-12-21 14:45:11
bootstrap
2019年前端技术趋势及职业发展路径

本文探讨了2019年前端技术的发展趋势，包括工具化、配置化和泛前端化等方面，并提供了详细的学习路线和职业规划建议。 ... [详细]

蜡笔小新 2024-12-19 10:19:35
bootstrap
Java编程的核心要素与关键技术

本文探讨了Java编程的核心要素，特别是其面向对象的特性，并详细介绍了Java虚拟机、类装载器体系结构、Java类文件和Java API等关键技术。这些技术使得Java成为一种功能强大且易于使用的编程语言。 ... [详细]

蜡笔小新 2024-12-23 12:58:30

_ZY寶貝_

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章