机器学习算法（五）：集成学习

作者：W你是我的小太阳 | 来源：互联网 | 2023-09-14 10:51

一、个体与集成集成学习（ensemblelearning)通过构建并结合多个学习器来完成学习任务。下图显示出集成学习的一般结构：

一、个体与集成

集成学习（ensemble learning)通过构建并结合多个学习器来完成学习任务。下图显示出集成学习的一般结构：

机器学习算法（五）：集成学习 - 文章图片

集成学习一般结构：先产生一组个体学习器（也称基学习器），再用某种策略将它们结合起来。基学习器通常是由现有算法（如逻辑回归、决策树）从训练数据产生。基学习器是同种算法，例如都是决策树，也可以包含不同算法，例如决策树和神经网络。

集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的性能。因此基学习器往往也被称为弱学习器，尽管它们可能并不是很弱。

集成学习一定比基学习器好吗？在一般经验中，如果把好的东西和坏的东西掺在一起，得到的是中等的东西。那集成学习怎样才能获得比基学习器好的结果呢？一般情况下：要获得好的集成效果，基学习器应”好而不同“，具体地，每个基学习器的分类准确率应超过50%，并且要彼此不同，因为只有这样才能让集成学习捕捉到每个学习器独特的优点。

按照集成方法的不同，集成学习的类型分为：Bagging、Boosting和Stacking。

二、Bagging

Bagging全称Boostrap AGGregatING，是并行式集成学习方法的代表。Bagging的原理为：给定包含m个样本的初始数据集，使用自助抽样法(bootstrap sampling)得到一个也包含m个样本的数据集，依此法得到T个数据集。然后基于每个训练集训练出一个基学习器，再将这T个基学习器进行结合。对于分类任务，采取投票法；对于回归任务，采取平均法。

值得注意的是，自助抽样法只是用了源数据集63.2%的样本，剩下的36.8%的样本可当作”验证集“来对泛化性能进行”包外估计“。

从偏差—方差分解的角度来看，Bagging主要关注降低方差（多个基学习器使得预测结果更加稳定），因此它在决策树、神经网络等易受样本扰动的不稳定学习器上效果更加明显。

Bagging中最著名的算法就是随机森林（Random Forest)。它是Bagging的一个扩展变体。随机森林在以决策树作为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。传统的Bagging会对样本进行自主抽样，但会使用所有的属性，而随机森林每次只是随机选择部分属性，从而形成了“双随机”，即样本随机和属性随机。

三、Boosting

Boosting是一类可将弱学习器提升为强学习器的算法。Boostin类算法的原理类似，大致为：先从初始训练集训练出一个基学习器，再根据基学习器的表现对训练样本分布进行调整，使得先前基学习器做错的训练样本在后面的基学习器中受到更多关注，然后基于调整后的样本分布来训练下一个基学习器，如此往复，直至基学习器个数达到了预先指定的数量T，此时由于每个基学习器的表现不一样，对表现好的赋予更大的权重，最终将这T个学习器进行加权结合。

Boosting类算法中最著名的就是AdaBoost，此外还有GBDT、XgBoost和LightGBM等。

&＃160;

推荐阅读

go
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
go
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
go
解决Bootstrap DataTable Ajax请求重复问题

在最近的一个项目中，我们使用了JQuery DataTable进行数据展示，虽然使用起来非常方便，但在测试过程中发现了一个问题：当查询条件改变时，有时查询结果的数据不正确。通过FireBug调试发现，点击搜索按钮时，会发送两次Ajax请求，一次是原条件的请求，一次是新条件的请求。 ... [详细]

蜡笔小新 2024-11-12 13:59:27
web
秒建一个后台管理系统？用这5个开源免费的Java项目就够了

秒建一个后台管理系统？用这5个开源免费的Java项目就够了 ... [详细]

蜡笔小新 2024-11-12 03:21:33
go
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
go
斯坦福大学公开课：利用神经网络技术实现自动驾驶的案例分析

斯坦福大学的公开课深入探讨了如何利用神经网络技术实现自动驾驶。课程中通过实例展示了汽车如何通过学习算法自主驾驶。具体而言，课程展示了一幅图解，其中左下角显示了汽车前方的实时路况图像，而左上角则呈现了一个水平的菜单栏，用于展示系统处理和决策的过程。这一案例详细解析了神经网络在自动驾驶中的应用，为学生提供了宝贵的实践参考。 ... [详细]

蜡笔小新 2024-11-08 15:58:28
future
投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元

投融资周报 | Circle 达成 4 亿美元融资协议，唯一艺术平台 A 轮融资超千万美元 ... [详细]

蜡笔小新 2024-11-05 04:56:42
function
如何撰写PHP电商项目的实战经验？

如何撰写PHP电商项目的实战经验？ ... [详细]

蜡笔小新 2024-11-02 19:29:46
client
深入解析Spring Boot启动过程中Netty异步架构的工作原理与应用

深入解析Spring Boot启动过程中Netty异步架构的工作原理与应用 ... [详细]

蜡笔小新 2024-11-02 18:57:12
go
理工科男女不容错过的神奇资源网站

十一长假即将结束，你的假期学习计划进展如何？无论你是在家中、思念家乡，还是身处异国他乡，理工科学生都不容错过一些神奇的资源网站。这些网站提供了丰富的学术资料、实验数据和技术文档，能够帮助你在假期中高效学习和提升专业技能。 ... [详细]

蜡笔小新 2024-11-01 11:51:44
sum
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58
object
Python基础：使用NLTK和Python构建机器学习应用

本文节选自《NLTK基础教程——用NLTK和Python库构建机器学习应用》一书的第1章第1.2节，作者Nitin Hardeniya。本文将带领读者快速了解Python的基础知识，为后续的机器学习应用打下坚实的基础。 ... [详细]

蜡笔小新 2024-11-13 21:23:34
object
非计算机专业的朋友如何拿下多个Offer

大家好，我是归辰。秋招结束后，我已顺利入职，并应公子龙的邀请，分享一些秋招面试的心得体会，希望能帮助到学弟学妹们，让他们在未来的面试中更加顺利。 ... [详细]

蜡笔小新 2024-11-13 18:41:58
object
阶段五 3. 微服务项目【学成在线】_第6天页面部署与课程管理_15 课程计划查询SQL语句解析

阶段五 3. 微服务项目【学成在线】_第6天页面部署与课程管理_15 课程计划查询SQL语句解析 ... [详细]

蜡笔小新 2024-11-07 14:46:53
function
吴恩达深度学习课程笔记：第一部分第三周——浅层神经网络详解

浅层神经网络解析：本文详细探讨了两层神经网络（即一个输入层、一个隐藏层和一个输出层）的结构与工作原理。通过吴恩达教授的课程，读者将深入了解浅层神经网络的基本概念、参数初始化方法以及前向传播和反向传播的具体实现步骤。此外，文章还介绍了如何利用这些基础知识解决实际问题，并提供了丰富的实例和代码示例。 ... [详细]

蜡笔小新 2024-11-02 12:20:03

W你是我的小太阳

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章