热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

Bagging,Boosting,Stacking

本文主要总结Bagging和Boosting和Stacking思想的异同点。这三种算法都可以称作为“meta-algorithms”,就是将多个机器学习方法集成到一个模型里面去降低

  本文主要总结Bagging 和 Boosting 和 Stacking思想的异同点。这三种算法都可以称作为“meta-algorithms”,就是将多个机器学习方法集成到一个模型里面去降低方差,偏差,或者改善模型预测能力。通常bagging可以降低variance,boosting可以降低bias,stacking可以改善模型预测能力。

  这三种算法都包含以下两个步骤:


  • 在原始数据的子集样例上产生一个简单的ML模型分布。

  • 将这个分布的模型集成到一个模型当中。



在多分类问题当中,常用到两大类的方法:Ensemble methods 和 Hybrid methods。Ensemble methods:主要是指将多个相同的学习模型集成到一起。最常见的方法里面有Bagging 和 Boosting,它们可以使弱分类器组成强分类器。Hybrid methods:主要是指将不同的学习模型集成到一起组成一个新的学习模型。最常见的方法里面有Stacking (or stacked generation)

下面着重总结bagging 和 boosting 的异同点。

1.Bagging (booststrap aggregating)

具体算法过程如下:

a> 先从原始样本集中抽取训练集。有放回的抽样n个训练样本,其中某些样本可能被多次抽到,而有些样本也可能一次没有抽到。共进行k轮抽取,得到k个训练集。(大约有1/3不会被抽到)  

b>每次使用一个训练集得到一个模型,k个训练集共得到k个模型。

c>对于分类模型:最后结果采取k个模型投票的方式得到分类结果;对于回归问题:计算上述模型的均值得到最好的结果。(所有模型的重要性相同)

>>bagging只是通过增大训练集合的个数来降低预测的方差。(仅仅改变训练数据,不改变模型)

 

2.Boosting 

最主要的思想是将弱分类器组装成一个强分类器,在PCA(概率近似正确)框架下,则一定可以将弱分类器组成一个强分类器。

boosting两个核心问题:

a>在每一轮如何改变训练数据的权值或概率分布?

boosting中每个模型的更新都是和上一个模型相关的。通过提高那些在前一轮被弱分类器分错样例的权值,来使分类器对误分的数据有较好的效果。

b>通过什么方式来组合弱分类器?

通过加法模型使弱分类器线性组合。增大错误率小的分类器的权值,同时减小错误率较大的分类器的权值。

>>每一个新的训练子集合包含着上一个模型误分类的数据。

 

Stacking:

stacking类似于boosting。 

技术分享图片

 

3.Bagging 和 Boosting二者之间的区别

a>在样本选择上:

Bagging:训练集是在原始集中有放回的选取,从原始数据集中选出的各轮训练集之间是相互独立的。

Boosting:每一轮的训练集不变,只是训练集中每个样例在分类器中的权值发生变化。而权值是根据上一轮的分类结果进行调整。

b>样例权重:

Bagging:使用均匀抽样,每个样例的权重相等。

Boosting:根据错误率不断调整样例的权值,错误率越大则权重越大。

c>预测函数:

Bagging:所以预测函数的权重相等。

Boosting:每个弱分类器都有相应的权重,对于分类误差小的分类器会有更大的权重。

d>并行计算:

Bagging:各预测函数可以并行生成。

Boosting:各个预测函数只能顺序生成,因为后一个模型参数需要前一轮模型的结果。

e>作用和目标:

Bagging:目标是降低variance,而不是bias。适合高方差低偏差模型,也就是复杂模型。

Boosting:目标是降低bias,而不是variacne,适合低方差高偏差模型。

 

4.总结

Bagging 和Boosting 方法都是将多个分类器集成到一个分类器,只是集成的方法不一样。最后集成模型提高了单一分类器的效果,同时增大了计算量。

常用的算法组合:

Bagging +决策树=随机森林

AdaBoost+决策树=提升树

Gradient Boosting+决策树=GBDT

 

5.reference 

1. http://www.cnblogs.com/liuwu265/p/4690486.html

2.https://stats.stackexchange.com/questions/18891/bagging-boosting-and-stacking-in-machine-learning

3.https://people.cs.pitt.edu/~milos/courses/cs2750-Spring04/lectures/class23.pdf

4.http://quantdare.com/dream-team-combining-classifiers-2/

5.https://quantdare.com/what-is-the-difference-between-bagging-and-boosting/

 

 

 

技术分享图片

 

技术分享图片

 


推荐阅读
  • Java验证码——kaptcha的使用配置及样式
    本文介绍了如何使用kaptcha库来实现Java验证码的配置和样式设置,包括pom.xml的依赖配置和web.xml中servlet的配置。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 基于layUI的图片上传前预览功能的2种实现方式
    本文介绍了基于layUI的图片上传前预览功能的两种实现方式:一种是使用blob+FileReader,另一种是使用layUI自带的参数。通过选择文件后点击文件名,在页面中间弹窗内预览图片。其中,layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块,并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]
  • 本文介绍了使用Java实现大数乘法的分治算法,包括输入数据的处理、普通大数乘法的结果和Karatsuba大数乘法的结果。通过改变long类型可以适应不同范围的大数乘法计算。 ... [详细]
  • HDU 2372 El Dorado(DP)的最长上升子序列长度求解方法
    本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法,通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]
  • 本文介绍了C#中数据集DataSet对象的使用及相关方法详解,包括DataSet对象的概述、与数据关系对象的互联、Rows集合和Columns集合的组成,以及DataSet对象常用的方法之一——Merge方法的使用。通过本文的阅读,读者可以了解到DataSet对象在C#中的重要性和使用方法。 ... [详细]
  • 后台获取视图对应的字符串
    1.帮助类后台获取视图对应的字符串publicclassViewHelper{将View输出为字符串(注:不会执行对应的ac ... [详细]
  • 《数据结构》学习笔记3——串匹配算法性能评估
    本文主要讨论串匹配算法的性能评估,包括模式匹配、字符种类数量、算法复杂度等内容。通过借助C++中的头文件和库,可以实现对串的匹配操作。其中蛮力算法的复杂度为O(m*n),通过随机取出长度为m的子串作为模式P,在文本T中进行匹配,统计平均复杂度。对于成功和失败的匹配分别进行测试,分析其平均复杂度。详情请参考相关学习资源。 ... [详细]
  • 本文介绍了通过ABAP开发往外网发邮件的需求,并提供了配置和代码整理的资料。其中包括了配置SAP邮件服务器的步骤和ABAP写发送邮件代码的过程。通过RZ10配置参数和icm/server_port_1的设定,可以实现向Sap User和外部邮件发送邮件的功能。希望对需要的开发人员有帮助。摘要长度:184字。 ... [详细]
  • 动态规划算法的基本步骤及最长递增子序列问题详解
    本文详细介绍了动态规划算法的基本步骤,包括划分阶段、选择状态、决策和状态转移方程,并以最长递增子序列问题为例进行了详细解析。动态规划算法的有效性依赖于问题本身所具有的最优子结构性质和子问题重叠性质。通过将子问题的解保存在一个表中,在以后尽可能多地利用这些子问题的解,从而提高算法的效率。 ... [详细]
  • 高质量SQL书写的30条建议
    本文提供了30条关于优化SQL的建议,包括避免使用select *,使用具体字段,以及使用limit 1等。这些建议是基于实际开发经验总结出来的,旨在帮助读者优化SQL查询。 ... [详细]
  • 本文介绍了指针的概念以及在函数调用时使用指针作为参数的情况。指针存放的是变量的地址,通过指针可以修改指针所指的变量的值。然而,如果想要修改指针的指向,就需要使用指针的引用。文章还通过一个简单的示例代码解释了指针的引用的使用方法,并思考了在修改指针的指向后,取指针的输出结果。 ... [详细]
  • 在project.properties添加#Projecttarget.targetandroid-19android.library.reference.1..Sliding ... [详细]
  • 猜字母游戏
    猜字母游戏猜字母游戏——设计数据结构猜字母游戏——设计程序结构猜字母游戏——实现字母生成方法猜字母游戏——实现字母检测方法猜字母游戏——实现主方法1猜字母游戏——设计数据结构1.1 ... [详细]
author-avatar
手浪用户2602933263
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有