机器学习随机森林总结

作者：初语2265_781 | 来源：互联网 | 2023-09-13 14:48

Bagging思想：从总体样本当中随机取一部分训练，通过多次的结果，投票获取平均值作为结果输出，尽可能避免不好的样本

Bagging思想&＃xff1a;从总体样本当中随机取一部分训练&＃xff0c;通过多次的结果&＃xff0c;投票获取平均值作为结果输出&＃xff0c;尽可能避免不好的样本&＃xff0c;提高准确度。不好的样本相当于噪声&＃xff0c;模型学入噪声后会使准确度不高。

随机森林&＃xff1a;基于树模型的Bagging优化版本&＃xff0c;一棵树不如多棵树&＃xff0c;使用多颗决策树&＃xff0c;解决决策树泛化能力弱的特点。

同一批数据用同样的算法只能产生一棵树&＃xff0c;这时Bagging策略可产生不同的数据集。

Bagging策略来源于bootstrap aggregation&＃xff1a;从样本集&＃xff08;假设样本集N个数据点&＃xff09;中重采样选出Nb个样本&＃xff08;有放回的采样&＃xff0c;样本数据点个数仍然不变为N&＃xff09;&＃xff0c;

树的生成规则&＃xff1a;

在所有样本上&＃xff0c;对这n个样本建立分类器&＃xff08;ID3\C4.5\CART\SVM\LOGISTIC&＃xff09;&＃xff0c;重复以上两步m次&＃xff0c;获得m个分类器&＃xff0c;最后根据这m个分类器的投票结果&＃xff0c;决定数据属于哪一类。

如果训练集大小为N&＃xff0c;对于每棵树而言&＃xff0c;随机且有放回地从训练集中的抽取N个训练样本&＃xff0c;作为该树的训练集&＃xff1b;
如果每个样本的特征维度为M&＃xff0c;指定一个常数m<随机地从M个特征中选取m个特征子集&＃xff0c;每次树进行分裂时&＃xff0c;从这m个特征中选择最优的&＃xff1b;
每棵树都尽最大程度的生长&＃xff0c;并且没有剪枝过程。

一开始我们提到的随机森林中的“随机”就是指的这里的两个随机性。两个随机性的引入对随机森林的分类性能至关重要。由于它们的引入&＃xff0c;使得随机森林不容易陷入过拟合&＃xff0c;并且具有很好得抗噪能力&＃xff08;比如&＃xff1a;对缺省值不敏感&＃xff09;。

总的来说就是随机选择样本数&＃xff0c;随机选取特征&＃xff0c;随机选择分类器&＃xff0c;建立多颗这样的决策树&＃xff0c;然后通过这几课决策树来投票&＃xff0c;决定数据属于哪一类(投票机制有一票否决制、少数服从多数、加权多数)

分类效果&＃xff1a;

森林中任意两棵树的相关性&＃xff1a;相关性越大&＃xff0c;错误率越大&＃xff1b;
森林中每棵树的分类能力&＃xff1a;每棵树的分类能力越强&＃xff0c;整个森林的错误率越低。

减小特征选择个数m&＃xff0c;树的相关性和分类能力也会相应的降低&＃xff1b;

增大m&＃xff0c;两者也会随之增大。关键问题是如何选择最优的m&＃xff08;或者是范围&＃xff09;&＃xff0c;这是随机森林唯一的参数。

优点&＃xff1a;

在当前的很多数据集上&＃xff0c;相对其他算法有着很大的优势&＃xff0c;表现良好。
它能够处理很高维度&＃xff08;feature很多&＃xff09;的数据&＃xff0c;并且不用做特征选择(因为特征子集是随机选择的)。
在训练完后&＃xff0c;它能够给出哪些feature比较重要。
训练速度快&＃xff0c;容易做成并行化方法(训练时树与树之间是相互独立的)。
在训练过程中&＃xff0c;能够检测到feature间的互相影响。
对于不平衡的数据集来说&＃xff0c;它可以平衡误差。
如果有很大一部分的特征遗失&＃xff0c;仍可以维持准确度。

缺点&＃xff1a;

随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合。
对于有不同取值的属性的数据&＃xff0c;取值划分较多的属性会对随机森林产生更大的影响&＃xff0c;此时的属性权值是不可信的。

随机森林对缺失值的处理&＃xff1a;

先给缺失值预设一些估计值&＃xff0c;比如数值型特征&＃xff0c;选择其余数据的中位数或众数作为当前的估计值
根据估计的数值&＃xff0c;建立随机森林&＃xff0c;把所有的数据放进随机森林里面跑一遍。记录每一组数据在决策树中一步一步分类的路径.
判断哪组数据和缺失数据路径最相似&＃xff0c;引入一个相似度矩阵&＃xff0c;来记录数据之间的相似度&＃xff0c;比如有N组数据&＃xff0c;相似度矩阵大小就是N*N
如果缺失值是类别变量&＃xff0c;通过权重投票得到新估计值&＃xff0c;如果是数值型变量&＃xff0c;通过加权平均得到新的估计值&＃xff0c;如此迭代&＃xff0c;直到得到稳定的估计值。

该缺失值填补过程类似于推荐系统中采用协同过滤进行评分预测&＃xff0c;

先计算缺失特征与其他特征的相似度&＃xff0c;再加权得到缺失值的估计&＃xff0c;

而随机森林中计算相似度的方法&＃xff08;数据在决策树中一步一步分类的路径&＃xff09;乃其独特之处。

构建随机森林的关键问题就是如何选择最优的m&＃xff0c;需要依据计算袋外错误率oob error&＃xff08;out-of-bag error&＃xff09;解决。

bagging方法中Bootstrap每次约有1/3的样本不会出现在样本集合中&＃xff0c;这1/3的数据称为袋外数据oob&＃xff08;out of bag&＃xff09;&＃xff0c;可用于取代测试集误差估计方法。

袋外数据(oob)误差的计算方法如下&＃xff1a;

对于已经生成的随机森林,用袋外数据测试其性能,假设袋外数据总数为O,用这O个袋外数据作为输入,带进之前已经生成的随机森林分类器,分类器会给出O个数据相应的分类
因为这O条数据的类型是已知的,则用正确的分类与随机森林分类器的结果进行比较,统计随机森林分类器分类错误的数目,设为X,则袋外数据误差大小&＃61;X/O

优缺点&＃xff1a;OOB是无偏估计的&＃xff0c;所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。

参考&＃xff1a;

https://github.com/NLP-LOVE/ML-NLP/blob/master/Machine%20Learning/3.1%20Random%20Forest/3.1%20Random%20Forest.md

推荐阅读

int
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
int
深度学习中的Vision Transformer (ViT)详解

本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理，包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明，对于CV任务，直接应用纯Transformer架构于图像块序列是可行的，无需依赖于卷积网络。 ... [详细]

蜡笔小新 2023-12-12 15:26:38
int
GPT-3发布，动动手指就能自动生成代码的神器来了！

近日，OpenAI发布了最新的NLP模型GPT-3，该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB，参数个数高达1750亿，训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站，用户只需用英语描述需求，前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年，OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型，在限定条件下以2:0完胜人类冠军。 ... [详细]

蜡笔小新 2023-12-11 11:04:43
python
微软头条实习生分享深度学习自学指南

本文介绍了一位微软头条实习生自学深度学习的经验分享，包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性，并提供了一些建议。 ... [详细]

蜡笔小新 2023-12-14 20:58:32
ip
使用在线工具jsonschema2pojo根据json生成java对象

本文介绍了使用在线工具jsonschema2pojo根据json生成java对象的方法。通过该工具，用户只需将json字符串复制到输入框中，即可自动将其转换成java对象。该工具还能解析列表式的json数据，并将嵌套在内层的对象也解析出来。本文以请求github的api为例，展示了使用该工具的步骤和效果。 ... [详细]

蜡笔小新 2023-12-13 21:23:45
ip
PRML读书会第十四章 Combining Models（committees，Boosting，AdaBoost，决策树，条件混合模型）...

主讲人网神（新浪微博:豆角茄子麻酱凉面）网神(66707180)18:57:18大家好，今天我们讲一下第14章combiningmodel ... [详细]

蜡笔小新 2023-10-17 17:04:24
python
详解 Python 的二元算术运算，为什么说减法只是语法糖？[Python常见问题]

原题|UnravellingbinaryarithmeticoperationsinPython作者|BrettCannon译者|豌豆花下猫（“Python猫 ... [详细]

蜡笔小新 2023-10-17 15:28:24
char
推荐：以数据驱动的方式讲故事

直觉vs数据首先，你有思考过一个问题吗？当你的直觉与你所掌握的数据矛盾的时候，你是听从于直觉还是相信你所掌握的数据呢？201 ... [详细]

蜡笔小新 2023-10-16 17:51:26
python
「爆干7天7夜」入门AI人工智能学习路线一条龙，真的不能再透彻了

前言应广大粉丝要求，今天迪迦来和大家讲解一下如何去入门人工智能，也算是迪迦对自己学习人工智能这么多年的一个总结吧，本条学习路线并不会那么 ... [详细]

蜡笔小新 2023-10-16 12:17:31
python
PyTorch源码解读之torchvision.models

PyTorch框架中有一个非常重要且好用的包：torchvision，该包主要由3个子包组成，分别是：torchvision.datasets、torchvision.models、torchv ... [详细]

蜡笔小新 2023-10-16 11:14:55
function
Stanford机器学习第九讲. 聚类

原文：http:blog.csdn.netabcjenniferarticledetails7914952本栏目（Machinelearning）包括单参数的线性回归、多参数的线性 ... [详细]

蜡笔小新 2023-10-15 16:17:01
function
faster rcnn如何生成anchors

本文就fasterrcnn中anchors的函数generate_anchors.py为例，介绍anchors的生成过程。首先看下主函数入口。论文中提到a ... [详细]

蜡笔小新 2023-10-15 15:28:35
char
从零开始的ESP8266探索（15）WiFi其他方法和WiFi事件响应

文章目录目的WiFi其他方法WiFi事件响应事件列表注册事件使用示例总结目的WiFi在使用过程中并非会一直如希望般稳定运行的，为了应对这些情况就需要能够了解WiFi ... [详细]

蜡笔小新 2023-10-15 15:14:59
web
return 语句竟然跳不出 for 循环？怎么肥事？

松哥最近正在录制TienChin项目视频～采用SpringBoot+Vue3技术栈，里边会涉及到各种好玩 ... [详细]

蜡笔小新 2023-10-15 12:43:40
python
【BERT】BERT的嵌入层是如何实现的？看完你就明白了

作者：__编译：ronghuaiyang导读非常简单直白的语言解释了BERT中的嵌入层的组成以及实现的方式。介绍在本文中，我将解释BERT ... [详细]

蜡笔小新 2023-10-15 11:40:54

初语2265_781

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章