浅析GBDT+LR

作者：零食专卖店 | 来源：互联网 | 2023-09-09 12:17

1.前言最近在做的项目中，一直用到了GBDTLR算法模型来做二分类，好好梳理了下。下面介绍下这个算法。先来解答下面三个问题。GBDTLR模型是什么&#

1.前言

最近在做的项目中，一直用到了GBDT+LR算法模型来做二分类，好好梳理了下。下面介绍下这个算法。先来解答下面三个问题。
GBDT+LR模型是什么：是一种具有stacking思想的二分类器模型，所以可以用来解决二分类问题。这个方法出自于Facebook 2014年的论文 Practical Lessons from Predicting Clicks on Ads at Facebook 。
GBDT+LR模型常用在哪：GBDT+LR 使用最广泛的场景是CTR广告点击率预估，即预测当给用户推送的广告会不会被用户点击（也是个二分类问题），同时类似的二分类问题也很适合使用，我做的项目就是判断是否有某种风险分类，然后用于业务的电商风控内容。
为什么要GBDT+LR模型：点击率预估模型涉及的训练样本一般是上亿级别，样本量大，模型常采用速度较快的LR。但LR是线性模型，学习能力有限，此时特征工程尤其重要。现有的特征工程实验，主要集中在寻找到有区分度的特征、特征组合，折腾一圈未必会带来效果提升。GBDT算法的特点正好可以用来发掘有区分度的特征、特征组合，减少特征工程中人力成本。

2.原理

GBDT+LR 模型是一种stacking思想，而stacking又是一种典型的集成学习方法，“先从初始数据集训练出初级学习器，然后生成一个新数据集用于训练次级学习器”【1】（学习器也有叫分类器，后面叫分类器）。其中GBDT用来对训练集提取特征作为新的训练输入数据，LR作为新训练输入数据的分类器。如下图1 GBDT+LR模型结构图所示，具体来讲，有以下几个步骤：
2.1 GBDT首先对原始训练数据做训练，得到一个二分类器，当然这里也需要利用网格搜索寻找最佳参数组合。
2.2 与通常做法不同的是，当GBDT训练好做预测的时候，输出的并不是最终的二分类概率值，而是要把模型中的每棵树计算得到的预测概率值所属的叶子结点位置记为1，这样，就构造出了新的训练数据。
举个例子，下图是一个GBDT+LR 模型结构，设GBDT有两个弱分类器，分别以蓝色和红色部分表示，其中蓝色弱分类器的叶子结点个数为3，红色弱分类器的叶子结点个数为2，并且蓝色弱分类器中对0-1 的预测结果落到了第二个叶子结点上，红色弱分类器中对0-1 的预测结果也落到了第二个叶子结点上。那么我们就记蓝色弱分类器的预测结果为[0 1 0]，红色弱分类器的预测结果为[0 1]，综合起来看，GBDT的输出为这些弱分类器的组合[0 1 0 0 1] ，或者一个稀疏向量（数组）。
这里的思想与One-hot独热编码类似，事实上，在用GBDT构造新的训练数据时，采用的也正是One-hot方法。并且由于每一弱分类器有且只有一个叶子节点输出预测结果，所以在一个具有n个弱分类器、共计m个叶子结点的GBDT中，每一条训练数据都会被转换为1*m维稀疏向量，且有n个元素为1，其余m-n 个元素全为0。
2.3 新的训练数据构造完成后，下一步就要与原始的训练数据中的label(输出)数据一并输入到Logistic Regression分类器中进行最终分类器的训练。思考一下，在对原始数据进行GBDT提取为新的数据这一操作之后，数据不仅变得稀疏，而且由于弱分类器个数，叶子结点个数的影响，可能会导致新的训练数据特征维度过大的问题，因此，在Logistic Regression这一层中，可使用正则化来减少过拟合的风险，在Facebook的论文中采用的是L1正则化。
在这里插入图片描述

图1 GBDT+LR模型结构图

3 常见问题

3.1 GBDT+LR的输入特征是否要归一化？
GBDT+LR的输入特征不需要归一化。
归一化和标准化主要是为了使计算更方便，提升模型的收敛速度和提高精度。在实际应用中，通过梯度下降法求解的模型一般都是需要归一化的，比如线性回归、logistic回归、KNN、SVM、神经网络等模型。但树形模型不需要归一化，因为它们不关心变量的值，而是关心变量的分布和变量之间的条件概率，如决策树、随机森林(Random Forest)。
3.2 为什么GBDT+LR优于GBDT？
第一：gbdt+lr类似于做了一个stacking。gbdt+lr模型中，把gbdt的叶子节点作为lr的输入，而gbdt的叶子节点相当于它的输出y’，用这个y’作为lr的x，和stacking是类似的。
　　第二：gbdt的每棵树其实是拟合上一颗树的残差上求得的局部最优解，把所有局部最优解的输出通过lr训练得到一个全局最优解。所以优于单独使用gbdt
3.3 为什么GBDT+LR优于LR？
第一：lr算法简单，能够处理超高纬度稀疏问题。但是lr需要人工进行特征组合。gbdt+lr相当于对原始特征通过gbdt进行了特征组合
　第二：gbdt对连续特征划分能力强，可以帮助lr处理连续特征，避免了人工对连续特征分箱操作。
3.4 GBDT+LR的为什么适合输入连续特征？（为什么GBDT适用于连续型特征）
GBDT不能用离散特征不是因为它处理不了离散特征，而是因为离散化特征后会产生特别多的特征，决策树的叶子节点过多，遍历的时候太慢了。所以海量离散特征＋LR是业内常见的一个做法。而少量连续特征+复杂模型是另外一种做法，例如GBDT。
模型是使用离散特征还是连续特征，其实是一个“海量离散特征+简单模型” 同 “少量连续特征+复杂模型”的权衡。既可以离散化用线性模型，也可以用连续特征加深度学习。
3.5 为什么lr不能处理连续特征（为什么LR适用于离散型特征）
　　因为这样可以增加lr的鲁棒性，比如如果把年龄送进lr，那么23和24岁本来相差不大，但是却变成了完全不同的变量，也就是所23岁和24岁的区别程度和23岁和50岁的区别程度是一样的，显然不符合。或者加入一个300岁的偏差特征也可能会影响模型，但对年龄分箱之后就可以避免上述问题，增加模型鲁棒性。
3.2.6 可以GBDT+LR，那XGBOOST+LR，FR+LR等也可以吗？
既然GBDT可以做新训练样本的构造，那么其它基于树的模型，例如Random Forest以及Xgboost等也可以按类似的方式来构造新的训练样本。所有这些基于树的模型都可以和Logistic Regression分类器组合。至于效果孰优孰劣，总体效果都还可以，但是之间没有可比性，因为超参数的不同会对模型评估产生较大的影响。下图是RF+LR、GBT+LR、Xgb、LR、Xgb+LR 模型效果对比图2，然而这只能做个参考，因为模型超参数的值的选择这一前提条件都各不相同。
另外，RF也是多棵树，但从效果上有实践证明不如GBDT。且GBDT前面的树，特征分裂主要体现对多数样本有区分度的特征；后面的树，主要体现的是经过前N颗树，残差仍然较大的少数样本。优先选用在整体上有区分度的特征，再选用针对少数样本有区分度的特征，思路更加合理，这应该也是用GBDT的原因。
在这里插入图片描述
图2 各模型ROC图

4.参考资料

【1】《机器学习》-周志华，清华大学出版社，第8.4.3节“学习法”
【2】https://blog.csdn.net/zzy1448331580/article/details/106782677
【3】https://blog.csdn.net/Beyond_2016/article/details/80030427?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control&dist_request_id=1330144.10424.16180666440009909&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-1.control
【4】https://blog.csdn.net/weixin_34019144/article/details/93064641
【5】https://www.jianshu.com/p/964130615414
【6】https://www.cnblogs.com/wkang/p/9657032.html

推荐阅读

eval
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
range
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
range
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
range
技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告

技术日志：使用 Ruby 爬虫抓取拉勾网职位数据并生成词云分析报告 ... [详细]

蜡笔小新 2024-11-07 14:33:19
range
探索聚类分析中的K-Means与DBSCAN算法及其应用

聚类分析是一种用于解决样本或特征分类问题的统计分析方法，也是数据挖掘领域的重要算法之一。本文主要探讨了K-Means和DBSCAN两种聚类算法的原理及其应用场景。K-Means算法通过迭代优化簇中心来实现数据点的划分，适用于球形分布的数据集；而DBSCAN算法则基于密度进行聚类，能够有效识别任意形状的簇，并且对噪声数据具有较好的鲁棒性。通过对这两种算法的对比分析，本文旨在为实际应用中选择合适的聚类方法提供参考。 ... [详细]

蜡笔小新 2024-11-04 13:20:39
range
TypeScript 实战分享：Google 工程师深度解析 TypeScript 开发经验与心得

TypeScript 实战分享：Google 工程师深度解析 TypeScript 开发经验与心得 ... [详细]

蜡笔小新 2024-11-04 12:55:23
const
使用 Matplotlib 保存 Python 动态图像为视频文件的方法与技巧

本文介绍了如何利用 `matplotlib` 库中的 `FuncAnimation` 类将 Python 中的动态图像保存为视频文件。通过详细解释 `FuncAnimation` 类的参数和方法，文章提供了多种实用技巧，帮助用户高效地生成高质量的动态图像视频。此外，还探讨了不同视频编码器的选择及其对输出文件质量的影响，为读者提供了全面的技术指导。 ... [详细]

蜡笔小新 2024-11-11 22:11:30
const
在Windows系统中安装TensorFlow GPU版的详细指南与常见问题解决

在Windows系统中安装TensorFlow GPU版是许多深度学习初学者面临的挑战。本文详细介绍了安装过程中的每一个步骤，并针对常见的问题提供了有效的解决方案。通过本文的指导，读者可以顺利地完成安装并避免常见的陷阱。 ... [详细]

蜡笔小新 2024-11-11 19:02:49
main
Xcode 多项目联合调试技巧与实践

在软件开发过程中，经常需要将多个项目或模块进行集成和调试，尤其是当项目依赖于第三方开源库（如Cordova、CocoaPods）时。本文介绍了如何在Xcode中高效地进行多项目联合调试，分享了一些实用的技巧和最佳实践，帮助开发者解决常见的调试难题，提高开发效率。 ... [详细]

蜡笔小新 2024-11-11 18:24:27
main
【源自百度知识】批处理技术详解与应用

本文详细介绍了批处理技术的基本概念及其在实际应用中的重要性。首先，对简单的批处理内部命令进行了概述，重点讲解了Echo命令的功能，包括如何打开或关闭回显功能以及显示消息。如果没有指定任何参数，Echo命令会显示当前的回显设置。此外，文章还探讨了批处理技术在自动化任务执行、系统管理等领域的广泛应用，为读者提供了丰富的实践案例和技术指导。 ... [详细]

蜡笔小新 2024-11-09 10:19:25
const
2018 HDU 多校联合第五场 G题：Glad You Game（线段树优化解法）

题目链接：http://acm.hdu.edu.cn/showproblem.php?pid=6356在《Glad You Game》中，Steve 面临一个复杂的区间操作问题。该题可以通过线段树进行高效优化。具体来说，线段树能够快速处理区间更新和查询操作，从而大大提高了算法的效率。本文详细介绍了线段树的构建和维护方法，并给出了具体的代码实现，帮助读者更好地理解和应用这一数据结构。 ... [详细]

蜡笔小新 2024-11-08 19:17:23
case
使用纯JavaScript实现贪吃蛇游戏的开发技巧与解析

本文详细探讨了使用纯JavaScript开发经典贪吃蛇游戏的技术细节和实现方法。通过具体的代码示例，深入解析了游戏逻辑、动画效果及用户交互的实现过程，为开发者提供了宝贵的参考和实践经验。 ... [详细]

蜡笔小新 2024-11-08 13:56:09
case
Linux chkconfig命令参数与使用方法深入解析

`chkconfig` 命令主要用于管理和查询系统服务在不同运行级别中的启动状态。该命令不仅能够更新服务的启动配置，还能检查特定服务的当前状态。通过 `chkconfig`，管理员可以轻松地控制服务在系统启动时的行为，确保关键服务正常运行，同时禁用不必要的服务以提高系统性能和安全性。本文将详细介绍 `chkconfig` 的各项参数及其使用方法，帮助读者更好地理解和应用这一强大的系统管理工具。 ... [详细]

蜡笔小新 2024-11-07 17:20:54
eval
DRF框架中Serializer反序列化验证机制详解：深入探讨Validators的应用与优化

在DRF框架的反序列化验证机制中，除了基本的字段类型和长度校验外，还常常需要进行更为复杂的条件限制校验。通过引入`validators`模块，可以实现自定义校验逻辑，如唯一字段校验等。本文将详细探讨`validators`的使用方法及其优化策略，帮助开发者更好地理解和应用这一重要功能。 ... [详细]

蜡笔小新 2024-11-06 19:05:31
range
从零开始掌握PyTorch：生成对抗网络GAN进阶指南（第九篇）

本文将深入探讨生成对抗网络（GAN）在计算机视觉领域的应用。作为该领域的经典模型，GAN通过生成器和判别器的对抗训练，能够高效地生成高质量的图像。本文不仅回顾了GAN的基本原理，还将介绍一些最新的进展和技术优化方法，帮助读者全面掌握这一重要工具。 ... [详细]

蜡笔小新 2024-11-02 13:18:42

零食专卖店

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章