当前位置: 开发笔记 > 运维 > 正文

干货整理：处理不平衡数据的技巧总结！收好不谢

作者：liuc | 来源：互联网 | 2023-05-16 16:36

文：RickRadewagen译：李萌在银行欺诈检测，市场实时竞价或网络入侵检测等领域通常是什么样的数据集呢？在这些领域使用的数据通常有

640?wx_fmt=gif&wxfrom=5&wx_lazy=1

文：Rick Radewagen

译：李萌

在银行欺诈检测，市场实时竞价或网络入侵检测等领域通常是什么样的数据集呢？

在这些领域使用的数据通常有不到1％少量但“有趣的”事件，例如欺诈者利用信用卡，用户点击广告或者损坏的服务器扫描网络。

然而，大多数机器学习算法对于不平衡数据集的处理不是很好。以下七种技术可以帮你训练分类器来检测异常类。

1.使用正确的评估指标

对使用不平衡数据生成的模型应用不恰当的评估指标可能是危险的。

640?wx_fmt=png&wxfrom=5&wx_lazy=1

想象一下，我们的训练数据如上图所示。如果使用精度来衡量模型的好坏，使用将所有测试样本分类为“0”的模型具有很好的准确性（99.8％），但显然这种模型不会为我们提供任何有价值的信息。

在这种情况下，可以应用其他替代评估指标，例如：

精度/特异性：有多少个选定的相关实例。
调用/灵敏度：选择了多少个相关实例。
F1得分：精度和召回的谐波平均值。
MCC：观察和预测的二进制分类之间的相关系数。
AUC：正确率与误报率之间的关系。

2.重新采样训练集

除了使用不同的评估标准外，还可以选择不同的数据集。使平衡数据集不平衡的两种方法：欠采样和过采样。

欠采样通过减少冗余类的大小来平衡数据集。当数据量足够时使用此方法。通过将所有样本保存在少数类中，并在多数类中随机选择相等数量的样本，可以检索平衡的新数据集以进一步建模。

相反，当数据量不足时会使用过采样，尝试通过增加稀有样本的数量来平衡数据集。不是去除样本的多样性，而是通过使用诸如重复，自举或SMOTE等方法生成新样本（合成少数过采样技术）

请注意，一种重采样方法与另一种相比没有绝对的优势。这两种方法的应用取决于它适用的用例和数据集本身。过度取样和欠采样不足结合使用也会有很好的效果。

3.以正确的方式使用K-fold交叉验证

值得注意的是，使用过采样方法来解决不平衡问题时，应适当地应用交叉验证。切记，过采样会观察到稀有的样本，并根据分布函数自举生成新的随机数据。如果在过采样之后应用交叉验证，那么我们所做的就是将模型过度适应于特定的人工引导结果。这就是为什么在过采样数据之前应该始终进行交叉验证，就像实现特征选择一样。只有对数据进行重复采样，可以将随机性引入到数据集中，以确保不会出现过拟合问题。

4.组合不同的重采样数据集

生成通用模型的最简单方法是使用更多的数据。问题是，开箱即用的分类器，如逻辑回归或机森随林，倾向于通过丢弃稀有样例来推广。一个简单的最佳实现是建立n个模型，使用少数类的所有样本和数量充足类别的n个不同样本。假如您想要组合10个模型，需要少数类1000例，随机抽取10.000例多数类的样本。然后，只需将10000个样本分成10个块，训练出10个不同的模型。

640?wx_fmt=png

如果您有大量数据，那么这种方法很简单，完美地实现水平扩展，因此您可以在不同的集群节点上训练和运行模型。集合模型也趋于一般化，使得该方法容易处理。

5.用不同比例重新采样

以前的方法可以通过少数类和多数类之间的比例进行微调。最好的比例在很大程度上取决于所使用的数据和模型。但是，不是在整体中以相同的比例训练所有模型，合并不同的比例值得尝试。所以如果训练了10个模型，对一个模型比例为1：1（少数：多数），另一个1：3甚至是2：1的模型是有意义的。根据使用的模型可以影响一个类获得的权重。

640?wx_fmt=png

6. 对多数类进行聚类

Sergey Quora提出了一种优雅的方法[2]。他建议不要依赖随机样本来覆盖训练样本的种类，而是将r个分组中的多数类进行聚类，其中r为r中的样本数。对于每个组，只保留质心（样本的中心）。然后该模型仅保留了少数类和样本质心来训练。

7.设计自己的模型

以前的所有方法都集中在数据上，并将模型作为固定的组件。但事实上，如果模型适用于不平衡数据，则不需要对数据进行重新采样。如果数据样本没有太多的倾斜，著名的XGBoost已经是一个很好的起点，因为该模型内部对数据进行了很好的处理，它训练的数据并不是不平衡的。但是再次，如果数据被重新采样，它只是悄悄进行。

通过设计一个损失函数来惩罚少数类的错误分类，而不是多数类，可以设计出许多自然泛化为支持少数类的模型。例如，调整SVM以相同的比例惩罚未被充分代表的少数类的分类错误。

640?wx_fmt=png

综上所述

这不是一份独家的技术清单，而是处理不平衡数据的一个起点。

没有适合所有问题的最佳方法或模型，强烈建议您尝试不同的技术和模型来评估哪些方法最有效。可以尝试创造性地结合不同的方法。

同样重要的是，要注意在不平衡类出现的许多领域（例如欺诈检测，实时竞价）中，“市场规则”正在不断变化。所以，要查看一下过去的数据是否已经过时了。

文章版权归原作者所有，转载仅供学习使用，不用于任何商业用途，如有侵权请留言联系删除，感谢合作。

640?wx_fmt=png

640?wx_fmt=jpeg

推荐阅读

linux
Web与游戏开发的主要差异

本文探讨了Web开发与游戏开发之间的主要区别，旨在帮助开发者更好地理解两种开发领域的特性和需求。文章基于作者的实际经验和网络资料整理而成。 ... [详细]

蜡笔小新 2024-12-18 08:26:30
curl
ThinkPHP6多数据库部署指南

本文将详细介绍如何在ThinkPHP6框架中实现多数据库的部署，包括读写分离的策略，以及如何通过负载均衡和MySQL同步技术优化数据库性能。 ... [详细]

蜡笔小新 2024-12-17 18:59:28
curl
深入解析MySQL查询优化：特定类型查询的高级策略

本文详细探讨了MySQL中特定类型查询的优化方法，包括COUNT()查询、关联查询、LIMIT分页及UNION查询的优化技巧，旨在提高数据库查询效率。 ... [详细]

蜡笔小新 2024-12-17 15:52:21
tomcat
深入分析十大PHP开发框架

随着PHP技术的发展，各类开发框架层出不穷，成为了开发者们热议的话题。本文将详细介绍并对比十款主流的PHP开发框架，旨在帮助开发者根据自身需求选择最合适的工具。 ... [详细]

蜡笔小新 2024-12-17 11:15:55
ftp
性能测试工具的选择与应用

本文探讨了性能测试工具的重要性及其在软件测试中的作用，重点介绍了选择合适性能测试工具的考量因素，并对几种常用的性能测试工具进行了对比分析。 ... [详细]

蜡笔小新 2024-12-17 09:31:10
ftp
容器与微服务基础：快速入门指南

探索容器和微服务的基础知识，了解如何通过先进的应用性能管理（APM）工具提升监控效能。加入AppDynamics APM的导览，掌握容器与微服务实施及监控的最佳实践。 ... [详细]

蜡笔小新 2024-12-16 20:41:16
nginx
精通Spring Cloud：从入门到实践的全面指南

Spring Cloud因其强大的功能和灵活性，被誉为开发分布式系统的‘一站式’解决方案。它不仅简化了分布式系统中的常见模式实现，还被广泛应用于企业级生产环境中。本书内容详实，覆盖了从微服务基础到Spring Cloud的高级应用，适合各层次的开发者。 ... [详细]

蜡笔小新 2024-12-16 16:21:23
ftp
PHP 实现 99 乘法表的方法详解

本文详细介绍了如何使用 PHP 编程语言输出 99 乘法表，包括使用不同的循环结构如 do-while、for 循环等方法，并提供了具体的代码示例。 ... [详细]

蜡笔小新 2024-12-16 11:48:09
docker
Linux下NFS客户端配置详解

NFS（Network File System）即网络文件系统，是一种分布式文件系统协议，主要用于Unix和类Unix系统之间的文件共享。本文详细介绍NFS的配置文件/etc/exports和相关服务配置，帮助读者理解如何在Linux环境中配置NFS客户端。 ... [详细]

蜡笔小新 2024-12-18 18:23:35
server
如何在TWiki中添加自定义标记？

本文探讨了如何在TWiki中配置自定义标记，以实现特定字符串（如#12345）自动转换为指向票务系统的超链接。此功能类似于在其他平台上的实现，旨在提高信息检索效率。 ... [详细]

蜡笔小新 2024-12-16 13:20:46
server
支持向量机（SVM）算法综述

支持向量机（Support Vector Machine, SVM）是由Cortes和Vapnik于1995年首次提出的一种机器学习算法。SVM在处理小样本、非线性及高维模式识别问题上表现出显著的优势，并广泛应用于函数拟合等其他机器学习任务中。 ... [详细]

蜡笔小新 2024-12-01 15:25:08
server
基于HoG和SVM的人体检测技术解析

近期深入研究了使用HoG（梯度方向直方图）与SVM（支持向量机）进行人体检测的技术。通过阅读大量文献，特别是Dalal等先驱者的著作，我对HoG算法有了较为深刻的理解，并在此基础上探讨了如何将其应用于实际场景。 ... [详细]

蜡笔小新 2024-11-29 19:51:13
colors
纵坐标|据点_菜菜的sklearn课堂笔记支持向量机线性SVM决策过程的可视化

纵坐标|据点_菜菜的sklearn课堂笔记支持向量机线性SVM决策过程的可视化 ... [详细]

蜡笔小新 2024-11-27 12:58:16
colors
AI炼金术：KNN分类器的构建与应用

本文介绍了如何使用Python及其相关库（如NumPy、scikit-learn和matplotlib）构建KNN分类器模型。通过详细的数据准备、模型训练及新样本预测的过程，展示KNN算法的实际操作步骤。 ... [详细]

蜡笔小新 2024-11-21 11:40:55
colors
机器学习算法：SVM（支持向量机）

SVM算法（SupportVectorMachine，支持向量机）的核心思想有2点：1、如果数据线性可分，那么基于最大间隔的方式来确定超平面，以确保全局最优， ... [详细]

蜡笔小新 2024-11-14 04:33:58

liuc

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章