改进多分类算法

作者：Adam_phper | 来源：互联网 | 2023-08-17 10:18

1.改进的二叉树多分类决策树算法上层节点的分类性能对整个分类模型的影响较大&＃xff0c;在分类过程中&＃xff0c;应尽量减少上层节点的分类&＃xff0c;提出类分离测度&＃xff0c;将类分离测

1.改进的二叉树多分类决策树算法

上层节点的分类性能对整个分类模型的影响较大&＃xff0c;在分类过程中&＃xff0c;应尽量减少上层节点的分类&＃xff0c;提出类分离测度&＃xff0c;将类分离测度大的属性作为二叉树的上层分叉节点&＃xff0c;优先分离

参考&＃xff1a;《改进的二叉决策树多分类算法在入侵检测中的应用》

2.多分类AdaBoost

多分类问题的Ada Boost.SAMME算法&＃xff1a;α&＃61;1/2 * log(1 - e / e) &＃43; lg(k - 1) &＃xff0c;当k&＃61;2时&＃xff0c;为二分类&＃xff0c;在解决k(k>2)类问题时&＃xff0c;算法正确率大于1/k即可

本文使用SVM&＃xff08;高斯核函数&＃xff09;做基分类器

参考&＃xff1a;《基于多分类AdaBoost的航空发动机故障诊断》

3.AdaBoost改进随机森林

用AdaBoost算法来调整随机森林中的决策树对不同地物类别的投票权重, 将分类能力强的决策树赋予高权重, 分类能力弱的决策树赋予低权重, 最终通过加权投票的形式进行组合, 采用最大投票准则获得分类结果

参考&＃xff1a;《基于AdaBoost改进随机森林的高光谱图像地物分类方法研究》

4.Analyzing the oversampling of different classes and types of examples in multi-class imbalanced datasets

针对不平衡数据集&＃xff0c;将数据分成4类&＃xff0c;针对不同类别的数据点确定上采样

5. Diversity Analysis on Imbalanced Data Sets by Using Ensemble Models

1. 类别不平衡不能单纯的将少数类别的数量增加至相同数量&＃xff0c;这可能会导致新的“内部”不平衡&＃xff0c;提出一种计算方法&＃xff0c;少数类应该生成多少样本&＃xff08;用在SMOTEBagging&＃xff09;

2. 每个类别应该上采样或下采样多上样本时&＃xff0c;提出了一种方法&＃xff08;用在UnderBagging和OverBagging中&＃xff09;&＃xff1a;

2. 衡量生成样本的多样性和准确性&＃xff08;多样性有个公式&＃xff09;

3. 提出针对不平衡样本的UnderBagging、OverBagging、SMOTEBagging三种算法

多分类AdaBoost算法&＃xff1a;

AdaBoost.SAMME&＃xff08;多类指数损失函数逐步添加模型 Stagewise Additive Modeling using a Multi-class Exponential loss function&＃xff09;:相比较与传统AdaBoost算法&＃xff0c;改变的是弱分类器的权重确定公式&＃xff1a;(注&＃xff1a;sklearn)
AdaBoost.M1
AdaBoost.M2
AdaBoost.MH

论文&＃xff1a;《Muiti-class AdaBoost》

不平衡数据集的多分类AdaBoost

EasyEnsemble&＃xff1a;每个弱分类器&＃xff0c;对多数类随机下采样与少数类样本相同数量的样本构成当前若分类器的数据集
CaseCade&＃xff1a;每个分类器&＃xff0c;在数据集中移除上一个弱分类器分类正确的多数类中的样本&＃xff0c;直至数据集平衡
CUSBoost&＃xff1a;k-means聚类采样与AdaBoostd算法结合。对多数类使用聚类算法&＃xff0c;从每个聚类中随机抽取部分样本&＃xff0c;与少数类样本组成平衡数据集。聚类的方法帮助我们在多数类别数据中选择了差异性更大的数据&＃xff08;同一个聚类里面的数据则选择的相对较少&＃xff09;。CUSBoost combines the sampling and boosting methods to form an efficient and effective algorithm for class imbalance learning.
SMOTEBoost&＃xff1a;SMOTE上采样方法与AdaBoost算法结合
SAMME.R&＃xff1a;为了解决 SAMME 算法对基分类器要求过弱的问题&＃xff0c;对每次迭代训练出的弱分类器进行检验&＃xff0c;判断各类中分到
每类样本的权值和&＃xff0c;并且要求分到正确类的权值和大于分到任意错误类的权值和&＃xff0c;如果满足该条件则保留该基分类器&＃xff0c;否则重新训练新的基分类器。SAMME&＃xff0e; R 算法的主要改进在于通过筛选基分类器保证算法训练出的强分类器可以分类正确
SAMME.RD&＃xff08;SAMME with Resampling and Dynamic weighting&＃xff09;&＃xff1a;传统的 AdaBoost 算法对待测样本进行预测时各个分类器的加权系数是固定不变的&＃xff0c;但是通过分析可以知道基分类器对不同的待测样本的分类能力是不一样的&＃xff0c;这是因为基分类使用不同的训练集训练而来&＃xff0c;它们对分布在不同区域的样本分类能力是不一样的。如果在预测时使用相同的加权系数&＃xff0c;预测结果的准确性将会受到一定的影响&＃xff0c;所以为了进一步提升算法的预测性能&＃xff0c;动态加权投票&＃xff0c;1)对基分类器的分类结果进行统计&＃xff0c;统计分到各类的基分类器个数&＃xff0c;如果分到某类的个数与基分类器总数的比值大于一个设定的阈值 α&＃xff0c;则直接输出此类作为待测样本的类别。2) 对于分到各类的数目没有大于设定阈值 α 的情况&＃xff0c;求出待测样本在训练样本中的有效邻域&＃xff0c;统计基分类器对有效邻域中的样本的分类能力&＃xff0c;根据基分类器对有效邻域分类正确率的大小来确定基分类器的加权系数。《基于多类指数损失函数逐步添加模型的改进多分类 AdaBoost 算法》
EnsembleAdaBoost.M&＃xff1a;针对EasyEnsemble算法中随机欠采样可能改变数据分布的问题&＃xff0c;先采用样本均值的方法进行采样&＃xff0c;使样本均衡

然后传统的 AdaBoost 分类器无法解决上采样产生的噪音数据降低分类性能的问题,引入了阈值 μ和惩罚次数 P 。当某个样本的权重超过 μ&＃xff0c;则将该样本的权重赋值为所有样本中的最小权重&＃xff0c;同时记为一次惩罚&＃xff0c;增加惩罚次数 P n &＃xff0c;若被惩罚过的样本在下次迭代中样本权重依然超过 μ&＃xff0c;则可以判断该样本为噪音数据&＃xff0c;将其权重赋值为 0&＃xff0c;从数据集中剔除掉。《基于多类不平衡分类的改进 AdaBoost 算法研究》

随机森林的改进&＃xff1a;

引入分层抽样降低样本类别平衡率&＃xff0c;代价敏感学习&＃xff08;样本加权&＃xff09;通过对样本权重赋值&＃xff0c;能够提高分类器对小样本类的检测率和检测准确率《层次采样的代价敏感随机森林算法及其应用》
MR-RF-SHDSE算法&＃xff1a;分层抽样&＃xff0c;针对不平衡数据集&＃xff0c;采用G-mean值衡量决策树的强度&＃xff0c;公式如下&＃xff0c;

采用不合度量&＃xff08;disagreement measure&＃xff09;衡量两个决策树之间的相似度&＃xff0c;计算公式如下&＃xff1a;

目的是找到一个mapper下具有一定差异其具有一定轻度的决策树&＃xff0c;选择方法如下&＃xff1a;

《 MapReduce环境下处理多类别不平衡数据的改进随机森林算法》

基分类器选择BT-SVM&＃xff08;二叉树结构&＃xff09;&＃xff0c;自上至下选择类别时采用类间距离&＃xff0c;距离大的先分离&＃xff1b;在集成分类器中最重要的是如何综合个分类器的结果&＃xff0c;常用的是简单投票&＃xff0c;如随机森林&＃xff0c;然而&＃xff0c;当各分类器性能不统一时此种做法往往造成较大的负面效果&＃xff0c;尤其在出现各类别得票数相差无几或多类得票数相同的情况时&＃xff0c;如果还采用之前的简单投票进行预测&＃xff0c;则预测准确性将大打折扣。采用动态加权&＃xff0c;设定阈值&＃xff0c;将待分类样本代入各个分类器&＃xff0c;通过给定阈值判断是否加权&＃xff0c;如果低于阈值&＃xff0c;将进行动态加权给各个基分类器分配权。重本文利用 &＃xff2b;&＃xff2e;&＃xff2e;思想&＃xff0c;从样本中选出与待测样本相似的 &＃xff2b; 个样本代入已训练好的分类器得到错分率&＃xff0c;并利用错分率得到各个分类器的权重&＃xff0c;最后进行线性加权&＃xff0c;求出最优的识别结果。

时间序列特征提取的python库&＃xff1a;tsfresh

推荐阅读

rsa
机器学习之数据均衡算法种类大全+Python代码一文详解

目录前言一、为什么要做数据均衡？二、数据场景1.大数据分布不均衡2.小数据分布不均衡三、均衡算法类型1.过采样2.欠采样3.组合采样四、算法具体种类1 ... [详细]

蜡笔小新 2023-10-15 23:34:41
io
学习SLAM的女生，很酷

本文介绍了学习SLAM的女生的故事，她们选择SLAM作为研究方向，面临各种学习挑战，但坚持不懈，最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想，同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]

蜡笔小新 2023-12-14 17:55:18
io
[译]技术公司十年经验的职场生涯回顾

本文是一位在技术公司工作十年的职场人士对自己职业生涯的总结回顾。她的职业规划与众不同，令人深思又有趣。其中涉及到的内容有机器学习、创新创业以及引用了女性主义者在TED演讲中的部分讲义。文章表达了对职业生涯的愿望和希望，认为人类有能力不断改善自己。 ... [详细]

蜡笔小新 2023-12-14 11:31:05
io
sklearn数据集库中的常用数据集类型介绍

本文介绍了sklearn数据集库中常用的数据集类型，包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集，包含了波士顿506处房屋的13种不同特征以及房屋价格，适用于回归任务。 ... [详细]

蜡笔小新 2023-12-13 17:45:15
search
Python正则表达式学习记录及常用方法

本文记录了学习Python正则表达式的过程，介绍了re模块的常用方法re.search，并解释了rawstring的作用。正则表达式是一种方便检查字符串匹配模式的工具，通过本文的学习可以掌握Python中使用正则表达式的基本方法。 ... [详细]

蜡笔小新 2023-12-13 16:37:19
io
在Windows 8上安装gvim中的插件的错误加载问题

本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置，但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置，并列出了出现的错误信息。 ... [详细]

蜡笔小新 2023-12-14 14:44:00
main
python创建一个窗口_等一个大佬啊要求用python创建一个窗口，窗口按钮功能是创建一个球体或立方体。明天上课之前交给我...

展开全部下面的代码是创建一个立方体Thisexamplescreatesanddisplaysasimplebox.#Thefirstlineloadstheinit_disp ... [详细]

蜡笔小新 2023-12-13 16:26:09
io
支持向量机训练集多少个_25道题检测你对支持向量机算法的掌握程度

介绍在我们学习机器算法的时候，可以将机器学习算法视为包含刀枪剑戟斧钺钩叉的一个军械库。你可以使用各种各样的兵器，但你要明白这些兵器是需要在合适的时间合理 ... [详细]

蜡笔小新 2023-10-17 16:21:13
io
Azkaban（三）Azkaban的使用

界面介绍首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。scheduling:显示定时任务executing:显示当前运行的任务histo ... [详细]

蜡笔小新 2023-10-15 23:43:11
js
Stanford机器学习第九讲. 聚类

原文：http:blog.csdn.netabcjenniferarticledetails7914952本栏目（Machinelearning）包括单参数的线性回归、多参数的线性 ... [详细]

蜡笔小新 2023-10-15 16:17:01
default
Hadoop之Yarn

目录1Hadoop1.x和Hadoop2.x架构区别2Yarn概述3Yarn基本架构4Yarn工作机制5作业提交全过程6资源调度器7任务的推测执行1Hadoop1.x和Hadoo ... [详细]

蜡笔小新 2023-10-15 12:16:30
io
开发笔记:小白python机器学习之路——支持向量机

篇首语：本文由编程笔记#小编为大家整理，主要介绍了小白python机器学习之路——支持向量机相关的知识，希望对你有一定的参考价值。支持 ... [详细]

蜡笔小新 2023-10-15 12:00:18
split
使用机器学习的疾病预测

使用机器学习的疾病预测原文:https://www.gees ... [详细]

蜡笔小新 2023-10-14 16:00:09
io
开源真香离线识别率高 Python 人脸识别系统

本文主要介绍关于python,人工智能,计算机视觉的知识点，对【开源真香离线识别率高Python人脸识别系统】和【】有兴趣的朋友可以看下由【000X000】投稿的技术文章，希望该技术和经验能帮到 ... [详细]

蜡笔小新 2023-10-14 15:43:38
main
MapReduce编程(一) Intellij Idea配置MapReduce编程环境

介绍怎样在IntellijIdea中通过创建mavenproject配置MapReduce的编程环境。一、软件环境我使用的软件版本号例如以下:IntellijIdea2017.1M ... [详细]

蜡笔小新 2023-10-13 16:56:06

Adam_phper

与时俱进

Tags | 热门标签

RankList | 热门文章