概念:
类不平衡(class-imbalance)指分类任务中不同类别的训练样例数目差别很大的情况。
各个类别的样本量分布不均——某些类别的样本数量极多,有些类别的样本数量极少,就是类不平衡(class-imbalance)问题。
后果:
若不同类别样例数差别很大,则会对学习过程造成困扰。例如有998个反例,但是正例只有2个,那么学习方法只需要返回一个永远将新样本预测为反例的学习器,就能达到99.8%的精度;然而这样的学习器往往没有价值,因为它不能预测出任何正例。
机器学习 —— 类不平衡问题与SMOTE过采样算法