作者:墨尔本晴上残留的余温丶_856 | 来源:互联网 | 2023-06-27 18:23
一、上采样和下采样的对比
- 上采样:放大图片
- 下采样:缩小图片
二、过采样和欠采样的对比
针对于正负样本不均衡,例如当正负样本比例达到1:99,分类器将所有的样本都判为负样本能达到99%的正确率,显然结果不是我们想要的。又例如,有一组数据,其中标签为1的样本数有2000,标签为0的数为400。
- 过采样:从少数类样本中(这里标签为0的样本就是少数样本)重复抽取样本,对少数类样本进行多次复制,扩大数据规模
- 欠采样:从多数类样本中(这里标签为1的样本就是多数样本)丢弃部分样本,可能会损失部分有用的东西,造成模型只学到整体的一部分。