热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

关于深度学习:如何解决回归任务数据不均衡的问题

现有的解决不均衡数据长尾散布的办法绝大多数都是针对分类问题,而回归问题中呈现的数据不平衡问题确极少被钻研。然而,事实很多的工业预测场景都是须要解决回归的问题,也就是波及到间断的,甚至是有限多的目标值,如何解决回归问题中呈现的数据不平衡问题呢?ICML2021一篇被接管为Longoralpresentation的论文:Delv

摘要:现有的解决不均衡数据/长尾散布的办法绝大多数都是针对分类问题,而回归问题中呈现的数据不平衡问题确极少被钻研。

本文分享自华为云社区《如何解决回归工作数据不平衡的问题?》,原文作者:PG13。

现有的解决不均衡数据/长尾散布的办法绝大多数都是针对分类问题,而回归问题中呈现的数据不平衡问题确极少被钻研。然而,事实很多的工业预测场景都是须要解决回归的问题,也就是波及到间断的,甚至是有限多的目标值,如何解决回归问题中呈现的数据不平衡问题呢?ICML2021一篇被接管为Long oral presentation的论文:Delving into Deep Imbalanced Regression,推广了传统不平衡分类问题的范式,将数据不均衡问题从离散值域推广到了间断值域,并提出了两种解决深度不平衡回归问题的办法。

次要的奉献是三个方面:1)提出了一个深度不平衡回归(Deep Imbalanced Regression, DIR)工作,定义为从具备间断指标的不均衡数据中学习,并能泛化到整个指标范畴;2)提出了两种解决DIR的新办法,标签散布平滑(label distribution smoothing, LDS)和特色散布平滑(feature distribution smoothing, FDS),来解决具备间断指标的不均衡数据的学习问题;3)建设了5个新的DIR数据集,包含了CV、NLP、healthcare上的不均衡回归工作,致力于帮忙将来在不均衡数据上的钻研。

数据不均衡问题背景

事实世界的数据通常不会每个类别都具备现实的均匀分布,而是呈现出长尾的偏斜散布,其中某些目标值的观测值显著较少,这对于深度学习模型有较大的挑战。传统的解决办法能够分为基于数据和基于模型两种:基于数据的解决方案无非对多数群体进行过采样和对少数群体进行下采样,比方SMOTE算法;基于模型的解决方案包含对损失函数的重加权(re-weighting)或利用相干的学习技巧,如迁徙学习、元学习、两阶段训练等。

然而现有的数据不均衡解决方案,次要是针对具备categorical index的目标值,也就是离散的类别标签数据。其目标值属于不同的类别,并且具备严格的硬边界,不同类别之间没有重叠。事实世界很多的预测场景可能波及到间断目标值的标签数据。比方,依据人脸视觉图片预测年龄,年龄便是一个间断的目标值,并且在指标范畴内可能会高度失衡。在工业畛域中,也会产生相似的问题,比方在水泥畛域,水泥熟料的品质,个别都是间断的目标值;在配煤畛域,焦炭的热强指标也是间断的目标值。这些利用中须要预测的指标变量往往存在许多罕见和极其值。在间断域的不均衡问题在线性模型和深度模型中都是存在的,在深度模型中甚至更为严重,这是因为深度学习模型的预测往往都是over-confident的,会导致这种不均衡问题被重大的放大。

因而,这篇文章定义了深度不均衡回归问题(DIR),即从具备间断目标值的不均衡数据中学习,同时须要解决某些指标区域的潜在的确数据,并使最终模型可能泛化到整个反对所有目标值的范畴上。

不均衡回归问题的挑战

解决DIR问题的三个挑战如下:

  1. 对于间断的目标值(标签),不同目标值之间的硬边界不再存在,无奈间接采纳不均衡分类的解决办法。
  2. 间断标签实质上阐明在不同的目标值之间的间隔是有意义的。这些目标值间接通知了哪些数据之间相隔更近,领导咱们该如何了解这个间断区间上的数据不平衡的水平。
  3. 对于DIR,某些目标值可能基本没有数据,这为对目标值做extrapolation和interpolation提供了需要。

解决办法一:标签散布平滑(LDS)

首先通过一个例子展现一下当数据呈现不平衡的时候,分类和回归问题之间的区别。作者在两个不同的数据集:(1)CIFAR-100,一个100类的图像分类数据集;(2)IMDB-WIKI,一个用于依据人像估算年龄(回归)的图像数据集,进行了比拟。通过采样解决来模仿数据不均衡,保障两个数据集具备完全相同的标签密度散布,如下图所示:

而后,别离在两个数据集上训练一个ResNet-50模型,并画出它们的测试误差的散布。从图中能够看出,在不均衡的分类数据集CIFAR-100上,测试误差的散布与标签密度的散布是高度负相关的,这很好了解,因为领有更多样本的类别更容易学好。然而,间断标签空间的IMDB-WIKI的测试误差散布更加平滑,且不再与标签密度散布很好地相干。这阐明了对于间断标签,其教训标签密度并不能精确地反映模型所看到的不平衡。这是因为相临标签的数据样本之间是相干的,相互依赖的。

标签散布平滑:基于这些发现,作者提出了一种在统计学习畛域中的核密度估计(LDS)办法,给定间断的教训标签密度散布,LDS应用了一个对称核函数k,用教训密度散布与之卷积,失去一个kernel-smoothed的无效标签密度散布,用来直观体现邻近标签的数据样本具备的信息重叠问题,通过LDS计算出的无效标签密度散布后果与误差散布的相关性明显增强。有了LDS预计出的无效标签密度,就能够用解决类别不均衡问题的办法,间接利用于解决DIR问题。比方,最简略地一种make sence形式是利用重加权的办法,通过将损失函数乘以每个目标值的LDS预计标签密度的倒数来对其进行加权。

解决办法二:特色散布平滑(FDS)

如果模型预测失常且数据是平衡的,那么label相近的samples,它们对应的feature的统计信息应该也是彼此靠近的。这里作者也举了一个实例验证了这个直觉。作者同样应用对IMDB-WIKI上训练的ResNet-50模型。次要focus在模型学习到的特色空间,不是标签空间。咱们关注的最小年龄差是1岁,因而咱们将标签空间分为了等距离的区间,将具备雷同指标区间的因素分到同一组。而后,针对每个区间中的数据计算其相应的特色统计量(均值、方差)。特色的统计量之间的相似性可视化为如下图:

红色区间代表anchor区间,计算这个anchor label与其余所有label的特色统计量(即均值、方差)的余弦类似度。此外,不同色彩区域(紫色,黄色,粉红色)示意不同的数据密度。从图中能够失去两个论断:

  1. anchor label和其邻近的区间的特色统计量是高度类似的。而anchor label = 30 刚好是在训练数据量十分多的区域。这阐明了,当有足够多的数据时,特色的统计量在邻近点是类似的。
  2. 此外,在数据量很少的区域,如0-6岁的年龄范畴,与30岁年龄段的特色统计量高度类似。这种不合理的相似性是因为数据不平衡造成的。因为,0-6岁的数据很少,该范畴的特色会从具备最大数据量的范畴继承其先验。

特色散布平滑:受到这些启发,作者提出了特色散布平滑(FDS)。FDS是对特色空间进行散布的平滑,实质上是在邻近的区间之间传递特色的统计信息。此过程的次要作用是去校准特色散布的潜在的有偏差的预计,尤其是对那些样本很少的目标值而言。

具体来说,有一个模型,f代表一个encoder将输出数据映射到隐层的特色,g作为一个predictor来输入间断的预测目标值。FDS会首先预计每个区间特色的统计信息。这里用特色的协方差代替方差,来反映特色z外部元素之间的关系。给定特色统计量,再次应用对称核函数k来smooth特色均值和协方差的散布,这样能够拿到统计信息的平滑版本。利用预计和平滑统计量,遵循规范的whitening and re-coloring过程来校准每个输出样本的特色示意。那么整个FDS过程能够通过在最终特色图之后插入一个特色的校准层,实现将FDS集成到深度网络中。最初,在每个epoch采纳了动量更新,来取得对训练过程中特色统计信息的一个更稳固和更精确的预计。

基准DIR数据集

  1. IMDB-WIKI-DIR(vision, age):基于IMDB-WIKI数据集,从蕴含人面部的图像来推断预计相应的年龄。
  2. AgeDB-DIR(vision, age):基于AgeDB数据集,同样是依据输出图像进行年龄预计。
  3. NYUD2-DIR(vision, depth):基于NYU2数据集,用于构建depth estimation的DIR工作。
  4. STS-B-DIR(NLP, test similarity score):基于STS-B数据集,工作是推断两个输出句子之间的语义文本的类似度得分。
  5. SHHS-DIR(Healthcare, health condition score):基于SHHS数据集,该工作是推断一个人的总体衰弱评分。

具体的试验能够查看该论文,这里附上论文原文以及代码地址:

[论文]:https://arxiv.org/abs/2102.09554

[代码]:https://github.com/YyzHarry/i…

点击关注,第一工夫理解华为云陈腐技术~


推荐阅读
  • WPF之Binding初探
      初学wpf,经常被Binding搞晕,以下记录写Binding的基础。首先,盗用张图。这图形象的说明了Binding的机理。对于Binding,意思是数据绑定,基本用法是:1、 ... [详细]
  • 微软头条实习生分享深度学习自学指南
    本文介绍了一位微软头条实习生自学深度学习的经验分享,包括学习资源推荐、重要基础知识的学习要点等。作者强调了学好Python和数学基础的重要性,并提供了一些建议。 ... [详细]
  • 阿里Treebased Deep Match(TDM) 学习笔记及技术发展回顾
    本文介绍了阿里Treebased Deep Match(TDM)的学习笔记,同时回顾了工业界技术发展的几代演进。从基于统计的启发式规则方法到基于内积模型的向量检索方法,再到引入复杂深度学习模型的下一代匹配技术。文章详细解释了基于统计的启发式规则方法和基于内积模型的向量检索方法的原理和应用,并介绍了TDM的背景和优势。最后,文章提到了向量距离和基于向量聚类的索引结构对于加速匹配效率的作用。本文对于理解TDM的学习过程和了解匹配技术的发展具有重要意义。 ... [详细]
  • 学习SLAM的女生,很酷
    本文介绍了学习SLAM的女生的故事,她们选择SLAM作为研究方向,面临各种学习挑战,但坚持不懈,最终获得成功。文章鼓励未来想走科研道路的女生勇敢追求自己的梦想,同时提到了一位正在英国攻读硕士学位的女生与SLAM结缘的经历。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 向QTextEdit拖放文件的方法及实现步骤
    本文介绍了在使用QTextEdit时如何实现拖放文件的功能,包括相关的方法和实现步骤。通过重写dragEnterEvent和dropEvent函数,并结合QMimeData和QUrl等类,可以轻松实现向QTextEdit拖放文件的功能。详细的代码实现和说明可以参考本文提供的示例代码。 ... [详细]
  • 本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容,即可完成安装。该工具箱提供了一系列函数,可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]
  • 推荐系统遇上深度学习(十七)详解推荐系统中的常用评测指标
    原创:石晓文小小挖掘机2018-06-18笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值, ... [详细]
  • 深度学习中的Vision Transformer (ViT)详解
    本文详细介绍了深度学习中的Vision Transformer (ViT)方法。首先介绍了相关工作和ViT的基本原理,包括图像块嵌入、可学习的嵌入、位置嵌入和Transformer编码器等。接着讨论了ViT的张量维度变化、归纳偏置与混合架构、微调及更高分辨率等方面。最后给出了实验结果和相关代码的链接。本文的研究表明,对于CV任务,直接应用纯Transformer架构于图像块序列是可行的,无需依赖于卷积网络。 ... [详细]
  • GPT-3发布,动动手指就能自动生成代码的神器来了!
    近日,OpenAI发布了最新的NLP模型GPT-3,该模型在GitHub趋势榜上名列前茅。GPT-3使用的数据集容量达到45TB,参数个数高达1750亿,训练好的模型需要700G的硬盘空间来存储。一位开发者根据GPT-3模型上线了一个名为debuid的网站,用户只需用英语描述需求,前端代码就能自动生成。这个神奇的功能让许多程序员感到惊讶。去年,OpenAI在与世界冠军OG战队的表演赛中展示了他们的强化学习模型,在限定条件下以2:0完胜人类冠军。 ... [详细]
  • 美国总统布什当地时间13日在纽约联邦国家纪念堂的演讲中阐明,金融改革及国际合作是此次二十国集团(G20)高峰会讨论的目标,这为本届峰会定下了基调。人们期 ... [详细]
  • 篇首语:本文由编程笔记#小编为大家整理,主要介绍了10分钟了解Android的事件分发相关的知识,希望对你有一定的参考价值。什么是事件分发?大家 ... [详细]
  • TerraformVersionTerraformv0.9.11AffectedResource(s)Pleas ... [详细]
  • 推荐 :以数据驱动的方式讲故事
    直觉vs数据首先,你有思考过一个问题吗?当你的直觉与你所掌握的数据矛盾的时候,你是听从于直觉还是相信你所掌握的数据呢?201 ... [详细]
author-avatar
mobiledu2502913173
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有