热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

多目标学习与MMOE

多目标模型的意义现实世界中,我们的业务目标往往不是单一的。比如购物APP中,我们不仅仅希望你浏览商品,也希望你购买商品,甚

多目标模型的意义

现实世界中,我们的业务目标往往不是单一的。比如购物APP中,我们不仅仅希望你浏览商品,也希望你购买商品,甚至分享商品,评论商品。再比如短视频推荐,我们不单希望你看视频,也希望你点赞、评论、分享视频,还希望你能关注发布的作者。因此多目标模型的出现,就可以让我们的场景同时服务到这些目标。于此同时,对于一些正样本稀疏的目标,多目标模型甚至可以让他们的目标实现远超预期.


MMoE简介

多任务学习的目的在于用一个模型来同时学习多个目标和任务,但常用的任务模型的预测质量通常对任务之间的关系很敏感,因此,Google 提出多门混合专家算法(Multi-gate Mixture-of-Experts,以下简称 MMoE)旨在学习如何从数据中权衡任务目标(task-specific objectives)和任务之间(inter-task relationships)的关系。所有任务之间共享混合专家结构(MoE)的子模型来适应多任务学习,同时还拥有可训练的门控网路(Gating Network)以优化每一个任务。MMoE 算法在任务相关性较低时能够具有更好的性能,同时也可以提高模型的可训练性。

MMOE结构如下:Expert是一个神经网络,Expert个数根据训练和预估性能做权衡,和任务数保持一致也可以。Gate是一个Softmax函数,个数与任务数一致,每个Gate的输出个数与Expert个数一致。


MMoE网络结构衍化图

MMoE的网络结构衍化图,衍化的过程是为了更好地解决多目标问题。图( a ) 到 图( c ) 反映了在解决多目标问题时模型结构的迭代过程:
在这里插入图片描述
结论:图( c )最好,图( b )次之,图( a )最差.
图( a )是最常规的共享网络的方案,结构是input首先经过底层共享的DNN网络(Shared Bottom)生成vector,再根据不同目标将vector经过各自的tower生成对应的output。

图( b )是将底层的一个DNN网络分解成3个专家网络(expert),通过一个共享门控(gate)来设置每个专家网络输出的权重,得到门控后的vector经过各自tower生成对应的output。

图( c )跟图( b )的思路类似,同样是通过门控为专家网络设置权重,再通过各自tower生成对应的output。不同的点在于,使用的门控不是共享门控,而是每个目标有独立的门控(gate),如果有两个目标则有两个门控。

通过上文的图片,MMoE的网络结构其实是比较好理解的,下面说一下衍化过程:

首先,图( a )的Shared-Bottom方式不能很好地处理不同目标样本空间不同的差异化,因此效果来看容易导致某个目标受另外一个目标影响较大。

其次,图( b )引入了gate和expert的思想,就是希望每个expert能学习到不同的信息,更好地服务多目标不同目标的样本空间。但是gate的权重对于两个目标是共享的,同样会导致差异化未被很好服务。

图( c )模型每个目标使用独立的gate权重,使每个expert对每个目标贡献不同,更好的处理了不同目标差异化的问题。


为什么要使用MMoE实现多目标?

1、MMoE通过特殊的模型结构达到了一个模型实现多个目标的能力
2、MMoE通过模型结构的优化使各项目标都很好的实现
3、MMoE可以通过网络共享帮助正样本稀疏的目标更好地达成


参考文献

1.多目标学习与MMOE


推荐阅读
  • 在尝试加载支持推送通知的iOS应用程序的Ad Hoc构建时,遇到了‘no valid aps-environment entitlement found for application’的错误提示。本文将探讨此错误的原因及多种可能的解决方案。 ... [详细]
  • 在1995年,Simon Plouffe 发现了一种特殊的求和方法来表示某些常数。两年后,Bailey 和 Borwein 在他们的论文中发表了这一发现,这种方法被命名为 Bailey-Borwein-Plouffe (BBP) 公式。该问题要求计算圆周率 π 的第 n 个十六进制数字。 ... [详细]
  • 长期从事ABAP开发工作的专业人士,在面对行业新趋势时,往往需要重新审视自己的发展方向。本文探讨了几位资深专家对ABAP未来走向的看法,以及开发者应如何调整技能以适应新的技术环境。 ... [详细]
  • Irish budget airline Ryanair announced plans to significantly increase its route network from Frankfurt Airport, marking a direct challenge to Lufthansa, Germany's leading carrier. ... [详细]
  • 入门指南:使用FastRPC技术连接Qualcomm Hexagon DSP
    本文旨在为初学者提供关于如何使用FastRPC技术连接Qualcomm Hexagon DSP的基础知识。FastRPC技术允许开发者在本地客户端实现远程调用,从而简化Hexagon DSP的开发和调试过程。 ... [详细]
  • 如何从BAM文件绘制ATAC-seq插入片段长度分布图?
    在ATAC-seq数据处理中,插入片段长度的分布图是一个重要的质量控制指标,它能反映出核小体的周期性排列。本文将详细介绍如何从BAM文件中提取并绘制这些数据。 ... [详细]
  • Jupyter Notebook多语言环境搭建指南
    本文详细介绍了如何在Linux环境下为Jupyter Notebook配置Python、Python3、R及Go四种编程语言的环境,包括必要的软件安装和配置步骤。 ... [详细]
  • 本文介绍如何使用JavaScript中的for循环来创建一个九九乘法表,适合初学者学习循环结构的应用。 ... [详细]
  • 本文探讨了如何将个人经历,特别是非传统的职业路径,转化为职业生涯中的优势。通过作者的亲身经历,展示了舞蹈生涯对商业思维的影响。 ... [详细]
  • 本文介绍了SIP(Session Initiation Protocol,会话发起协议)的基本概念、功能、消息格式及其实现机制。SIP是一种在IP网络上用于建立、管理和终止多媒体通信会话的应用层协议。 ... [详细]
  • publicclassBindActionextendsActionSupport{privateStringproString;privateStringcitString; ... [详细]
  • LeetCode 204: 计算质数
    本题要求计算小于给定非负整数n的所有质数的数量。感谢@mithmatt为此问题提供测试案例。 ... [详细]
  • 洛谷 P4009 汽车加油行驶问题 解析
    探讨了经典算法题目——汽车加油行驶问题,通过网络流和费用流的视角,深入解析了该问题的解决方案。本文将详细阐述如何利用最短路径算法解决这一问题,并提供详细的代码实现。 ... [详细]
  • 本文介绍了如何通过C#语言调用动态链接库(DLL)中的函数来实现IC卡的基本操作,包括初始化设备、设置密码模式、获取设备状态等,并详细展示了将TextBox中的数据写入IC卡的具体实现方法。 ... [详细]
  • 本文探讨了如何通过Service Locator模式来简化和优化在B/S架构中的服务命名访问,特别是对于需要频繁访问的服务,如JNDI和XMLNS。该模式通过缓存机制减少了重复查找的成本,并提供了对多种服务的统一访问接口。 ... [详细]
author-avatar
笑意江湖
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有