热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

多目标学习与MMOE

多目标模型的意义现实世界中,我们的业务目标往往不是单一的。比如购物APP中,我们不仅仅希望你浏览商品,也希望你购买商品,甚

多目标模型的意义

现实世界中,我们的业务目标往往不是单一的。比如购物APP中,我们不仅仅希望你浏览商品,也希望你购买商品,甚至分享商品,评论商品。再比如短视频推荐,我们不单希望你看视频,也希望你点赞、评论、分享视频,还希望你能关注发布的作者。因此多目标模型的出现,就可以让我们的场景同时服务到这些目标。于此同时,对于一些正样本稀疏的目标,多目标模型甚至可以让他们的目标实现远超预期.


MMoE简介

多任务学习的目的在于用一个模型来同时学习多个目标和任务,但常用的任务模型的预测质量通常对任务之间的关系很敏感,因此,Google 提出多门混合专家算法(Multi-gate Mixture-of-Experts,以下简称 MMoE)旨在学习如何从数据中权衡任务目标(task-specific objectives)和任务之间(inter-task relationships)的关系。所有任务之间共享混合专家结构(MoE)的子模型来适应多任务学习,同时还拥有可训练的门控网路(Gating Network)以优化每一个任务。MMoE 算法在任务相关性较低时能够具有更好的性能,同时也可以提高模型的可训练性。

MMOE结构如下:Expert是一个神经网络,Expert个数根据训练和预估性能做权衡,和任务数保持一致也可以。Gate是一个Softmax函数,个数与任务数一致,每个Gate的输出个数与Expert个数一致。


MMoE网络结构衍化图

MMoE的网络结构衍化图,衍化的过程是为了更好地解决多目标问题。图( a ) 到 图( c ) 反映了在解决多目标问题时模型结构的迭代过程:
在这里插入图片描述
结论:图( c )最好,图( b )次之,图( a )最差.
图( a )是最常规的共享网络的方案,结构是input首先经过底层共享的DNN网络(Shared Bottom)生成vector,再根据不同目标将vector经过各自的tower生成对应的output。

图( b )是将底层的一个DNN网络分解成3个专家网络(expert),通过一个共享门控(gate)来设置每个专家网络输出的权重,得到门控后的vector经过各自tower生成对应的output。

图( c )跟图( b )的思路类似,同样是通过门控为专家网络设置权重,再通过各自tower生成对应的output。不同的点在于,使用的门控不是共享门控,而是每个目标有独立的门控(gate),如果有两个目标则有两个门控。

通过上文的图片,MMoE的网络结构其实是比较好理解的,下面说一下衍化过程:

首先,图( a )的Shared-Bottom方式不能很好地处理不同目标样本空间不同的差异化,因此效果来看容易导致某个目标受另外一个目标影响较大。

其次,图( b )引入了gate和expert的思想,就是希望每个expert能学习到不同的信息,更好地服务多目标不同目标的样本空间。但是gate的权重对于两个目标是共享的,同样会导致差异化未被很好服务。

图( c )模型每个目标使用独立的gate权重,使每个expert对每个目标贡献不同,更好的处理了不同目标差异化的问题。


为什么要使用MMoE实现多目标?

1、MMoE通过特殊的模型结构达到了一个模型实现多个目标的能力
2、MMoE通过模型结构的优化使各项目标都很好的实现
3、MMoE可以通过网络共享帮助正样本稀疏的目标更好地达成


参考文献

1.多目标学习与MMOE


推荐阅读
  • 本文将介绍如何编写一些有趣的VBScript脚本,这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例,帮助您了解VBScript的基本语法和功能。 ... [详细]
  • 深入解析Android自定义View面试题
    本文探讨了Android Launcher开发中自定义View的重要性,并通过一道经典的面试题,帮助开发者更好地理解自定义View的实现细节。文章不仅涵盖了基础知识,还提供了实际操作建议。 ... [详细]
  • 前言--页数多了以后需要指定到某一页(只做了功能,样式没有细调)html ... [详细]
  • 本文深入探讨了 Java 中的 Serializable 接口,解释了其实现机制、用途及注意事项,帮助开发者更好地理解和使用序列化功能。 ... [详细]
  • 本文详细介绍了Akka中的BackoffSupervisor机制,探讨其在处理持久化失败和Actor重启时的应用。通过具体示例,展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]
  • 本文详细介绍了Java编程语言中的核心概念和常见面试问题,包括集合类、数据结构、线程处理、Java虚拟机(JVM)、HTTP协议以及Git操作等方面的内容。通过深入分析每个主题,帮助读者更好地理解Java的关键特性和最佳实践。 ... [详细]
  • DNN Community 和 Professional 版本的主要差异
    本文详细解析了 DotNetNuke (DNN) 的两种主要版本:Community 和 Professional。通过对比两者的功能和附加组件,帮助用户选择最适合其需求的版本。 ... [详细]
  • 在金融和会计领域,准确无误地填写票据和结算凭证至关重要。这些文件不仅是支付结算和现金收付的重要依据,还直接关系到交易的安全性和准确性。本文介绍了一种使用C语言实现小写金额转换为大写金额的方法,确保数据的标准化和规范化。 ... [详细]
  • 本文详细介绍了Java中org.neo4j.helpers.collection.Iterators.single()方法的功能、使用场景及代码示例,帮助开发者更好地理解和应用该方法。 ... [详细]
  • Explore a common issue encountered when implementing an OAuth 1.0a API, specifically the inability to encode null objects and how to resolve it. ... [详细]
  • 技术分享:从动态网站提取站点密钥的解决方案
    本文探讨了如何从动态网站中提取站点密钥,特别是针对验证码(reCAPTCHA)的处理方法。通过结合Selenium和requests库,提供了详细的代码示例和优化建议。 ... [详细]
  • Java 中的 BigDecimal pow()方法,示例 ... [详细]
  • 本文基于刘洪波老师的《英文词根词缀精讲》,深入探讨了多个重要词根词缀的起源及其相关词汇,帮助读者更好地理解和记忆英语单词。 ... [详细]
  • 本文介绍了如何使用JQuery实现省市二级联动和表单验证。首先,通过change事件监听用户选择的省份,并动态加载对应的城市列表。其次,详细讲解了使用Validation插件进行表单验证的方法,包括内置规则、自定义规则及实时验证功能。 ... [详细]
  • 深入解析Spring Cloud Ribbon负载均衡机制
    本文详细介绍了Spring Cloud中的Ribbon组件如何实现服务调用的负载均衡。通过分析其工作原理、源码结构及配置方式,帮助读者理解Ribbon在分布式系统中的重要作用。 ... [详细]
author-avatar
笑意江湖
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有