如何利用深度学习模型实现多任务学习？这里有三点经验

作者：tengfei2008 | 来源：互联网 | 2023-09-18 21:26

文章转载自机器之心，有做多任务学习相关的同学可以加群709165514讨论学习下，

Taboola 算法开发者 Zohar Komarovsky 介绍了他们在利用深度学习模型实现多任务学习（MTL）时遇到的几个典型问题及解决方案。

在过去的一年里，我和我的团队一直致力于为 Taboola feed 提供个性化用户体验。我们运用多任务学习（Multi-Task Learning，MTL），在相同的输入特征集上预测多个关键性能指标（Key Performance Indicator，KPI），然后使用 TensorFlow 实现深度学习模型。回想最初的时候，我们感觉（上手）MTL 比现在要困难很多，所以我希望在这里分享一些经验总结。

现在已经有很多关于利用深度学习模型实现 MTL 的文章。在本文中，我准备分享一些利用神经网络实现 MTL 时需要考虑的具体问题，同时也会展示一些基于 TensorFlow 的简单解决方案。

共享即关怀

我们准备从参数硬共享（hard parameter sharing）的基础方法开始。硬共享表示我们使用一个共享的子网络，下接各个任务特定的子网络。

如何利用深度学习模型实现多任务学习？这里有三点经验

在 TensorFlow 中，实现这样一个模型的简单方法是使用带有 multi_head 的 Estimator。这个模型和其他神经网络架构相比没什么不同，所以你可以自己想想，有哪些可能出错的地方？

第一点：整合损失

我们的 MTL 模型所遇到的第一个挑战是为多个任务定义一个损失函数。既然每个任务都有一个定义良好的损失函数，那么多任务就会有多个损失。

我们尝试的第一个方法是将不同损失简单相加。很快我们就发现，虽然某一个任务会收敛得到不错的结果，其他的却表现很差。进一步研究后，可以很容易地明白原因：不同任务损失的尺度差异非常大，导致整体损失被某一个任务所主导，最终导致其他任务的损失无法影响网络共享层的学习过程。

一个简单的解决方案是，将损失简单相加替换为加权和，以使所有任务损失的尺度接近。但是，这引入了另一个可能需要不时进行调节的超参数。

幸运的是，我们发现了一篇非常棒的论文《Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics》，提出引入不确定性来确定 MTL 中损失的权重：在每个任务的损失函数中学习另一个噪声参数（noise parameter）。此方法可以接受多任务（可以是回归和分类），并统一所有损失的尺度。这样，我们就能像一开始那样，直接相加得到总损失了。

与损失加权求和相比，该方法不仅得到了更好的结果，而且还可以不再理会额外的权重超参数。论文作者提供的 Keras 实现参见：https://github.com/yaringal/multi-task-learning-example/blob/master/multi-task-learning-example.ipynb。

第二点：调节学习速率

调节神经网络有一个通用约定：学习速率是最重要的超参数之一。所以我们尝试调节学习速率。我们发现，对于某一个任务 A 而言，存在一个特别适合的学习速率，而对于另一个任务 B，则有不同的适合学习速率。如果选择较高的学习速率，可能在某个任务上出现神经元死亡（由于大的负梯度，导致 Relu 函数永久关闭，即 dying ReLU），而使用较低的学习速率，则会导致其他任务收敛缓慢。应该怎么做呢？我们可以在各个「头部」（见上图，即各任务的子网络）分别调节各自的学习速率，而在共享网络部分，使用另一个学习速率。

虽然听上去很复杂，但其实非常简单。通常，在利用 TensorFlow 训练神经网络时，使用的是：

optimizer = tf.train.AdamOptimizer(learning_rate).minimize(loss)

AdamOptimizer 定义如何应用梯度，而 minimize 则完成具体的计算和应用。我们可以将 minimize 替换为我们自己的实现方案，在应用梯度时，为计算图中的各变量使用各自适合的学习速率。

all_variables = shared_vars + a_vars + b_vars
all_gradients = tf.gradients(loss, all_variables)

shared_subnet_gradients = all_gradients[:len(shared_vars)]
a_gradients = all_gradients[len(shared_vars):len(shared_vars + a_vars)]
b_gradients = all_gradients[len(shared_vars + a_vars):]

shared_subnet_optimizer = tf.train.AdamOptimizer(shared_learning_rate)
a_optimizer = tf.train.AdamOptimizer(a_learning_rate)
b_optimizer = tf.train.AdamOptimizer(b_learning_rate)

train_shared_op = shared_subnet_optimizer.apply_gradients(zip(shared_subnet_gradients, shared_vars))
train_a_op = a_optimizer.apply_gradients(zip(a_gradients, a_vars))
train_b_op = b_optimizer.apply_gradients(zip(b_gradients, b_vars))

train_op = tf.group(train_shared_op, train_a_op, train_b_op)

友情提醒：这个技巧其实在单任务网络中也很实用。

第三点：将估计作为特征

当我们完成了第一阶段的工作，为预测多任务创建好神经网络后，我们可能希望将某一个任务得到的估计（estimate）作为另一个任务的特征。在前向传递（forward-pass）中，这非常简单。估计是一个张量，可以像任意一个神经层的输出一样进行传递。但在反向传播中呢？

假设将任务 A 的估计作为特征输入给 B，我们可能并不希望将梯度从任务 B 传回任务 A，因为我们已经有了任务 A 的标签。对此不用担心，TensorFlow 的 API 所提供的 tf.stop_gradient 会有所帮助。在计算梯度时，它允许你传入一个希望作为常数的张量列表，这正是我们所需要的。

all_gradients = tf.gradients(loss, all_variables, stop_gradients=stop_tensors)

和上面一样，这个方法对 MTL 网络很有用，但不止如此。该技术可用在任何你希望利用 TensorFlow 计算某个值并将其作为常数的场景。例如，在训练生成对抗网络（Generative Adversarial Network，GAN）时，你不希望将对抗示例反向传播到生成过程中。

下一步

我们的模型已经上线运行，Taboola feed 也已经是个性化的了。但是，还有很多可以提升改进的空间，以及许多有趣的结构可以探索。在我们的应用场景中，预测多任务也意味着基于多个 KPI 完成决策。这可能比基于单个 KPI 的更复杂……不过这就是另一个全新的问题了。

原文链接：https://engineering.taboola.com/deep-multi-task-learning-3-lessons-learned/

推荐阅读

int
能够感知你情绪状态的智能机器人即将问世 | 科技前沿观察

本周科技前沿报道了多项重要进展，包括美国多所高校在机器人技术和自动驾驶领域的最新研究成果，以及硅谷大型企业在智能硬件和深度学习技术上的突破性进展。特别值得一提的是，一款能够感知用户情绪状态的智能机器人即将问世，为未来的人机交互带来了全新的可能性。 ... [详细]

蜡笔小新 2024-11-05 20:45:31
int
从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展

从2019年AI顶级会议最佳论文，探索深度学习的理论根基与前沿进展 ... [详细]

蜡笔小新 2024-11-03 10:42:12
int
独家解析：深度学习泛化理论的破解之道与应用前景

本文深入探讨了深度学习泛化理论的关键问题，通过分析现有研究和实践经验，揭示了泛化性能背后的核心机制。文章详细解析了泛化能力的影响因素，并提出了改进模型泛化性能的有效策略。此外，还展望了这些理论在实际应用中的广阔前景，为未来的研究和开发提供了宝贵的参考。 ... [详细]

蜡笔小新 2024-11-09 19:29:56
int
Python 数据可视化实战指南

本文详细介绍如何使用 Python 进行数据可视化，涵盖从环境搭建到具体实例的全过程。 ... [详细]

蜡笔小新 2024-11-13 06:03:30
config
解决 Ubuntu 环境下 Hadoop 集群 SSH 密钥认证问题

本文详细介绍了在 Ubuntu 系统上搭建 Hadoop 集群时遇到的 SSH 密钥认证问题及其解决方案。通过本文，读者可以了解如何在多台虚拟机之间实现无密码 SSH 登录，从而顺利启动 Hadoop 集群。 ... [详细]

蜡笔小新 2024-11-13 09:14:02
range
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
range
深入解析 OpenSSL 生成 SM2 证书：非对称加密技术与数字证书、数字签名的关联分析

本文深入探讨了 OpenSSL 在生成 SM2 证书过程中的技术细节，重点分析了非对称加密技术在数字证书和数字签名中的应用。非对称加密通过使用公钥和私钥对数据进行加解密，确保了信息传输的安全性。公钥可以公开分发，用于加密数据或验证签名，而私钥则需严格保密，用于解密数据或生成签名。文章详细介绍了 OpenSSL 如何利用这些原理生成 SM2 证书，并讨论了其在实际应用中的安全性和有效性。 ... [详细]

蜡笔小新 2024-11-08 11:18:56
timestamp
使用JavaScript生成Java兼容的UUID代码实现与优化技巧

本文介绍了UUID（通用唯一标识符）的概念及其在JavaScript中生成Java兼容UUID的代码实现与优化技巧。UUID是一个128位的唯一标识符，广泛应用于分布式系统中以确保唯一性。文章详细探讨了如何利用JavaScript生成符合Java标准的UUID，并提供了多种优化方法，以提高生成效率和兼容性。 ... [详细]

蜡笔小新 2024-11-05 18:19:54
range
利用CIFAR10数据集快速掌握Mixup数据增强技术，显著提高图像分类精度

通过使用CIFAR-10数据集，本文详细介绍了如何快速掌握Mixup数据增强技术，并展示了该方法在图像分类任务中的显著效果。实验结果表明，Mixup能够有效提高模型的泛化能力和分类精度，为图像识别领域的研究提供了有价值的参考。 ... [详细]

蜡笔小新 2024-11-05 14:24:36
range
【Python编程基础】深入理解Python中的循环结构

在《Python编程基础》课程中，我们将深入探讨Python中的循环结构。通过详细解析for循环和while循环的语法与应用场景，帮助初学者掌握循环控制语句的核心概念和实际应用技巧。此外，还将介绍如何利用循环结构解决复杂问题，提高编程效率和代码可读性。 ... [详细]

蜡笔小新 2024-11-04 15:46:58
bash
技术日志：Ansible的安装及模块管理详解

技术日志：Ansible的安装及模块管理详解 ... [详细]

蜡笔小新 2024-11-03 15:01:47
bash
吴恩达深度学习课程笔记：第一部分第三周——浅层神经网络详解

浅层神经网络解析：本文详细探讨了两层神经网络（即一个输入层、一个隐藏层和一个输出层）的结构与工作原理。通过吴恩达教授的课程，读者将深入了解浅层神经网络的基本概念、参数初始化方法以及前向传播和反向传播的具体实现步骤。此外，文章还介绍了如何利用这些基础知识解决实际问题，并提供了丰富的实例和代码示例。 ... [详细]

蜡笔小新 2024-11-02 12:20:03
bash
Dell Latitude 5290 2-in-1 平板电脑黑苹果体验评测

本文基于notebookcheck的详细数据和个人实际使用体验，对Dell Latitude 5290 2-in-1平板电脑进行评测。评测内容包括外观设计、散热性能、基准测试、游戏表现和续航能力等方面，旨在为读者提供全面的参考。 ... [详细]

蜡笔小新 2024-11-12 17:24:30
数组
PHP 对象生命周期与内存管理

本文详细介绍了 PHP 中对象的生命周期、内存管理和魔术方法的使用，包括对象的自动销毁、析构函数的作用以及各种魔术方法的具体应用场景。 ... [详细]

蜡笔小新 2024-11-12 13:35:26
数组
MySQL查询执行流程详解

MySQL的查询执行流程涉及多个关键组件，包括连接器、查询缓存、分析器和优化器。在服务层，连接器负责建立与客户端的连接，查询缓存用于存储和检索常用查询结果，以提高性能。分析器则解析SQL语句，生成语法树，而优化器负责选择最优的查询执行计划。这一流程确保了MySQL能够高效地处理各种复杂的查询请求。 ... [详细]

蜡笔小新 2024-11-11 16:48:32

tengfei2008

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章