从信息流推荐到控制领域百度PaddlePaddle技术能力再升级

作者：拍友2502881913 | 来源：互联网 | 2023-09-25 12:35

人工智能技术越来越广泛的应用于各行各业，而这一切都离不开底层深度学习框架的支持。近日，百度深度学习P

人工智能技术越来越广泛的应用于各行各业，而这一切都离不开底层深度学习框架的支持。近日，百度深度学习PaddlePaddle 正式发布了强化学习框架 PARL，同时开源了基于该框架，在 NeurIPS 2018强化学习赛事中夺冠的模型完整训练代码，再次向业界展示了百度在深度学习领域的技术能力。

PARL 的效果如何？

PARL 是基于百度PaddlePaddle 打造的深度强化学习框架，覆盖了 DQN、DDQN、Dueling DQN、DDPG、PPO 等主流强化学习算法。在 PARL 1.0 的发布中，基于 PARL 实现的 DDPG，DQN, PPO 等算法均有覆盖，在一些经典测试问题中，如 Atari Game, Mujoco 等，均取得了 state-of-the-art 的成绩。性能相比其他平台也毫不示弱。

从信息流推荐到控制领域百度PaddlePaddle技术能力再升级

此外，PARL 框架支持百亿级别数据或特征的训练，基于 PARL 可同时通过 8 块 GPU 拉动近 20000 个 CPU 节点运算。在 NeurIPS 2018 赛事中将需要近 5 个小时迭代一轮的 PPO 算法加速到不到 1 分钟，相对单机运算加速比高达几百倍。与现有开源强化学习工具和平台相比，PARL 框架具有更高的可扩展性、可复现性和可复用性，支持大规模并行和稀疏特征，能够快速完成对工业级应用案例的验证。

在 NeurIPS 2018强化学习赛事中 PRAL 的使用脱颖而出，击败了 400 多支来自全球各个研究机构的参赛队伍，获得冠军的最关键因素是，PARL 框架在算法上采用了独特的网络结构，特征处理、奖励值工程、探索策略以及学习方法。其中比较重要一点是用了课程学习（Curriculum Learning）来学习一个比较好的初始步态。而在架构方面，受到 GA3C 启发，所设计的 DDPG 并行结构直接达到了单机性能的几百倍，使得深度强化学习框架 PARL 的调研效率大大提升。

PARL 在哪些前沿应用发挥作用？

新闻和信息推荐

近年来，信息流在研究上出现两个难点和热点，一个是列表页内的组合优化，另一个是列表页间的兴趣转移。传统推荐往往都是基于用户和单点内容之间的喜好程度来预估。现代信息推荐系统注重列表内的组合，以及列表页间的转移变化。而这两个点，都是强化学习适合的重要场景。

列表页内的优化主要是内容之间的组合，现代信息流推荐系统并不是一次只推荐一个内容，而是一次推荐多个内容。由于列表多个内容之间的相互关联会影响到用户体验，但对于具体如何关联，却没有办法确定。虽然大家都知道多样性比较重要，但为什么重要，以及多样性到底怎么量化，目前依旧缺乏统一的认识。而列表页间的优化，针对的是用户行为的序列。用户浏览完一个列表，重新刷新，再看第二个列表，这个过程中兴趣有没有发生转移？有没有新的兴趣被激发？这两个点都涉及到长期收益问题。也就是说，不能再仅仅用当前内容的用户反馈来学习，而是得用比较长时间的收益来学习。

从信息流推荐到控制领域百度PaddlePaddle技术能力再升级

在列表页内组合上，PARL 所提出的序列框架统一了学术界对列表页框架认识的一些模糊。根据百度发布的文章，多样性一个概念远不足以反映列表页内的关联关系。内容之间既有相互重叠，又有相互关联和促进。以往的多样性建模往往比较片面。而基于序列优化的建模方式，能够处理内容之间所有可能关联。强化学习在这中间，起到了关键的序列全局优化的作用。而百度内部在 2017 年底就 Launch 了序列优化框架，据了解，这个框架至今已经取得了不少收益。而 PARL 在其中充分发挥了其在大规模训练中性能的优势。

从信息流推荐到控制领域百度PaddlePaddle技术能力再升级

序列生成网络 – 指针网络

而在列表页之间的转移方面，百度内部也早已已经开展了探索。对于信息流推荐这类产品的列表间优化，强化学习面临一个难题是 Variance 过大，可能导致准确率下降。学术界有不少针对这个问题的工作，但提出的方法都相对偏理想化，鲜有方法能够真正用到线上并产生收益。开发者正在基于 PARL 创新「Credit Assignment」这类新的算法，以更好地更接地气地解决这些问题，据悉目前已有一些进展，不远将来可能发布这些成果。

从信息流推荐到控制领域百度PaddlePaddle技术能力再升级

序列生成 – 评估框架

自动导航和控制

PARL 框架也将强化学习用在无人机和无人车的自动导航和避障领域。控制问题是一个经典的 Delayed Reward 问题，强化学习最开始也是在控制领域应用最广的。因为如果发生碰撞或者控制不好，一定不是当前一个时间步的问题，而是多个时间步的连续问题。传统的强化学习研究，都不关注成本和风险，认为灾害事件（如碰撞）可以无成本获得。但真实场景，比如无人车、无人机，则不允许有那么多的碰撞。

从信息流推荐到控制领域百度PaddlePaddle技术能力再升级

无人机导航强化学习

开发者利用很多无人车、无人机测试过程中的「安全员」这一角色，不仅为了在测试中可以保障安全，还将这些夹杂了安全员干预的、不符合传统强化学习路径的数据收集起来，作为信号来学习。该算法叫干预辅助强化学习（Intervention Aided Reinforcement Learning）(http://proceedings.mlr.press/v87/wang18a.html)，它可以通过学习带干预的路径，来强化策略，使得干预可以直接被降低。基于这套算法，百度成功使得一个端到端（end-to-end）的复杂神经网络模型，能够被用于直接控制飞行器的避障，在障碍物比较密集的环境中平稳飞行。这不仅证明了强化学习被用在自动导航问题上的可能性，也为无人车的强化学习训练探索了一种方法。该方法也会在短期内开源到 PARL 里面，方便用户使用。

总结

在强化学习方面，百度内早在 2012 年就将在 multi-armed bandit 问题上的研究成果部署到了推荐系统中，应用于搜索、对话、推荐等产品，通过点击反馈结合在线训练的方式，动态调整探索和收益的平衡点，在降低探索风险的同时最大化推荐收益。随着 PaddlePaddle 在工业界的影响不断深入，未来基于 PaddlePaddle深度学习框架 PARL 将对工业界，以及学术界的深度强化学习应用和研究起到长远的促进作用，来满足业界日趋发展旺盛的深度强化学习应用的需求，做到真正源于产业实践的深度学习框架。

以上所述就是小编给大家介绍的《从信息流推荐到控制领域百度PaddlePaddle技术能力再升级》，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对我们的支持！

推荐阅读

js
解决Uploadify在IE浏览器中的兼容性问题

本文详细介绍了如何解决Uploadify插件在Internet Explorer（IE）9和10版本中遇到的点击失效及JQuery运行时错误问题。通过修改相关JavaScript代码，确保上传功能在不同浏览器环境中的一致性和稳定性。 ... [详细]

蜡笔小新 2024-12-27 22:07:40
python
优化深度神经网络在低性能硬件上的运行

尽管深度学习带来了广泛的应用前景，其训练通常需要强大的计算资源。然而，并非所有开发者都能负担得起高性能服务器或专用硬件。本文探讨了如何在有限的硬件条件下（如ARM CPU）高效运行深度神经网络，特别是通过选择合适的工具和框架来加速模型推理。 ... [详细]

蜡笔小新 2024-12-24 08:48:32
io
阿里Java面试全解析：从技术面到HR面的详细攻略

本文作者分享了在阿里巴巴获得实习offer的经历，包括五轮面试的详细内容和经验总结。其中四轮为技术面试，一轮为HR面试，涵盖了大量的Java技术和项目实践经验。 ... [详细]

蜡笔小新 2024-12-23 11:32:02
数组
深入解析Java虚拟机（JVM）架构与原理

本文旨在为读者提供对Java虚拟机（JVM）的全面理解，涵盖其主要组成部分、工作原理及其在不同平台上的实现。通过详细探讨JVM的结构和内部机制，帮助开发者更好地掌握Java编程的核心技术。 ... [详细]

蜡笔小新 2024-12-21 23:50:40
main
C++对象模型研究：运行时行为分析

本文探讨了C++编程中理解代码执行期间复杂度的挑战，特别是编译器在程序运行时生成额外指令以确保对象构造、内存管理、类型转换及临时对象创建的安全性。 ... [详细]

蜡笔小新 2024-12-20 18:47:33
数组
PHP 编程疑难解析与知识点汇总

本文详细解答了 PHP 编程中的常见问题，并提供了丰富的代码示例和解决方案，帮助开发者更好地理解和应用 PHP 知识。 ... [详细]

蜡笔小新 2024-12-28 12:22:34
io
Android 模拟用户交互：点击与滑动操作的实现

本文介绍如何在 Android 中通过代码模拟用户的点击和滑动操作，包括参数说明、事件生成及处理逻辑。详细解析了视图（View）对象、坐标偏移量以及不同类型的滑动方式。 ... [详细]

蜡笔小新 2024-12-28 12:12:22
shell
使用arm-eabi-gdb调试Android C/C++应用程序的详细指南

本文详细介绍如何使用arm-eabi-gdb调试Android平台上的C/C++程序。通过具体步骤和实用技巧，帮助开发者更高效地进行调试工作。 ... [详细]

蜡笔小新 2024-12-28 10:25:18
shell
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
tags
技术分享：从动态网站提取站点密钥的解决方案

本文探讨了如何从动态网站中提取站点密钥，特别是针对验证码（reCAPTCHA）的处理方法。通过结合Selenium和requests库，提供了详细的代码示例和优化建议。 ... [详细]

蜡笔小新 2024-12-28 04:11:47
js
如何使用JavaScript或jQuery检测文本框焦点状态和鼠标悬停事件

本文介绍了如何利用JavaScript或jQuery来判断网页中的文本框是否处于焦点状态，以及如何检测鼠标是否悬停在指定的HTML元素上。 ... [详细]

蜡笔小新 2024-12-27 21:33:33
数组
2018-2019学年第六周《Java数据结构与算法》学习总结

本文总结了2018-2019学年第六周在《Java数据结构与算法》课程中的学习内容，重点介绍了非线性数据结构——树的相关知识及其应用。 ... [详细]

蜡笔小新 2024-12-22 16:43:19
数组
由二叉树到贪心算法

二叉树很重要树是数据结构中的重中之重，尤其以各类二叉树为学习的难点。单就面试而言，在 ... [详细]

蜡笔小新 2024-12-21 13:13:13
php
vivo Y5s的核心处理器解析

vivo Y5s配备了联发科Helio P65八核处理器，这款处理器采用12纳米工艺制造，具备两颗高性能Cortex-A75核心和六颗高效能Cortex-A55核心。此外，它还集成了先进的图像处理单元和语音唤醒功能，为用户提供卓越的性能体验。 ... [详细]

蜡笔小新 2024-12-21 11:24:54
go
Mongoose 5.12.10 发布：MongoDB 异步对象模型工具的新特性与修复

Mongoose 是一款专为异步环境设计的 MongoDB 对象模型工具，支持 Promise 和回调函数。最新版本 Mongoose 5.12.10 带来了多项修复和改进，包括查询选项中的默认值设置、嵌入式判别器填充、以及 TypeScript 定义文件的优化。 ... [详细]

蜡笔小新 2024-12-20 18:54:14

拍友2502881913

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章