机器人自主学习新进展，百度飞桨发布四足机器人控制强化学习新算法

作者：mobiledu2502862441 | 来源：互联网 | 2023-01-23 11:35

机器人,自主,学习,新,进展,百度,飞,桨,发布,四足,机器人,控制,

近日，百度强化学习团队发布了四足机器人控制上的最新研究进展，采用自进化的步态生成器与强化学习联合训练，从零开始学习并掌握多种运动步态，一套算法解决包括独木桥、跳隔板、钻洞穴等多种场景控制难题。百度已开源全部仿真环境和训练代码，并公开相关论文。

足式机器人的控制一直是机器人控制领域的研究热点，因为相比于常见的轮式机器人，足式机器人可以像人类一样灵活地跨越障碍，极大地扩展机器人的活动边界。波士顿动力（Boston Dynamics）此前对外发布了其商用的第一款四足机器人Spot，但是相关的控制算法一直没有对外披露。而市面上商业产品采用的控制算法，大部分基于麻省理工学院（MIT）开源的第三代的四足控制算法，需要依赖大量专家经验。

近日，百度强化学习团队联合小度机器人团队，基于飞桨机器人控制算法框架PaddleRobotics，发布了四足机器人控制的最新进展。该算法首次提出基于自进化的步态生成器来引导强化学习训练，通过自主学习，机器人能探索出合理的步态并穿越各种各样的高难度场景。

这个算法到底有多厉害，先来一睹为快。

图一、四足机器人步态展示

（注：演示真机为宇树四足机器人产品）

我们可以看到，图中四足机器人无论是走独木桥，还是上下楼梯，都走的十分稳健。特别是在独木板场景，机器人学会了先把双腿步距缩小，以小碎步的方式平稳地穿过了独木板。这些步态都是基于强化学习自主学习得到，并没有通过任何的领域内专家知识进行引导。那么这些行走步态是如何训练出来的呢？

在解读之前，我们先回顾下当下三种主流的四足控制算法。

第一个方向是开环的步态生成器，即提前规划好每条腿的行走轨迹，然后周期性地输出控制信号以驱动机器人行走起来。这种方式可以让专家根据经验以及实际环境去设计四足机器人的行走方式，但是缺点是往往需要大量的调试时间以及领域内的专家知识。

第二个方向是基于模型预测的控制算法（MPC），这类方法也是MIT之前开源的主要算法。算法对环境进行建模后，在每个时间步求解优化问题以找到最优的控制信号。这类方法的问题是其效果依赖于环境模型的建模准确度，并且在实际部署过程中需要耗费比较大的算力去求解最优的控制信号。

第三个方向是基于学习的控制算法。前面提到的方法都是提前设计好控制器直接部署到机器人上的，并没有体现出机器人自主学习的过程。这个方向的大部分工作是基于机器自主学习，通过收集机器人在环境中的表现数据，调整机器学习模型中的参数，以更好地控制四足机器人完成任务。

百度这次发布的工作是基于强化学习的控制算法。强化学习应用在四足机器人领域并不是新的技术，但是之前发表的强化学习工作大部分都只能穿越一些比较简单的场景，在高难度的场景，比如通过独木板、跳隔板中，表现并不好。主要的原因是四足机器人中复杂的非线性控制系统使得强化学习探索起来十分困难，机器人经常还没走几步就摔倒了，很难从零开始学习到有效的步态。为了解决强化学习在四足控制上遇到的问题，百度团队首次提出基于自进化步态生成器的强化学习框架。

图二、ETG-RL架构

该框架的概览图如上图，算法的控制信号由两部分组成：一个开环的步态生成器以及基于强化学习的神经网络。步态生成器可以提供步态先验来引导强化学习进行训练。以往的工作一般采用一个固定的步态生成器，这种方式只能生成一种固定的步态，没法针对环境进行特定的适配。特别是当预置的生成器并不适合环境的情况下，反而会影响强化学习部分的学习效果。

针对这些问题，百度首次提出在轨迹空间直接进行搜索的自进化步态生成器优化方式。

相比在参数空间进行搜索的方式，它可以更高效地搜索到合理的轨迹，因为在参数层面进行扰动很可能生成完全不合理的轨迹，并且搜索的参数量也大很多。强化学习部分的训练通过目前主流的SAC连续控制算法进行参数更新，在优化过程中，强化学习的策略网络需要输出合理的控制信号去结合开环的控制信号，以获得更高的奖励。需要注意的是，该框架在更新过程中，是采用交替训练的方式，即独立更新步态生成器以及神经网络。这主要的原因是其中一个模块的更新会导致机器人的行为发布发生变化，不利于训练的稳定性。最后，为了提升样本的有效利用率，该框架还复用了进化算法在优化步态生成器的数据，将其添加到强化学习的训练数据中。

图三、实验场景（仿真+真机）

接下来看文章中的实验部分。如上图所示，百度基于开源的pybullet构建了9个实验场景，包括了上下楼梯、斜坡、穿越不规整地形、独木板、洞穴、跳跃隔板等场景。其算法效果与经典的开环控制器、强化学习算法相比，提升相当大。可以看到百度提出的框架（绿色曲线）遥遥领先于别的算法，并且是唯一一个能完成所有任务的算法。完整的仿真效果以及真机视频可以参考文末。

图四、实验结果

百度的工作展现出，基于自主学习的方法在四足机器人控制上具有完全替代甚至超越经典算法的潜力，有可能成为强化学习和进化学习在复杂非线性系统中开始大规模落地和实用化的契机。

这不是百度在机器人方向上做的第一个强化学习工作，早在18年，他们就尝试将人工干预引入到强化学习中，以推进强化学习应用在在四轴飞行器控制等高风险的硬件场景。未来，相信强化学习会是四足机器人控制领域重要的技术突破口，有效推动足形态机器人走进我们的日常生活中。

该模型和训练方法同步开源于飞桨机器人算法库PaddleRobotics和强化学习框架PARL；其中四足机器人和复杂地形仿真也开放于飞桨强化学习环境集RLSchool, 以便于更多该领域的专家和工程师对比研究。

论文：

https://arxiv.org/abs/2109.06409

强化学习框架PARL：

https://github.com/PaddlePaddle/PARL

开源仿真环境RLSchool：

https://github.com/PaddlePaddle/RLSchool

飞桨机器人控制算法框架PaddleRobotics：

https://github.com/PaddlePaddle/PaddleRobotics

百度自然语言处理（Natural Language Processing，NLP）以『理解语言，拥有智能，改变世界』为使命，研发自然语言处理核心技术，打造领先的技术平台和创新产品，服务全球用户，让复杂的世界更简单。

点击进入获得更多技术信息~~

推荐阅读

format
【机器学习】生成式对抗网络模型综述

生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型，可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]

蜡笔小新 2023-12-14 17:51:18
jar
每日一书丨AI圣经《深度学习》作者斩获2018年图灵奖

2019年3月27日——ACM宣布，深度学习之父YoshuaBengio,YannLeCun,以及GeoffreyHinton获得了2018年的图灵奖， ... [详细]

蜡笔小新 2024-09-27 16:03:32
数组
AI 学习路线：从Python开始机器学习

AI 学习路线：从Python开始机器学习 ... [详细]

蜡笔小新 2024-09-28 14:04:30
数组
AI TIME联合2021世界人工智能大会，共探图神经网络与认知智能前沿话题

AI TIME携手2021世界人工智能大会，共同探讨图神经网络与认知智能的最新进展。自2018年在上海首次举办以来，WAIC已成为全球AI领域的年度盛会，吸引了众多专家学者和行业领袖参与。本次大会将聚焦图神经网络在复杂系统建模、知识图谱构建及认知智能应用等方面的技术突破和未来趋势。 ... [详细]

蜡笔小新 2024-10-29 11:34:09
ip
图像相似度分析软件及常用算法综述

有没有一款软件能比对两张照片是否一样? 可以用AI软件来对比。AI人脸比对已经变成非常常用的AI场景之一。步骤如下：1、浏览器输入网址百度AI应用，AI ... [详细]

蜡笔小新 2024-10-23 15:07:16
format
第三届人工智能、网络与信息技术国际学术会议（AINIT 2022)

20223rdInternationalSeminaronArtificialIntelligence,NetworkingandInformationTechnology第三届 ... [详细]

蜡笔小新 2024-10-21 09:26:13
format
机器学习如何看世界对抗机器学习诠释人工智能和人类思维的不同

接近,计算,极限,看,世界,对抗,机器,学习,诠释,人工智能,和, ... [详细]

蜡笔小新 2024-09-29 20:35:55
ip
MySQL性能优化与调参指南【数据库管理】

本文详细探讨了MySQL数据库的性能优化与参数调整技巧，旨在帮助数据库管理员和开发人员提升系统的运行效率。内容涵盖索引优化、查询优化、配置参数调整等方面，结合实际案例进行深入分析，提供实用的操作建议。此外，还介绍了常见的性能监控工具和方法，助力读者全面掌握MySQL性能优化的核心技能。 ... [详细]

蜡笔小新 2024-10-31 03:13:07
ip
2019年斯坦福大学CS224n课程笔记：深度学习在自然语言处理中的应用——Word2Vec与GloVe模型解析

本文详细解析了2019年斯坦福大学CS224n课程中关于深度学习在自然语言处理（NLP）领域的应用，重点探讨了Word2Vec和GloVe两种词嵌入模型的原理与实现方法。通过具体案例分析，深入阐述了这两种模型在提升NLP任务性能方面的优势与应用场景。 ... [详细]

蜡笔小新 2024-10-29 10:37:07
format
基于TensorFlow的鸢尾花数据集神经网络模型深度解析

基于TensorFlow的鸢尾花数据集神经网络模型深度解析 ... [详细]

蜡笔小新 2024-10-22 11:56:51
ip
python绘制拟合回归散点图_机器学习之利用Python进行简单线性回归分析

前言：在利用机器学习方法进行数据分析时经常要了解变量的相关性，有时还需要对变量进行回归分析。本文首先对人工智能机器学习深度学习、相关分析因果分析回归分析 ... [详细]

蜡笔小新 2024-10-15 16:59:18
python
python拓展库丰富吗_这5个Python库太难搞！每位数据科学家都应该了解

全文共3708字，预计学习时长10分钟图源：unsplashPthon之所以能成为世界上最受欢迎的编程语言之一，与其整体及其相关库的生态系 ... [详细]

蜡笔小新 2024-10-12 18:50:53
shell
Python和AI大解密！

作为一种编程语言，Python比C＃，Java，C和C++更具吸引力。它被称为“胶水语言”，它也被喜欢它的程序员誉为“美丽”的编程语言。从云计算，客户端到物联网终端，Pytho ... [详细]

蜡笔小新 2024-10-08 15:58:59
shell
深度学习与人工智能书籍推荐（从小白到大神）

概述本书单分为“通识篇”、“机器学习篇”、“深度学习篇”、“深度学习框架篇”、“神经网络篇”、“自然语言处理篇”、“特征工程篇”以及“计算机视觉篇”，“通识篇”可以满足题主的要求！ ... [详细]

蜡笔小新 2024-09-29 12:39:01
ip
圣诞节到了，智能菌想送你一份礼物

关注网易智能，聚焦AI大事件，读懂下一个大时代！（机器学习算法地图见文末）圣诞节的赠书活动来了！ ... [详细]

蜡笔小新 2024-09-29 11:06:55

mobiledu2502862441

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章