PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators
作者: Kuo-Hao Zeng, Zichen Zhang, Kiana Ehsani, Rose Hendrix, Jordi Salvador, Alvaro Herrasti, Ross Girshick, Aniruddha Kembhavi, Luca Weihs
分类: cs.RO, cs.CV
发布日期: 2024-06-28
💡 一句话要点
PoliFormer:Transformer赋能On-Policy强化学习,实现卓越室内导航
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 强化学习 Transformer 室内导航 机器人 视觉Transformer On-Policy学习 大规模训练
📋 核心要点
- 现有基于强化学习的导航方法难以有效利用长期记忆和进行复杂推理,限制了其在复杂环境中的导航性能。
- PoliFormer采用Transformer架构,利用其强大的序列建模能力,实现长期记忆和推理,从而提升导航性能。
- PoliFormer在多个导航基准测试中取得了显著的性能提升,例如在CHORES-S上成功率提升了28.5%。
📝 摘要(中文)
本文提出了PoliFormer(Policy Transformer),一个仅使用RGB图像作为输入的室内导航智能体,通过大规模强化学习进行端到端训练,并在纯模拟环境中训练后,无需任何适配即可泛化到真实世界。PoliFormer采用基于Transformer的视觉编码器和因果Transformer解码器,从而实现长期记忆和推理。该模型在多样化的环境中进行了数亿次交互的训练,利用并行化的多机器rollout实现高效训练和高吞吐量。PoliFormer是一个卓越的导航器,在LoCoBot和Stretch RE-1机器人两种不同的机器人平台上,以及四个导航基准测试中,均取得了最先进的结果。它突破了先前工作的瓶颈,在CHORES-S基准测试中的目标物体导航任务上,实现了前所未有的85.5%的成功率,这是一个28.5%的绝对提升。PoliFormer还可以轻松扩展到各种下游应用,例如物体跟踪、多物体导航和开放词汇导航,而无需进行微调。
🔬 方法详解
问题定义:现有基于强化学习的导航方法,在复杂环境中面临长期依赖和推理的挑战。传统方法难以有效利用历史信息,导致导航策略次优,泛化能力受限。此外,训练效率也是一个瓶颈,需要大量的计算资源和时间。
核心思路:PoliFormer的核心思路是利用Transformer架构的强大序列建模能力,将导航任务建模为一个序列决策问题。通过Transformer的自注意力机制,智能体可以有效地利用长期记忆,进行上下文推理,从而做出更明智的导航决策。同时,大规模并行化训练加速了模型收敛。
技术框架:PoliFormer的整体架构包括一个视觉Transformer编码器和一个因果Transformer解码器。视觉Transformer编码器负责从RGB图像中提取视觉特征,因果Transformer解码器则根据历史状态和视觉特征,预测下一步的动作。训练过程采用on-policy强化学习算法,通过与环境交互,不断优化导航策略。
关键创新:PoliFormer的关键创新在于将Transformer架构引入到on-policy强化学习的导航任务中,并成功地进行了大规模训练。与传统的基于RNN或LSTM的方法相比,Transformer能够更好地捕捉长期依赖关系,从而提升导航性能。此外,PoliFormer的训练方法也具有创新性,通过并行化的多机器rollout,实现了高效的训练。
关键设计:PoliFormer的关键设计包括:1) 视觉Transformer编码器的结构和参数设置,用于有效提取视觉特征;2) 因果Transformer解码器的结构和参数设置,用于生成导航动作;3) 强化学习算法的选择和超参数调整,以保证训练的稳定性和收敛速度;4) 大规模并行化训练的策略,以提高训练效率。
🖼️ 关键图片
📊 实验亮点
PoliFormer在CHORES-S基准测试中的目标物体导航任务上,实现了85.5%的成功率,相比之前的最佳方法提升了28.5%。此外,PoliFormer在LoCoBot和Stretch RE-1两种不同的机器人平台上,以及多个导航基准测试中,均取得了最先进的结果,证明了其强大的泛化能力。
🎯 应用场景
PoliFormer具有广泛的应用前景,例如家庭服务机器人、仓储物流机器人、自动驾驶汽车等。它可以应用于室内导航、物体跟踪、多物体导航和开放词汇导航等任务。该研究的实际价值在于提升了机器人在复杂环境中的自主导航能力,未来有望实现更智能、更高效的机器人应用。
📄 摘要(原文)
We present PoliFormer (Policy Transformer), an RGB-only indoor navigation agent trained end-to-end with reinforcement learning at scale that generalizes to the real-world without adaptation despite being trained purely in simulation. PoliFormer uses a foundational vision transformer encoder with a causal transformer decoder enabling long-term memory and reasoning. It is trained for hundreds of millions of interactions across diverse environments, leveraging parallelized, multi-machine rollouts for efficient training with high throughput. PoliFormer is a masterful navigator, producing state-of-the-art results across two distinct embodiments, the LoCoBot and Stretch RE-1 robots, and four navigation benchmarks. It breaks through the plateaus of previous work, achieving an unprecedented 85.5% success rate in object goal navigation on the CHORES-S benchmark, a 28.5% absolute improvement. PoliFormer can also be trivially extended to a variety of downstream applications such as object tracking, multi-object navigation, and open-vocabulary navigation with no finetuning.