LocoFormer: Generalist Locomotion via Long-context Adaptation

📄 arXiv: 2509.23745v1 📥 PDF

作者: Min Liu, Deepak Pathak, Ananye Agarwal

分类: cs.RO, cs.AI

发布日期: 2025-09-28

备注: Accepted to CoRL 2025


💡 一句话要点

LocoFormer:通过长程上下文适应实现通用机器人运动控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人运动控制 强化学习 长程上下文建模 领域随机化 通用机器人 Transformer 自适应控制

📋 核心要点

  1. 现有运动控制器通常针对特定机器人手动调整,泛化性差,难以适应新机器人或环境。
  2. LocoFormer通过大规模强化学习和长程上下文建模,使机器人能够适应形态和动力学的变化。
  3. 实验表明,LocoFormer能够控制多种机器人,并在干扰下保持鲁棒性,甚至能跨episode学习。

📝 摘要(中文)

本文提出LocoFormer,一个通用的、适用于多种形态的机器人运动模型,能够控制之前未见过的腿式和轮式机器人,即使在不精确了解其运动学的情况下也能实现。LocoFormer能够在测试时适应形态和动力学的变化。实现适应性的两个关键选择是:首先,通过在程序生成的机器人上进行大规模强化学习训练,并进行积极的领域随机化;其次,与之前使用短上下文长度的近视策略不同,本文将上下文扩展了几个数量级,跨越了episode边界。将相同的LocoFormer部署到不同的机器人上,并展示了即使在诸如重量变化和电机故障等大型干扰下也能实现鲁棒控制。在极端情况下,我们看到了跨episode的涌现适应,LocoFormer从早期episode的跌倒中学习,以改进后续episode中的控制策略。我们相信,这种简单而通用的方法可以用于训练未来其他机器人技能的基础模型。

🔬 方法详解

问题定义:现有机器人运动控制方法通常需要针对特定机器人进行手动调整和优化,泛化能力较弱。当面对新的机器人形态、环境变化或干扰时,这些方法往往难以有效工作。因此,需要一种能够适应不同机器人形态和环境的通用运动控制方法。

核心思路:LocoFormer的核心思路是通过大规模强化学习和长程上下文建模,使机器人能够学习到通用的运动控制策略。通过在大量程序生成的机器人上进行训练,并结合领域随机化,LocoFormer能够学习到对不同形态和动力学参数具有鲁棒性的策略。同时,通过扩展上下文长度,LocoFormer能够利用历史信息进行决策,从而更好地适应环境变化和干扰。

技术框架:LocoFormer的整体框架包括以下几个主要模块:1) 机器人环境模拟器:用于生成大量具有不同形态和动力学参数的机器人;2) 强化学习训练模块:使用强化学习算法训练LocoFormer,使其学习到通用的运动控制策略;3) 长程上下文建模模块:使用Transformer网络对历史状态和动作进行建模,从而利用长程上下文信息进行决策;4) 策略执行模块:将LocoFormer学习到的策略部署到实际机器人上,实现运动控制。

关键创新:LocoFormer最重要的技术创新点在于其长程上下文建模能力。与传统的短视策略不同,LocoFormer能够利用历史信息进行决策,从而更好地适应环境变化和干扰。此外,LocoFormer还通过大规模强化学习和领域随机化,提高了策略的泛化能力。

关键设计:LocoFormer的关键设计包括:1) 使用Transformer网络进行长程上下文建模,Transformer的输入包括历史状态、动作和奖励等信息;2) 使用PPO算法进行强化学习训练,PPO算法能够保证训练的稳定性和收敛性;3) 使用领域随机化技术,对机器人的形态、动力学参数和环境参数进行随机化,从而提高策略的泛化能力;4) 损失函数包括运动奖励、生存奖励、姿态奖励和动作惩罚等,用于引导LocoFormer学习到期望的运动行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LocoFormer在多种机器人上进行了实验验证,包括四足机器人、双足机器人和轮式机器人。实验结果表明,LocoFormer能够有效地控制这些机器人,并在受到重量变化和电机故障等干扰时保持鲁棒性。在极端情况下,LocoFormer甚至能够通过跨episode学习,不断改进控制策略。

🎯 应用场景

LocoFormer具有广泛的应用前景,可用于各种腿式和轮式机器人的运动控制,例如:服务机器人、物流机器人、搜救机器人等。该研究成果有助于降低机器人开发成本,提高机器人的自主性和适应性,加速机器人在各行业的应用。

📄 摘要(原文)

Modern locomotion controllers are manually tuned for specific embodiments. We present LocoFormer, a generalist omni-bodied locomotion model that can control previously unseen legged and wheeled robots, even without precise knowledge of their kinematics. LocoFormer is able to adapt to changes in morphology and dynamics at test time. We find that two key choices enable adaptation. First, we train massive scale RL on procedurally generated robots with aggressive domain randomization. Second, in contrast to previous policies that are myopic with short context lengths, we extend context by orders of magnitude to span episode boundaries. We deploy the same LocoFormer to varied robots and show robust control even with large disturbances such as weight change and motor failures. In extreme scenarios, we see emergent adaptation across episodes, LocoFormer learns from falls in early episodes to improve control strategies in later ones. We believe that this simple, yet general recipe can be used to train foundation models for other robotic skills in the future. Videos at generalist-locomotion.github.io.