One Policy but Many Worlds: A Scalable Unified Policy for Versatile Humanoid Locomotion
作者: Yahao Fan, Tianxiang Gui, Kaiyang Ji, Shutong Ding, Chixuan Zhang, Jiayuan Gu, Jingyi Yu, Jingya Wang, Ye Shi
分类: cs.RO, cs.LG
发布日期: 2025-05-24 (更新: 2025-06-03)
💡 一句话要点
DreamPolicy:一种可扩展的通用人形机器人运动策略,通过离线数据和扩散模型实现零样本泛化。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人形机器人 运动控制 强化学习 扩散模型 离线学习 泛化 地形感知
📋 核心要点
- 传统人形机器人运动控制依赖于任务特定的奖励函数,难以利用大规模数据集和泛化到新环境。
- DreamPolicy通过结合离线数据和扩散模型,生成地形感知的“梦想”轨迹作为动态目标,指导策略学习。
- 实验表明,DreamPolicy在训练和未见过的地形上均表现出色,显著优于现有方法,并能处理复杂场景。
📝 摘要(中文)
人形机器人运动面临着可扩展性的挑战:传统的强化学习方法需要针对特定任务的奖励,并且难以利用不断增长的数据集,即使引入更多的训练地形也是如此。我们提出了DreamPolicy,一个统一的框架,它使单个策略能够掌握不同的地形,并通过系统地整合离线数据和扩散驱动的运动合成,零样本泛化到未见过的场景。DreamPolicy的核心是引入了人形运动图像(HMI)——通过自回归地形感知扩散规划器合成的未来状态预测,该规划器通过聚合来自各种不同地形的专门策略的rollout进行管理。与需要费力进行重定向的人类运动数据集不同,我们的数据直接捕获人形运动学,使扩散规划器能够合成编码特定地形物理约束的“梦想”轨迹。这些轨迹充当我们HMI条件策略的动态目标,绕过手动奖励工程并实现跨地形泛化。DreamPolicy解决了先前方法的可扩展性限制:虽然传统的强化学习无法利用不断增长的数据集,但我们的框架可以随着更多离线数据无缝扩展。随着数据集的扩展,扩散先验学习更丰富的运动技能,策略利用这些技能来掌握新地形而无需重新训练。实验表明,DreamPolicy在训练环境中实现了平均90%的成功率,并且在未见过的地形上的成功率比流行方法平均高出20%。它还可以推广到先前方法崩溃的扰动和复合场景。通过统一离线数据、基于扩散的轨迹合成和策略优化,DreamPolicy克服了“一个任务,一个策略”的瓶颈,为可扩展的、数据驱动的人形控制建立了一个范例。
🔬 方法详解
问题定义:现有的人形机器人运动控制方法通常需要针对每个任务或地形设计特定的奖励函数,这导致了高昂的人工成本和较差的泛化能力。即使有越来越多的训练数据,传统的强化学习方法也难以有效利用这些数据,无法实现跨地形的通用运动控制。
核心思路:DreamPolicy的核心思想是利用离线数据学习一个地形感知的运动先验,并将其作为动态目标来指导策略学习。具体来说,它使用扩散模型来生成“梦想”轨迹,这些轨迹反映了特定地形的物理约束和运动需求。通过将这些轨迹作为策略的目标,DreamPolicy可以避免手动设计奖励函数,并实现跨地形的泛化。
技术框架:DreamPolicy包含三个主要模块:1) 离线数据收集:收集来自各种地形的专家策略的rollout数据。2) 人形运动图像(HMI)生成:使用自回归地形感知扩散规划器,基于离线数据合成未来状态预测(即“梦想”轨迹)。3) HMI条件策略优化:训练一个策略,使其能够根据HMI生成相应的动作,从而实现运动控制。整体流程是,给定当前状态和地形信息,扩散模型生成HMI,然后策略根据HMI输出动作,驱动机器人运动。
关键创新:DreamPolicy的关键创新在于使用扩散模型来生成地形感知的运动先验,并将其作为策略的动态目标。这与传统的强化学习方法不同,后者通常需要手动设计奖励函数。通过使用扩散模型,DreamPolicy可以自动学习地形的物理约束和运动需求,从而实现更好的泛化能力。此外,HMI的设计直接捕获了人形运动学,避免了人工重定向的需要。
关键设计:扩散模型采用自回归结构,以当前状态和地形信息为条件,逐步预测未来的状态。策略网络以当前状态和HMI为输入,输出动作。损失函数包括模仿损失(使策略输出的动作接近HMI对应的动作)和正则化项(例如,防止动作过大)。地形信息可以通过图像或嵌入向量来表示。扩散模型的训练数据来自离线数据集中专家策略的rollout。
🖼️ 关键图片
📊 实验亮点
DreamPolicy在训练环境中实现了平均90%的成功率,在未见过的地形上的成功率比现有方法平均高出20%。此外,DreamPolicy还能够泛化到扰动和复合场景,而现有方法在这些场景下通常会失效。这些结果表明,DreamPolicy是一种有效的、可扩展的通用人形机器人运动控制方法。
🎯 应用场景
DreamPolicy在人形机器人运动控制领域具有广泛的应用前景。它可以用于开发能够在各种复杂地形上行走、跑步、跳跃的机器人,例如在灾难救援、物流运输、家庭服务等领域。此外,该方法还可以应用于虚拟角色的运动控制,例如在游戏、电影等领域。
📄 摘要(原文)
Humanoid locomotion faces a critical scalability challenge: traditional reinforcement learning (RL) methods require task-specific rewards and struggle to leverage growing datasets, even as more training terrains are introduced. We propose DreamPolicy, a unified framework that enables a single policy to master diverse terrains and generalize zero-shot to unseen scenarios by systematically integrating offline data and diffusion-driven motion synthesis. At its core, DreamPolicy introduces Humanoid Motion Imagery (HMI) - future state predictions synthesized through an autoregressive terrain-aware diffusion planner curated by aggregating rollouts from specialized policies across various distinct terrains. Unlike human motion datasets requiring laborious retargeting, our data directly captures humanoid kinematics, enabling the diffusion planner to synthesize "dreamed" trajectories that encode terrain-specific physical constraints. These trajectories act as dynamic objectives for our HMI-conditioned policy, bypassing manual reward engineering and enabling cross-terrain generalization. DreamPolicy addresses the scalability limitations of prior methods: while traditional RL fails to exploit growing datasets, our framework scales seamlessly with more offline data. As the dataset expands, the diffusion prior learns richer locomotion skills, which the policy leverages to master new terrains without retraining. Experiments demonstrate that DreamPolicy achieves average 90% success rates in training environments and an average of 20% higher success on unseen terrains than the prevalent method. It also generalizes to perturbed and composite scenarios where prior approaches collapse. By unifying offline data, diffusion-based trajectory synthesis, and policy optimization, DreamPolicy overcomes the "one task, one policy" bottleneck, establishing a paradigm for scalable, data-driven humanoid control.