SCDP: Learning Humanoid Locomotion from Partial Observations via Mixed-Observation Distillation
作者: Milo Carroll, Tianhu Peng, Lingfan Bao, Chengxu Zhou, Zhibin Li
分类: cs.RO, cs.LG
发布日期: 2026-03-10
备注: 6 pages, 8 figures, 5 tables, iRos
💡 一句话要点
SCDP:通过混合观测蒸馏学习部分观测下的人形机器人运动控制
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 人形机器人 运动控制 部分观测 扩散模型 混合观测蒸馏
📋 核心要点
- 现有方法依赖于复杂且不可靠的全身体状态估计,限制了离线数据集蒸馏人形机器人运动控制策略的部署。
- SCDP通过混合观测训练,利用传感器历史预测未来状态-动作轨迹,从而在部分可观测性下学习运动动力学。
- SCDP在仿真和真实机器人上验证,仅使用板载传感器即可实现与特权基线相当甚至更好的运动控制性能。
📝 摘要(中文)
本文提出了一种传感器条件扩散策略(SCDP),它仅使用板载传感器即可实现人形机器人运动,无需显式状态估计。SCDP通过混合观测训练将感知与监督解耦:扩散模型以传感器历史为条件,同时被监督预测特权未来的状态-动作轨迹,从而迫使模型在部分可观测性下推断运动动力学。我们进一步开发了受限去噪、上下文分布对齐和上下文感知注意力掩码,以鼓励模型内部的隐式状态估计,并防止训练-部署不匹配。我们在速度指令运动和运动参考跟踪任务上验证了SCDP。在仿真中,SCDP在速度控制方面实现了接近完美的成功率(99-100%),在AMASS测试集中实现了93%的跟踪成功率,性能与特权基线相当,同时仅使用板载传感器。最后,我们将训练好的策略以50 Hz部署在真实的G1人形机器人上,展示了无需外部传感或状态估计的鲁棒的真实机器人运动。
🔬 方法详解
问题定义:现有的人形机器人运动控制方法通常依赖于精确的全身体状态估计,这需要复杂的外部传感器和算法,在实际部署中存在鲁棒性问题。此外,从离线数据集中学习运动控制策略时,通常需要访问特权状态信息,这在真实环境中难以获得。因此,如何在仅使用板载传感器的情况下,从离线数据集中学习鲁棒的人形机器人运动控制策略是一个关键问题。
核心思路:SCDP的核心思路是通过混合观测训练,将感知与控制解耦。具体来说,模型以板载传感器历史作为输入,并被监督预测未来的状态-动作轨迹。这种方式迫使模型学习从传感器数据中推断状态信息,从而实现隐式的状态估计。此外,使用扩散模型作为策略表示,可以更好地处理运动控制中的多模态问题。
技术框架:SCDP的整体框架包括以下几个主要模块:1)传感器历史编码器:将板载传感器历史数据编码为上下文向量。2)扩散模型:以传感器历史编码的上下文向量为条件,生成未来的状态-动作轨迹。3)训练目标:包括状态预测损失和动作预测损失,用于监督扩散模型的训练。此外,还引入了受限去噪、上下文分布对齐和上下文感知注意力掩码等技术,以提高模型的性能和鲁棒性。
关键创新:SCDP最重要的技术创新点在于混合观测训练。与传统的监督学习方法不同,SCDP不直接预测当前的状态或动作,而是预测未来的状态-动作轨迹。这种方式可以更好地利用时间信息,并允许模型在部分可观测性下进行学习。此外,SCDP还引入了受限去噪、上下文分布对齐和上下文感知注意力掩码等技术,以进一步提高模型的性能和鲁棒性。
关键设计:SCDP的关键设计包括:1)使用Transformer网络作为传感器历史编码器,以捕捉传感器数据中的时间依赖关系。2)使用扩散模型作为策略表示,可以生成多样化的运动轨迹。3)引入受限去噪,限制扩散模型的生成范围,防止生成不合理的运动轨迹。4)使用上下文分布对齐,使训练数据和部署数据的上下文分布更加接近,从而提高模型的泛化能力。5)使用上下文感知注意力掩码,使模型能够根据上下文信息选择性地关注不同的传感器数据。
🖼️ 关键图片
📊 实验亮点
SCDP在仿真环境中实现了接近完美的运动控制成功率(99-100%),并在AMASS测试集中实现了93%的运动跟踪成功率,性能与使用特权状态信息的基线方法相当。更重要的是,SCDP成功部署在真实的G1人形机器人上,以50Hz的频率运行,展示了无需外部传感或状态估计的鲁棒运动控制能力,验证了该方法在实际应用中的可行性。
🎯 应用场景
SCDP具有广泛的应用前景,例如在家庭服务机器人、医疗康复机器人、以及工业巡检机器人等领域。该方法无需外部传感器和复杂的环境建模,降低了部署成本和维护难度,使得人形机器人能够在更加复杂和动态的环境中安全可靠地工作。此外,SCDP还可以应用于其他类型的机器人,例如四足机器人和无人机等。
📄 摘要(原文)
Distilling humanoid locomotion control from offline datasets into deployable policies remains a challenge, as existing methods rely on privileged full-body states that require complex and often unreliable state estimation. We present Sensor-Conditioned Diffusion Policies (SCDP) that enables humanoid locomotion using only onboard sensors, eliminating the need for explicit state estimation. SCDP decouples sensing from supervision through mixed-observation training: diffusion model conditions on sensor histories while being supervised to predict privileged future state-action trajectories, enforcing the model to infer the motion dynamics under partial observability. We further develop restricted denoising, context distribution alignment, and context-aware attention masking to encourage implicit state estimation within the model and to prevent train-deploy mismatch. We validate SCDP on velocity-commanded locomotion and motion reference tracking tasks. In simulation, SCDP achieves near-perfect success on velocity control (99-100%) and 93% tracking success in AMASS test set, performing comparable to privileged baselines while using only onboard sensors. Finally, we deploy the trained policy on a real G1 humanoid at 50 Hz, demonstrating robust real robot locomotion without external sensing or state estimation.