Towards Bridging the Gap between Large-Scale Pretraining and Efficient Finetuning for Humanoid Control

📄 arXiv: 2601.21363v1 📥 PDF

作者: Weidong Huang, Zhehan Li, Hangxin Liu, Biao Hou, Yao Su, Jingwen Zhang

分类: cs.RO

发布日期: 2026-01-29

备注: ICLR 2026


💡 一句话要点

提出基于SAC预训练和模型预测控制微调的人形机器人控制方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人形机器人控制 强化学习 Off-policy学习 SAC算法 模型预测控制 预训练 微调

📋 核心要点

  1. On-policy算法样本效率低,难以安全适应新环境,Off-policy和基于模型的RL方法在人形机器人上的大规模预训练和高效微调之间存在差距。
  2. 利用Off-policy SAC算法进行大规模预训练,获得可零样本部署的策略,并结合基于模型的微调方法,提升样本效率和适应性。
  3. 实验表明,该方法在预训练阶段实现了真实机器人的零样本部署,并在微调阶段提高了在新环境和分布外任务中的适应能力。

📝 摘要(中文)

强化学习广泛应用于人形机器人控制。近端策略优化(PPO)等On-policy方法通过大规模并行仿真实现鲁棒训练,并在某些情况下实现对真实机器人的零样本部署。然而,On-policy算法的低样本效率限制了对新环境的安全适应。虽然Off-policy强化学习和基于模型的强化学习提高了样本效率,但大规模预训练和人形机器人高效微调之间仍然存在差距。本文发现,具有大批量更新和高Update-To-Data (UTD)比率的Off-policy软演员-评论家(SAC)能够可靠地支持人形机器人运动策略的大规模预训练,实现真实机器人的零样本部署。对于适应,我们证明了这些SAC预训练策略可以使用基于模型的方法在新环境和分布外任务中进行微调。新环境中的数据收集执行确定性策略,而随机探索则限制在物理信息世界模型中。这种分离减轻了适应过程中随机探索的风险,同时保留了改进的探索覆盖率。总的来说,该方法将预训练期间大规模仿真的时钟效率与微调期间基于模型的学习的样本效率结合起来。

🔬 方法详解

问题定义:现有的人形机器人控制方法,特别是On-policy方法,虽然可以通过大规模并行仿真实现鲁棒训练,但样本效率较低,难以安全地适应新环境。Off-policy和基于模型的强化学习虽然提高了样本效率,但仍然存在大规模预训练和高效微调之间的差距,限制了其在实际机器人上的应用。

核心思路:论文的核心思路是结合Off-policy强化学习和基于模型的强化学习的优点。首先,利用Off-policy SAC算法进行大规模预训练,以获得一个通用的、可零样本部署的运动策略。然后,使用基于模型的强化学习方法对预训练策略进行微调,以适应新的环境和任务。这种结合既能利用大规模仿真的效率,又能提高样本效率和适应性。

技术框架:该方法包含两个主要阶段:预训练阶段和微调阶段。在预训练阶段,使用Off-policy SAC算法在大规模仿真环境中训练人形机器人的运动策略。SAC算法采用大批量更新和高UTD比率,以提高训练效率和稳定性。在微调阶段,使用基于模型的强化学习方法对预训练策略进行微调,以适应新的环境和任务。在数据收集过程中,执行确定性策略,并将随机探索限制在物理信息世界模型中。

关键创新:该方法的关键创新在于将Off-policy SAC算法用于人形机器人的大规模预训练,并结合基于模型的强化学习方法进行微调。通过这种结合,可以充分利用大规模仿真的效率和基于模型的强化学习的样本效率,从而实现高效的人形机器人控制。此外,将随机探索限制在物理信息世界模型中,可以减轻适应过程中随机探索的风险。

关键设计:SAC算法采用大批量更新和高UTD比率,以提高训练效率和稳定性。具体来说,批量大小设置为较大值,例如256或更大,UTD比率设置为大于1的值,例如4或8。在基于模型的微调阶段,使用物理信息世界模型来约束探索空间,并采用确定性策略进行数据收集。损失函数包括策略损失、价值损失和世界模型损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究表明,具有大批量更新和高UTD比率的Off-policy SAC算法能够可靠地支持人形机器人运动策略的大规模预训练,实现真实机器人的零样本部署。此外,通过基于模型的微调,预训练策略可以有效地适应新的环境和分布外任务,显著提高了样本效率和泛化能力。

🎯 应用场景

该研究成果可应用于各种人形机器人控制任务,例如复杂地形行走、物体操作、人机协作等。通过大规模预训练和高效微调,可以降低人形机器人的开发成本和部署难度,加速人形机器人在实际场景中的应用,例如物流、医疗、救援等。

📄 摘要(原文)

Reinforcement learning (RL) is widely used for humanoid control, with on-policy methods such as Proximal Policy Optimization (PPO) enabling robust training via large-scale parallel simulation and, in some cases, zero-shot deployment to real robots. However, the low sample efficiency of on-policy algorithms limits safe adaptation to new environments. Although off-policy RL and model-based RL have shown improved sample efficiency, the gap between large-scale pretraining and efficient finetuning on humanoids still exists. In this paper, we find that off-policy Soft Actor-Critic (SAC), with large-batch update and a high Update-To-Data (UTD) ratio, reliably supports large-scale pretraining of humanoid locomotion policies, achieving zero-shot deployment on real robots. For adaptation, we demonstrate that these SAC-pretrained policies can be finetuned in new environments and out-of-distribution tasks using model-based methods. Data collection in the new environment executes a deterministic policy while stochastic exploration is instead confined to a physics-informed world model. This separation mitigates the risks of random exploration during adaptation while preserving exploratory coverage for improvement. Overall, the approach couples the wall-clock efficiency of large-scale simulation during pretraining with the sample efficiency of model-based learning during fine-tuning.