Self-Improving Embodied Foundation Models
作者: Seyed Kamyar Seyed Ghasemipour, Ayzaan Wahid, Jonathan Tompson, Pannag Sanketi, Igor Mordatch
分类: cs.LG, cs.RO
发布日期: 2025-09-18
备注: Appearing in the Conference on Neural Information Processing Systems (NeurIPS 2025)
💡 一句话要点
提出一种自提升具身基础模型方法,用于机器人自主技能学习与泛化。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 基础模型 机器人学习 自主学习 强化学习 模仿学习 步数预测
📋 核心要点
- 现有方法在机器人低层控制中主要依赖行为克隆,缺乏自主学习能力。
- 提出两阶段后训练方法,结合监督微调和自提升,实现自主技能学习。
- 实验表明,该方法比单纯模仿学习更高效,并能泛化到新技能。
📝 摘要(中文)
本文提出了一种两阶段后训练方法,用于提升具身基础模型在机器人低层控制中的性能。第一阶段是监督式微调(SFT),利用行为克隆和步数预测目标对预训练的基础模型进行微调。第二阶段是自提升,步数预测能够提取出良好形状的奖励函数和鲁棒的成功检测器,使机器人集群能够在最少的人工监督下自主地练习下游任务。在真实和模拟机器人上的大量实验表明,该方法在具身基础模型上取得了显著成果。与扩展模仿学习数据的监督学习相比,SFT和自提升的结合更具样本效率,并能产生具有更高成功率的策略。此外,网络规模预训练和自提升的结合是实现这种样本效率的关键。该方法还解锁了当前方法无法实现的能力:自主练习和获取新的技能,这些技能可以泛化到训练期间使用的模仿学习数据集中观察到的行为之外。这些发现突出了将预训练的基础模型与在线自提升相结合以实现机器人自主技能获取的变革潜力。
🔬 方法详解
问题定义:现有方法在机器人控制领域,尤其是低层控制方面,主要依赖于行为克隆,即模仿人类或其他机器人的行为。这种方法的局限性在于,它只能学习到训练数据中存在的行为,难以泛化到新的任务或环境,并且需要大量的标注数据。此外,奖励函数的设计通常需要人工干预,成本高昂且难以优化。
核心思路:本文的核心思路是借鉴大型语言模型微调中的强化学习阶段,提出一种两阶段的后训练方法,即监督式微调(SFT)和自提升。SFT阶段利用行为克隆和步数预测来初始化策略,自提升阶段则利用步数预测来自动生成奖励函数和成功检测器,从而使机器人能够自主地练习和学习新的技能。这种方法旨在利用预训练基础模型的泛化能力,并通过在线学习来进一步提升性能和适应性。
技术框架:整体框架包含两个主要阶段: 1. 监督式微调(SFT):使用行为克隆和步数预测目标对预训练的基础模型进行微调。行为克隆用于模仿已有的行为数据,步数预测则用于估计当前状态距离目标状态的距离,为后续的自提升阶段提供基础。 2. 自提升:利用SFT阶段训练的步数预测模型,自动生成奖励函数和成功检测器。机器人通过与环境交互,利用这些奖励函数和成功检测器进行强化学习,从而不断提升自身的技能。
关键创新:最重要的创新点在于利用步数预测模型自动生成奖励函数和成功检测器,从而实现了机器人的自主学习。与传统的强化学习方法相比,该方法无需人工设计奖励函数,降低了人工成本,并提高了学习效率。此外,该方法还能够利用预训练基础模型的泛化能力,使机器人能够学习到新的技能,并泛化到新的环境。
关键设计: 1. 步数预测模型:该模型用于估计当前状态距离目标状态的距离,可以采用各种回归模型实现。 2. 奖励函数设计:奖励函数基于步数预测模型生成,例如,当步数预测值减小时,给予正向奖励;当步数预测值增大时,给予负向奖励。 3. 成功检测器:成功检测器用于判断机器人是否成功完成了任务,可以基于步数预测模型或其他传感器数据进行设计。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在真实和模拟机器人上都取得了显著的性能提升。与单纯依赖模仿学习的方法相比,SFT和自提升的结合在样本效率上提高了显著,并且能够达到更高的成功率。更重要的是,该方法能够使机器人自主地学习到新的技能,并泛化到训练数据中未曾见过的场景,这证明了该方法在机器人自主学习方面的巨大潜力。
🎯 应用场景
该研究成果可应用于各种机器人自主操作场景,例如家庭服务机器人、工业自动化机器人、医疗辅助机器人等。通过自主学习和技能泛化,机器人能够更好地适应复杂多变的环境,完成各种任务,提高工作效率和服务质量。此外,该方法还可以降低机器人部署和维护的成本,促进机器人技术的普及和应用。
📄 摘要(原文)
Foundation models trained on web-scale data have revolutionized robotics, but their application to low-level control remains largely limited to behavioral cloning. Drawing inspiration from the success of the reinforcement learning stage in fine-tuning large language models, we propose a two-stage post-training approach for robotics. The first stage, Supervised Fine-Tuning (SFT), fine-tunes pretrained foundation models using both: a) behavioral cloning, and b) steps-to-go prediction objectives. In the second stage, Self-Improvement, steps-to-go prediction enables the extraction of a well-shaped reward function and a robust success detector, enabling a fleet of robots to autonomously practice downstream tasks with minimal human supervision. Through extensive experiments on real-world and simulated robot embodiments, our novel post-training recipe unveils significant results on Embodied Foundation Models. First, we demonstrate that the combination of SFT and Self-Improvement is significantly more sample-efficient than scaling imitation data collection for supervised learning, and that it leads to policies with significantly higher success rates. Further ablations highlight that the combination of web-scale pretraining and Self-Improvement is the key to this sample-efficiency. Next, we demonstrate that our proposed combination uniquely unlocks a capability that current methods cannot achieve: autonomously practicing and acquiring novel skills that generalize far beyond the behaviors observed in the imitation learning datasets used during training. These findings highlight the transformative potential of combining pretrained foundation models with online Self-Improvement to enable autonomous skill acquisition in robotics. Our project website can be found at https://self-improving-efms.github.io .