FOUNDER: Grounding Foundation Models in World Models for Open-Ended Embodied Decision Making
作者: Yucen Wang, Rui Yu, Shenghua Wan, Le Gan, De-Chuan Zhan
分类: cs.RO, cs.AI, cs.LG
发布日期: 2025-07-15
备注: Accepted by Forty-Second International Conference on Machine Learning (ICML 2025)
💡 一句话要点
FOUNDER:融合基础模型与世界模型,实现开放式具身决策
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 基础模型 世界模型 强化学习 视觉控制
📋 核心要点
- 现有方法在复杂具身环境中,难以有效利用基础模型的通用知识进行开放式任务解决。
- FOUNDER通过学习映射函数,将基础模型表征与世界模型状态空间对齐,实现状态推断和目标条件策略学习。
- 实验表明,FOUNDER在多任务离线视觉控制任务中,尤其是在复杂观测和领域差距场景下,性能优于现有方法。
📝 摘要(中文)
本文提出FOUNDER框架,旨在将基础模型(FMs)中蕴含的通用知识与世界模型(WMs)的动态建模能力相结合,从而在具身环境中以无奖励的方式解决开放式任务。FOUNDER学习一个映射函数,将FM表征与WM状态空间对齐,有效地从外部观测中推断智能体在世界模拟器中的物理状态。这种映射使得在行为学习期间,可以通过想象来学习目标条件策略,并将映射后的任务作为目标状态。该方法利用预测的到目标状态的时间距离作为信息丰富的奖励信号。FOUNDER在各种多任务离线视觉控制基准测试中表现出卓越的性能,尤其擅长捕捉文本或视频指定的任务的深层语义,特别是在涉及复杂观测或领域差距的场景中,而先前的方法难以应对。实验验证了我们学习的奖励函数与真实奖励的一致性。
🔬 方法详解
问题定义:现有方法在具身智能体任务中,难以有效利用预训练的基础模型所蕴含的丰富知识,尤其是在开放式任务设定下,智能体需要理解复杂的任务指令(如文本或视频),并克服真实世界与模拟环境之间的领域差异。此外,传统的强化学习方法依赖于人工设计的奖励函数,难以适应开放式任务的复杂性和多样性。
核心思路:FOUNDER的核心思路是将基础模型(FMs)的通用知识与世界模型(WMs)的动态建模能力相结合。通过学习一个映射函数,将从视觉输入中提取的FM表征嵌入到WM的状态空间中,从而使智能体能够理解任务指令并推断自身状态。然后,利用WM进行想象,学习目标条件策略,并使用预测的到目标状态的时间距离作为内在奖励信号,避免了人工设计奖励函数的需要。
技术框架:FOUNDER框架主要包含以下几个模块:1) 视觉编码器:使用预训练的视觉基础模型(如CLIP)提取视觉输入的特征。2) 状态映射器:学习一个映射函数,将视觉特征映射到世界模型的状态空间中。3) 世界模型:学习环境的动态模型,用于预测状态转移和奖励。4) 策略学习器:使用想象数据学习目标条件策略,以最大化预测的奖励。整个流程是,首先使用视觉编码器提取视觉特征,然后使用状态映射器将特征映射到WM状态空间,接着使用WM进行状态预测和奖励预测,最后使用策略学习器学习目标条件策略。
关键创新:FOUNDER的关键创新在于将基础模型的表征与世界模型的状态空间对齐,从而使智能体能够理解复杂的任务指令并推断自身状态。此外,使用预测的到目标状态的时间距离作为内在奖励信号,避免了人工设计奖励函数的需要。这种方法能够有效地利用基础模型的通用知识,并克服真实世界与模拟环境之间的领域差异。
关键设计:状态映射器可以使用多层感知机(MLP)或Transformer等网络结构来实现。损失函数可以包括重构损失和对比损失,以确保映射后的状态能够准确地重构原始视觉输入,并保持不同状态之间的区分性。奖励预测器可以使用MLP或Transformer等网络结构来实现,并使用均方误差(MSE)等损失函数进行训练。策略学习器可以使用各种强化学习算法,如PPO或SAC。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FOUNDER在多个多任务离线视觉控制基准测试中取得了显著的性能提升。例如,在涉及复杂观测和领域差距的场景中,FOUNDER的性能优于现有方法,例如Behavior Cloning (BC) 和 Visual Foresight (VF)。具体来说,FOUNDER在某些任务上的成功率比BC提高了20%以上,并且能够更好地泛化到新的任务和环境。
🎯 应用场景
FOUNDER框架具有广泛的应用前景,例如机器人操作、自动驾驶、游戏AI等领域。它可以用于解决复杂的具身智能体任务,例如让机器人根据文本指令完成特定操作,或者让自动驾驶汽车在复杂交通环境中安全行驶。该研究的实际价值在于降低了具身智能体任务的开发成本,并提高了智能体的泛化能力。未来,可以将FOUNDER框架与其他技术相结合,例如知识图谱、自然语言处理等,以实现更智能、更灵活的具身智能体。
📄 摘要(原文)
Foundation Models (FMs) and World Models (WMs) offer complementary strengths in task generalization at different levels. In this work, we propose FOUNDER, a framework that integrates the generalizable knowledge embedded in FMs with the dynamic modeling capabilities of WMs to enable open-ended task solving in embodied environments in a reward-free manner. We learn a mapping function that grounds FM representations in the WM state space, effectively inferring the agent's physical states in the world simulator from external observations. This mapping enables the learning of a goal-conditioned policy through imagination during behavior learning, with the mapped task serving as the goal state. Our method leverages the predicted temporal distance to the goal state as an informative reward signal. FOUNDER demonstrates superior performance on various multi-task offline visual control benchmarks, excelling in capturing the deep-level semantics of tasks specified by text or videos, particularly in scenarios involving complex observations or domain gaps where prior methods struggle. The consistency of our learned reward function with the ground-truth reward is also empirically validated. Our project website is https://sites.google.com/view/founder-rl.