AdaPower: Specializing World Foundation Models for Predictive Manipulation

作者: Yuhang Huang, Shilong Zou, Jiazhao Zhang, Xinwang Liu, Ruizhen Hu, Kai Xu

分类: cs.RO

发布日期: 2025-12-03

💡 一句话要点

AdaPower：通过自适应世界模型提升预测性操作的性能

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 世界模型 自适应学习 机器人控制 模型预测控制 视觉语言动作 时空一致性 记忆持久化

📋 核心要点

世界基础模型在机器人控制中面临精度挑战，现有方法计算成本高且未能充分利用预训练策略。
AdaPower通过时空测试时训练和记忆持久化，轻量级地将通用世界模型适配为专业模型。
实验表明，AdaPower在LIBERO基准测试中显著提升了任务成功率，且无需策略再训练。

📝 摘要（中文）

世界基础模型(WFMs)展现了卓越的视觉动态模拟能力，但由于生成真实感与面向控制的精度之间存在差距，其在精确机器人控制中的应用仍然受限。现有方法通常将WFMs用作合成数据生成器，但计算成本高昂，且未能充分利用预训练的VLA策略。我们提出了AdaPower（Adapt and Empower），一个轻量级的自适应框架，通过两个新颖的组件将通用WFMs转换为专业的世界模型：用于推理时自适应的时空测试时训练(TS-TTT)和用于长时程一致性的记忆持久化(MP)。集成到模型预测控制框架中，我们自适应的世界模型增强了预训练的VLA，在LIBERO基准测试中实现了超过41%的任务成功率提升，且无需策略再训练，同时保持了计算效率和通用能力。

🔬 方法详解

问题定义：论文旨在解决世界基础模型（WFMs）在预测性操作任务中精度不足的问题。现有方法主要将WFMs作为合成数据生成器，存在计算成本高昂，以及未能充分利用预训练的视觉语言动作（VLA）策略的痛点。这限制了WFMs在实际机器人控制中的应用。

核心思路：论文的核心思路是通过轻量级的自适应框架AdaPower，将通用的WFMs转化为特定任务的专业世界模型。AdaPower通过在推理时进行自适应训练，并引入记忆机制来保持长时程的一致性，从而提高预测精度，并赋能预训练的VLA策略。

技术框架：AdaPower框架主要包含两个核心组件：时空测试时训练（TS-TTT）和记忆持久化（MP）。TS-TTT在推理阶段利用少量真实数据对世界模型进行微调，使其适应特定任务的环境和动态特性。MP则通过维护一个记忆库，存储历史状态和预测信息，从而增强模型对长时程依赖关系的建模能力。AdaPower被集成到模型预测控制（MPC）框架中，利用自适应的世界模型来预测未来状态，并优化控制策略。

关键创新：AdaPower的关键创新在于其轻量级的自适应方法，能够在推理时快速调整世界模型，使其适应特定任务。与传统的离线训练方法相比，AdaPower无需大量的训练数据和计算资源。此外，MP模块通过引入记忆机制，有效解决了世界模型在长时程预测中容易出现的不一致性问题。AdaPower通过自适应世界模型赋能预训练的VLA策略，避免了从头开始训练策略的昂贵代价。

关键设计：TS-TTT模块采用了一种时空一致性的损失函数，鼓励模型在时间和空间上产生一致的预测。MP模块使用一个循环缓冲区来存储历史状态和预测信息，并采用注意力机制来选择相关的记忆片段。在MPC框架中，AdaPower使用自适应的世界模型来预测未来状态，并使用交叉熵方法来优化控制策略。具体的参数设置（如学习率、记忆库大小等）需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AdaPower在LIBERO基准测试中，无需策略再训练的情况下，任务成功率提升超过41%。与现有方法相比，AdaPower在保持计算效率的同时，显著提高了预测精度和控制性能。这验证了AdaPower在提升世界模型在预测性操作任务中性能的有效性。

🎯 应用场景

AdaPower具有广泛的应用前景，可用于各种机器人操作任务，例如物体抓取、装配和导航。该方法能够提高机器人在复杂环境中的适应性和鲁棒性，降低对大量训练数据的依赖，并加速机器人技能的学习和部署。此外，AdaPower还可以应用于虚拟现实、游戏等领域，提升虚拟环境的真实感和交互性。

📄 摘要（原文）

World Foundation Models (WFMs) offer remarkable visual dynamics simulation capabilities, yet their application to precise robotic control remains limited by the gap between generative realism and control-oriented precision. While existing approaches use WFMs as synthetic data generators, they suffer from high computational costs and underutilization of pre-trained VLA policies. We introduce \textbf{AdaPower} (\textbf{Ada}pt and Em\textbf{power}), a lightweight adaptation framework that transforms general-purpose WFMs into specialist world models through two novel components: Temporal-Spatial Test-Time Training (TS-TTT) for inference-time adaptation and Memory Persistence (MP) for long-horizon consistency. Integrated within a Model Predictive Control framework, our adapted world model empowers pre-trained VLAs, achieving over 41\% improvement in task success rates on LIBERO benchmarks without policy retraining, while preserving computational efficiency and generalist capabilities.

AdaPower: Specializing World Foundation Models for Predictive Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理