Contact-Anchored Policies: Contact Conditioning Creates Strong Robot Utility Models
作者: Zichen Jeff Cui, Omar Rayyan, Haritheja Etukuru, Bowen Tan, Zavier Andrianarivo, Zicheng Teng, Yihang Zhou, Krish Mehta, Nicholas Wojno, Kevin Yuanbo Wu, Manan H Anjaria, Ziyuan Wu, Manrong Mao, Guangxun Zhang, Binit Shah, Yejin Kim, Soumith Chintala, Lerrel Pinto, Nur Muhammad Mahi Shafiullah
分类: cs.RO, cs.LG
发布日期: 2026-02-09
💡 一句话要点
提出Contact-Anchored Policies,通过接触点条件反射提升机器人操作能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 接触点条件反射 模块化策略 仿真迭代 效用模型 零样本学习 EgoGym
📋 核心要点
- 现有机器人学习方法依赖抽象语言提示,难以实现对物理世界的精准理解和稳健操作。
- Contact-Anchored Policies (CAP) 通过接触点条件反射,构建模块化效用模型库,提升操作能力。
- CAP结合EgoGym仿真环境进行快速迭代,仅用少量数据即超越现有视觉语言模型,实现更好的泛化性能。
📝 摘要(中文)
机器人学习领域的主流范式试图通过语言提示在运行时泛化到不同的环境、形态和任务。然而,这种方法存在一个根本性的限制:语言通常过于抽象,难以指导机器人进行稳健操作所需的具体物理理解。本文提出了Contact-Anchored Policies (CAP),它用空间中的物理接触点代替了语言条件反射。同时,CAP被构建为一个模块化效用模型库,而不是一个通用的整体策略。这种分解使我们能够实现一个从真实到仿真的迭代循环:我们构建了一个轻量级的仿真基准EgoGym,以快速识别失败模式,并在真实世界部署之前改进我们的模型和数据集。结果表明,通过接触点条件反射和仿真迭代,CAP仅使用23小时的演示数据,就能在三种基本操作技能上泛化到新的环境和形态,并且在零样本评估中,性能比大型、最先进的视觉语言模型高出56%。所有模型检查点、代码库、硬件、仿真和数据集都将开源。
🔬 方法详解
问题定义:现有机器人操作学习方法依赖于语言提示,但语言的抽象性使得机器人难以理解具体的物理交互,导致泛化能力不足,尤其是在面对新的环境和形态时。此外,传统的通用策略模型难以调试和优化。
核心思路:CAP的核心思路是用具体的物理接触点来引导机器人操作,而不是抽象的语言指令。通过将策略分解为模块化的效用模型,每个模型负责处理特定的接触交互,从而提高策略的可解释性和可维护性。利用仿真环境进行快速迭代,不断优化模型和数据集。
技术框架:CAP的整体框架包含以下几个主要模块:1) 接触点检测模块,用于识别物体上的关键接触点;2) 效用模型库,包含多个模块化的效用模型,每个模型负责处理特定的接触交互;3) 策略执行模块,根据当前状态和接触点信息,选择合适的效用模型并执行相应的动作。此外,还包含一个基于EgoGym的仿真环境,用于快速迭代和优化模型。
关键创新:CAP最重要的创新点在于使用接触点作为策略的条件反射,这使得机器人能够更直接地理解物理交互,从而提高泛化能力。此外,模块化的效用模型库也提高了策略的可解释性和可维护性。通过真实-仿真迭代,可以快速发现和解决问题,加速模型开发。
关键设计:CAP的关键设计包括:1) 接触点的选择策略,需要选择具有代表性的、易于检测的接触点;2) 效用模型的结构,需要根据具体的接触交互进行设计;3) 损失函数的设计,需要考虑接触点的准确性和操作的成功率;4) EgoGym仿真环境的构建,需要尽可能地模拟真实世界的物理特性。
🖼️ 关键图片
📊 实验亮点
CAP在三个基本操作技能上,仅使用23小时的演示数据,就能泛化到新的环境和形态,并且在零样本评估中,性能比大型、最先进的视觉语言模型高出56%。这表明CAP在数据效率和泛化能力方面具有显著优势。
🎯 应用场景
CAP在机器人操作领域具有广泛的应用前景,例如工业自动化、家庭服务机器人、医疗机器人等。它可以用于执行各种复杂的操作任务,例如物体抓取、装配、清洁等。通过不断学习新的接触交互,CAP可以适应不同的环境和任务,实现更智能、更灵活的机器人操作。
📄 摘要(原文)
The prevalent paradigm in robot learning attempts to generalize across environments, embodiments, and tasks with language prompts at runtime. A fundamental tension limits this approach: language is often too abstract to guide the concrete physical understanding required for robust manipulation. In this work, we introduce Contact-Anchored Policies (CAP), which replace language conditioning with points of physical contact in space. Simultaneously, we structure CAP as a library of modular utility models rather than a monolithic generalist policy. This factorization allows us to implement a real-to-sim iteration cycle: we build EgoGym, a lightweight simulation benchmark, to rapidly identify failure modes and refine our models and datasets prior to real-world deployment. We show that by conditioning on contact and iterating via simulation, CAP generalizes to novel environments and embodiments out of the box on three fundamental manipulation skills while using only 23 hours of demonstration data, and outperforms large, state-of-the-art VLAs in zero-shot evaluations by 56%. All model checkpoints, codebase, hardware, simulation, and datasets will be open-sourced. Project page: https://cap-policy.github.io/