CWM: Contrastive World Models for Action Feasibility Learning in Embodied Agent Pipelines
作者: Chayan Banerjee
分类: cs.AI, cs.RO
发布日期: 2026-02-28
💡 一句话要点
提出对比世界模型(CWM),用于具身智能体中动作可行性学习。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 动作可行性 对比学习 世界模型 难负例挖掘
📋 核心要点
- 现有具身智能体流程中,动作可行性评分器是瓶颈,监督微调(SFT)无法有效区分细微错误的动作。
- CWM利用对比学习,通过InfoNCE损失和难负例挖掘,训练LLM区分可行与不可行动作。
- 实验表明,CWM在ScienceWorld基准测试中,显著优于SFT,尤其是在难负例和分布外测试中。
📝 摘要(中文)
本文提出了一种对比世界模型(CWM),用于解决具身智能体流程中动作可行性评分的关键瓶颈问题。现有方法通常使用监督微调(SFT)训练动作评分器,但SFT独立处理每个候选动作,未能显式区分物理上正确和错误的动作。CWM使用InfoNCE对比目标函数,并结合难负例挖掘,对大型语言模型(LLM)进行微调,使其能够区分动作可行性。在ScienceWorld基准测试中,CWM在最小编辑负例的Precision@1上,比SFT提高了6.76个百分点,AUC-ROC也更高(0.929 vs. 0.906)。在分布外压力测试下,CWM的安全边际(-2.39)明显优于SFT(-3.96),表明CWM能更好地将正确动作排在前面。实验结果表明,对比学习能够比SFT更准确地捕捉物理可行性。
🔬 方法详解
问题定义:论文旨在解决具身智能体中动作可行性判断的问题。现有方法,如监督微调(SFT),将每个候选动作独立处理,缺乏对物理可行性细微差别的辨别能力,导致智能体难以选择正确的动作。这种方法没有显式地学习区分物理上正确和错误的动作,尤其是在语义相似但物理上不可行的“难负例”情况下表现不佳。
核心思路:论文的核心思路是利用对比学习,训练模型区分可行和不可行的动作。通过将可行动作在评分空间中推离不可行动作,特别是那些语义相似但物理上不可行的难负例,模型能够学习到更鲁棒的动作可行性表示。这种方法旨在让模型不仅学习哪些动作是好的,还要学习哪些动作是“差点就好”但实际上不行的。
技术框架:CWM的技术框架主要包括以下几个步骤:1) 使用大型语言模型(LLM)作为基础模型;2) 构建包含正例(可行动作)和负例(不可行动作)的数据集,其中负例包含难负例;3) 使用InfoNCE对比损失函数对LLM进行微调,目标是最大化正例之间的相似性,同时最小化正例和负例之间的相似性;4) 使用训练好的模型作为动作评分器,在具身智能体流程中筛选可行的动作。
关键创新:CWM的关键创新在于使用对比学习和难负例挖掘来训练动作评分器。与传统的监督微调方法相比,对比学习能够更有效地学习动作可行性的表示,特别是对于那些细微的物理差异。难负例挖掘则进一步提高了模型对这些细微差异的敏感度,使得模型能够更好地区分语义相似但物理上不可行的动作。
关键设计:CWM的关键设计包括:1) InfoNCE对比损失函数,用于衡量正例和负例之间的相似性;2) 难负例挖掘策略,用于选择那些与正例语义相似但物理上不可行的动作作为负例;3) 使用大型语言模型(LLM)作为基础模型,利用其强大的语言理解能力来捕捉动作的语义信息。具体的参数设置和网络结构细节在论文中可能没有详细描述,需要参考相关文献。
🖼️ 关键图片
📊 实验亮点
CWM在ScienceWorld基准测试中取得了显著的性能提升。在最小编辑负例的Precision@1上,CWM比SFT提高了6.76个百分点,AUC-ROC也从0.906提升到0.929。在分布外压力测试下,CWM的安全边际(-2.39)明显优于SFT(-3.96),表明CWM能更好地将正确动作排在前面。这些结果表明,对比学习能够更有效地学习动作可行性的表示。
🎯 应用场景
CWM可应用于各种具身智能体任务,例如机器人导航、操作和交互。通过提高动作可行性判断的准确性,CWM可以帮助智能体更安全、更有效地完成任务。该研究对于提升智能体在复杂环境中的自主性和适应性具有重要意义,并可能促进智能体在家庭服务、工业自动化等领域的应用。
📄 摘要(原文)
A reliable action feasibility scorer is a critical bottleneck in embodied agent pipelines: before any planning or reasoning occurs, the agent must identify which candidate actions are physically executable in the current state. Existing approaches use supervised fine-tuning (SFT) to train action scorers, but SFT treats each candidate independently and does not explicitly teach the model to discriminate between actions that are physically correct and those that are subtly wrong. We propose the Contrastive World Model (CWM), which fine-tunes a large language model (LLM) as an action scorer using an InfoNCE contrastive objective with hard-mined negative examples. The key idea is to push valid actions away from invalid ones in scoring space, with special emphasis on hard negatives: semantically similar but physically incompatible candidates. We evaluate CWM on the ScienceWorld benchmark through two studies. First, an intrinsic affordance evaluation on 605 hard-negative test pairs shows that CWM outperforms SFT by +6.76 percentage points on Precision@1 for minimal-edit negatives -- cases where a single word changes the physical outcome -- and achieves a higher AUC-ROC (0.929 vs. 0.906). Second, a live filter characterisation study measures how well CWM ranks gold-path actions against all valid environment actions during task execution. Under out-of-distribution stress conditions, CWM maintains a significantly better safety margin (-2.39) than SFT (-3.96), indicating that the gold action is ranked closer to the top. These results support the hypothesis that contrastive training induces representations that capture physical feasibility more faithfully than SFT alone.