SVLL: Staged Vision-Language Learning for Physically Grounded Embodied Task Planning

作者: Yuyuan Yang, Junkun Hong, Hongrong Wang, Honghao Cai, Xunpeng Ren, Ge Wang, Mingcong Lei, Shenhao Yan, Jiahao Yang, Chengsi Yao, Xi Li, Yiming Zhao, Yatong Han, Jinke Ren

分类: cs.CV, cs.RO

发布日期: 2026-03-12

💡 一句话要点

提出SVLL框架，解决具身任务规划中视觉语言模型的时间绑定和物理约束违反问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 具身任务规划 视觉语言模型 分阶段学习 直接偏好优化 物理约束 机器人导航 AI2-THOR

📋 核心要点

现有具身任务规划方法在端到端训练中易出现时间绑定，强化学习则面临优化不稳定，难以保证动作序列的物理合理性。
SVLL框架通过分阶段学习，先建立稳健的视觉依赖，再进行时间推理，最后使用Bias-DPO优化，确保动作的物理可行性。
实验表明，SVLL在AI2-THOR和真实机器人场景中，任务成功率超越现有模型，并显著减少了物理约束的违反。

📝 摘要（中文）

具身任务规划要求视觉语言模型生成在视觉上可信且在时间上具有因果一致性的动作序列。然而，现有的训练范式面临着一个关键的权衡：联合端到端训练通常导致过早的时间绑定，而标准强化学习方法则遭受优化不稳定的困扰。为了弥合这一差距，我们提出了分阶段视觉语言学习（SVLL），这是一个统一的三阶段框架，用于稳健的、物理上可信的具身规划。在前两个阶段，SVLL将空间基础与时间推理分离，在引入顺序动作历史之前建立稳健的视觉依赖性。在最后阶段，我们发现标准直接偏好优化（DPO）的一个关键限制，即其纯粹的相对性质——仅优化获胜轨迹和失败轨迹之间的偏好差距，而忽略了对最优路径的绝对似然约束，这通常会导致不安全或幻觉行为。为了解决这个问题，我们进一步引入了Bias-DPO，这是一种新颖的对齐目标，通过显式地最大化真实动作的似然性，同时惩罚过度自信的幻觉，从而将归纳偏差注入到专家轨迹中。通过将策略锚定到专家流形并减轻因果错位，由Bias-DPO驱动的SVLL确保严格遵守环境约束，并有效地抑制物理上不可能的捷径。最后，在交互式AI2-THOR基准测试和真实机器人部署上的大量实验表明，SVLL在任务成功率方面优于最先进的开源模型（例如，Qwen2.5-VL-7B）和闭源模型（例如，GPT-4o，Gemini-2.0-flash），同时显著减少了物理约束违反。

🔬 方法详解

问题定义：论文旨在解决具身任务规划中，视觉语言模型生成的动作序列缺乏物理合理性和因果一致性的问题。现有方法，如端到端训练，容易导致模型过早地将视觉信息与时间步骤绑定，限制了模型的泛化能力。而传统的强化学习方法，则面临优化不稳定，难以学习到符合物理约束的动作序列。这些问题导致模型在实际环境中容易产生不安全或不合理的行为。

核心思路：论文的核心思路是将视觉信息的理解和时间序列的推理解耦，通过分阶段学习的方式，逐步建立模型对环境的理解和对任务的规划能力。首先，模型学习如何从视觉信息中提取有用的特征，并将其与语言指令对齐。然后，模型学习如何根据当前的状态和目标，生成合理的动作序列。最后，通过引入Bias-DPO，模型可以学习到更加符合物理约束的动作，避免产生不安全或不合理的行为。

技术框架：SVLL框架包含三个主要阶段：1) 空间基础学习阶段：模型学习将视觉信息与语言指令对齐，建立对环境的理解。2) 时间推理学习阶段：模型学习根据当前的状态和目标，生成合理的动作序列。3) Bias-DPO优化阶段：通过引入Bias-DPO，模型学习到更加符合物理约束的动作，避免产生不安全或不合理的行为。

关键创新：论文的关键创新在于提出了Bias-DPO，一种改进的直接偏好优化方法。传统的DPO只关注获胜轨迹和失败轨迹之间的偏好差距，忽略了对最优路径的绝对似然约束。Bias-DPO通过显式地最大化真实动作的似然性，同时惩罚过度自信的幻觉，从而将归纳偏差注入到专家轨迹中，引导模型学习到更加符合物理约束的动作。

关键设计：Bias-DPO的目标函数包含两部分：一部分是传统的DPO损失，用于优化获胜轨迹和失败轨迹之间的偏好差距；另一部分是交叉熵损失，用于最大化真实动作的似然性。通过调整这两个损失的权重，可以控制模型对专家轨迹的依赖程度。此外，论文还设计了一种新的采样策略，用于生成高质量的负样本，从而提高Bias-DPO的优化效果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SVLL在AI2-THOR基准测试中，任务成功率显著优于Qwen2.5-VL-7B、GPT-4o和Gemini-2.0-flash等模型，同时物理约束违反次数也大幅降低。在真实机器人部署中，SVLL也表现出更强的鲁棒性和安全性。

🎯 应用场景

该研究成果可应用于机器人导航、智能家居、自动驾驶等领域，提升机器人在复杂环境中的任务执行能力和安全性。通过学习物理约束，机器人可以更好地理解环境，避免碰撞、翻倒等危险行为，从而实现更可靠、更智能的自主操作。

📄 摘要（原文）

Embodied task planning demands vision-language models to generate action sequences that are both visually grounded and causally coherent over time. However, existing training paradigms face a critical trade-off: joint end-to-end training often leads to premature temporal binding, while standard reinforcement learning methods suffer from optimization instability. To bridge this gap, we present Staged Vision-Language Learning (SVLL), a unified three-stage framework for robust, physically-grounded embodied planning. In the first two stages, SVLL decouples spatial grounding from temporal reasoning, establishing robust visual dependency before introducing sequential action history. In the final stage, we identify a key limitation of standard Direct Preference Optimization (DPO), its purely relative nature -- optimizing only the preference gap between winning and losing trajectories while neglecting absolute likelihood constraints on optimal path, often yields unsafe or hallucinated behaviors. To address this, we further introduce Bias-DPO, a novel alignment objective that injects an inductive bias toward expert trajectories by explicitly maximizing likelihood on ground-truth actions while penalizing overconfident hallucinations. By anchoring the policy to the expert manifold and mitigating causal misalignment, SVLL, powered by Bias-DPO, ensures strict adherence to environmental affordances and effectively suppresses physically impossible shortcuts. Finally, extensive experiments on the interactive AI2-THOR benchmark and real-world robotic deployments demonstrate that SVLL outperforms both state-of-the-art open-source (e.g., Qwen2.5-VL-7B) and closed-source models (e.g., GPT-4o, Gemini-2.0-flash) in task success rate, while significantly reducing physical constraint violations.

SVLL: Staged Vision-Language Learning for Physically Grounded Embodied Task Planning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理