CodeGraphVLP: Code-as-Planner Meets Semantic-Graph State for Non-Markovian Vision-Language-Action Models
作者: Khoa Vo, Sieu Tran, Taisei Hanyu, Yuki Ikebe, Duy Nguyen, Bui Duy Quoc Nghi, Minh Vu, Anthony Gunderman, Chase Rainwater, Anh Nguyen, Ngan Le
分类: cs.RO
发布日期: 2026-04-24
💡 一句话要点
提出CodeGraphVLP以解决非马尔可夫长时序任务的视觉语言行动问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长时序任务 视觉语言行动 语义图 代码规划 机器人操作 非马尔可夫模型
📋 核心要点
- 现有的VLA模型通常假设最新的观察结果足以进行决策,但在非马尔可夫长时序任务中,这一假设常常不成立,导致任务执行不可靠。
- 本文提出的CodeGraphVLP框架结合了持久的语义图状态和可执行的代码规划器,能够在复杂环境中有效管理任务相关信息,并指导机器人执行操作。
- 在真实的非马尔可夫任务中,CodeGraphVLP显著提升了任务完成率,并在规划延迟方面表现优于现有的VLA基线和历史增强变体。
📝 摘要(中文)
视觉-语言-行动(VLA)模型在通用机器人操作中展现出潜力,但通常假设最新观察足以进行行动推理,这在非马尔可夫长时序任务中失效。为此,本文提出CodeGraphVLP,一个结合持久语义图状态与可执行代码规划器的分层框架,能够在部分可观察性下保持任务相关实体与关系。该框架通过合成的规划器在语义图上执行高效的进度检查,并输出子任务指令及相关对象,从而构建聚焦于关键证据的观察。实验证明,CodeGraphVLP在真实世界的非马尔可夫任务中显著提高了任务完成率,并降低了规划延迟。
🔬 方法详解
问题定义:本文旨在解决在非马尔可夫长时序任务中,现有VLA模型因依赖最新观察而导致的决策失效问题。任务相关证据可能被遮挡或仅在轨迹早期出现,且环境中的杂乱和干扰使得细粒度视觉定位变得脆弱。
核心思路:CodeGraphVLP通过结合持久的语义图状态与可执行的代码规划器,提供了一种新的方法来管理和利用任务相关信息,从而在部分可观察性下实现可靠的长时序操作。该设计使得模型能够在复杂环境中有效地进行任务推理。
技术框架:整体架构包括三个主要模块:持久语义图状态模块、可执行代码规划器和进度引导的视觉语言提示模块。语义图维护任务相关的实体和关系,规划器则在此图上执行进度检查并生成子任务指令。
关键创新:最重要的创新在于将语义图与代码规划器结合,形成了一种新的长时序任务处理方式。这一方法与传统的基于最新观察的决策模型有本质区别,能够有效应对信息缺失和环境复杂性。
关键设计:在设计中,语义图的构建和更新机制至关重要,确保了任务相关信息的持久性。此外,规划器的执行效率和输出的子任务指令的准确性也通过精心设计的损失函数和网络结构得以优化。具体参数设置和网络架构细节在实验部分进行了详细描述。
🖼️ 关键图片
📊 实验亮点
在真实的非马尔可夫任务中,CodeGraphVLP相比于强基线模型和历史增强变体,任务完成率显著提高,且规划延迟大幅降低,展现出优越的性能和实用性。
🎯 应用场景
该研究的潜在应用领域包括智能机器人操作、自动化制造、家庭服务机器人等。通过提升机器人在复杂环境中的操作能力,CodeGraphVLP能够在实际应用中显著提高任务完成率,推动智能机器人技术的进步与普及。
📄 摘要(原文)
Vision-Language-Action (VLA) models promise generalist robot manipulation, but are typically trained and deployed as short-horizon policies that assume the latest observation is sufficient for action reasoning. This assumption breaks in non-Markovian long-horizon tasks, where task-relevant evidence can be occluded or appear only earlier in the trajectory, and where clutter and distractors make fine-grained visual grounding brittle. We present CodeGraphVLP, a hierarchical framework that enables reliable long-horizon manipulation by combining a persistent semantic-graph state with an executable code-based planner and progress-guided visual-language prompting. The semantic-graph maintains task-relevant entities and relations under partial observability. The synthesized planner executes over this semantic-graph to perform efficient progress checks and outputs a subtask instruction together with subtask-relevant objects. We use these outputs to construct clutter-suppressed observations that focus the VLA executor on critical evidence. On real-world non-Markovian tasks, CodeGraphVLP improves task completion over strong VLA baselines and history-enabled variants while substantially lowering planning latency compared to VLM-in-the-loop planning. We also conduct extensive ablation studies to confirm the contributions of each component.