World-aware Planning Narratives Enhance Large Vision-Language Model Planner
作者: Junhao Shi, Zhaoye Fei, Siyin Wang, Qipeng Guo, Jingjing Gong, Xipeng Qiu
分类: cs.AI, cs.RO
发布日期: 2025-06-26 (更新: 2025-07-02)
💡 一句话要点
提出世界感知规划叙事增强框架以解决复杂环境中的规划问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视觉语言模型 规划任务 环境理解 认知能力 长时间规划 常识推理 课程学习 多模态融合
📋 核心要点
- 现有方法在复杂环境和多步骤目标的规划任务中表现不佳,缺乏环境上下文的理解。
- 本文提出WAP框架,通过四种认知能力增强LVLMs的环境理解,提升模型的规划能力。
- 在EB-ALFRED基准测试中,Qwen2.5-VL在任务成功率上提升60.7,尤其在常识推理和长时间规划方面取得显著进展。
📝 摘要(中文)
大型视觉语言模型(LVLMs)在具身规划任务中展现出潜力,但在处理复杂场景和多步骤目标时存在困难。现有方法依赖于环境无关的模仿学习,导致模型在上下文敏感指令上表现不佳。本文提出世界感知规划叙事增强(WAP)框架,通过视觉外观建模、空间推理、功能抽象和句法基础等四种认知能力,提升LVLMs的环境理解能力。通过课程学习,仅使用原始视觉观察进行模型开发和评估。EB-ALFRED基准测试结果显示,Qwen2.5-VL在任务成功率上实现了60.7的绝对提升,尤其在常识推理和长时间规划方面表现突出。我们的开源模型显著优于GPT-4o和Claude-3.5-Sonnet等专有系统。
🔬 方法详解
问题定义:本文旨在解决大型视觉语言模型在复杂环境和多步骤目标规划中的不足,现有方法往往忽视环境上下文,导致模型在处理上下文敏感指令时表现不佳。
核心思路:提出世界感知规划叙事增强(WAP)框架,通过引入视觉外观建模、空间推理、功能抽象和句法基础等认知能力,提升模型对环境的理解,从而改善规划效果。
技术框架:WAP框架包括四个主要模块:视觉外观建模用于理解环境的视觉特征,空间推理用于处理空间关系,功能抽象用于理解物体的功能,句法基础用于解析指令的语法结构。模型通过课程学习逐步提升能力,仅依赖原始视觉观察进行训练。
关键创新:该研究的创新点在于将四种认知能力系统性地整合到LVLMs中,使其能够在复杂环境中进行更有效的规划,与现有的环境无关模仿学习方法形成鲜明对比。
关键设计:在模型设计中,采用了特定的损失函数以平衡各模块的学习目标,并通过调整网络结构来优化模型的性能,确保在长时间规划和常识推理任务中的有效性。
📊 实验亮点
实验结果显示,Qwen2.5-VL在EB-ALFRED基准测试中实现了60.7的任务成功率提升,常识推理和长时间规划的提升幅度分别达到60.0和70.0,显著优于现有的专有系统如GPT-4o和Claude-3.5-Sonnet。
🎯 应用场景
该研究的潜在应用领域包括机器人导航、智能助手和自动化决策系统等。通过增强模型的环境理解能力,可以在复杂和动态的环境中实现更高效的规划和决策,具有重要的实际价值和未来影响。
📄 摘要(原文)
Large Vision-Language Models (LVLMs) show promise for embodied planning tasks but struggle with complex scenarios involving unfamiliar environments and multi-step goals. Current approaches rely on environment-agnostic imitation learning that disconnects instructions from environmental contexts, causing models to struggle with context-sensitive instructions and rely on supplementary cues rather than visual reasoning during long-horizon interactions. In this work, we propose World-Aware Planning Narrative Enhancement (WAP), a framework that infuses LVLMs with comprehensive environmental understanding through four cognitive capabilities (visual appearance modeling, spatial reasoning, functional abstraction, and syntactic grounding) while developing and evaluating models using only raw visual observations through curriculum learning. Evaluations on the EB-ALFRED benchmark demonstrate substantial improvements, with Qwen2.5-VL achieving a 60.7 absolute improvement in task success rates, particularly in commonsense reasoning (+60.0) and long-horizon planning (+70.0). Notably, our enhanced open-source models outperform proprietary systems like GPT-4o and Claude-3.5-Sonnet by a large margin.