LookPlanGraph: Embodied Instruction Following Method with VLM Graph Augmentation

📄 arXiv: 2512.21243v1 📥 PDF

作者: Anatoly O. Onishchenko, Alexey K. Kovalev, Aleksandr I. Panov

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-12-24


💡 一句话要点

提出LookPlanGraph,利用VLM图增强实现具身指令跟随任务

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 指令跟随 视觉语言模型 场景图 动态环境

📋 核心要点

  1. 现有具身指令跟随方法依赖预构建的静态场景图,无法应对环境变化带来的挑战。
  2. LookPlanGraph通过VLM持续更新场景图,使智能体能够感知并适应环境变化,提升任务完成度。
  3. 实验表明,LookPlanGraph在模拟和真实环境中均优于静态场景图方法,验证了其有效性。

📝 摘要(中文)

本文提出LookPlanGraph,一种利用视觉语言模型(VLM)进行图增强的具身指令跟随方法。该方法使用包含静态资产和对象先验的场景图。在计划执行期间,LookPlanGraph通过验证现有先验或发现新实体,利用智能体的自我中心相机视图,并使用VLM持续更新图。实验在VirtualHome和OmniGibson模拟环境中进行,结果表明LookPlanGraph优于基于预定义静态场景图的方法。同时,在真实环境中也进行了实验,验证了该方法的实际应用性。此外,本文还引入了GraSIF数据集,包含来自SayPlan Office、BEHAVIOR-1K和VirtualHome RobotHow的514个任务,并带有自动验证框架。

🔬 方法详解

问题定义:现有基于LLM的具身指令跟随方法依赖于预先构建的静态场景图。然而,现实环境中物体的位置和状态可能发生变化,静态场景图无法反映这些变化,导致智能体无法正确执行指令。因此,需要一种能够动态更新场景图的方法,以适应环境变化。

核心思路:LookPlanGraph的核心思路是在计划执行过程中,利用智能体的自我中心视觉信息,通过视觉语言模型(VLM)持续更新场景图。具体来说,VLM用于验证已知的对象先验信息,并发现新的对象实体,从而保持场景图与实际环境的一致性。

技术框架:LookPlanGraph的整体框架包含以下几个主要模块:1) 静态场景图构建:利用已有的环境信息构建初始的场景图,包含静态物体和对象先验。2) 视觉感知模块:利用智能体的自我中心相机获取视觉信息。3) VLM图更新模块:使用VLM处理视觉信息,验证对象先验,发现新对象,并更新场景图。4) 规划模块:利用更新后的场景图,LLM生成执行计划。5) 执行模块:执行生成的计划,并重复视觉感知和图更新过程。

关键创新:LookPlanGraph的关键创新在于动态场景图的构建和更新机制。与传统的静态场景图方法不同,LookPlanGraph能够根据智能体的视觉感知信息,实时更新场景图,从而适应环境变化。这种动态更新机制使得智能体能够更好地理解和适应环境,提高任务完成的成功率。

关键设计:VLM的选择是关键设计之一。论文中使用的VLM需要具备强大的视觉理解和语言推理能力,能够准确识别物体,并将其与场景图中的节点进行关联。此外,图更新的频率和策略也需要仔细设计,以平衡计算成本和环境感知能力。损失函数的设计需要考虑如何有效地利用VLM的输出,来更新场景图中的节点和边。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LookPlanGraph在VirtualHome和OmniGibson模拟环境中,以及真实环境中,均优于基于静态场景图的方法。具体而言,在环境发生变化的情况下,LookPlanGraph能够显著提高任务完成的成功率,验证了其动态场景图更新机制的有效性。GraSIF数据集的引入也为具身指令跟随领域的研究提供了新的基准。

🎯 应用场景

LookPlanGraph可应用于各种需要智能体与动态环境交互的场景,例如家庭服务机器人、仓储物流机器人、自动驾驶等。该方法能够提高智能体在复杂、变化环境中的适应性和任务完成能力,具有重要的实际应用价值和广阔的发展前景。

📄 摘要(原文)

Methods that use Large Language Models (LLM) as planners for embodied instruction following tasks have become widespread. To successfully complete tasks, the LLM must be grounded in the environment in which the robot operates. One solution is to use a scene graph that contains all the necessary information. Modern methods rely on prebuilt scene graphs and assume that all task-relevant information is available at the start of planning. However, these approaches do not account for changes in the environment that may occur between the graph construction and the task execution. We propose LookPlanGraph - a method that leverages a scene graph composed of static assets and object priors. During plan execution, LookPlanGraph continuously updates the graph with relevant objects, either by verifying existing priors or discovering new entities. This is achieved by processing the agents egocentric camera view using a Vision Language Model. We conducted experiments with changed object positions VirtualHome and OmniGibson simulated environments, demonstrating that LookPlanGraph outperforms methods based on predefined static scene graphs. To demonstrate the practical applicability of our approach, we also conducted experiments in a real-world setting. Additionally, we introduce the GraSIF (Graph Scenes for Instruction Following) dataset with automated validation framework, comprising 514 tasks drawn from SayPlan Office, BEHAVIOR-1K, and VirtualHome RobotHow. Project page available at https://lookplangraph.github.io .