ESCA: Contextualizing Embodied Agents via Scene-Graph Generation

作者: Jiani Huang, Amish Sethi, Matthew Kuo, Mayank Keoliya, Neelay Velingker, JungHo Jung, Ser-Nam Lim, Ziyang Li, Mayur Naik

分类: cs.CV, cs.AI, cs.LG

发布日期: 2025-10-11 (更新: 2025-10-27)

备注: Accepted as a Spotlight Paper at NeurIPS 2025

🔗 代码/项目: GITHUB | GITHUB

💡 一句话要点

提出ESCA框架，通过场景图生成增强具身智能体的上下文感知能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能体 场景图生成 多模态学习 上下文感知 开放域视频

📋 核心要点

现有MLLM在具身智能体中存在低层视觉与高层语义连接薄弱的问题，导致感知不准确。
ESCA框架通过时空场景图 grounding 智能体的感知，增强上下文理解能力。
SGCLIP模型在场景图生成和动作定位上达到SOTA，并提升了具身智能体的感知性能。

📝 摘要（中文）

多模态大型语言模型(MLLM)在通用具身智能体方面取得了快速进展。然而，现有的MLLM无法可靠地捕捉低层视觉特征和高层文本语义之间的细粒度联系，导致弱 grounding 和不准确的感知。为了克服这一挑战，我们提出了ESCA，一个通过将具身智能体的感知 grounding 在时空场景图中来对其进行上下文关联的框架。其核心是SGCLIP，一个基于CLIP的新型、开放域、可提示的场景图生成基础模型。SGCLIP使用神经符号管道在87K+开放域视频上进行训练，该管道将自动生成的字幕与模型自身生成的场景图对齐，无需人工标注。我们证明了SGCLIP在基于提示的推理和特定任务微调方面表现出色，在场景图生成和动作定位基准测试中取得了最先进的结果。基于开源和商业MLLM，ESCA与SGCLIP一起提高了具身智能体的感知能力，在两个具身环境中实现了最先进的性能。值得注意的是，ESCA显著减少了智能体的感知错误，并使开源模型能够超越专有基线。我们发布了SGCLIP模型训练的源代码在https://github.com/video-fm/LASER，以及具身智能体的代码在https://github.com/video-fm/ESCA。

🔬 方法详解

问题定义：论文旨在解决具身智能体在感知环境中存在的 grounding 不足和感知不准确的问题。现有方法难以有效连接低层视觉特征和高层文本语义，导致智能体无法准确理解周围环境，从而影响其决策和行动。

核心思路：论文的核心思路是利用场景图来表示环境的结构化信息，并将智能体的感知 grounding 在这些场景图上。通过学习视觉特征与场景图之间的映射关系，智能体可以更好地理解环境，从而提高感知准确性。这种方法将视觉信息与结构化知识相结合，弥补了现有MLLM的不足。

技术框架：ESCA框架的核心是SGCLIP模型，它是一个基于CLIP的场景图生成模型。整个框架包含以下几个主要步骤：1) 使用SGCLIP模型从视频中生成场景图；2) 将生成的场景图与智能体的感知信息融合；3) 利用融合后的信息进行决策和行动。SGCLIP模型使用神经符号管道进行训练，该管道将自动生成的字幕与模型自身生成的场景图对齐。

关键创新：论文的关键创新在于SGCLIP模型，它是一个开放域、可提示的场景图生成模型，无需人工标注即可进行训练。SGCLIP模型能够有效地捕捉视频中的对象、关系和属性，并生成高质量的场景图。此外，ESCA框架将场景图与智能体的感知信息融合，从而提高了智能体的感知准确性。

关键设计：SGCLIP模型的训练使用了大量的开放域视频数据，并采用了一种神经符号管道，该管道将自动生成的字幕与模型自身生成的场景图对齐。这种方法避免了人工标注的成本，并提高了模型的泛化能力。此外，ESCA框架还设计了一种融合机制，将场景图与智能体的感知信息有效地融合。

🖼️ 关键图片

📊 实验亮点

SGCLIP在场景图生成和动作定位基准测试中取得了SOTA结果。ESCA框架显著减少了智能体的感知错误，并使开源模型在具身环境中超越了专有基线。实验结果表明，ESCA能够有效提高具身智能体的感知能力和决策能力。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、智能家居等领域。通过增强智能体对环境的理解能力，可以提高其在复杂环境中的适应性和可靠性。未来，该技术有望应用于更广泛的具身智能体应用，例如辅助医疗、工业自动化等。

📄 摘要（原文）

Multi-modal large language models (MLLMs) are making rapid progress toward general-purpose embodied agents. However, existing MLLMs do not reliably capture fine-grained links between low-level visual features and high-level textual semantics, leading to weak grounding and inaccurate perception. To overcome this challenge, we propose ESCA, a framework that contextualizes embodied agents by grounding their perception in spatial-temporal scene graphs. At its core is SGCLIP, a novel, open-domain, promptable foundation model for generating scene graphs that is based on CLIP. SGCLIP is trained on 87K+ open-domain videos using a neurosymbolic pipeline that aligns automatically generated captions with scene graphs produced by the model itself, eliminating the need for human-labeled annotations. We demonstrate that SGCLIP excels in both prompt-based inference and task-specific fine-tuning, achieving state-of-the-art results on scene graph generation and action localization benchmarks. ESCA with SGCLIP improves perception for embodied agents based on both open-source and commercial MLLMs, achieving state of-the-art performance across two embodied environments. Notably, ESCA significantly reduces agent perception errors and enables open-source models to surpass proprietary baselines. We release the source code for SGCLIP model training at https://github.com/video-fm/LASER and for the embodied agent at https://github.com/video-fm/ESCA.

ESCA: Contextualizing Embodied Agents via Scene-Graph Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理