ESCA: Contextualizing Embodied Agents via Scene-Graph Generation
作者: Jiani Huang, Amish Sethi, Matthew Kuo, Mayank Keoliya, Neelay Velingker, JungHo Jung, Ser-Nam Lim, Ziyang Li, Mayur Naik
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-10-11 (更新: 2025-10-27)
备注: Accepted as a Spotlight Paper at NeurIPS 2025
💡 一句话要点
提出ESCA框架,通过场景图生成增强具身智能体的上下文感知能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能体 场景图生成 多模态学习 上下文感知 开放域视频
📋 核心要点
- 现有MLLM在具身智能体中存在低层视觉与高层语义连接薄弱的问题,导致感知不准确。
- ESCA框架通过时空场景图 grounding 智能体的感知,增强上下文理解能力。
- SGCLIP模型在场景图生成和动作定位上达到SOTA,并提升了具身智能体的感知性能。
📝 摘要(中文)
多模态大型语言模型(MLLM)在通用具身智能体方面取得了快速进展。然而,现有的MLLM无法可靠地捕捉低层视觉特征和高层文本语义之间的细粒度联系,导致弱 grounding 和不准确的感知。为了克服这一挑战,我们提出了ESCA,一个通过将具身智能体的感知 grounding 在时空场景图中来对其进行上下文关联的框架。其核心是SGCLIP,一个基于CLIP的新型、开放域、可提示的场景图生成基础模型。SGCLIP使用神经符号管道在87K+开放域视频上进行训练,该管道将自动生成的字幕与模型自身生成的场景图对齐,无需人工标注。我们证明了SGCLIP在基于提示的推理和特定任务微调方面表现出色,在场景图生成和动作定位基准测试中取得了最先进的结果。基于开源和商业MLLM,ESCA与SGCLIP一起提高了具身智能体的感知能力,在两个具身环境中实现了最先进的性能。值得注意的是,ESCA显著减少了智能体的感知错误,并使开源模型能够超越专有基线。我们发布了SGCLIP模型训练的源代码在https://github.com/video-fm/LASER,以及具身智能体的代码在https://github.com/video-fm/ESCA。
🔬 方法详解
问题定义:论文旨在解决具身智能体在感知环境中存在的 grounding 不足和感知不准确的问题。现有方法难以有效连接低层视觉特征和高层文本语义,导致智能体无法准确理解周围环境,从而影响其决策和行动。
核心思路:论文的核心思路是利用场景图来表示环境的结构化信息,并将智能体的感知 grounding 在这些场景图上。通过学习视觉特征与场景图之间的映射关系,智能体可以更好地理解环境,从而提高感知准确性。这种方法将视觉信息与结构化知识相结合,弥补了现有MLLM的不足。
技术框架:ESCA框架的核心是SGCLIP模型,它是一个基于CLIP的场景图生成模型。整个框架包含以下几个主要步骤:1) 使用SGCLIP模型从视频中生成场景图;2) 将生成的场景图与智能体的感知信息融合;3) 利用融合后的信息进行决策和行动。SGCLIP模型使用神经符号管道进行训练,该管道将自动生成的字幕与模型自身生成的场景图对齐。
关键创新:论文的关键创新在于SGCLIP模型,它是一个开放域、可提示的场景图生成模型,无需人工标注即可进行训练。SGCLIP模型能够有效地捕捉视频中的对象、关系和属性,并生成高质量的场景图。此外,ESCA框架将场景图与智能体的感知信息融合,从而提高了智能体的感知准确性。
关键设计:SGCLIP模型的训练使用了大量的开放域视频数据,并采用了一种神经符号管道,该管道将自动生成的字幕与模型自身生成的场景图对齐。这种方法避免了人工标注的成本,并提高了模型的泛化能力。此外,ESCA框架还设计了一种融合机制,将场景图与智能体的感知信息有效地融合。
🖼️ 关键图片
📊 实验亮点
SGCLIP在场景图生成和动作定位基准测试中取得了SOTA结果。ESCA框架显著减少了智能体的感知错误,并使开源模型在具身环境中超越了专有基线。实验结果表明,ESCA能够有效提高具身智能体的感知能力和决策能力。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、智能家居等领域。通过增强智能体对环境的理解能力,可以提高其在复杂环境中的适应性和可靠性。未来,该技术有望应用于更广泛的具身智能体应用,例如辅助医疗、工业自动化等。
📄 摘要(原文)
Multi-modal large language models (MLLMs) are making rapid progress toward general-purpose embodied agents. However, existing MLLMs do not reliably capture fine-grained links between low-level visual features and high-level textual semantics, leading to weak grounding and inaccurate perception. To overcome this challenge, we propose ESCA, a framework that contextualizes embodied agents by grounding their perception in spatial-temporal scene graphs. At its core is SGCLIP, a novel, open-domain, promptable foundation model for generating scene graphs that is based on CLIP. SGCLIP is trained on 87K+ open-domain videos using a neurosymbolic pipeline that aligns automatically generated captions with scene graphs produced by the model itself, eliminating the need for human-labeled annotations. We demonstrate that SGCLIP excels in both prompt-based inference and task-specific fine-tuning, achieving state-of-the-art results on scene graph generation and action localization benchmarks. ESCA with SGCLIP improves perception for embodied agents based on both open-source and commercial MLLMs, achieving state of-the-art performance across two embodied environments. Notably, ESCA significantly reduces agent perception errors and enables open-source models to surpass proprietary baselines. We release the source code for SGCLIP model training at https://github.com/video-fm/LASER and for the embodied agent at https://github.com/video-fm/ESCA.