MomaGraph: State-Aware Unified Scene Graphs with Vision-Language Model for Embodied Task Planning
作者: Yuanchen Ju, Yongyuan Liang, Yen-Jen Wang, Nandiraju Gireesh, Yuanliang Ju, Seungjae Lee, Qiao Gu, Elvis Hsieh, Furong Huang, Koushil Sreenath
分类: cs.CV, cs.RO
发布日期: 2025-12-18
备注: 25 pages, 10 figures. Project page:https://hybridrobotics.github.io/MomaGraph/
💡 一句话要点
提出MomaGraph,利用视觉-语言模型为具身任务规划构建状态感知的统一场景图。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 场景图 具身智能 视觉-语言模型 任务规划 强化学习
📋 核心要点
- 现有场景图方法通常分离空间和功能关系,将场景视为静态快照,忽略了与当前任务最相关的信息。
- MomaGraph通过整合空间-功能关系和部件级别的交互元素,为具身智能体提供了一种统一的场景表示。
- MomaGraph-R1模型在基准测试中达到71.6%的准确率,超越现有最佳基线11.4%,并在真实机器人实验中表现出良好的泛化能力。
📝 摘要(中文)
本文提出MomaGraph,一种用于具身智能体的统一场景表示,它集成了空间-功能关系和部件级别的交互元素。为了推进这种表示,本文构建了MomaGraph-Scenes,这是首个大规模的、带有丰富标注的、任务驱动的家庭环境场景图数据集,以及MomaGraph-Bench,一个涵盖从高层规划到细粒度场景理解的六种推理能力的系统评估套件。在此基础上,本文进一步开发了MomaGraph-R1,一个在MomaGraph-Scenes上通过强化学习训练的7B视觉-语言模型。MomaGraph-R1预测面向任务的场景图,并在Graph-then-Plan框架下作为零样本任务规划器。大量实验表明,本文的模型在开源模型中取得了最先进的结果,在基准测试中达到了71.6%的准确率(比最佳基线高出11.4%),同时推广到公共基准测试并有效地转移到真实机器人实验。
🔬 方法详解
问题定义:现有场景图方法在移动操作机器人的应用中存在局限性。它们通常将空间关系和功能关系分离处理,缺乏对物体状态的感知和时间更新,并且忽略了与当前任务密切相关的信息。这导致机器人难以有效地进行导航和操作任务规划。
核心思路:本文的核心思路是构建一个统一的、状态感知的场景图表示,即MomaGraph。该场景图不仅包含物体的位置信息,还包含物体的功能、可交互部件以及它们的状态信息。通过这种方式,机器人可以更好地理解场景,并根据当前任务进行规划。
技术框架:MomaGraph的整体框架包含以下几个主要部分:首先,构建大规模的、带有丰富标注的场景图数据集MomaGraph-Scenes。然后,基于该数据集,训练一个视觉-语言模型MomaGraph-R1,该模型能够预测面向任务的场景图。最后,利用预测的场景图,在Graph-then-Plan框架下进行零样本任务规划。
关键创新:MomaGraph的关键创新在于其统一的场景表示,它将空间、功能和状态信息整合在一起,从而为机器人提供了更全面的场景理解。此外,MomaGraph-Scenes数据集的构建也为相关研究提供了宝贵的数据资源。MomaGraph-R1模型利用视觉-语言模型进行场景图预测,并结合强化学习进行训练,进一步提升了其性能。
关键设计:MomaGraph-R1是一个7B参数的视觉-语言模型,它在MomaGraph-Scenes数据集上进行训练。训练过程中,使用了强化学习来优化模型的性能。Graph-then-Plan框架将任务规划分解为两个阶段:首先,预测场景图;然后,基于场景图进行规划。这种分解方式简化了任务规划的难度,并提高了规划的效率。
🖼️ 关键图片
📊 实验亮点
MomaGraph-R1在MomaGraph-Bench基准测试中取得了71.6%的准确率,相比于最佳基线提高了11.4%。此外,该模型还在公共基准测试中表现出良好的泛化能力,并成功地转移到真实机器人实验中。这些结果表明,MomaGraph是一种有效的场景表示方法,可以显著提升机器人的任务规划能力。
🎯 应用场景
MomaGraph在家庭服务机器人、自动驾驶、虚拟现实等领域具有广泛的应用前景。它可以帮助机器人在复杂环境中进行导航、操作和任务规划,提高机器人的自主性和智能化水平。例如,家庭服务机器人可以利用MomaGraph来理解用户的指令,并完成诸如清洁、整理和烹饪等任务。
📄 摘要(原文)
Mobile manipulators in households must both navigate and manipulate. This requires a compact, semantically rich scene representation that captures where objects are, how they function, and which parts are actionable. Scene graphs are a natural choice, yet prior work often separates spatial and functional relations, treats scenes as static snapshots without object states or temporal updates, and overlooks information most relevant for accomplishing the current task. To address these limitations, we introduce MomaGraph, a unified scene representation for embodied agents that integrates spatial-functional relationships and part-level interactive elements. However, advancing such a representation requires both suitable data and rigorous evaluation, which have been largely missing. We thus contribute MomaGraph-Scenes, the first large-scale dataset of richly annotated, task-driven scene graphs in household environments, along with MomaGraph-Bench, a systematic evaluation suite spanning six reasoning capabilities from high-level planning to fine-grained scene understanding. Built upon this foundation, we further develop MomaGraph-R1, a 7B vision-language model trained with reinforcement learning on MomaGraph-Scenes. MomaGraph-R1 predicts task-oriented scene graphs and serves as a zero-shot task planner under a Graph-then-Plan framework. Extensive experiments demonstrate that our model achieves state-of-the-art results among open-source models, reaching 71.6% accuracy on the benchmark (+11.4% over the best baseline), while generalizing across public benchmarks and transferring effectively to real-robot experiments.