FOUND-IT: Foundation-model-first Task-driven 3D Scene Graphs with Granularity on Demand

📄 arXiv: 2605.25371v1 📥 PDF

作者: Dominic Maggio, Nicolas Gorlo, Luca Carlone

分类: cs.RO

发布日期: 2026-05-25


💡 一句话要点

FOUND-IT:基于几何基础模型的按需粒度任务驱动3D场景图构建

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D场景图 几何基础模型 任务驱动 粒度调整 机器人导航 机器人操作 单目视觉

📋 核心要点

  1. 现有方法难以在任务驱动下,动态调整3D场景图的粒度,以适应机器人操作过程中不断变化的任务需求。
  2. FOUND-IT利用几何基础模型,并添加额外头部以重建可通行性信息,实现按需粒度的任务驱动3D场景图构建。
  3. 实验表明,FOUND-IT在ASHiTA SG3D任务基础基准测试中准确率提升79%,并可在Jetson Thor上实时运行。

📝 摘要(中文)

本文提出了一种新方法,能够使用未标定的单目相机实时构建任意室内或室外环境的分层任务驱动3D场景图。该方法利用几何基础模型来估计场景图的几何属性(例如,对象边界框),并且通过向现有的几何基础模型(如VGGT)添加额外的头部,可以直接重建可通行性信息(场景图的“位置”层)。该方法是任务驱动的,可以根据任务调整地图中对象和区域的粒度。例如,在操作任务期间,能够识别炉子上的小旋钮,而在导航任务期间,可以专注于大型对象(例如,整个炉子)。与相关工作的主要区别在于,本文考虑了任务列表不是预定义和固定的,而是随着机器人操作而演变的实际情况。这自然地允许处理复杂的loco-manipulation任务,其中机器人可以动态地调整其表示,随着任务的展开。该方法被称为FOUND-IT。FOUND-IT还包括一种代理方法来查询场景图中的信息。在ASHiTA SG3D任务基础基准测试中,该方法实现了79%的准确率提升。此外,该方法在Jetson Thor上使用地面机器人实时运行。为了突出该方法的鲁棒性,展示了在YouTube上随意捕获的房地产公寓导览视频上构建3D场景图。

🔬 方法详解

问题定义:现有3D场景图构建方法难以根据机器人任务动态调整场景图的粒度,无法有效应对复杂loco-manipulation任务中不断变化的需求。此外,现有方法通常假设任务列表是预先定义好的,这在实际应用中是不现实的。

核心思路:FOUND-IT的核心思路是利用几何基础模型,并在此基础上进行扩展,使其能够根据任务需求动态调整场景图的粒度。通过添加额外的头部到几何基础模型,可以重建可通行性信息,从而构建更完整的场景图。这种任务驱动的方法使得机器人能够专注于与当前任务相关的对象和区域,从而提高效率和准确性。

技术框架:FOUND-IT的整体框架包括以下几个主要模块:1) 使用单目相机获取环境图像;2) 利用几何基础模型(如VGGT)估计场景的几何属性,例如对象边界框;3) 通过添加额外的头部到几何基础模型,重建可通行性信息;4) 根据当前任务的需求,动态调整场景图的粒度;5) 使用代理方法查询场景图中的信息。

关键创新:FOUND-IT的关键创新在于其任务驱动的粒度调整机制。与现有方法不同,FOUND-IT能够根据任务的需求动态地调整场景图中对象和区域的粒度。这使得机器人能够专注于与当前任务相关的对象和区域,从而提高效率和准确性。此外,FOUND-IT还考虑了任务列表不是预定义和固定的,而是随着机器人操作而演变的实际情况。

关键设计:FOUND-IT的关键设计包括:1) 使用几何基础模型来估计场景的几何属性;2) 通过添加额外的头部到几何基础模型,重建可通行性信息;3) 设计了一种任务驱动的粒度调整机制,可以根据任务的需求动态地调整场景图中对象和区域的粒度;4) 设计了一种代理方法来查询场景图中的信息。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FOUND-IT在ASHiTA SG3D任务基础基准测试中取得了显著的成果,准确率比现有方法提高了79%。此外,该方法能够在Jetson Thor上实时运行,证明了其在实际应用中的可行性。通过在YouTube上随意捕获的房地产公寓导览视频上构建3D场景图,进一步验证了该方法的鲁棒性。

🎯 应用场景

FOUND-IT在机器人导航、操作和人机交互等领域具有广泛的应用前景。例如,可以应用于家庭服务机器人,使其能够根据用户的指令完成各种任务,如清洁、烹饪和整理物品。此外,还可以应用于工业机器人,使其能够更有效地执行复杂的装配和维护任务。该研究的实际价值在于提高了机器人的自主性和适应性,使其能够更好地适应各种复杂环境和任务。

📄 摘要(原文)

We present the first approach to build hierarchical task-driven 3D scene graphs of arbitrary indoor or outdoor environments using an uncalibrated monocular camera in real-time. We leverage geometric foundation models to estimate geometric attributes of the scene graph (e.g., object bounding boxes), but we also observe that traversability information (the "places" layer of a scene graph) can be directly reconstructed by adding an extra head to existing geometric foundation models, like VGGT. Our approach is task-driven in the sense that we adjust the granularity of the objects and regions in the map depending on the task; for instance, during a manipulation task, our approach is able to resolve small knobs on a stove, while during a navigation task it can focus on large objects (e.g., the entire stove). However, in a major departure from related work, we consider the realistic case where the list of tasks is not predefined and fixed, but evolves as the robot operates. This naturally allows dealing with complex loco-manipulation tasks, where the robot can dynamically adjust its representation as the task unfolds. We dub the resulting approach FOUND-IT. FOUND-IT also includes an agentic approach to query information in the scene graph. In addition to achieving 79% higher accuracy on the ASHiTA SG3D task grounding benchmark, we demonstrate FOUND-IT runs in real-time on a ground robot using a Jetson Thor. Furthermore, to highlight the robustness of our method, we demonstrate constructing 3D scene graphs on casually captured realtor apartment tours from YouTube. Code will be made available upon publication.