EmbodiedSAM: Online Segment Any 3D Thing in Real Time

📄 arXiv: 2408.11811v3 📥 PDF

作者: Xiuwei Xu, Huangxing Chen, Linqing Zhao, Ziwei Wang, Jie Zhou, Jiwen Lu

分类: cs.CV, cs.RO

发布日期: 2024-08-21 (更新: 2025-02-12)

备注: ICLR25 Oral. Project page: https://xuxw98.github.io/ESAM/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

EmbodiedSAM:实时在线分割任意3D物体,赋能具身智能

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 具身智能 3D实例分割 视觉基础模型 在线感知 实时推理 几何感知 查询解码器

📋 核心要点

  1. 现有VFM辅助的3D感知方法通常是离线的或速度慢,无法满足具身任务对实时性的需求,阻碍了智能体与环境的交互。
  2. EmbodiedSAM提出几何感知查询提升模块,将2D掩码转化为3D感知的查询,并通过双层查询解码器迭代优化,实现细粒度3D形状的重建。
  3. 实验结果表明,EmbodiedSAM在多个数据集上取得了领先的性能,并在零样本迁移和开放词汇场景下展现出强大的泛化能力。

📝 摘要(中文)

具身任务要求智能体在探索环境的同时全面理解3D场景,因此迫切需要一个在线、实时、细粒度和高度泛化的3D感知模型。由于高质量3D数据有限,直接在3D中训练此类模型几乎不可行。同时,视觉基础模型(VFM)以其卓越的性能彻底改变了2D计算机视觉领域,这使得利用VFM辅助具身3D感知成为一个有希望的方向。然而,大多数现有的VFM辅助3D感知方法要么是离线的,要么速度太慢,无法应用于实际的具身任务。本文旨在利用Segment Anything Model(SAM)在在线环境中进行实时3D实例分割。这是一个具有挑战性的问题,因为未来的帧在输入流式RGB-D视频中不可用,并且一个实例可能在多个帧中观察到,因此需要帧之间的对象匹配。为了解决这些挑战,我们首先提出了一个几何感知查询提升模块,用3D感知的查询来表示SAM生成的2D掩码,然后通过双层查询解码器迭代地细化这些查询。通过这种方式,2D掩码被转移到3D点云上的细粒度形状。受益于3D掩码的查询表示,我们可以通过高效的矩阵运算来计算来自不同视角的3D掩码之间的相似度矩阵,从而实现实时推理。在ScanNet、ScanNet200、SceneNN和3RScan上的实验表明,即使与离线方法相比,我们的方法也取得了领先的性能。我们的方法还在几个零样本数据集迁移实验中展示了强大的泛化能力,并在开放词汇和数据高效设置中显示出巨大的潜力。代码和演示可在https://xuxw98.github.io/ESAM/上找到,训练和评估仅需一个RTX 3090 GPU。

🔬 方法详解

问题定义:论文旨在解决具身智能任务中,智能体对3D场景进行实时、在线、细粒度实例分割的问题。现有方法要么依赖离线处理,无法满足实时性需求;要么速度过慢,难以应用于实际的具身任务。此外,高质量的3D数据有限,直接训练3D模型面临挑战。

核心思路:论文的核心思路是利用强大的2D视觉基础模型(VFM),特别是Segment Anything Model (SAM),来辅助3D场景的理解。通过将2D分割结果转化为3D空间中的查询,并进行迭代优化,实现从2D到3D的知识迁移,从而克服3D数据不足的难题,并保证实时性。

技术框架:EmbodiedSAM的整体框架包括以下几个主要模块:1) 几何感知查询提升模块:将SAM生成的2D掩码转化为3D感知的查询表示。2) 双层查询解码器:迭代地细化3D查询,优化3D点云的形状。3) 相似度计算模块:通过高效的矩阵运算,计算不同视角下3D掩码之间的相似度,实现帧间的对象匹配。整个流程以在线方式进行,即逐帧处理RGB-D视频流,无需访问未来帧的信息。

关键创新:EmbodiedSAM的关键创新在于提出了几何感知查询提升模块和双层查询解码器,实现了从2D分割到3D实例分割的有效迁移。与现有方法相比,EmbodiedSAM能够在线、实时地进行3D实例分割,并且具有良好的泛化能力。此外,通过查询表示,实现了高效的跨帧对象匹配。

关键设计:几何感知查询提升模块利用相机内外参数将2D像素坐标反投影到3D空间,生成初始的3D查询。双层查询解码器包含一个全局查询解码器和一个局部查询解码器,分别用于捕捉场景的全局结构和物体的局部细节。相似度计算模块采用余弦相似度来衡量不同视角下3D掩码之间的相似性。损失函数包括分割损失和对比损失,用于优化分割结果和提高特征的区分性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EmbodiedSAM在ScanNet、ScanNet200、SceneNN和3RScan等数据集上取得了领先的性能,甚至优于一些离线方法。零样本迁移实验表明,EmbodiedSAM具有强大的泛化能力,可以在未见过的场景中进行有效的3D实例分割。该方法仅需一个RTX 3090 GPU即可进行训练和评估,具有良好的可扩展性。

🎯 应用场景

EmbodiedSAM在机器人导航、场景理解、增强现实等领域具有广泛的应用前景。它可以帮助机器人在未知环境中进行自主探索和交互,例如家庭服务机器人、自动驾驶汽车等。此外,该方法还可以应用于3D场景重建、虚拟现实内容生成等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

Embodied tasks require the agent to fully understand 3D scenes simultaneously with its exploration, so an online, real-time, fine-grained and highly-generalized 3D perception model is desperately needed. Since high-quality 3D data is limited, directly training such a model in 3D is almost infeasible. Meanwhile, vision foundation models (VFM) has revolutionized the field of 2D computer vision with superior performance, which makes the use of VFM to assist embodied 3D perception a promising direction. However, most existing VFM-assisted 3D perception methods are either offline or too slow that cannot be applied in practical embodied tasks. In this paper, we aim to leverage Segment Anything Model (SAM) for real-time 3D instance segmentation in an online setting. This is a challenging problem since future frames are not available in the input streaming RGB-D video, and an instance may be observed in several frames so object matching between frames is required. To address these challenges, we first propose a geometric-aware query lifting module to represent the 2D masks generated by SAM by 3D-aware queries, which is then iteratively refined by a dual-level query decoder. In this way, the 2D masks are transferred to fine-grained shapes on 3D point clouds. Benefit from the query representation for 3D masks, we can compute the similarity matrix between the 3D masks from different views by efficient matrix operation, which enables real-time inference. Experiments on ScanNet, ScanNet200, SceneNN and 3RScan show our method achieves leading performance even compared with offline methods. Our method also demonstrates great generalization ability in several zero-shot dataset transferring experiments and show great potential in open-vocabulary and data-efficient setting. Code and demo are available at https://xuxw98.github.io/ESAM/, with only one RTX 3090 GPU required for training and evaluation.