EA3D: Online Open-World 3D Object Extraction from Streaming Videos
作者: Xiaoyu Zhou, Jingqi Wang, Yuang Jia, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang
分类: cs.CV
发布日期: 2025-10-29
备注: The Thirty-Ninth Annual Conference on Neural Information Processing Systems(NeurIPS 2025)
💡 一句话要点
EA3D:从视频流中在线提取开放世界3D对象,实现几何重建与场景理解
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D重建 场景理解 开放世界 在线学习 视觉语言模型 视频流处理 高斯特征图
📋 核心要点
- 现有3D场景理解方法受限于离线采集的多视角数据或预先构建的3D几何,难以适应开放世界。
- EA3D利用视觉-语言模型和2D视觉基础模型,从视频流中在线提取对象级知识,并融入高斯特征图。
- 实验表明,EA3D在照片级渲染、语义分割、3D目标检测等任务上表现出色,验证了其有效性。
📝 摘要(中文)
本文提出ExtractAnything3D (EA3D),一个统一的在线框架,用于开放世界3D对象提取,能够同时进行几何重建和整体场景理解。给定视频流,EA3D利用视觉-语言和2D视觉基础编码器动态地解释每一帧,提取对象级别的知识。这些知识通过前馈在线更新策略被整合并嵌入到高斯特征图中。然后,从历史帧迭代估计视觉里程计,并使用新的观测结果增量更新在线高斯特征。一个循环联合优化模块引导模型关注感兴趣区域,同时增强几何重建和语义理解。在各种基准和任务(包括照片级真实感渲染、语义和实例分割、3D边界框和语义占用估计以及3D网格生成)上的大量实验证明了EA3D的有效性。我们的方法建立了一个统一高效的框架,用于联合在线3D重建和整体场景理解,从而实现广泛的下游任务。
🔬 方法详解
问题定义:现有3D场景理解方法依赖离线多视角数据或预构建的3D几何,无法有效处理开放世界场景中的动态变化和新对象。痛点在于缺乏能够在线处理视频流并进行实时3D重建和语义理解的统一框架。
核心思路:EA3D的核心思路是利用视觉-语言模型和2D视觉基础模型,从视频流中提取对象级别的知识,并将其整合到高斯特征图中。通过在线更新和循环优化,实现几何重建和语义理解的协同增强。这种设计允许模型动态适应新观测,并关注场景中的关键区域。
技术框架:EA3D框架包含以下主要模块:1) 视觉-语言和2D视觉基础编码器,用于提取每帧图像的对象级知识;2) 高斯特征图,用于整合和嵌入提取的知识;3) 在线更新策略,用于增量更新高斯特征图;4) 视觉里程计估计模块,用于估计相机位姿;5) 循环联合优化模块,用于增强几何重建和语义理解。整个流程以在线方式处理视频流,实现实时的3D场景理解。
关键创新:EA3D的关键创新在于其统一的在线框架,能够同时进行几何重建和整体场景理解。与现有方法相比,EA3D无需离线数据或预构建的3D几何,能够动态适应开放世界场景中的变化。循环联合优化模块是另一个创新点,它通过引导模型关注感兴趣区域,实现了几何重建和语义理解的协同增强。
关键设计:EA3D使用高斯特征图来表示场景,每个高斯特征包含位置、颜色、语义等信息。在线更新策略采用前馈方式,以保证实时性。循环联合优化模块使用循环神经网络来建模历史信息,并使用联合损失函数来优化几何重建和语义理解。具体的损失函数包括几何损失(如点云距离)和语义损失(如交叉熵损失)。视觉里程计的估计采用经典的SLAM算法,并根据实际场景进行调整。
🖼️ 关键图片
📊 实验亮点
EA3D在多个基准测试中表现出色,包括照片级真实感渲染、语义和实例分割、3D边界框和语义占用估计以及3D网格生成。具体性能数据未在摘要中给出,但强调了EA3D在这些任务上的有效性,并建立了一个统一高效的框架,用于联合在线3D重建和整体场景理解。
🎯 应用场景
EA3D具有广泛的应用前景,包括机器人导航、自动驾驶、增强现实、虚拟现实等领域。该技术能够帮助机器人或自动驾驶车辆实时理解周围环境,从而做出更安全、更智能的决策。在AR/VR领域,EA3D可以用于构建更逼真的虚拟场景,并实现更自然的交互。
📄 摘要(原文)
Current 3D scene understanding methods are limited by offline-collected multi-view data or pre-constructed 3D geometry. In this paper, we present ExtractAnything3D (EA3D), a unified online framework for open-world 3D object extraction that enables simultaneous geometric reconstruction and holistic scene understanding. Given a streaming video, EA3D dynamically interprets each frame using vision-language and 2D vision foundation encoders to extract object-level knowledge. This knowledge is integrated and embedded into a Gaussian feature map via a feed-forward online update strategy. We then iteratively estimate visual odometry from historical frames and incrementally update online Gaussian features with new observations. A recurrent joint optimization module directs the model's attention to regions of interest, simultaneously enhancing both geometric reconstruction and semantic understanding. Extensive experiments across diverse benchmarks and tasks, including photo-realistic rendering, semantic and instance segmentation, 3D bounding box and semantic occupancy estimation, and 3D mesh generation, demonstrate the effectiveness of EA3D. Our method establishes a unified and efficient framework for joint online 3D reconstruction and holistic scene understanding, enabling a broad range of downstream tasks.