EA3D: Online Open-World 3D Object Extraction from Streaming Videos

作者: Xiaoyu Zhou, Jingqi Wang, Yuang Jia, Yongtao Wang, Deqing Sun, Ming-Hsuan Yang

分类: cs.CV

发布日期: 2025-10-29

备注: The Thirty-Ninth Annual Conference on Neural Information Processing Systems(NeurIPS 2025)

💡 一句话要点

EA3D：从视频流中在线提取开放世界3D对象，实现几何重建与场景理解

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D重建 场景理解 开放世界 在线学习 视觉语言模型 视频流处理 高斯特征图

📋 核心要点

现有3D场景理解方法受限于离线采集的多视角数据或预先构建的3D几何，难以适应开放世界。
EA3D利用视觉-语言模型和2D视觉基础模型，从视频流中在线提取对象级知识，并融入高斯特征图。
实验表明，EA3D在照片级渲染、语义分割、3D目标检测等任务上表现出色，验证了其有效性。

📝 摘要（中文）

本文提出ExtractAnything3D (EA3D)，一个统一的在线框架，用于开放世界3D对象提取，能够同时进行几何重建和整体场景理解。给定视频流，EA3D利用视觉-语言和2D视觉基础编码器动态地解释每一帧，提取对象级别的知识。这些知识通过前馈在线更新策略被整合并嵌入到高斯特征图中。然后，从历史帧迭代估计视觉里程计，并使用新的观测结果增量更新在线高斯特征。一个循环联合优化模块引导模型关注感兴趣区域，同时增强几何重建和语义理解。在各种基准和任务（包括照片级真实感渲染、语义和实例分割、3D边界框和语义占用估计以及3D网格生成）上的大量实验证明了EA3D的有效性。我们的方法建立了一个统一高效的框架，用于联合在线3D重建和整体场景理解，从而实现广泛的下游任务。

🔬 方法详解

问题定义：现有3D场景理解方法依赖离线多视角数据或预构建的3D几何，无法有效处理开放世界场景中的动态变化和新对象。痛点在于缺乏能够在线处理视频流并进行实时3D重建和语义理解的统一框架。

核心思路：EA3D的核心思路是利用视觉-语言模型和2D视觉基础模型，从视频流中提取对象级别的知识，并将其整合到高斯特征图中。通过在线更新和循环优化，实现几何重建和语义理解的协同增强。这种设计允许模型动态适应新观测，并关注场景中的关键区域。

技术框架：EA3D框架包含以下主要模块：1) 视觉-语言和2D视觉基础编码器，用于提取每帧图像的对象级知识；2) 高斯特征图，用于整合和嵌入提取的知识；3) 在线更新策略，用于增量更新高斯特征图；4) 视觉里程计估计模块，用于估计相机位姿；5) 循环联合优化模块，用于增强几何重建和语义理解。整个流程以在线方式处理视频流，实现实时的3D场景理解。

关键创新：EA3D的关键创新在于其统一的在线框架，能够同时进行几何重建和整体场景理解。与现有方法相比，EA3D无需离线数据或预构建的3D几何，能够动态适应开放世界场景中的变化。循环联合优化模块是另一个创新点，它通过引导模型关注感兴趣区域，实现了几何重建和语义理解的协同增强。

关键设计：EA3D使用高斯特征图来表示场景，每个高斯特征包含位置、颜色、语义等信息。在线更新策略采用前馈方式，以保证实时性。循环联合优化模块使用循环神经网络来建模历史信息，并使用联合损失函数来优化几何重建和语义理解。具体的损失函数包括几何损失（如点云距离）和语义损失（如交叉熵损失）。视觉里程计的估计采用经典的SLAM算法，并根据实际场景进行调整。

🖼️ 关键图片

📊 实验亮点

EA3D在多个基准测试中表现出色，包括照片级真实感渲染、语义和实例分割、3D边界框和语义占用估计以及3D网格生成。具体性能数据未在摘要中给出，但强调了EA3D在这些任务上的有效性，并建立了一个统一高效的框架，用于联合在线3D重建和整体场景理解。

🎯 应用场景

EA3D具有广泛的应用前景，包括机器人导航、自动驾驶、增强现实、虚拟现实等领域。该技术能够帮助机器人或自动驾驶车辆实时理解周围环境，从而做出更安全、更智能的决策。在AR/VR领域，EA3D可以用于构建更逼真的虚拟场景，并实现更自然的交互。

📄 摘要（原文）

Current 3D scene understanding methods are limited by offline-collected multi-view data or pre-constructed 3D geometry. In this paper, we present ExtractAnything3D (EA3D), a unified online framework for open-world 3D object extraction that enables simultaneous geometric reconstruction and holistic scene understanding. Given a streaming video, EA3D dynamically interprets each frame using vision-language and 2D vision foundation encoders to extract object-level knowledge. This knowledge is integrated and embedded into a Gaussian feature map via a feed-forward online update strategy. We then iteratively estimate visual odometry from historical frames and incrementally update online Gaussian features with new observations. A recurrent joint optimization module directs the model's attention to regions of interest, simultaneously enhancing both geometric reconstruction and semantic understanding. Extensive experiments across diverse benchmarks and tasks, including photo-realistic rendering, semantic and instance segmentation, 3D bounding box and semantic occupancy estimation, and 3D mesh generation, demonstrate the effectiveness of EA3D. Our method establishes a unified and efficient framework for joint online 3D reconstruction and holistic scene understanding, enabling a broad range of downstream tasks.

EA3D: Online Open-World 3D Object Extraction from Streaming Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理