EPS3D: End-to-End Feed-Forward 3D Panoptic Segmentation
作者: Runsong Zhu, Jiaxin Guo, Xiaoyang Guo, Zhengzhe Liu, Ka-Hei Hui, Wei Yin, Kai Chen, Wei Chen, Weiqiang Ren, Yunhui Liu, Pheng-Ann Heng, Chi-Wing Fu
分类: cs.CV
发布日期: 2026-06-08
备注: ICML 2026. The code is publicly available at \href{https://github.com/Runsong123/EPS3D}{https://github.com/Runsong123/EPS3D}
💡 一句话要点
提出EPS3D框架以解决开放词汇3D全景分割问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D全景分割 开放词汇 蒸馏训练 深度学习 语义一致性 实例特征 机器人操作 3D场景编辑
📋 核心要点
- 现有方法在3D全景分割中依赖额外的预处理,导致效率低下和错误累积。
- EPS3D通过端到端架构和蒸馏训练策略,直接从多视角图像中预测3D特征,提升了3D一致性。
- EPS3D在Replica等基准测试中实现了语义mIoU提升13%,且处理效率高达每场景1秒。
📝 摘要(中文)
本文介绍了EPS3D,一个新的端到端前馈框架,用于开放词汇的3D全景分割。与现有依赖额外预处理的方法不同,我们设计了一个端到端的架构,通过在多样化的3D场景上采用蒸馏训练策略,从多视角图像中预测3D感知的语义和实例特征,提升了3D一致性并避免了错误累积。此外,我们提出了一个互增强模块,以强化固有的语义-实例一致性。通过在实例内对齐语义(Ins2Sem)和利用语义指导精炼实例特征(Sem2Ins),我们实现了更连贯的3D场景理解。最终,EPS3D在两个基准测试上超越了现有最先进的基线(例如,在Replica上语义mIoU提升13%),且效率高(例如,每个场景1秒),支持机器人操作和3D场景编辑等任务。
🔬 方法详解
问题定义:本文旨在解决开放词汇3D全景分割中的效率低下和错误累积问题。现有方法通常依赖于额外的预处理步骤,导致处理时间长且结果不稳定。
核心思路:EPS3D的核心思路是设计一个端到端的框架,利用蒸馏训练策略,从多视角图像中直接预测3D感知的语义和实例特征,以提高3D一致性并减少错误传播。
技术框架:EPS3D的整体架构包括多个模块,首先是多视角图像输入,然后通过深度学习网络提取特征,接着应用蒸馏训练策略进行特征预测,最后通过互增强模块实现语义与实例特征的相互优化。
关键创新:EPS3D的主要创新在于其端到端的设计和互增强模块,前者消除了对预处理的依赖,后者通过Ins2Sem和Sem2Ins机制强化了语义与实例之间的一致性,这在现有方法中是未曾实现的。
关键设计:在网络结构上,EPS3D采用了深度卷积神经网络,并设计了特定的损失函数以平衡语义和实例特征的学习。此外,蒸馏训练策略的应用使得模型在多样化场景中具备更好的泛化能力。
📊 实验亮点
EPS3D在两个基准测试中表现优异,特别是在Replica数据集上,语义mIoU提升了13%。此外,其处理效率达到每个场景仅需1秒,显著优于现有最先进的基线,展示了其在实际应用中的高效性和可靠性。
🎯 应用场景
EPS3D的研究成果在多个领域具有广泛的应用潜力,包括机器人操作、3D场景编辑、虚拟现实和增强现实等。通过提供高效且准确的3D场景理解,EPS3D能够支持复杂的交互任务,提升用户体验和操作精度,未来可能推动相关技术的进一步发展与应用。
📄 摘要(原文)
This paper introduces EPS3D, a new end-to-end feed-forward framework for open-vocabulary 3D panoptic segmentation. Unlike existing methods relying on additional preprocessing, we design an end-to-end architecture, with a distillation-based training strategy on diverse 3D scenes to predict 3D-aware semantic and instance features from multi-view images, improving 3D consistency and avoiding error accumulation. We further propose a mutual enhancement module to enforce inherent semantic-instance consistency. By aligning semantics within instances (Ins2Sem) and refining instance features with semantic guidance (Sem2Ins), we achieve more coherent 3D scene understanding. Ultimately, EPS3D outperforms SOTA baselines on two benchmarks (e.g., +13% mIoU for semantics on Replica) with high efficiency (e.g., 1s per scene), supporting tasks like robotic manipulation and 3D scene editing.