Few-Shot Incremental 3D Object Detection in Dynamic Indoor Environments

📄 arXiv: 2604.07997v1 📥 PDF

作者: Yun Zhu, Jianjun Qian, Jian Yang, Jin Xie, Na Zhao

分类: cs.CV

发布日期: 2026-04-09

备注: Accepted by CVPR 2026

期刊: CVPR-2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出FI3Det框架,利用视觉-语言模型实现动态室内环境下的少样本增量3D目标检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 少样本学习 增量学习 3D目标检测 视觉-语言模型 动态环境

📋 核心要点

  1. 现有增量3D检测方法依赖大量新类别的标注数据,限制了其在动态环境中的应用。
  2. FI3Det利用视觉-语言模型学习未见类别的知识,通过VLM引导的未知物体学习和门控多模态原型印记实现少样本增量学习。
  3. 在ScanNet V2和SUN RGB-D数据集上的实验表明,FI3Det显著优于现有基线方法,验证了其有效性。

📝 摘要(中文)

本文提出FI3Det,一个少样本增量3D目标检测框架,旨在动态室内环境中实现高效的3D感知,仅需少量新类别样本即可学习未见类别的知识。FI3Det在基础阶段引入了VLM引导的未知物体学习模块,以增强对未见类别的感知。该模块利用视觉-语言模型挖掘未知物体并提取全面的表示,包括2D语义特征和类别无关的3D bounding box。为了减轻这些表示中的噪声,设计了一种加权机制,根据点和box级别特征在每个box内的空间位置和特征一致性,重新加权它们的贡献。此外,FI3Det提出了一个门控多模态原型印记模块,其中类别原型由对齐的2D语义和3D几何特征构建,以计算分类分数,然后通过多模态门控机制融合用于新物体检测。作为第一个少样本增量3D目标检测框架,我们在ScanNet V2和SUN RGB-D两个数据集上建立了批量和序列评估设置,FI3Det相对于基线方法取得了显著且一致的改进。

🔬 方法详解

问题定义:现有的增量3D目标检测方法需要大量的新类别标注数据才能达到较好的性能,这在实际动态室内环境中是难以满足的。痛点在于如何利用有限的新类别样本,快速适应并检测新的3D物体。

核心思路:论文的核心思路是利用视觉-语言模型(VLM)的强大知识迁移能力,将VLM学习到的语义信息迁移到3D目标检测任务中,从而实现少样本学习。通过VLM提取未知物体的语义特征,并将其与3D几何特征融合,增强对新类别的感知能力。这样设计的目的是为了克服传统方法对大量标注数据的依赖,提高模型在新环境中的适应性。

技术框架:FI3Det框架主要包含两个阶段:基础阶段和增量学习阶段。在基础阶段,引入VLM引导的未知物体学习模块,利用VLM挖掘未知物体并提取2D语义特征和3D bounding box。然后,通过加权机制减轻噪声。在增量学习阶段,提出门控多模态原型印记模块,构建类别原型,计算分类分数,并通过多模态门控机制融合用于新物体检测。

关键创新:最重要的技术创新点在于将视觉-语言模型引入到少样本增量3D目标检测中。与现有方法相比,FI3Det不再依赖大量的新类别标注数据,而是利用VLM的知识迁移能力,仅需少量样本即可学习新类别的特征。此外,提出的加权机制和门控多模态原型印记模块也有效地提高了模型的性能。

关键设计:加权机制根据点和box级别特征在每个box内的空间位置和特征一致性,重新加权它们的贡献。门控多模态原型印记模块中,类别原型由对齐的2D语义和3D几何特征构建,并通过多模态门控机制融合分类分数。损失函数方面,可能采用了交叉熵损失或其变体,以优化分类性能。具体的网络结构细节,如VLM的选择和特征融合方式,需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FI3Det在ScanNet V2和SUN RGB-D数据集上进行了评估,实验结果表明,FI3Det在批量和序列评估设置下均优于基线方法。具体性能提升幅度需要在论文中查找,但摘要中明确指出取得了“显著且一致的改进”。这表明FI3Det在少样本增量3D目标检测方面具有很强的竞争力。

🎯 应用场景

FI3Det框架可应用于智能家居、机器人导航、增强现实等领域。例如,在智能家居中,机器人可以利用该框架快速学习新的家具或物品,从而更好地理解和适应家庭环境。在机器人导航中,该框架可以帮助机器人识别和避开新的障碍物,提高导航的安全性。该研究有助于推动机器人和人工智能在动态环境中的应用。

📄 摘要(原文)

Incremental 3D object perception is a critical step toward embodied intelligence in dynamic indoor environments. However, existing incremental 3D detection methods rely on extensive annotations of novel classes for satisfactory performance. To address this limitation, we propose FI3Det, a Few-shot Incremental 3D Detection framework that enables efficient 3D perception with only a few novel samples by leveraging vision-language models (VLMs) to learn knowledge of unseen categories. FI3Det introduces a VLM-guided unknown object learning module in the base stage to enhance perception of unseen categories. Specifically, it employs VLMs to mine unknown objects and extract comprehensive representations, including 2D semantic features and class-agnostic 3D bounding boxes. To mitigate noise in these representations, a weighting mechanism is further designed to re-weight the contributions of point- and box-level features based on their spatial locations and feature consistency within each box. Moreover, FI3Det proposes a gated multimodal prototype imprinting module, where category prototypes are constructed from aligned 2D semantic and 3D geometric features to compute classification scores, which are then fused via a multimodal gating mechanism for novel object detection. As the first framework for few-shot incremental 3D object detection, we establish both batch and sequential evaluation settings on two datasets, ScanNet V2 and SUN RGB-D, where FI3Det achieves strong and consistent improvements over baseline methods. Code is available at https://github.com/zyrant/FI3Det.