Seeing 3D Through 2D Lenses: 3D Few-Shot Class-Incremental Learning via Cross-Modal Geometric Rectification

📄 arXiv: 2509.14958v2 📥 PDF

作者: Tuo Xiang, Xuemiao Xu, Bangzhen Liu, Jinyi Li, Yong Li, Shengfeng He

分类: cs.CV

发布日期: 2025-09-18 (更新: 2025-09-21)

备注: ICCV2025


💡 一句话要点

提出CMGR框架,通过跨模态几何校正实现3D少样本类增量学习。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D视觉 少样本学习 增量学习 跨模态学习 几何校正

📋 核心要点

  1. 现有3D类增量学习方法在数据稀缺时面临几何错位和纹理偏差的挑战,导致性能下降。
  2. CMGR框架利用CLIP的分层空间语义,通过几何校正和纹理增强来提高3D几何保真度。
  3. 实验结果表明,CMGR在3D少样本类增量学习中表现出色,提升了几何一致性和纹理鲁棒性。

📝 摘要(中文)

针对3D数字内容快速增长带来的开放世界场景需求,本文提出跨模态几何校正(CMGR)框架,旨在解决现有3D类增量学习方法在极端数据稀缺下的几何错位和纹理偏差问题。CMGR利用CLIP的分层空间语义增强3D几何保真度。具体而言,结构感知几何校正模块通过注意力驱动的几何融合,将3D部件结构与CLIP的中间空间先验进行分层对齐。纹理放大模块合成最小但具有区分性的纹理,以抑制噪声并增强跨模态一致性。此外,基类-新类判别器隔离几何变化,进一步稳定增量原型。大量实验表明,CMGR显著提高了3D少样本类增量学习性能,在跨域和域内设置中均实现了卓越的几何一致性和纹理偏差鲁棒性。

🔬 方法详解

问题定义:现有的3D类增量学习方法在数据极度稀缺的情况下,容易受到几何结构错位和纹理偏差的影响,导致模型性能下降和灾难性遗忘。特别是当将3D数据与2D预训练模型(如CLIP)结合时,纹理偏差会导致语义模糊,不加区分地融合几何和纹理线索会造成决策原型不稳定。

核心思路:本文的核心思路是通过跨模态几何校正,利用2D预训练模型(CLIP)的强大语义理解能力来指导3D几何结构的对齐和优化,同时抑制纹理偏差带来的负面影响。通过显式地建模和校正几何结构,并增强纹理的区分性,从而提高3D模型的识别精度和泛化能力。

技术框架:CMGR框架包含三个主要模块:1) 结构感知几何校正模块(Structure-Aware Geometric Rectification):该模块利用CLIP的中间层特征作为空间先验,通过注意力机制将3D部件结构与CLIP的特征进行对齐,从而校正几何结构。2) 纹理放大模块(Texture Amplification Module):该模块旨在合成具有区分性的纹理,以抑制噪声并增强跨模态一致性。3) 基类-新类判别器(Base-Novel Discriminator):该模块用于隔离几何变化,稳定增量学习过程中的原型表示。

关键创新:该论文的关键创新在于提出了跨模态几何校正的思想,将2D预训练模型的语义知识迁移到3D几何结构的学习中。通过显式地建模和校正几何结构,并增强纹理的区分性,从而提高了3D模型的识别精度和泛化能力。与现有方法不同,CMGR更加注重几何结构的保真度,并有效地抑制了纹理偏差带来的负面影响。

关键设计:在结构感知几何校正模块中,使用了注意力机制来实现3D部件结构与CLIP特征的对齐。纹理放大模块通过生成对抗网络(GAN)来合成具有区分性的纹理。基类-新类判别器使用对比学习损失来区分基类和新类,从而稳定原型表示。具体的损失函数和网络结构细节在论文中有详细描述,例如,使用了交叉熵损失来训练分类器,并使用了KL散度损失来保持新旧模型之间的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CMGR在3D少样本类增量学习任务中取得了显著的性能提升。在跨域和域内设置下,CMGR均优于现有的基线方法,尤其是在几何一致性和纹理鲁棒性方面表现突出。具体性能数据需要在论文中查找,但摘要表明CMGR取得了显著的改进。

🎯 应用场景

该研究成果可应用于机器人、自动驾驶、增强现实等领域,提升3D场景理解和物体识别能力。在电商、游戏等领域,可以用于快速构建和识别新的3D模型,降低建模成本,提高用户体验。此外,该方法在医学影像分析、工业检测等领域也具有潜在的应用价值。

📄 摘要(原文)

The rapid growth of 3D digital content necessitates expandable recognition systems for open-world scenarios. However, existing 3D class-incremental learning methods struggle under extreme data scarcity due to geometric misalignment and texture bias. While recent approaches integrate 3D data with 2D foundation models (e.g., CLIP), they suffer from semantic blurring caused by texture-biased projections and indiscriminate fusion of geometric-textural cues, leading to unstable decision prototypes and catastrophic forgetting. To address these issues, we propose Cross-Modal Geometric Rectification (CMGR), a framework that enhances 3D geometric fidelity by leveraging CLIP's hierarchical spatial semantics. Specifically, we introduce a Structure-Aware Geometric Rectification module that hierarchically aligns 3D part structures with CLIP's intermediate spatial priors through attention-driven geometric fusion. Additionally, a Texture Amplification Module synthesizes minimal yet discriminative textures to suppress noise and reinforce cross-modal consistency. To further stabilize incremental prototypes, we employ a Base-Novel Discriminator that isolates geometric variations. Extensive experiments demonstrate that our method significantly improves 3D few-shot class-incremental learning, achieving superior geometric coherence and robustness to texture bias across cross-domain and within-domain settings.