Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

作者: Yujia Zhang, Xiaoyang Wu, Yixing Lao, Chengyao Wang, Zhuotao Tian, Naiyan Wang, Hengshuang Zhao

分类: cs.CV

发布日期: 2025-10-27

备注: NeurIPS 2025, produced by Pointcept, project page: https://pointcept.github.io/Concerto

期刊: Neural Information Processing Systems 2025

💡 一句话要点

Concerto：融合2D-3D自监督学习，涌现空间表征

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 自监督学习 跨模态学习 3D场景理解 空间表征 点云处理

📋 核心要点

现有2D和3D自监督学习方法在空间表征学习方面存在局限性，未能充分利用跨模态信息。
Concerto通过模拟人类多感官协同学习机制，结合3D自蒸馏和2D-3D跨模态联合嵌入，学习更连贯的空间特征。
实验表明，Concerto在3D场景理解任务中显著优于现有方法，并在多个基准测试中取得了SOTA结果。

📝 摘要（中文）

本文提出Concerto，一个模拟人类空间认知概念学习的极简框架，它结合了3D模内自蒸馏和2D-3D跨模态联合嵌入。Concerto学习到更连贯和信息丰富的空间特征，这可以通过零样本可视化来证明。在3D场景感知的线性探测任务中，Concerto优于独立的SOTA 2D和3D自监督模型，分别提升了14.2%和4.8%，也优于它们的特征拼接。通过完全微调，Concerto在多个场景理解基准测试中取得了新的SOTA结果（例如，在ScanNet上达到80.7%的mIoU）。此外，本文还提出了Concerto的一个变体，专门用于视频提升点云的空间理解，以及一个将Concerto表征线性投影到CLIP语言空间的转换器，从而实现开放世界感知。这些结果表明，Concerto涌现的空间表征具有卓越的细粒度几何和语义一致性。

🔬 方法详解

问题定义：现有方法在学习空间表征时，通常孤立地处理2D图像和3D点云数据，忽略了它们之间的互补信息。这导致学习到的表征缺乏几何和语义一致性，限制了模型在复杂场景理解任务中的性能。此外，如何有效地利用无标签数据进行自监督学习，也是一个重要的挑战。

核心思路：Concerto的核心思想是模拟人类通过多感官协同学习抽象概念的过程。通过将2D图像和3D点云数据进行联合嵌入，并利用3D模内自蒸馏，促使模型学习到更具几何和语义一致性的空间表征。这种跨模态学习方式能够弥补单一模态的不足，从而提升模型的泛化能力。

技术框架：Concerto框架包含两个主要组成部分：3D模内自蒸馏和2D-3D跨模态联合嵌入。首先，3D模内自蒸馏利用教师-学生网络结构，通过最小化教师网络和学生网络输出之间的差异，来提升3D表征的质量。然后，2D-3D跨模态联合嵌入将2D图像和3D点云数据映射到同一个特征空间，并通过对比学习的方式，促使模型学习到跨模态的对应关系。

关键创新：Concerto的关键创新在于其跨模态联合学习策略，它能够有效地融合2D图像和3D点云数据的信息，从而学习到更具几何和语义一致性的空间表征。此外，3D模内自蒸馏进一步提升了3D表征的质量，使得模型能够更好地理解场景的几何结构。

关键设计：在3D模内自蒸馏中，教师网络通常是学生网络的指数移动平均（EMA），以保证教师网络的稳定性。在2D-3D跨模态联合嵌入中，通常使用InfoNCE损失函数来最大化正样本对之间的相似度，并最小化负样本对之间的相似度。此外，网络结构的选择也会影响模型的性能，例如可以使用PointNet++作为3D编码器，ResNet作为2D编码器。

🖼️ 关键图片

📊 实验亮点

Concerto在ScanNet数据集上取得了80.7%的mIoU，刷新了SOTA记录。在3D场景感知的线性探测任务中，Concerto优于独立的SOTA 2D和3D自监督模型，分别提升了14.2%和4.8%。这些结果表明，Concerto能够有效地学习到更具几何和语义一致性的空间表征，并在多个场景理解任务中取得了显著的性能提升。

🎯 应用场景

Concerto在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。通过学习更具几何和语义一致性的空间表征，Concerto可以帮助机器人更好地理解周围环境，从而实现更安全、更高效的导航和交互。此外，Concerto还可以应用于三维场景重建、物体识别等任务，为相关领域的研究提供新的思路。

📄 摘要（原文）

Humans learn abstract concepts through multisensory synergy, and once formed, such representations can often be recalled from a single modality. Inspired by this principle, we introduce Concerto, a minimalist simulation of human concept learning for spatial cognition, combining 3D intra-modal self-distillation with 2D-3D cross-modal joint embedding. Despite its simplicity, Concerto learns more coherent and informative spatial features, as demonstrated by zero-shot visualizations. It outperforms both standalone SOTA 2D and 3D self-supervised models by 14.2% and 4.8%, respectively, as well as their feature concatenation, in linear probing for 3D scene perception. With full fine-tuning, Concerto sets new SOTA results across multiple scene understanding benchmarks (e.g., 80.7% mIoU on ScanNet). We further present a variant of Concerto tailored for video-lifted point cloud spatial understanding, and a translator that linearly projects Concerto representations into CLIP's language space, enabling open-world perception. These results highlight that Concerto emerges spatial representations with superior fine-grained geometric and semantic consistency.

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理