DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers

作者: Mert Bulent Sariyildiz, Philippe Weinzaepfel, Thomas Lucas, Pau de Jorge, Diane Larlus, Yannis Kalantidis

分类: cs.CV, cs.LG

发布日期: 2025-03-18 (更新: 2025-03-24)

备注: Accepted to CVPR-2025. Project page: https://europe.naverlabs.com/dune

💡 一句话要点

DUNE：从异构2D和3D教师模型中蒸馏通用编码器

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 异构教师蒸馏 通用编码器 2D视觉 3D理解 知识迁移 视觉重定位 多任务学习

📋 核心要点

现有方法难以将多个基础模型的编码器统一为单个编码器，尤其是在教师模型来自不同领域（2D和3D）时。
论文提出DUNE，通过异构教师蒸馏，学习一个通用的单编码器，使其能够同时处理2D视觉和3D理解任务。
实验表明，DUNE在多个任务上达到了与其大型教师模型相当甚至更好的性能，尤其在免地图视觉重定位任务中表现突出。

📝 摘要（中文）

本文研究了异构教师蒸馏问题，即共同蒸馏。这是一个具有挑战性的多教师蒸馏场景，其中教师模型在设计目标和训练数据上差异显著。论文探索了数据共享策略和教师特定的编码方式，并提出了DUNE，一个在2D视觉、3D理解和3D人体感知方面表现出色的单编码器。DUNE模型在各自任务上实现了与其大型教师模型相当的性能，有时甚至超过它们。值得注意的是，DUNE在免地图视觉重定位任务中超越了MASt3R，且编码器体积更小。

🔬 方法详解

问题定义：论文旨在解决如何从异构的2D和3D视觉模型中，学习到一个通用的视觉编码器的问题。现有的多教师蒸馏方法主要集中在同构的2D视觉任务上，无法有效处理教师模型在任务目标和数据分布上存在显著差异的情况。这种异构性导致简单的知识迁移策略效果不佳，难以训练出一个在多个领域都表现良好的通用编码器。

核心思路：论文的核心思路是通过设计特定的蒸馏策略和网络结构，来弥合2D和3D教师模型之间的差异，从而有效地将知识迁移到单个学生编码器中。具体来说，论文探索了不同的数据共享策略，并为每个教师模型设计了特定的编码方式，以更好地捕捉其独特的知识。

技术框架：DUNE的整体框架包括多个异构的教师模型和一个共享的学生编码器。教师模型可以是针对不同任务（如2D分类、3D分割、深度估计等）训练好的预训练模型。学生编码器的目标是从这些教师模型中学习知识，并生成一个通用的视觉表示。训练过程采用多教师蒸馏的方式，通过最小化学生编码器的输出与教师模型输出之间的差异来实现知识迁移。

关键创新：论文的关键创新在于提出了异构教师蒸馏的概念，并设计了相应的蒸馏策略和网络结构。与传统的同构教师蒸馏方法相比，DUNE能够更好地处理教师模型之间的差异，从而学习到一个更通用的视觉编码器。此外，论文还探索了不同的数据共享策略和教师特定的编码方式，以进一步提高蒸馏效果。

关键设计：DUNE的关键设计包括：1) 数据共享策略：论文探索了不同的数据共享策略，例如，使用所有教师模型的数据训练学生编码器，或者为每个教师模型选择特定的数据子集。2) 教师特定的编码方式：论文为每个教师模型设计了特定的编码方式，例如，使用不同的卷积核大小或激活函数，以更好地捕捉其独特的知识。3) 损失函数：论文使用多种损失函数来衡量学生编码器的输出与教师模型输出之间的差异，例如，L1损失、L2损失和KL散度。

🖼️ 关键图片

📊 实验亮点

DUNE在多个2D和3D视觉任务上取得了与大型教师模型相当甚至更好的性能。例如，在免地图视觉重定位任务中，DUNE超越了MASt3R，且编码器体积更小。这表明DUNE能够有效地从异构教师模型中学习知识，并生成一个通用的视觉表示。

🎯 应用场景

DUNE具有广泛的应用前景，例如机器人导航、自动驾驶、增强现实等。通过学习一个通用的视觉编码器，DUNE可以降低模型部署的成本，并提高系统的鲁棒性和泛化能力。此外，DUNE还可以作为其他视觉任务的预训练模型，从而加速模型的训练过程并提高性能。

📄 摘要（原文）

Recent multi-teacher distillation methods have unified the encoders of multiple foundation models into a single encoder, achieving competitive performance on core vision tasks like classification, segmentation, and depth estimation. This led us to ask: Could similar success be achieved when the pool of teachers also includes vision models specialized in diverse tasks across both 2D and 3D perception? In this paper, we define and investigate the problem of heterogeneous teacher distillation, or co-distillation, a challenging multi-teacher distillation scenario where teacher models vary significantly in both (a) their design objectives and (b) the data they were trained on. We explore data-sharing strategies and teacher-specific encoding, and introduce DUNE, a single encoder excelling in 2D vision, 3D understanding, and 3D human perception. Our model achieves performance comparable to that of its larger teachers, sometimes even outperforming them, on their respective tasks. Notably, DUNE surpasses MASt3R in Map-free Visual Relocalization with a much smaller encoder.

DUNE: Distilling a Universal Encoder from Heterogeneous 2D and 3D Teachers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理