Improving Multimodal Distillation for 3D Semantic Segmentation under Domain Shift

作者: Björn Michele, Alexandre Boulch, Gilles Puy, Tuan-Hung Vu, Renaud Marlet, Nicolas Courty

分类: cs.CV

发布日期: 2025-11-21

备注: Accepted at BMVC 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出多模态蒸馏方法，提升3D语义分割在域偏移下的性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D语义分割 域自适应 知识蒸馏 多模态学习 视觉基础模型 激光雷达 点云处理

📋 核心要点

现有语义分割模型在域偏移下泛化能力差，尤其是在激光雷达数据上，直接应用效果不佳。
利用视觉基础模型（VFMs）的跨域鲁棒特征，通过图像到激光雷达的知识蒸馏，提升模型在目标域的性能。
通过骨干网络架构选择、预训练策略和MLP头训练等关键因素的优化，在多个数据集上取得了SOTA结果。

📝 摘要（中文）

在一种激光雷达上经过充分监督训练的语义分割网络，在没有干预的情况下，无法泛化到未见过的激光雷达。为了减少域偏移下的性能差距，最近的趋势是利用视觉基础模型（VFMs），提供跨域的鲁棒特征。本文进行了一项详尽的研究，以确定在激光雷达点云语义分割的无监督域自适应中利用VFM的方法。基于无监督的图像到激光雷达知识蒸馏，我们的研究表明：（1）激光雷达骨干网络的架构是最大化目标域泛化性能的关键；（2）可以一次性预训练一个骨干网络，并用它来解决许多域偏移；（3）最好的结果是通过保持预训练的骨干网络冻结，并训练一个用于语义分割的MLP头获得的。由此产生的pipeline在四个广泛认可且具有挑战性的设置中实现了最先进的结果。代码将在https://github.com/valeoai/muddos上提供。

🔬 方法详解

问题定义：论文旨在解决3D语义分割任务中，模型在不同激光雷达数据域之间泛化能力差的问题。现有方法在特定数据集上训练的模型，直接应用于其他数据集时，性能会显著下降。这种域偏移问题严重限制了3D语义分割模型的实际应用。

核心思路：论文的核心思路是利用视觉基础模型（VFMs）的强大特征提取能力，通过知识蒸馏的方式，将VFMs学习到的跨域知识迁移到激光雷达点云的语义分割模型中。通过这种方式，可以提升模型在目标域上的泛化性能。

技术框架：整体框架包含以下几个主要步骤：1) 使用视觉基础模型提取图像特征；2) 将图像特征蒸馏到激光雷达骨干网络中；3) 预训练激光雷达骨干网络；4) 冻结预训练的骨干网络，并训练一个MLP头进行语义分割。该框架利用图像信息作为桥梁，将视觉知识迁移到激光雷达数据上。

关键创新：论文的关键创新在于对多模态蒸馏方法进行了深入的分析和优化，并提出了以下几个关键发现：1) 激光雷达骨干网络的架构对泛化性能至关重要；2) 可以预训练一个通用的骨干网络，并将其应用于多个域偏移场景；3) 冻结预训练的骨干网络并训练MLP头可以获得最佳性能。这些发现为无监督域自适应的3D语义分割提供了新的思路。

关键设计：论文的关键设计包括：1) 仔细选择激光雷达骨干网络的架构，以最大化泛化性能；2) 使用合适的损失函数进行知识蒸馏，例如，最小化图像特征和激光雷达特征之间的差异；3) 采用冻结骨干网络并训练MLP头的策略，以避免在目标域上过度拟合；4) 针对不同的域偏移场景，选择合适的预训练数据集。

🖼️ 关键图片

📊 实验亮点

该论文在四个广泛认可且具有挑战性的数据集上取得了state-of-the-art的结果，证明了所提出方法的有效性。具体性能数据和对比基线需要在论文中查找。通过多模态蒸馏和骨干网络优化，显著提升了模型在域偏移下的泛化能力。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、智慧城市等领域。通过提升3D语义分割模型在不同环境下的泛化能力，可以提高自动驾驶系统的感知精度和安全性，增强机器人在复杂环境中的适应性，并为智慧城市建设提供更可靠的数据支持。该研究有助于推动3D语义分割技术在实际场景中的应用。

📄 摘要（原文）

Semantic segmentation networks trained under full supervision for one type of lidar fail to generalize to unseen lidars without intervention. To reduce the performance gap under domain shifts, a recent trend is to leverage vision foundation models (VFMs) providing robust features across domains. In this work, we conduct an exhaustive study to identify recipes for exploiting VFMs in unsupervised domain adaptation for semantic segmentation of lidar point clouds. Building upon unsupervised image-to-lidar knowledge distillation, our study reveals that: (1) the architecture of the lidar backbone is key to maximize the generalization performance on a target domain; (2) it is possible to pretrain a single backbone once and for all, and use it to address many domain shifts; (3) best results are obtained by keeping the pretrained backbone frozen and training an MLP head for semantic segmentation. The resulting pipeline achieves state-of-the-art results in four widely-recognized and challenging settings. The code will be available at: https://github.com/valeoai/muddos.

Improving Multimodal Distillation for 3D Semantic Segmentation under Domain Shift

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理