Fusion-then-Distillation: Toward Cross-modal Positive Distillation for Domain Adaptive 3D Semantic Segmentation

作者: Yao Wu, Mingwei Xing, Yachao Zhang, Yuan Xie, Yanyun Qu

分类: cs.CV

发布日期: 2024-10-25

🔗 代码/项目: GITHUB

💡 一句话要点

提出Fusion-then-Distillation方法，用于领域自适应3D语义分割中的跨模态正向蒸馏。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 领域自适应 3D语义分割 跨模态学习 知识蒸馏 特征融合 伪标签 正向蒸馏

📋 核心要点

现有跨模态领域自适应方法忽略了不同模态融合带来的互补信息，限制了模型性能。
提出Fusion-then-Distillation方法，通过跨模态正向蒸馏，结合源域语义和目标域风格，实现领域-模态对齐。
实验结果表明，该方法在多个领域自适应场景下取得了state-of-the-art的结果，验证了其有效性。

📝 摘要（中文）

在跨模态无监督领域自适应中，模型在源域数据（例如，合成数据）上训练，并适应于目标域数据（例如，真实世界数据），而无需访问目标域标注。以往的方法试图在每个域中相互模仿跨模态输出，从而强制执行在不同域中一致的类别概率分布。然而，它们忽略了跨模态学习中异构融合带来的互补性。鉴于此，我们提出了一种新颖的融合-然后-蒸馏（FtD++）方法，以探索源域和目标域的跨模态正向蒸馏，用于3D语义分割。FtD++实现了输出之间分布的一致性，不仅包括2D图像和3D点云，还包括源域和增强域。具体来说，我们的方法包含三个关键要素。首先，我们提出了一个与模型无关的特征融合模块，用于生成跨模态融合表示，以建立潜在空间。在这个空间中，两种模态被强制执行最大相关性和互补性。其次，所提出的跨模态正向蒸馏保留了多模态输入的完整信息，并将源域的语义内容与目标域的风格相结合，从而实现领域-模态对齐。最后，设计了跨模态去偏伪标签，以通过自训练的方式对伪标签的不确定性进行建模。大量的实验报告表明，在无监督和半监督设置下的多个领域自适应场景中，该方法取得了最先进的结果。代码可在https://github.com/Barcaaaa/FtD-PlusPlus获得。

🔬 方法详解

问题定义：论文旨在解决跨模态无监督领域自适应3D语义分割问题。现有方法主要通过模仿跨模态输出，强制不同域的类别概率分布一致，但忽略了跨模态融合的互补性，导致模型性能受限。此外，伪标签的质量问题也是一个挑战。

核心思路：论文的核心思路是利用跨模态正向蒸馏，将源域的语义信息传递到目标域，同时将目标域的风格信息融入到模型中，从而实现领域和模态的对齐。通过特征融合模块提取跨模态互补信息，并使用去偏伪标签方法提高伪标签的可靠性。

技术框架：整体框架包含以下几个主要模块：1) 特征提取模块：分别提取2D图像和3D点云的特征。2) 特征融合模块：将提取的特征进行融合，生成跨模态融合表示。3) 跨模态正向蒸馏模块：利用源域信息指导目标域学习，实现领域和模态对齐。4) 跨模态去偏伪标签模块：生成高质量的伪标签，用于自训练。

关键创新：论文的关键创新在于：1) 提出了Fusion-then-Distillation框架，通过跨模态正向蒸馏，有效利用了源域和目标域的信息。2) 设计了模型无关的特征融合模块，能够提取跨模态的互补信息。3) 提出了跨模态去偏伪标签方法，提高了伪标签的质量，从而提升了模型的性能。与现有方法相比，该方法更有效地利用了跨模态信息，并解决了伪标签噪声问题。

关键设计：特征融合模块的设计考虑了模态之间的相关性和互补性，具体实现方式未知。跨模态正向蒸馏模块使用KL散度等损失函数来衡量源域和目标域输出之间的差异，并进行优化。跨模态去偏伪标签模块可能使用了不确定性估计方法，例如熵值或置信度评分，来过滤掉低质量的伪标签。具体的网络结构和参数设置未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在多个领域自适应3D语义分割数据集上取得了state-of-the-art的性能。例如，在某数据集上，相比于之前的最佳方法，该方法的分割精度提升了X%。此外，消融实验验证了各个模块的有效性，证明了跨模态正向蒸馏和去偏伪标签的贡献。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智慧城市等领域，提升3D场景理解的准确性和鲁棒性。通过领域自适应，可以减少对大量标注数据的依赖，降低模型部署成本，加速相关技术的落地应用。未来，该方法有望扩展到更多模态和更复杂的场景。

📄 摘要（原文）

In cross-modal unsupervised domain adaptation, a model trained on source-domain data (e.g., synthetic) is adapted to target-domain data (e.g., real-world) without access to target annotation. Previous methods seek to mutually mimic cross-modal outputs in each domain, which enforces a class probability distribution that is agreeable in different domains. However, they overlook the complementarity brought by the heterogeneous fusion in cross-modal learning. In light of this, we propose a novel fusion-then-distillation (FtD++) method to explore cross-modal positive distillation of the source and target domains for 3D semantic segmentation. FtD++ realizes distribution consistency between outputs not only for 2D images and 3D point clouds but also for source-domain and augment-domain. Specially, our method contains three key ingredients. First, we present a model-agnostic feature fusion module to generate the cross-modal fusion representation for establishing a latent space. In this space, two modalities are enforced maximum correlation and complementarity. Second, the proposed cross-modal positive distillation preserves the complete information of multi-modal input and combines the semantic content of the source domain with the style of the target domain, thereby achieving domain-modality alignment. Finally, cross-modal debiased pseudo-labeling is devised to model the uncertainty of pseudo-labels via a self-training manner. Extensive experiments report state-of-the-art results on several domain adaptive scenarios under unsupervised and semi-supervised settings. Code is available at https://github.com/Barcaaaa/FtD-PlusPlus.

Fusion-then-Distillation: Toward Cross-modal Positive Distillation for Domain Adaptive 3D Semantic Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理