Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models
作者: Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera
分类: cs.CV
发布日期: 2025-09-28
💡 一句话要点
提出FAMDA框架,利用视觉基础模型高效解决多任务密集预测的领域自适应问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多任务学习 领域自适应 视觉基础模型 自训练 知识蒸馏 机器人 密集预测
📋 核心要点
- 现有方法在多任务密集预测的无监督领域自适应中,依赖对抗学习,效果不如自训练。
- FAMDA利用视觉基础模型作为教师,通过自训练生成高质量伪标签,提升模型泛化能力。
- 实验表明,FAMDA在多个基准测试上达到SOTA,轻量级模型精度高且体积小,适合机器人应用。
📝 摘要(中文)
多任务密集预测旨在联合解决语义分割和深度估计等任务,对于机器人应用至关重要,但当模型部署到新环境时,会受到领域偏移的影响。无监督领域自适应(UDA)可以解决单任务的这一挑战,但现有的多任务UDA方法主要依赖于对抗学习方法,其效果不如最近的自训练技术。本文提出FAMDA,一个简单而有效的UDA框架,它利用视觉基础模型(VFMs)作为强大的教师来弥合这一差距。我们的方法将分割和深度基础模型集成到自训练范式中,为目标域生成高质量的伪标签,有效地将它们强大的泛化能力提炼到一个高效的student网络中。大量实验表明,FAMDA在标准的合成到真实的UDA多任务学习(MTL)基准测试和一个具有挑战性的新的昼夜适应任务上实现了最先进(SOTA)的性能。我们的框架能够训练高效的模型;一个轻量级变体实现了SOTA精度,同时比基础模型小10倍以上,突出了FAMDA适用于为资源受限的机器人应用创建领域自适应和高效的模型。
🔬 方法详解
问题定义:论文旨在解决多任务密集预测(如语义分割和深度估计)在不同领域间的迁移问题,尤其是在合成数据训练的模型部署到真实环境时性能显著下降的问题。现有的多任务无监督领域自适应方法主要依赖对抗学习,但对抗学习在训练稳定性和最终性能上不如新兴的自训练方法。
核心思路:论文的核心思路是利用预训练的视觉基础模型(Vision Foundation Models, VFMs)作为教师模型,通过自训练的方式,将VFMs的泛化能力迁移到更小、更高效的student模型中。这样既能利用VFMs的强大能力,又能避免直接使用大型VFMs带来的计算负担。
技术框架:FAMDA框架主要包含以下几个阶段:1) 使用预训练的分割和深度估计VFMs对目标域数据生成伪标签;2) 使用生成的伪标签训练一个student模型,该模型同时执行多个密集预测任务;3) 通过迭代的方式,不断优化student模型,使其逼近VFMs的性能。整体流程是一个teacher-student的知识蒸馏框架,teacher是VFMs,student是需要训练的多任务模型。
关键创新:该方法最重要的创新点在于将视觉基础模型引入到多任务无监督领域自适应的自训练框架中。与以往方法相比,它不再依赖对抗学习,而是利用VFMs强大的先验知识和泛化能力,显著提升了模型在目标域上的性能。此外,通过知识蒸馏,可以训练出远小于VFMs但性能接近的模型,更适合资源受限的场景。
关键设计:FAMDA的关键设计包括:1) 选择合适的分割和深度估计VFMs作为teacher模型;2) 设计有效的伪标签生成策略,确保伪标签的质量;3) 设计合适的损失函数,引导student模型学习VFMs的知识。具体的技术细节可能包括对VFMs输出进行后处理以提高伪标签质量,以及使用特定的损失函数来平衡不同任务之间的学习。
📊 实验亮点
FAMDA在合成到真实的UDA多任务学习基准测试和昼夜适应任务上取得了SOTA性能。更重要的是,一个轻量级的FAMDA变体在实现SOTA精度的同时,模型大小比基础模型小10倍以上,这表明FAMDA非常适合为资源受限的机器人应用创建领域自适应和高效的模型。
🎯 应用场景
该研究成果可广泛应用于机器人领域,例如自动驾驶、智能巡检、家庭服务机器人等。通过领域自适应,机器人可以在不同光照、天气和场景下稳定工作。该方法训练得到的轻量级模型,更易于部署在计算资源有限的嵌入式平台上,加速了机器人智能化的落地。
📄 摘要(原文)
Multi-task dense prediction, which aims to jointly solve tasks like semantic segmentation and depth estimation, is crucial for robotics applications but suffers from domain shift when deploying models in new environments. While unsupervised domain adaptation (UDA) addresses this challenge for single tasks, existing multi-task UDA methods primarily rely on adversarial learning approaches that are less effective than recent self-training techniques. In this paper, we introduce FAMDA, a simple yet effective UDA framework that bridges this gap by leveraging Vision Foundation Models (VFMs) as powerful teachers. Our approach integrates Segmentation and Depth foundation models into a self-training paradigm to generate high-quality pseudo-labels for the target domain, effectively distilling their robust generalization capabilities into a single, efficient student network. Extensive experiments show that FAMDA achieves state-of-the-art (SOTA) performance on standard synthetic-to-real UDA multi-task learning (MTL) benchmarks and a challenging new day-to-night adaptation task. Our framework enables the training of highly efficient models; a lightweight variant achieves SOTA accuracy while being more than 10$\times$ smaller than foundation models, highlighting FAMDA's suitability for creating domain-adaptive and efficient models for resource-constrained robotics applications.