CoFiDA-M: Concept-Aware Feature Modulation for Cross-Domain Adaptation with Image-Only Inference
作者: Nurjahan Sultana, Moi Hoon Yap, Xinqi Fan, Wenqi Lu
分类: cs.CV
发布日期: 2026-05-29
备注: 'Accepted by CVPR 2026'
🔗 代码/项目: GITHUB
💡 一句话要点
提出CoFiDA-M,利用概念感知特征调制实现图像跨域自适应,解决皮肤癌筛查部署难题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 跨域自适应 特权信息学习 知识蒸馏 概念感知 皮肤癌筛查
📋 核心要点
- 现有领域自适应方法忽略了临床概念等关键语义信息,导致模型在不同图像域之间泛化能力不足。
- CoFiDA-M利用MONET等模型提供的概念概率,通过教师-学生框架将语义信息融入纯图像模型中。
- 实验表明,CoFiDA-M在多数据集上显著提升了皮肤癌筛查性能,尤其在黑色素瘤召回率方面表现突出。
📝 摘要(中文)
基于AI的皮肤癌筛查模型在从专家皮肤镜图像(源域)转移到消费级临床图像(目标域)时,性能会显著下降,阻碍了实际部署。现有的领域自适应方法通常忽略了关键的语义不变性,例如临床概念。虽然像MONET这样的新型基础模型可以提供这种语义信息作为密集的概率分数,但这种元数据在测试时不可用,这为实际的纯图像筛查工具造成了部署悖论。我们通过提出CoFiDA-M来解决这一差距,CoFiDA-M是一个特权信息框架,它在训练时从概念中学习,但部署为纯图像模型。我们的方法训练一个教师网络,该网络使用MONET概念概率来指导FiLM调制器,将视觉特征转换为语义上“编辑”的特征空间。然后训练一个轻量级的纯图像学生网络来重现这种编辑后的表示,而不仅仅是教师的最终预测。这种知识蒸馏将临床推理“烘焙”到学生的权重中。在一个具有挑战性的多数据集基准测试中,我们的纯图像学生网络显著优于最先进的方法,尤其是在黑色素瘤召回率方面。我们的工作提供了一个实用且可推广的框架,用于利用嘈杂的概率元数据作为特权信息,展示了强大的跨数据集鲁棒性和超越皮肤病学的实际部署潜力。
🔬 方法详解
问题定义:论文旨在解决皮肤癌筛查模型在从专家皮肤镜图像到消费级临床图像的跨域迁移时性能显著下降的问题。现有领域自适应方法的痛点在于忽略了重要的临床概念信息,导致模型无法有效泛化到目标域。即使利用了提供概念信息的模型(如MONET),这些信息在实际部署时往往不可用,形成“部署悖论”。
核心思路:论文的核心思路是利用“特权信息学习”框架,在训练阶段使用概念信息来指导模型学习,但在推理阶段仅使用图像。具体而言,通过训练一个教师网络,利用概念信息对视觉特征进行调制,生成“编辑”后的特征表示。然后,训练一个学生网络,使其能够仅通过图像重构教师网络生成的“编辑”特征,从而将概念信息“烘焙”到学生网络的权重中。
技术框架:CoFiDA-M包含一个教师网络和一个学生网络。教师网络接收图像和对应的概念概率作为输入,利用FiLM调制器对视觉特征进行调制,生成概念感知的特征表示。学生网络仅接收图像作为输入,目标是重构教师网络生成的特征表示。整个训练过程采用知识蒸馏的方式,学生网络不仅要模仿教师网络的最终预测,还要模仿其中间层的特征表示。
关键创新:该方法最重要的创新点在于利用概念信息作为“特权信息”,在训练阶段指导模型学习,但在推理阶段无需概念信息即可实现高性能。通过知识蒸馏,将概念信息有效地转移到学生网络的权重中,解决了部署悖论。此外,使用FiLM调制器将概念信息融入视觉特征,实现了一种灵活且有效的特征融合方式。
关键设计:论文使用了MONET模型提供的概念概率作为语义信息来源。FiLM调制器被用于将概念信息融入视觉特征,其具体实现方式为:利用概念概率生成仿射变换参数,然后对视觉特征进行缩放和平移。损失函数包括分类损失和特征重构损失,其中特征重构损失用于衡量学生网络重构教师网络特征的能力。学生网络是一个轻量级的卷积神经网络,旨在实现高效的推理速度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CoFiDA-M在皮肤癌筛查任务上显著优于现有方法。在黑色素瘤召回率方面,CoFiDA-M相比于最先进的方法提升了显著的幅度。此外,CoFiDA-M在跨数据集测试中表现出强大的鲁棒性,证明了其在实际应用中的潜力。代码已开源。
🎯 应用场景
该研究成果可应用于医疗影像分析领域,尤其是在数据分布存在差异的情况下,例如不同设备、不同人群的医学图像分析。通过利用外部知识或专家经验作为特权信息,可以提高模型的泛化能力和鲁棒性,从而改善疾病诊断和治疗效果。该方法具有通用性,可扩展到其他领域,例如自动驾驶、机器人等。
📄 摘要(原文)
Models for AI-based skin cancer screening suffer a severe performance drop when shifting from expert dermoscopic (source) images to consumer-grade clinical (target) images, hindering real-world deployment. Existing domain adaptation methods often ignore crucial semantic invariants, such as clinical concepts. While new foundation models like MONET can provide this semantic information as dense, probabilistic scores, this metadata is unavailable at test time, creating a deployment paradox for practical image-only screening tools. We address this gap by proposing CoFiDA-M, a privileged information framework that learns from concepts at training time but deploys as an image-only model. Our method trains a teacher network that uses MONET concept probabilities to guide a FiLM modulator, transforming visual features into a semantically
edited" feature space. A lightweight, image-only student is then trained to reproduce this edited representation, not just the teacher's final predictions. This distillationbakes" the clinical reasoning into the student's weights. On a challenging multi-dataset benchmark, our image-only student significantly outperforms state-of-the-art approaches, especially in melanoma recall. Our work provides a practical and generalizable framework for leveraging noisy, probabilistic metadata as privileged information, demonstrating strong cross-dataset robustness and potential for real-world deployment beyond dermatology. Implementation code is available at: https://github.com/mmu-dermatology-research/CoFiDA.git