Dual-Teacher Distillation with Subnetwork Rectification for Black-Box Domain Adaptation

📄 arXiv: 2603.22908v1 📥 PDF

作者: Zhe Zhang, Jing Li, Wanli Xue, Xu Cheng, Jianhua Zhang, Qinghua Hu, Shengyong Chen

分类: cs.CV, cs.LG

发布日期: 2026-03-24

备注: This manuscript is under review at IEEE Transactions on Multimedia


💡 一句话要点

提出DDSR模型,通过双教师蒸馏和子网络校正解决黑盒领域自适应问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 黑盒领域自适应 双教师蒸馏 子网络校正 视觉语言模型 伪标签

📋 核心要点

  1. 黑盒领域自适应面临源数据和模型不可访问的难题,现有方法依赖伪标签或视觉语言模型,但易受噪声干扰或语义信息利用不足的影响。
  2. DDSR模型通过双教师蒸馏,融合黑盒源模型知识和视觉语言模型的语义信息,自适应生成可靠伪标签,并采用子网络正则化抑制过拟合。
  3. 实验结果表明,DDSR在多个基准数据集上优于现有方法,包括那些可以使用源数据或模型的方法,验证了其有效性。

📝 摘要(中文)

黑盒领域自适应假设无法访问源数据和源模型,这是一种极具实践性但极具挑战性的设置,因为可迁移的信息仅限于黑盒源模型的预测,而这些预测只能使用目标样本进行查询。现有方法试图通过伪标签细化或利用外部视觉语言模型(ViL)来提取可迁移的知识,但它们通常受到噪声监督或ViL提供的语义先验信息利用不足的困扰,最终阻碍了自适应性能。为了克服这些限制,我们提出了一种双教师蒸馏与子网络校正(DDSR)模型,该模型共同利用黑盒源模型中嵌入的特定知识和ViL的通用语义信息。DDSR自适应地整合它们的互补预测,为目标域生成可靠的伪标签,并引入子网络驱动的正则化策略,以减轻由噪声监督引起的过拟合。此外,改进的目标预测迭代地增强伪标签和ViL提示,从而实现更准确和语义一致的自适应。最后,通过类原型进行自训练进一步优化目标模型。在多个基准数据集上进行的大量实验验证了我们方法的有效性,证明了相对于最先进的方法(包括使用源数据或模型的方法)的一致改进。

🔬 方法详解

问题定义:论文旨在解决黑盒领域自适应问题,即在无法访问源数据和源模型的情况下,如何利用黑盒源模型的预测和视觉语言模型(ViL)的知识,将知识迁移到目标域。现有方法的痛点在于伪标签质量不高,以及视觉语言模型的语义信息利用不充分,导致模型性能受限。

核心思路:论文的核心思路是利用双教师蒸馏框架,将黑盒源模型的知识和视觉语言模型的语义信息进行融合,生成更可靠的伪标签,并使用子网络正则化策略来减轻噪声监督带来的过拟合问题。通过迭代优化伪标签和视觉语言模型的提示,实现更准确和语义一致的自适应。

技术框架:DDSR模型包含以下几个主要模块:1) 双教师蒸馏:利用黑盒源模型和视觉语言模型作为教师,生成目标域的伪标签。2) 子网络校正:通过子网络驱动的正则化策略,减轻噪声监督带来的过拟合。3) 迭代优化:迭代地增强伪标签和视觉语言模型的提示,提升自适应性能。4) 自训练:通过类原型进行自训练,进一步优化目标模型。

关键创新:论文的关键创新在于:1) 提出了双教师蒸馏框架,有效融合了黑盒源模型的知识和视觉语言模型的语义信息。2) 引入了子网络校正策略,减轻了噪声监督带来的过拟合问题。3) 提出了迭代优化伪标签和视觉语言模型提示的方法,实现了更准确和语义一致的自适应。

关键设计:在双教师蒸馏中,采用自适应权重来平衡黑盒源模型和视觉语言模型的预测。子网络校正策略通过随机mask部分网络连接,强制模型学习更鲁棒的特征。迭代优化过程中,使用目标模型的预测结果来更新伪标签和视觉语言模型的提示。自训练阶段,使用类原型来增强模型的判别能力。损失函数包括蒸馏损失、子网络正则化损失和自训练损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DDSR模型在多个基准数据集上取得了显著的性能提升。例如,在Office-Home数据集上,DDSR模型相比于最先进的方法提升了2-3个百分点。即使与可以使用源数据或模型的方法相比,DDSR模型也表现出竞争力的性能,验证了其在黑盒领域自适应方面的有效性。

🎯 应用场景

该研究成果可应用于各种领域自适应场景,尤其适用于无法访问源数据或模型的场景,例如:医疗影像分析、自动驾驶、智能监控等。在这些场景中,可以利用已有的黑盒模型和视觉语言模型,快速适应新的目标领域,降低模型部署成本,提高模型泛化能力。未来,该方法有望进一步扩展到其他模态的数据,例如文本、语音等。

📄 摘要(原文)

Assuming that neither source data nor the source model is accessible, black box domain adaptation represents a highly practical yet extremely challenging setting, as transferable information is restricted to the predictions of the black box source model, which can only be queried using target samples. Existing approaches attempt to extract transferable knowledge through pseudo label refinement or by leveraging external vision language models (ViLs), but they often suffer from noisy supervision or insufficient utilization of the semantic priors provided by ViLs, which ultimately hinder adaptation performance. To overcome these limitations, we propose a dual teacher distillation with subnetwork rectification (DDSR) model that jointly exploits the specific knowledge embedded in black box source models and the general semantic information of a ViL. DDSR adaptively integrates their complementary predictions to generate reliable pseudo labels for the target domain and introduces a subnetwork driven regularization strategy to mitigate overfitting caused by noisy supervision. Furthermore, the refined target predictions iteratively enhance both the pseudo labels and ViL prompts, enabling more accurate and semantically consistent adaptation. Finally, the target model is further optimized through self training with classwise prototypes. Extensive experiments on multiple benchmark datasets validate the effectiveness of our approach, demonstrating consistent improvements over state of the art methods, including those using source data or models.