Trade-offs in Cross-Domain Generalization of Foundation Model Fine-Tuned for Biometric Applications

📄 arXiv: 2509.14921v1 📥 PDF

作者: Tahar Chettaoui, Naser Damer, Fadi Boutros

分类: cs.CV

发布日期: 2025-09-18

备注: Accepted at the IEEE International Joint Conference on Biometrics 2025 (IJCB 2025)


💡 一句话要点

研究CLIP微调在生物特征识别任务中泛化能力与过 специализации 的权衡

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生物特征识别 人脸识别 活体攻击检测 人脸变造攻击检测 CLIP模型 跨域泛化 过 специализации 模型微调

📋 核心要点

  1. 现有方法在生物特征识别任务中微调基础模型时,容易出现过 специализации 问题,导致跨域泛化能力下降。
  2. 本文通过系统评估CLIP模型在不同生物特征识别任务微调后的性能,量化了泛化能力与过 специализации 之间的权衡。
  3. 实验结果表明,微调后的模型在通用视觉任务上性能下降,且任务复杂性和模型容量与泛化能力损失程度相关。

📝 摘要(中文)

CLIP等基础模型在各种视觉任务中表现出卓越的零样本和少样本迁移能力。然而,当针对高度专业化的生物特征识别任务(如人脸识别(FR)、人脸变造攻击检测(MAD)和活体攻击检测(PAD))进行微调时,这些模型可能会过度专业化,从而失去其基础优势之一:跨域泛化能力。本文系统地量化了这些权衡,通过评估三个针对FR、MAD和PAD微调的CLIP实例来实现。除了常见的FR、MAD和PAD基准测试外,我们还在零样本和线性探针协议下,在14个通用视觉数据集上评估了每个调整后的模型以及原始CLIP基线。结果表明,微调后的模型存在过度专业化的问题,特别是当针对复杂的人脸识别任务进行微调时。此外,我们的结果表明,任务复杂性和分类头设计(多类FR与二元MAD和PAD)与灾难性遗忘的程度相关。使用ViT-L骨干的FRoundation模型在大型FR基准IJB-C上优于其他方法,实现了高达58.52%的改进。然而,它在ImageNetV2上的性能大幅下降,仅达到51.63%,而基线CLIP模型达到了69.84%。此外,较大的CLIP架构始终比较小的变体保留了更多的模型原始泛化能力,表明增加模型容量可能有助于缓解过度专业化。

🔬 方法详解

问题定义:论文旨在研究当基础模型(如CLIP)针对特定生物特征识别任务(如人脸识别、人脸变造攻击检测和活体攻击检测)进行微调时,其跨域泛化能力会受到怎样的影响。现有方法在追求特定任务性能提升的同时,往往忽略了模型在其他领域的表现,导致模型过度 специализации ,丧失了基础模型的通用性优势。

核心思路:论文的核心思路是通过系统性的实验评估,量化CLIP模型在不同生物特征识别任务上微调后,其在通用视觉任务上的性能变化。通过对比微调前后模型在不同数据集上的表现,分析过 специализации 现象的严重程度,并探讨任务复杂性、模型容量等因素对泛化能力的影响。

技术框架:论文采用的实验框架包括:1) 选择CLIP作为基础模型,并针对人脸识别、人脸变造攻击检测和活体攻击检测三个任务进行微调;2) 在14个通用视觉数据集和相应的生物特征识别基准数据集上评估微调前后模型的性能;3) 采用零样本和线性探针两种评估协议,以更全面地衡量模型的泛化能力;4) 分析任务复杂性(多分类 vs. 二分类)和模型容量(不同大小的CLIP模型)对过 специализации 现象的影响。

关键创新:论文的关键创新在于系统性地研究了基础模型在生物特征识别领域微调时,泛化能力与过 специализации 之间的权衡关系。以往的研究主要关注特定任务的性能提升,而忽略了模型在其他领域的表现。本文通过全面的实验评估,揭示了微调可能导致的泛化能力损失,并探讨了影响因素,为后续研究提供了重要的参考。

关键设计:论文的关键设计包括:1) 选择具有代表性的生物特征识别任务,涵盖了人脸识别、安全检测等多个方面;2) 采用多种评估协议,包括零样本和线性探针,以更全面地衡量模型的泛化能力;3) 对比不同大小的CLIP模型,以研究模型容量对过 специализации 现象的影响;4) 分析任务复杂性对泛化能力的影响,例如对比多分类的人脸识别任务和二分类的攻击检测任务。

📊 实验亮点

实验结果表明,针对人脸识别任务微调的CLIP模型在IJB-C数据集上取得了高达58.52%的性能提升,但在ImageNetV2数据集上的性能却下降了18.21%(从69.84%降至51.63%),这表明微调会导致明显的过 специализации 现象。此外,较大的CLIP模型(ViT-L)比小的CLIP模型更能保留原始的泛化能力,表明增加模型容量可以缓解过 специализации 问题。

🎯 应用场景

该研究成果可应用于指导生物特征识别系统的设计和部署,在追求特定任务高性能的同时,避免模型过度 специализации ,保持良好的跨域泛化能力。例如,在开发人脸识别系统时,可以借鉴该研究的结论,选择合适的微调策略和模型容量,以确保系统在不同场景下都能保持良好的识别精度。此外,该研究也为其他领域的模型微调提供了参考,有助于提升模型的鲁棒性和泛化能力。

📄 摘要(原文)

Foundation models such as CLIP have demonstrated exceptional zero- and few-shot transfer capabilities across diverse vision tasks. However, when fine-tuned for highly specialized biometric tasks, face recognition (FR), morphing attack detection (MAD), and presentation attack detection (PAD), these models may suffer from over-specialization. Thus, they may lose one of their foundational strengths, cross-domain generalization. In this work, we systematically quantify these trade-offs by evaluating three instances of CLIP fine-tuned for FR, MAD, and PAD. We evaluate each adapted model as well as the original CLIP baseline on 14 general vision datasets under zero-shot and linear-probe protocols, alongside common FR, MAD, and PAD benchmarks. Our results indicate that fine-tuned models suffer from over-specialization, especially when fine-tuned for complex tasks of FR. Also, our results pointed out that task complexity and classification head design, multi-class (FR) vs. binary (MAD and PAD), correlate with the degree of catastrophic forgetting. The FRoundation model with the ViT-L backbone outperforms other approaches on the large-scale FR benchmark IJB-C, achieving an improvement of up to 58.52%. However, it experiences a substantial performance drop on ImageNetV2, reaching only 51.63% compared to 69.84% achieved by the baseline CLIP model. Moreover, the larger CLIP architecture consistently preserves more of the model's original generalization ability than the smaller variant, indicating that increased model capacity may help mitigate over-specialization.