Domain Generalization for Face Anti-spoofing via Content-aware Composite Prompt Engineering
作者: Jiabao Guo, Ajian Liu, Yunfeng Diao, Jin Zhang, Hui Ma, Bo Zhao, Richang Hong, Meng Wang
分类: cs.CV
发布日期: 2025-04-06
💡 一句话要点
提出内容感知复合提示工程,解决人脸反欺骗跨域泛化难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人脸反欺骗 域泛化 提示工程 大型语言模型 跨模态融合
📋 核心要点
- 现有基于CLIP的人脸反欺骗方法在跨域泛化方面存在不足,类别提示缺乏语义信息,且单一提示形式难以捕捉多样欺骗模式。
- 论文提出内容感知复合提示工程(CCPE),利用大型语言模型知识和可学习提示,生成实例相关的复合提示,增强模型对欺骗线索的感知。
- 实验结果表明,CCPE在多个跨域人脸反欺骗任务中取得了state-of-the-art的性能,验证了其有效性和泛化能力。
📝 摘要(中文)
人脸反欺骗(FAS)中的域泛化(DG)挑战在于,特定领域的信号对细微的欺骗线索存在显著干扰。最近,一些基于CLIP的算法通过调整视觉分类器的权重来缓解这种干扰。然而,我们分析发现,这种基于类别的提示工程在DG FAS中存在两个缺点:(1)人脸类别(如真实或欺骗)对于CLIP模型没有语义信息,难以学习准确的类别描述。(2)单一形式的提示无法描绘各种类型的欺骗。因此,我们提出了一种新的内容感知复合提示工程(CCPE),它生成实例相关的复合提示,包括固定模板和可学习提示。具体来说,我们的CCPE从两个分支构建内容感知提示:(1)固有内容提示,显式地受益于基于指令的大型语言模型(LLM)中丰富的迁移知识。(2)可学习内容提示,通过Q-Former隐式地提取最具信息量的视觉内容。此外,我们设计了一个跨模态引导模块(CGM),动态调整单模态特征进行融合,以实现更好的泛化FAS。最后,我们的CCPE在多个跨域实验中验证了其有效性,并取得了最先进(SOTA)的结果。
🔬 方法详解
问题定义:人脸反欺骗(FAS)旨在区分真实人脸和伪造人脸,但在跨域场景下,由于训练数据和测试数据分布差异,模型泛化能力显著下降。现有基于CLIP的方法虽然尝试利用提示工程,但类别提示缺乏语义信息,且单一提示形式难以捕捉多样欺骗模式,导致泛化性能受限。
核心思路:论文的核心思路是利用内容感知的复合提示工程(CCPE)来增强模型对欺骗线索的感知能力。CCPE通过结合固定模板提示和可学习提示,生成实例相关的复合提示,从而更准确地描述不同类型的欺骗攻击。同时,利用大型语言模型(LLM)的知识和Q-Former提取视觉内容,进一步提升提示的质量和信息量。
技术框架:CCPE主要包含以下几个模块:1) 固有内容提示分支:利用基于指令的大型语言模型(LLM)生成固定模板提示,提供丰富的迁移知识。2) 可学习内容提示分支:通过Q-Former提取最具信息量的视觉内容,生成可学习提示。3) 跨模态引导模块(CGM):动态调整单模态特征进行融合,提升特征表达能力。整体流程是,首先通过两个分支生成复合提示,然后利用CGM融合视觉特征和提示信息,最后进行分类。
关键创新:论文的关键创新在于提出了内容感知的复合提示工程(CCPE)。与现有方法相比,CCPE不再依赖于类别提示,而是根据输入图像的内容生成实例相关的复合提示,从而更准确地描述不同类型的欺骗攻击。此外,CCPE还利用了大型语言模型(LLM)的知识和Q-Former提取视觉内容,进一步提升提示的质量和信息量。
关键设计:1) 固有内容提示分支使用预训练的LLM,例如GPT-3,通过指令微调生成固定模板提示。2) 可学习内容提示分支使用Q-Former提取视觉特征,并通过可学习的线性层将其映射到提示空间。3) 跨模态引导模块(CGM)使用注意力机制动态调整单模态特征的权重,实现更好的特征融合。损失函数采用交叉熵损失函数,优化目标是最小化分类误差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CCPE在多个跨域人脸反欺骗任务中取得了state-of-the-art的性能。例如,在OULU-NPU到SiW-M的跨域实验中,CCPE的ACER指标相比现有最佳方法降低了超过5%。此外,消融实验验证了各个模块的有效性,证明了CCPE的优越性。
🎯 应用场景
该研究成果可广泛应用于身份验证、金融安全、门禁系统等领域,有效提升人脸识别系统的安全性,降低欺骗攻击带来的风险。未来,该方法有望扩展到其他生物特征识别领域,例如指纹识别、虹膜识别等,进一步提升生物特征识别系统的安全性。
📄 摘要(原文)
The challenge of Domain Generalization (DG) in Face Anti-Spoofing (FAS) is the significant interference of domain-specific signals on subtle spoofing clues. Recently, some CLIP-based algorithms have been developed to alleviate this interference by adjusting the weights of visual classifiers. However, our analysis of this class-wise prompt engineering suffers from two shortcomings for DG FAS: (1) The categories of facial categories, such as real or spoof, have no semantics for the CLIP model, making it difficult to learn accurate category descriptions. (2) A single form of prompt cannot portray the various types of spoofing. In this work, instead of class-wise prompts, we propose a novel Content-aware Composite Prompt Engineering (CCPE) that generates instance-wise composite prompts, including both fixed template and learnable prompts. Specifically, our CCPE constructs content-aware prompts from two branches: (1) Inherent content prompt explicitly benefits from abundant transferred knowledge from the instruction-based Large Language Model (LLM). (2) Learnable content prompts implicitly extract the most informative visual content via Q-Former. Moreover, we design a Cross-Modal Guidance Module (CGM) that dynamically adjusts unimodal features for fusion to achieve better generalized FAS. Finally, our CCPE has been validated for its effectiveness in multiple cross-domain experiments and achieves state-of-the-art (SOTA) results.