PVLM: Parsing-Aware Vision Language Model with Dynamic Contrastive Learning for Zero-Shot Deepfake Attribution
作者: Yaning Zhang, Jiahe Zhang, Chunjie Ma, Weili Guan, Tian Gan, Zan Gao
分类: cs.CV
发布日期: 2025-04-19 (更新: 2025-09-18)
💡 一句话要点
提出PVLM,利用解析信息和动态对比学习实现零样本深度伪造溯源
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度伪造溯源 零样本学习 视觉语言模型 人脸解析 对比学习
📋 核心要点
- 现有深度伪造溯源方法忽略了文本和人脸解析等模态,且泛化性不足,难以应对新型生成器。
- PVLM利用人脸解析信息,通过动态对比学习,学习更通用和细粒度的伪造溯源特征。
- 实验表明,PVLM在零样本深度伪造溯源基准上超越了现有方法,验证了其有效性。
📝 摘要(中文)
随着生成模型的快速发展,伪造人脸的溯源问题日益受到关注。现有的深度伪造溯源(DFA)方法主要关注视觉模态中不同域之间的交互,而忽略了文本和人脸解析等其他模态。此外,它们难以评估深度伪造溯源器对未见过的先进生成器(如扩散模型)的细粒度泛化性能。本文提出了一种新的解析感知视觉语言模型与动态对比学习(PVLM)方法,用于零样本深度伪造溯源(ZS-DFA),从而能够对未见过的先进生成器进行有效和细粒度的溯源。具体来说,我们构建了一个新的细粒度ZS-DFA基准,以评估深度伪造溯源器对扩散模型等未见过的先进生成器的溯源性能。此外,我们提出了一种创新的解析引导视觉语言模型与动态对比学习(PVLM)方法,以捕获通用和多样的溯源特征。我们的动机是GAN和扩散模型生成的面部图像中,源面部属性的保留程度差异很大。我们利用固有的面部属性保留差异来捕获面部解析感知的伪造表示。因此,我们设计了一个新的解析编码器来关注全局面部属性嵌入,从而通过动态视觉-解析匹配实现解析引导的DFA表示学习。此外,我们提出了一种新的深度伪造溯源对比中心损失,以拉近相关生成器,推远不相关生成器,这可以引入到DFA模型中以增强溯源能力。实验结果表明,我们的模型通过各种协议评估,在ZS-DFA基准上超过了最先进水平。
🔬 方法详解
问题定义:现有深度伪造溯源方法主要依赖视觉模态的域间交互,忽略了文本和人脸解析等信息,导致模型泛化能力不足,难以应对如扩散模型等新型生成器生成的伪造人脸。这些方法在零样本场景下的溯源性能较差,无法有效追踪未见过的生成器。
核心思路:PVLM的核心思路是利用人脸解析信息来指导视觉语言模型的学习,从而捕获更通用和细粒度的伪造溯源特征。该方法观察到GAN和扩散模型在生成人脸时,对原始人脸属性的保留程度存在差异,因此利用这种差异来学习解析感知的伪造表示。通过动态对比学习,模型能够更好地区分不同生成器生成的伪造人脸。
技术框架:PVLM的整体框架包含以下几个主要模块:1) 图像编码器:用于提取输入人脸图像的视觉特征。2) 解析编码器:用于提取人脸解析图的特征,关注全局面部属性嵌入。3) 文本编码器:用于编码生成器的文本描述。4) 动态对比学习模块:通过对比学习损失,拉近同一生成器生成的图像和文本表示,推远不同生成器的表示。5) 深度伪造溯源对比中心损失:进一步优化特征空间,使同一生成器的特征更紧凑,不同生成器的特征更分散。
关键创新:PVLM的关键创新在于:1) 引入人脸解析信息,利用生成器在人脸属性保留上的差异来指导特征学习。2) 提出动态对比学习策略,根据不同生成器的特征分布动态调整对比学习的权重。3) 设计深度伪造溯源对比中心损失,进一步增强模型的溯源能力。
关键设计:解析编码器采用卷积神经网络,旨在提取全局面部属性嵌入。动态对比学习模块使用InfoNCE损失,并根据生成器特征的方差动态调整温度参数。深度伪造溯源对比中心损失通过计算每个生成器的特征中心,并拉近样本与其对应中心,推远样本与其他中心来实现。
🖼️ 关键图片
📊 实验亮点
PVLM在零样本深度伪造溯源基准上取得了显著的性能提升。实验结果表明,PVLM在各种协议评估下均优于现有最先进的方法,尤其是在应对未见过的先进生成器(如扩散模型)时,溯源准确率提升明显。这验证了PVLM在零样本场景下的泛化能力和有效性。
🎯 应用场景
PVLM可应用于数字取证、网络安全、媒体内容审核等领域。通过追踪深度伪造内容的来源,可以有效打击虚假信息传播,维护社会稳定。该研究的成果有助于提升深度伪造检测和溯源技术的水平,为构建可信赖的数字环境提供技术支撑。
📄 摘要(原文)
The challenge of tracing the source attribution of forged faces has gained significant attention due to the rapid advancement of generative models. However, existing deepfake attribution (DFA) works primarily focus on the interaction among various domains in vision modality, and other modalities such as texts and face parsing are not fully explored. Besides, they tend to fail to assess the generalization performance of deepfake attributors to unseen advanced generators like diffusion in a fine-grained manner. In this paper, we propose a novel parsing-aware vision language model with dynamic contrastive learning(PVLM) method for zero-shot deepfake attribution (ZS-DFA),which facilitates effective and fine-grained traceability to unseen advanced generators. Specifically, we conduct a novel and fine-grained ZS-DFA benchmark to evaluate the attribution performance of deepfake attributors to unseen advanced generators like diffusion. Besides, we propose an innovative parsing-guided vision language model with dynamic contrastive learning (PVLM) method to capture general and diverse attribution features. We are motivated by the observation that the preservation of source face attributes in facial images generated by GAN and diffusion models varies significantly. We employ the inherent face attributes preservation differences to capture face parsing-aware forgery representations. Therefore, we devise a novel parsing encoder to focus on global face attribute embeddings, enabling parsing-guided DFA representation learning via dynamic vision-parsing matching. Additionally, we present a novel deepfake attribution contrastive center loss to pull relevant generators closer and push irrelevant ones away, which can be introduced into DFA models to enhance traceability. Experimental results show that our model exceeds the state-of-the-art on the ZS-DFA benchmark via various protocol evaluations.