TwoHead-SwinFPN: A Unified DL Architecture for Synthetic Manipulation, Detection and Localization in Identity Documents
作者: Chan Naseeb, Adeel Ashraf Cheema, Hassan Sami, Tayyab Afzal, Muhammad Omair, Usman Habib
分类: cs.CV, cs.LG
发布日期: 2026-01-19
备注: 8 pages
💡 一句话要点
TwoHead-SwinFPN:用于身份证件合成篡改检测与定位的统一深度学习架构
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 身份证件安全 合成篡改检测 Swin Transformer 特征金字塔网络 多任务学习 图像分割 深度学习
📋 核心要点
- 现有生成式AI模型加剧了身份证件中合成篡改的威胁,尤其是在人脸替换和文本涂改攻击方面。
- 论文提出TwoHead-SwinFPN,结合Swin Transformer、FPN和UNet解码器,利用双头架构进行联合优化,实现篡改检测与定位。
- 实验表明,该方法在FantasyIDiap数据集上取得了优异的分类和定位性能,并具有良好的计算效率和泛化能力。
📝 摘要(中文)
本文提出了一种名为TwoHead-SwinFPN的统一深度学习架构,旨在同时执行身份证件中被篡改区域的二元分类和精确定位,特别是针对人脸替换和文本涂改攻击。该方法集成了Swin Transformer骨干网络、特征金字塔网络(FPN)和UNet风格的解码器,并使用卷积块注意力模块(CBAM)来增强特征表示。该模型采用双头架构,通过不确定性加权的多任务学习来联合优化检测和分割任务。在FantasyIDiap数据集上的大量实验表明,该方法在分类方面取得了84.31%的准确率和90.78%的AUC,在定位方面取得了57.24%的平均Dice系数,表现出卓越的性能。所提出的方法在二元分类中实现了88.61%的F1分数,同时通过FastAPI实现保持了计算效率,适用于实际部署。我们的综合评估包括消融研究、跨设备泛化分析以及跨10种语言和3种采集设备的详细性能评估。
🔬 方法详解
问题定义:身份证件中的合成篡改,如人脸替换和文本涂改,日益猖獗。现有方法在检测和精确定位篡改区域方面存在不足,难以满足实际应用的需求。该论文旨在解决身份证件中合成篡改的精确检测和定位问题,克服现有方法在准确性和效率方面的局限性。
核心思路:论文的核心思路是利用一个统一的深度学习架构,同时执行二元分类(判断是否存在篡改)和像素级别的分割(定位篡改区域)。通过联合优化这两个任务,模型可以学习到更鲁棒和更具判别性的特征表示,从而提高检测和定位的准确性。
技术框架:TwoHead-SwinFPN架构主要包含以下几个模块:1) Swin Transformer骨干网络:用于提取图像的全局和局部特征。2) 特征金字塔网络(FPN):用于融合不同尺度的特征,提高对不同大小篡改区域的检测能力。3) UNet风格的解码器:用于将特征图解码为像素级别的分割掩码。4) 卷积块注意力模块(CBAM):用于增强特征表示,突出重要区域。5) 双头架构:一个头用于二元分类,另一个头用于分割。
关键创新:该论文的关键创新在于:1) 提出了一个统一的深度学习架构,可以同时执行检测和定位任务。2) 采用了Swin Transformer作为骨干网络,可以有效地提取图像的全局和局部特征。3) 使用了不确定性加权的多任务学习方法,可以更好地平衡两个任务之间的损失。
关键设计:在网络结构方面,Swin Transformer的窗口大小和层数需要根据具体数据集进行调整。损失函数方面,分类任务使用交叉熵损失,分割任务使用Dice损失。为了平衡两个任务的损失,使用了不确定性加权的多任务学习方法,根据每个任务的不确定性来调整损失的权重。具体而言,使用了论文“Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics”中提出的方法。
📊 实验亮点
实验结果表明,TwoHead-SwinFPN在FantasyIDiap数据集上取得了显著的性能提升。在分类任务中,准确率达到84.31%,AUC达到90.78%,F1-score达到88.61%。在分割任务中,平均Dice系数达到57.24%。消融实验验证了各个模块的有效性。此外,该方法在跨设备和跨语言的场景下也表现出良好的泛化能力。
🎯 应用场景
该研究成果可应用于身份验证系统、边境安全检查、金融机构的反欺诈系统等领域,有效提升身份证件的防伪能力,减少因身份欺诈造成的经济损失和社会风险。未来,该技术可扩展到其他类型的文档安全检测,例如护照、驾驶执照等。
📄 摘要(原文)
The proliferation of sophisticated generative AI models has significantly escalated the threat of synthetic manipulations in identity documents, particularly through face swapping and text inpainting attacks. This paper presents TwoHead-SwinFPN, a unified deep learning architecture that simultaneously performs binary classification and precise localization of manipulated regions in ID documents. Our approach integrates a Swin Transformer backbone with Feature Pyramid Network (FPN) and UNet-style decoder, enhanced with Convolutional Block Attention Module (CBAM) for improved feature representation. The model employs a dual-head architecture for joint optimization of detection and segmentation tasks, utilizing uncertainty-weighted multi-task learning. Extensive experiments on the FantasyIDiap dataset demonstrate superior performance with 84.31\% accuracy, 90.78\% AUC for classification, and 57.24\% mean Dice score for localization. The proposed method achieves an F1-score of 88.61\% for binary classification while maintaining computational efficiency suitable for real-world deployment through FastAPI implementation. Our comprehensive evaluation includes ablation studies, cross-device generalization analysis, and detailed performance assessment across 10 languages and 3 acquisition devices.