TwoHead-SwinFPN: A Unified DL Architecture for Synthetic Manipulation, Detection and Localization in Identity Documents

作者: Chan Naseeb, Adeel Ashraf Cheema, Hassan Sami, Tayyab Afzal, Muhammad Omair, Usman Habib

分类: cs.CV, cs.LG

发布日期: 2026-01-19

备注: 8 pages

💡 一句话要点

TwoHead-SwinFPN：用于身份证件合成篡改检测与定位的统一深度学习架构

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 身份证件安全 合成篡改检测 Swin Transformer 特征金字塔网络 多任务学习 图像分割 深度学习

📋 核心要点

现有生成式AI模型加剧了身份证件中合成篡改的威胁，尤其是在人脸替换和文本涂改攻击方面。
论文提出TwoHead-SwinFPN，结合Swin Transformer、FPN和UNet解码器，利用双头架构进行联合优化，实现篡改检测与定位。
实验表明，该方法在FantasyIDiap数据集上取得了优异的分类和定位性能，并具有良好的计算效率和泛化能力。

📝 摘要（中文）

本文提出了一种名为TwoHead-SwinFPN的统一深度学习架构，旨在同时执行身份证件中被篡改区域的二元分类和精确定位，特别是针对人脸替换和文本涂改攻击。该方法集成了Swin Transformer骨干网络、特征金字塔网络（FPN）和UNet风格的解码器，并使用卷积块注意力模块（CBAM）来增强特征表示。该模型采用双头架构，通过不确定性加权的多任务学习来联合优化检测和分割任务。在FantasyIDiap数据集上的大量实验表明，该方法在分类方面取得了84.31%的准确率和90.78%的AUC，在定位方面取得了57.24%的平均Dice系数，表现出卓越的性能。所提出的方法在二元分类中实现了88.61%的F1分数，同时通过FastAPI实现保持了计算效率，适用于实际部署。我们的综合评估包括消融研究、跨设备泛化分析以及跨10种语言和3种采集设备的详细性能评估。

🔬 方法详解

问题定义：身份证件中的合成篡改，如人脸替换和文本涂改，日益猖獗。现有方法在检测和精确定位篡改区域方面存在不足，难以满足实际应用的需求。该论文旨在解决身份证件中合成篡改的精确检测和定位问题，克服现有方法在准确性和效率方面的局限性。

核心思路：论文的核心思路是利用一个统一的深度学习架构，同时执行二元分类（判断是否存在篡改）和像素级别的分割（定位篡改区域）。通过联合优化这两个任务，模型可以学习到更鲁棒和更具判别性的特征表示，从而提高检测和定位的准确性。

技术框架：TwoHead-SwinFPN架构主要包含以下几个模块：1) Swin Transformer骨干网络：用于提取图像的全局和局部特征。2) 特征金字塔网络（FPN）：用于融合不同尺度的特征，提高对不同大小篡改区域的检测能力。3) UNet风格的解码器：用于将特征图解码为像素级别的分割掩码。4) 卷积块注意力模块（CBAM）：用于增强特征表示，突出重要区域。5) 双头架构：一个头用于二元分类，另一个头用于分割。

关键创新：该论文的关键创新在于：1) 提出了一个统一的深度学习架构，可以同时执行检测和定位任务。2) 采用了Swin Transformer作为骨干网络，可以有效地提取图像的全局和局部特征。3) 使用了不确定性加权的多任务学习方法，可以更好地平衡两个任务之间的损失。

关键设计：在网络结构方面，Swin Transformer的窗口大小和层数需要根据具体数据集进行调整。损失函数方面，分类任务使用交叉熵损失，分割任务使用Dice损失。为了平衡两个任务的损失，使用了不确定性加权的多任务学习方法，根据每个任务的不确定性来调整损失的权重。具体而言，使用了论文“Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics”中提出的方法。

📊 实验亮点

实验结果表明，TwoHead-SwinFPN在FantasyIDiap数据集上取得了显著的性能提升。在分类任务中，准确率达到84.31%，AUC达到90.78%，F1-score达到88.61%。在分割任务中，平均Dice系数达到57.24%。消融实验验证了各个模块的有效性。此外，该方法在跨设备和跨语言的场景下也表现出良好的泛化能力。

🎯 应用场景

该研究成果可应用于身份验证系统、边境安全检查、金融机构的反欺诈系统等领域，有效提升身份证件的防伪能力，减少因身份欺诈造成的经济损失和社会风险。未来，该技术可扩展到其他类型的文档安全检测，例如护照、驾驶执照等。

📄 摘要（原文）

The proliferation of sophisticated generative AI models has significantly escalated the threat of synthetic manipulations in identity documents, particularly through face swapping and text inpainting attacks. This paper presents TwoHead-SwinFPN, a unified deep learning architecture that simultaneously performs binary classification and precise localization of manipulated regions in ID documents. Our approach integrates a Swin Transformer backbone with Feature Pyramid Network (FPN) and UNet-style decoder, enhanced with Convolutional Block Attention Module (CBAM) for improved feature representation. The model employs a dual-head architecture for joint optimization of detection and segmentation tasks, utilizing uncertainty-weighted multi-task learning. Extensive experiments on the FantasyIDiap dataset demonstrate superior performance with 84.31\% accuracy, 90.78\% AUC for classification, and 57.24\% mean Dice score for localization. The proposed method achieves an F1-score of 88.61\% for binary classification while maintaining computational efficiency suitable for real-world deployment through FastAPI implementation. Our comprehensive evaluation includes ablation studies, cross-device generalization analysis, and detailed performance assessment across 10 languages and 3 acquisition devices.

TwoHead-SwinFPN: A Unified DL Architecture for Synthetic Manipulation, Detection and Localization in Identity Documents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理