FantasyID: A dataset for detecting digital manipulations of ID-documents

📄 arXiv: 2507.20808v1 📥 PDF

作者: Pavel Korshunov, Amir Mohammadi, Vidit Vidit, Christophe Ecabert, Sébastien Marcel

分类: cs.CV

发布日期: 2025-07-28

备注: Accepted to IJCB 2025; for project page, see https://www.idiap.ch/paper/fantasyid


💡 一句话要点

FantasyID:用于检测身份证件数字篡改的公共数据集

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 身份证件伪造检测 数据集 数字篡改 KYC 图像生成

📋 核心要点

  1. 现有的图像生成技术被滥用,对KYC系统构成威胁,需要更有效的身份证件伪造检测方法。
  2. FantasyID数据集通过模仿真实身份证件,并模拟各种伪造攻击,为算法开发提供了可靠的训练和评估资源。
  3. 实验表明,现有先进的伪造检测算法在FantasyID数据集上表现不佳,尤其是在实际应用场景中,凸显了数据集的挑战性。

📝 摘要(中文)

图像生成技术的进步使得恶意行为者能够轻易创建伪造图像。这些工具对广泛应用的“了解你的客户”(KYC)应用构成了严重威胁,因此需要强大的系统来检测伪造的身份证件(ID)。为了促进检测算法的开发,本文提出了一个新的公开可用的(包括商业用途)数据集FantasyID,它模仿真实的ID,但不篡改法律文件,并且与之前的公共数据集相比,它不包含生成的面孔或样本水印。FantasyID包含具有不同设计风格、语言和真实人脸的身份证。为了模拟真实的KYC场景,FantasyID中的卡片被打印并用三种不同的设备捕获,构成了真实类别。我们模拟了恶意行为者可能使用现有生成工具篡改ID的数字伪造/注入攻击。FantasyID数据集对当前最先进的伪造检测算法(如TruFor、MMFusion、UniFD和FatFormer)提出了挑战。在接近实际的评估条件下,这一点尤其明显,在验证集上设置操作阈值,使假阳性率达到10%,导致测试集上的假阴性率接近50%。评估实验表明,FantasyID数据集足够复杂,可以用作检测算法的评估基准。

🔬 方法详解

问题定义:论文旨在解决身份证件(ID)的数字篡改检测问题。现有的伪造检测算法在面对日益复杂的伪造技术时,泛化能力不足,尤其是在实际KYC场景中。公开数据集要么缺乏真实感,要么包含法律风险,限制了算法的有效训练和评估。

核心思路:论文的核心思路是构建一个既具有真实感,又避免法律风险的身份证件数据集FantasyID。该数据集通过模仿真实身份证件的设计风格、语言和人脸,并模拟各种数字伪造攻击,来提高伪造检测算法的鲁棒性和泛化能力。

技术框架:FantasyID数据集的构建流程包括:1) 设计具有多样性的身份证件模板;2) 收集真实人脸图像;3) 将人脸图像嵌入到身份证件模板中;4) 打印并使用不同设备捕获身份证件图像,作为真实样本;5) 使用图像生成工具模拟各种数字伪造攻击,生成伪造样本。该数据集可用于训练和评估伪造检测算法。

关键创新:FantasyID数据集的关键创新在于:1) 避免使用生成人脸或样本水印,提高了数据集的真实感;2) 模拟了真实的KYC场景,包括打印和捕获过程;3) 包含了多种数字伪造攻击,增加了数据集的复杂性。与现有数据集相比,FantasyID更具挑战性和实用性。

关键设计:FantasyID数据集的关键设计包括:1) 身份证件模板的多样性,涵盖不同的设计风格和语言;2) 真实人脸图像的收集,保证了数据集的真实感;3) 数字伪造攻击的模拟,包括图像注入、篡改等;4) 使用三种不同设备捕获图像,模拟了实际KYC场景中的设备差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的先进伪造检测算法(如TruFor、MMFusion、UniFD和FatFormer)在FantasyID数据集上表现不佳。在实际应用场景中,当假阳性率设置为10%时,这些算法在测试集上的假阴性率接近50%。这表明FantasyID数据集对现有算法提出了严峻的挑战,并突显了开发更鲁棒的伪造检测算法的必要性。

🎯 应用场景

该研究成果可直接应用于“了解你的客户”(KYC)系统,提高身份验证的安全性,防止欺诈行为。通过使用FantasyID数据集训练和评估伪造检测算法,可以有效提升算法的鲁棒性和泛化能力,从而在实际应用中更准确地识别伪造身份证件,降低金融风险,保障社会安全。未来,该数据集可以扩展到其他类型的证件,进一步提升身份验证技术的水平。

📄 摘要(原文)

Advancements in image generation led to the availability of easy-to-use tools for malicious actors to create forged images. These tools pose a serious threat to the widespread Know Your Customer (KYC) applications, requiring robust systems for detection of the forged Identity Documents (IDs). To facilitate the development of the detection algorithms, in this paper, we propose a novel publicly available (including commercial use) dataset, FantasyID, which mimics real-world IDs but without tampering with legal documents and, compared to previous public datasets, it does not contain generated faces or specimen watermarks. FantasyID contains ID cards with diverse design styles, languages, and faces of real people. To simulate a realistic KYC scenario, the cards from FantasyID were printed and captured with three different devices, constituting the bonafide class. We have emulated digital forgery/injection attacks that could be performed by a malicious actor to tamper the IDs using the existing generative tools. The current state-of-the-art forgery detection algorithms, such as TruFor, MMFusion, UniFD, and FatFormer, are challenged by FantasyID dataset. It especially evident, in the evaluation conditions close to practical, with the operational threshold set on validation set so that false positive rate is at 10%, leading to false negative rates close to 50% across the board on the test set. The evaluation experiments demonstrate that FantasyID dataset is complex enough to be used as an evaluation benchmark for detection algorithms.