TT-DF: A Large-Scale Diffusion-Based Dataset and Benchmark for Human Body Forgery Detection

📄 arXiv: 2505.08437v2 📥 PDF

作者: Wenkui Yang, Zhida Zhang, Xiaoqiang Zhou, Junxian Duan, Jie Cao

分类: cs.CV

发布日期: 2025-05-13 (更新: 2025-09-19)

备注: Accepted by PRCV 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出TT-DF大规模扩散模型伪造人体数据集与基准,用于人体伪造检测。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体伪造检测 扩散模型 大规模数据集 时间光流网络 视频真伪鉴别

📋 核心要点

  1. 现有的人体伪造检测缺乏大规模数据集和有效检测方法,限制了相关研究进展。
  2. 论文构建了大规模的TT-DF数据集,并提出时间光流网络(TOF-Net)用于检测人体伪造。
  3. 实验表明,TOF-Net在TT-DF数据集上表现优异,超越了现有的面部伪造检测模型。

📝 摘要(中文)

面部deepfake方法的出现和普及促进了deepfake数据集和面部伪造检测的蓬勃发展,这在一定程度上缓解了人们对面部相关人工智能技术的安全担忧。然而,在人体伪造方面,由于人体生成方法的起步较晚和复杂性,一直缺乏数据集和检测方法。为了缓解这个问题,我们引入了TikTok-DeepFake (TT-DF),这是一个新的大规模扩散模型数据集,包含6120个伪造视频和1378857个合成帧,专门为人体伪造检测而定制。TT-DF提供了多种伪造方法,涉及用于操纵的多种高级人体图像动画模型,基于身份和姿势信息解耦的两种生成配置,以及不同的压缩版本。目的是尽可能全面地模拟任何潜在的、未见过的伪造数据,并且我们还提供了TT-DF上的基准。此外,我们提出了一种改进的人体伪造检测模型,即时间光流网络(TOF-Net),它利用了自然数据和伪造数据之间的时空不一致性和光流分布差异。实验表明,TOF-Net在TT-DF上取得了良好的性能,优于当前最先进的可扩展面部伪造检测模型。TT-DF数据集可在https://github.com/HashTAG00002/TT-DF 获取。

🔬 方法详解

问题定义:论文旨在解决人体伪造检测领域缺乏大规模数据集和有效检测方法的问题。现有方法主要集中在面部伪造检测,难以直接应用于人体伪造,且缺乏针对人体运动和姿态特点的建模。

核心思路:论文的核心思路是构建一个大规模、多样化的人体伪造数据集TT-DF,并设计一个能够有效捕捉时空不一致性和光流分布差异的检测模型TOF-Net。通过数据集驱动和模型创新,提升人体伪造检测的准确性和鲁棒性。

技术框架:整体框架包含两个主要部分:TT-DF数据集的构建和TOF-Net模型的提出。TT-DF数据集通过多种扩散模型生成伪造视频,涵盖不同的伪造方法和压缩版本。TOF-Net模型利用时间光流信息,提取时空特征,并通过分类器判断视频真伪。

关键创新:论文的关键创新在于:1) 构建了大规模的扩散模型伪造人体数据集TT-DF,填补了该领域的空白;2) 提出了TOF-Net模型,能够有效利用时空信息和光流分布差异进行人体伪造检测。

关键设计:TOF-Net模型使用光流估计网络提取视频帧之间的光流信息,然后使用时间卷积网络(TCN)对光流序列进行建模,提取时空特征。损失函数采用交叉熵损失,优化模型参数。数据集构建过程中,使用了多种先进的人体图像动画模型和生成配置,以保证数据集的多样性和真实性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的TOF-Net模型在TT-DF数据集上取得了显著的性能提升,超越了当前最先进的可扩展面部伪造检测模型。具体性能数据在论文中给出,证明了该方法在人体伪造检测方面的有效性。

🎯 应用场景

该研究成果可应用于视频监控、社交媒体内容审核、身份验证等领域,有效识别和防范利用AI技术进行的人体伪造行为,维护网络安全和社会稳定。未来可进一步扩展到其他类型的视频伪造检测,提升AI安全水平。

📄 摘要(原文)

The emergence and popularity of facial deepfake methods spur the vigorous development of deepfake datasets and facial forgery detection, which to some extent alleviates the security concerns about facial-related artificial intelligence technologies. However, when it comes to human body forgery, there has been a persistent lack of datasets and detection methods, due to the later inception and complexity of human body generation methods. To mitigate this issue, we introduce TikTok-DeepFake (TT-DF), a novel large-scale diffusion-based dataset containing 6,120 forged videos with 1,378,857 synthetic frames, specifically tailored for body forgery detection. TT-DF offers a wide variety of forgery methods, involving multiple advanced human image animation models utilized for manipulation, two generative configurations based on the disentanglement of identity and pose information, as well as different compressed versions. The aim is to simulate any potential unseen forged data in the wild as comprehensively as possible, and we also furnish a benchmark on TT-DF. Additionally, we propose an adapted body forgery detection model, Temporal Optical Flow Network (TOF-Net), which exploits the spatiotemporal inconsistencies and optical flow distribution differences between natural data and forged data. Our experiments demonstrate that TOF-Net achieves favorable performance on TT-DF, outperforming current state-of-the-art extendable facial forgery detection models. For our TT-DF dataset, please refer to https://github.com/HashTAG00002/TT-DF.