DINOv3 Beats Specialized Detectors: A Simple Foundation Model Baseline for Image Forensics

作者: Jieming Yu, Qiuxiao Feng, Zhuohan Wang, Xiaochen Ma

分类: cs.CV

发布日期: 2026-04-17

备注: Technical report

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于DINOv3的图像取证基线模型，性能超越专用检测器

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像取证 深度学习 DINOv3 LoRA 预训练模型

📋 核心要点

现有图像取证方法设计复杂，泛化性差，难以应对各种篡改和成像条件。
利用DINOv3预训练模型，结合LoRA适配和轻量级解码器，构建简单而强大的基线模型。
实验表明，该模型在多个基准测试中显著超越现有方法，且对噪声等具有鲁棒性。

📝 摘要（中文）

随着深度生成模型的快速发展，逼真的伪造图像变得越来越容易获取。然而，现有的定位方法依赖于复杂的设计，并且难以泛化到不同的篡改类型和成像条件。本文提出了一个简单但强大的基线模型，该模型基于DINOv3，并采用LoRA适配和一个轻量级的卷积解码器。在CAT-Net协议下，我们的最佳模型在四个标准基准测试中，平均像素级F1分数比之前的最佳方法提高了17.0个百分点，并且仅在冻结的ViT-L骨干网络之上使用了9.1M个可训练参数。即使是我们最小的变体也超过了所有先前的专用方法。LoRA在所有骨干网络尺度上始终优于完全微调。在数据稀缺的MVSS-Net协议下，LoRA达到了0.774的平均F1分数，而最强的前期方法为0.530，而完全微调变得非常不稳定，这表明预训练的表示编码了取证信息，这些信息比被覆盖的信息更好地保存。该基线模型还表现出对高斯噪声、JPEG重压缩和高斯模糊的强大鲁棒性。我们希望这项工作可以作为研究社区的可靠基线，并为未来的图像取证应用提供一个实用的起点。

🔬 方法详解

问题定义：图像取证旨在定位图像中被篡改的区域。现有方法通常针对特定类型的篡改进行设计，泛化能力较弱，难以适应真实世界中复杂多变的篡改情况。此外，这些方法往往需要大量的训练数据，并且模型结构复杂，计算成本高昂。

核心思路：本文的核心思路是利用大规模预训练的视觉Transformer模型（DINOv3）所学习到的通用图像表示，并在此基础上进行轻量级的微调，以适应图像取证任务。DINOv3在大量无标签数据上进行训练，能够学习到丰富的图像特征，这些特征对于检测图像中的异常区域非常有用。

技术框架：该方法主要包含三个模块：1) DINOv3骨干网络：用于提取图像的特征表示。2) LoRA适配器：用于对DINOv3的参数进行微调，使其更好地适应图像取证任务。LoRA通过引入少量可训练参数来调整预训练模型的权重，从而避免了完全微调带来的过拟合问题。3) 轻量级卷积解码器：用于将DINOv3提取的特征图解码为像素级别的篡改概率图。

关键创新：该方法最重要的创新点在于利用了大规模预训练模型DINOv3作为图像取证的特征提取器。与以往方法相比，该方法无需从头开始训练模型，而是直接利用预训练模型所学习到的通用图像表示，从而大大提高了模型的泛化能力和鲁棒性。此外，LoRA适配器的使用也降低了模型的训练成本，并避免了过拟合问题。

关键设计：DINOv3采用ViT-L作为骨干网络，LoRA适配器被添加到ViT-L的每个Transformer块中。解码器采用轻量级的卷积神经网络，包含几个卷积层和上采样层，用于将特征图恢复到原始图像大小。损失函数采用二元交叉熵损失函数，用于衡量预测的篡改概率图与真实标签之间的差异。

🖼️ 关键图片

📊 实验亮点

该方法在CAT-Net协议下，平均像素级F1分数比之前的最佳方法提高了17.0个百分点，且仅使用9.1M个可训练参数。在数据稀缺的MVSS-Net协议下，LoRA达到了0.774的平均F1分数，而最强的前期方法为0.530。实验还表明，该方法对高斯噪声、JPEG重压缩和高斯模糊具有很强的鲁棒性。

🎯 应用场景

该研究成果可应用于数字媒体内容安全领域，例如检测社交媒体上的虚假新闻、识别恶意篡改的图像等。此外，该方法还可以用于法庭取证、保险欺诈检测等领域，具有重要的实际应用价值和社会意义。未来，可以进一步研究如何将该方法应用于视频取证，以及如何提高模型对新型篡改技术的鲁棒性。

📄 摘要（原文）

With the rapid advancement of deep generative models, realistic fake images have become increasingly accessible, yet existing localization methods rely on complex designs and still struggle to generalize across manipulation types and imaging conditions. We present a simple but strong baseline based on DINOv3 with LoRA adaptation and a lightweight convolutional decoder. Under the CAT-Net protocol, our best model improves average pixel-level F1 by 17.0 points over the previous state of the art on four standard benchmarks using only 9.1\,M trainable parameters on top of a frozen ViT-L backbone, and even our smallest variant surpasses all prior specialized methods. LoRA consistently outperforms full fine-tuning across all backbone scales. Under the data-scarce MVSS-Net protocol, LoRA reaches an average F1 of 0.774 versus 0.530 for the strongest prior method, while full fine-tuning becomes highly unstable, suggesting that pre-trained representations encode forensic information that is better preserved than overwritten. The baseline also exhibits strong robustness to Gaussian noise, JPEG re-compression, and Gaussian blur. We hope this work can serve as a reliable baseline for the research community and a practical starting point for future image-forensic applications. Code is available at https://github.com/Irennnne/DINOv3-IML.

DINOv3 Beats Specialized Detectors: A Simple Foundation Model Baseline for Image Forensics

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理