DocShield: Towards AI Document Safety via Evidence-Grounded Agentic Reasoning

📄 arXiv: 2604.02694 📥 PDF

作者: Fanwei Zeng, Changtao Miao, Jing Huang, Zhiya Tan, Shutao Gong, Xiaoming Yu, Yang Wang, Weibin Yao, Joey Tianyi Zhou, Jianshu Li, Yin Yan

分类: cs.CV, cs.AI

发布日期: 2026-04-06


💡 一句话要点

DocShield:提出基于证据推理的AI文档安全框架,解决文本图像伪造问题。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文档安全 文本图像伪造检测 视觉-逻辑推理 思维链 跨模态学习

📋 核心要点

  1. 现有文档图像伪造检测方法依赖视觉线索,缺乏证据推理,难以发现细微的文本篡改。
  2. DocShield提出跨线索感知思维链(CCT)机制,通过视觉和文本语义的交叉验证进行推理。
  3. 实验表明,DocShield在T-IC13和T-SROIE数据集上显著优于现有方法和GPT-4o。

📝 摘要(中文)

生成式AI的快速发展使得逼真的文本图像伪造日益增多,对文档安全构成重大挑战。现有的取证方法主要依赖视觉线索,缺乏基于证据的推理来揭示细微的文本篡改。检测、定位和解释通常被视为孤立的任务,限制了可靠性和可解释性。为了应对这些挑战,我们提出了DocShield,这是第一个统一的框架,将以文本为中心的伪造分析形式化为视觉-逻辑协同推理问题。其核心是一种新颖的跨线索感知思维链(CCT)机制,能够进行隐式的agentic推理,迭代地利用文本语义交叉验证视觉异常,从而产生一致的、基于证据的取证分析。我们进一步引入了基于GRPO的优化的加权多任务奖励,对齐推理结构、空间证据和真实性预测。作为框架的补充,我们构建了RealText-V1,这是一个多语种的文档式文本图像数据集,包含像素级的操作掩码和专家级的文本解释。大量实验表明,DocShield显著优于现有方法,在T-IC13上,宏平均F1比专用框架提高了41.4%,比GPT-4o提高了23.4%,在具有挑战性的T-SROIE基准测试中也获得了持续的收益。我们的数据集、模型和代码将公开发布。

🔬 方法详解

问题定义:论文旨在解决文本图像伪造检测问题,现有方法主要依赖视觉特征,缺乏对文本语义的理解和推理,导致难以检测细微的篡改,并且检测、定位和解释任务相互独立,限制了整体性能和可解释性。

核心思路:论文的核心思路是将文本图像伪造检测问题转化为一个视觉-逻辑协同推理问题。通过结合视觉特征和文本语义,利用agentic推理的方式,迭代地验证视觉异常和文本语义的一致性,从而提高检测的准确性和可解释性。

技术框架:DocShield框架包含以下主要模块:1) 跨线索感知思维链(CCT)模块,用于进行视觉和文本语义的协同推理;2) 基于GRPO的优化模块,用于对齐推理结构、空间证据和真实性预测;3) RealText-V1数据集,用于训练和评估模型。整体流程是:输入文本图像,CCT模块进行推理,输出检测结果和解释,GRPO优化模块用于提升性能。

关键创新:论文最重要的技术创新点是提出了跨线索感知思维链(CCT)机制。CCT机制能够模拟agentic推理过程,通过迭代地交叉验证视觉异常和文本语义,从而产生一致的、基于证据的取证分析。与现有方法相比,CCT机制能够更好地利用文本语义信息,提高检测的准确性和可解释性。

关键设计:论文的关键设计包括:1) 加权多任务奖励,用于GRPO优化,平衡推理结构、空间证据和真实性预测;2) RealText-V1数据集,包含像素级的操作掩码和专家级的文本解释,为模型训练提供了高质量的数据;3) CCT模块的具体实现细节,例如如何提取视觉特征和文本语义,如何进行交叉验证等(具体细节论文中应该有更详细的描述)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DocShield在T-IC13数据集上,宏平均F1比专用框架提高了41.4%,比GPT-4o提高了23.4%。在具有挑战性的T-SROIE基准测试中也获得了持续的收益。这些结果表明,DocShield在文本图像伪造检测方面具有显著的优势。

🎯 应用场景

DocShield可应用于文档安全、版权保护、信息安全等领域。例如,可以用于检测伪造的合同、发票、证书等重要文件,防止欺诈行为。该研究的成果有助于提高文档图像的安全性,维护社会诚信。

📄 摘要(原文)

The rapid progress of generative AI has enabled increasingly realistic text-centric image forgeries, posing major challenges to document safety. Existing forensic methods mainly rely on visual cues and lack evidence-based reasoning to reveal subtle text manipulations. Detection, localization, and explanation are often treated as isolated tasks, limiting reliability and interpretability. To tackle these challenges, we propose DocShield, the first unified framework formulating text-centric forgery analysis as a visual-logical co-reasoning problem. At its core, a novel Cross-Cues-aware Chain of Thought (CCT) mechanism enables implicit agentic reasoning, iteratively cross-validating visual anomalies with textual semantics to produce consistent, evidence-grounded forensic analysis. We further introduce a Weighted Multi-Task Reward for GRPO-based optimization, aligning reasoning structure, spatial evidence, and authenticity prediction. Complementing the framework, we construct RealText-V1, a multilingual dataset of document-like text images with pixel-level manipulation masks and expert-level textual explanations. Extensive experiments show DocShield significantly outperforms existing methods, improving macro-average F1 by 41.4% over specialized frameworks and 23.4% over GPT-4o on T-IC13, with consistent gains on the challenging T-SROIE benchmark. Our dataset, model, and code will be publicly released.