DocVAL: Validated Chain-of-Thought Distillation for Grounded Document VQA

📄 arXiv: 2511.22521v1 📥 PDF

作者: Ahmad Mohammadshirazi, Pinaki Prasad Guha Neogi, Dheeraj Kulshrestha, Rajiv Ramnath

分类: cs.CV, cs.AI

发布日期: 2025-11-27


💡 一句话要点

提出DocVAL:一种经验证的思维链蒸馏框架,用于提升文档VQA的空间推理能力。

🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM) 支柱七:动作重定向 (Motion Retargeting)

关键词: 文档视觉问答 知识蒸馏 思维链 空间推理 多模态学习

📋 核心要点

  1. 现有DocVQA模型在精度和效率之间存在trade-off,大型模型精度高但部署成本高,小型模型效率高但定位性能差。
  2. DocVAL通过验证的思维链蒸馏,将大型教师模型的空间推理能力迁移到小型学生模型,实现精度和效率的平衡。
  3. 实验表明,DocVAL框架下的学生模型在DocVQA上取得了显著的性能提升,验证反馈和迭代细化均有贡献。

📝 摘要(中文)

文档视觉问答(DocVQA)要求模型联合推理文本内容和空间布局,但现有系统存在精度与效率的权衡:大型教师模型实现了强大的 grounding,但部署成本过高,而小型学生模型在定位性能方面大幅下降。我们提出了DocVAL,一个经验证的思维链蒸馏框架,通过三个关键组件将大型教师模型的空间推理能力转移到可部署的学生VLM中:(1)通过验证时文本检测进行教师监督,以过滤和去噪训练信号;(2)一个多模块验证器(VAL),在产生细粒度的像素级错误反馈的同时,强制执行答案正确性和几何一致性;(3)一个两阶段学生训练方案,首先从经过验证的CoT轨迹中学习,然后进行由VAL反馈驱动的迭代细化。我们的学生模型(Gemma-3 12B)在DocVQA上实现了91.4%的ANLS和82.4%的mAP,作为一个纯VLM,在推理时不需要文本检测或OCR。大量的消融实验表明,经过验证的反馈贡献了6.3 mAP的增益,迭代细化贡献了9.7 mAP的改进。我们发布了9.5万条高质量、经过验证器验证的CoT轨迹,以推进文档理解中的空间推理研究。

🔬 方法详解

问题定义:DocVQA任务需要模型理解文档中的文本内容和空间布局,现有的大型模型虽然精度高,但计算成本高昂,难以部署。小型模型虽然效率高,但在定位和空间推理方面表现不佳,导致整体性能下降。因此,如何在保证精度的前提下,提高DocVQA模型的效率,使其能够部署在资源受限的环境中,是本文要解决的核心问题。

核心思路:本文的核心思路是通过知识蒸馏,将大型教师模型的空间推理能力迁移到小型学生模型。为了提高蒸馏的质量,引入了验证机制,对教师模型的输出进行过滤和纠正,从而为学生模型提供更可靠的训练信号。此外,还采用了迭代细化的训练策略,使学生模型能够逐步逼近教师模型的性能。

技术框架:DocVAL框架包含三个主要组成部分:1) 教师监督与验证时文本检测:利用大型教师模型生成思维链(CoT)推理过程,并使用验证时文本检测过滤和去噪训练信号。2) 多模块验证器(VAL):VAL模块用于评估学生模型的输出,包括答案的正确性和几何一致性,并提供像素级别的错误反馈。3) 两阶段学生训练:第一阶段,学生模型从经过验证的CoT轨迹中学习;第二阶段,学生模型根据VAL模块的反馈进行迭代细化。

关键创新:DocVAL的关键创新在于引入了验证机制,对教师模型的输出进行验证和纠正,从而提高了蒸馏的质量。传统的知识蒸馏方法通常直接使用教师模型的输出作为训练目标,但教师模型的输出可能存在错误或噪声,从而影响学生模型的性能。DocVAL通过验证机制,可以过滤掉这些错误或噪声,从而为学生模型提供更可靠的训练信号。此外,迭代细化的训练策略也进一步提高了学生模型的性能。

关键设计:验证器(VAL)包含多个模块,分别用于评估答案的正确性和几何一致性。几何一致性评估模块会检查学生模型预测的文本框是否与文档中的实际文本框对齐。损失函数的设计考虑了答案正确性和几何一致性,并根据VAL模块的反馈进行调整。学生模型的网络结构选择Gemma-3 12B,这是一个相对较小的VLM,适合部署在资源受限的环境中。

📊 实验亮点

实验结果表明,DocVAL框架下的学生模型(Gemma-3 12B)在DocVQA数据集上取得了显著的性能提升,ANLS达到91.4%,mAP达到82.4%。消融实验表明,验证反馈贡献了6.3 mAP的增益,迭代细化贡献了9.7 mAP的改进。这些结果表明,DocVAL框架能够有效地将大型教师模型的知识迁移到小型学生模型,并显著提高学生模型的性能。

🎯 应用场景

DocVAL框架可应用于各种文档智能场景,例如自动化文档处理、智能表单填写、信息抽取等。通过将大型模型的知识迁移到小型模型,可以在保证精度的前提下,提高模型的效率,使其能够部署在移动设备或嵌入式系统中。该研究有助于推动文档智能技术在实际应用中的普及。

📄 摘要(原文)

Document visual question answering (DocVQA) requires models to jointly reason over textual content and spatial layout, yet current systems exhibit a sharp accuracy--efficiency trade-off: large teacher models achieve strong grounding but are too expensive for deployment, while compact students suffer substantial drops in localization performance. We propose DocVAL, a validated chain-of-thought distillation framework that transfers the spatial reasoning ability of a large teacher into a deployable student VLM through three key components: (1) teacher supervision with validation-time text detection to filter and denoise training signals, (2) a multi-module validator (VAL) that enforces answer correctness and geometric consistency while producing fine-grained, pixel-level error feedback, and (3) a two-stage student training scheme that first learns from validated CoT traces and then undergoes iterative refinement driven by VAL feedback. Our student (Gemma-3 12B) achieves 91.4\% ANLS and 82.4\% mAP on DocVQA as a pure VLM requiring no text detection or OCR at inference. Extensive ablations demonstrate that validated feedback contributes 6.3 mAP gain and iterative refinement accounts for 9.7 mAP improvement. We release 95k high-quality, validator-verified CoT traces to advance spatial reasoning research in document understanding.