DeQA-Doc: Adapting DeQA-Score to Document Image Quality Assessment
作者: Junjie Gao, Runze Liu, Yingzhe Peng, Shujian Yang, Jin Zhang, Kai Yang, Zhiyuan You
分类: cs.CV
发布日期: 2025-07-17
🔗 代码/项目: GITHUB
💡 一句话要点
提出DeQA-Doc,利用多模态大语言模型进行文档图像质量评估,显著提升准确性和泛化性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文档图像质量评估 多模态大语言模型 软标签 DeQA-Score 文档数字化 OCR 图像质量评估
📋 核心要点
- 现有文档质量评估方法在准确性和鲁棒性方面存在不足,难以满足实际应用需求。
- DeQA-Doc利用多模态大语言模型和软标签策略,实现对文档图像质量的精确评估。
- 实验结果表明,DeQA-Doc在文档质量评估任务上显著优于现有方法,具有更好的泛化能力。
📝 摘要(中文)
文档质量评估在文档数字化、OCR和档案管理等领域至关重要。然而,现有方法通常难以提供准确且鲁棒的质量评分,限制了其在实际场景中的应用。随着多模态大语言模型(MLLM)的快速发展,基于MLLM的方法在图像质量评估方面取得了显著的性能。本文通过调整DeQA-Score(一种先进的基于MLLM的图像质量评分器)来扩展其在文档领域的应用,提出了DeQA-Doc框架。该框架利用MLLM的视觉语言能力和软标签策略来回归连续的文档质量分数。为了将DeQA-Score适配到DeQA-Doc,我们采用了两种互补的解决方案来构建不包含方差信息的软标签。此外,我们放宽了分辨率限制以支持大分辨率的文档图像。最后,我们引入了集成方法来进一步提高性能。大量实验表明,DeQA-Doc显著优于现有的基线方法,可在各种退化类型中提供准确且可泛化的文档质量评估。
🔬 方法详解
问题定义:论文旨在解决文档图像质量评估问题。现有方法在处理各种文档退化类型时,准确性和鲁棒性不足,无法提供可靠的质量评分,影响了文档数字化、OCR等下游任务的性能。
核心思路:论文的核心思路是将先进的基于多模态大语言模型(MLLM)的图像质量评估方法DeQA-Score迁移到文档图像质量评估领域。通过利用MLLM强大的视觉语言理解能力,以及针对文档特点的优化策略,实现更准确和鲁棒的文档质量评估。
技术框架:DeQA-Doc框架主要包含以下几个阶段:1) 输入文档图像;2) 利用MLLM提取视觉和文本特征;3) 使用软标签策略进行训练,回归连续的文档质量分数;4) 通过集成方法进一步提升性能。框架的关键在于如何有效地利用MLLM的视觉语言能力,并针对文档图像的特点进行优化。
关键创新:论文的关键创新在于:1) 将DeQA-Score成功迁移到文档图像质量评估领域;2) 提出了两种互补的解决方案来构建不包含方差信息的软标签,避免了方差信息对模型训练的干扰;3) 放宽了分辨率限制,使模型能够处理高分辨率的文档图像;4) 引入集成方法进一步提升了模型的性能。
关键设计:为了构建软标签,论文采用了两种互补的策略,具体细节未知。此外,为了支持高分辨率文档图像,论文放宽了输入图像的分辨率限制,具体实现方式未知。论文还采用了集成方法,具体集成策略和模型结构未知。损失函数的设计也未知。
🖼️ 关键图片
📊 实验亮点
DeQA-Doc在文档质量评估任务上显著优于现有基线方法。具体性能数据和对比基线未知,但论文强调DeQA-Doc在各种退化类型中都表现出更好的准确性和泛化能力。代码和模型权重已开源,方便研究人员复现和进一步研究。
🎯 应用场景
DeQA-Doc可广泛应用于文档数字化、OCR、档案管理等领域。高质量的文档图像是这些应用的基础,DeQA-Doc能够提供准确可靠的文档质量评估,从而提高这些应用的性能和效率。例如,在文档数字化过程中,DeQA-Doc可以用于筛选高质量的文档图像,提高OCR的准确率。在档案管理中,DeQA-Doc可以用于评估档案的保存状态,为档案修复提供依据。未来,DeQA-Doc还可以应用于智能文档处理、信息抽取等领域。
📄 摘要(原文)
Document quality assessment is critical for a wide range of applications including document digitization, OCR, and archival. However, existing approaches often struggle to provide accurate and robust quality scores, limiting their applicability in practical scenarios. With the rapid progress in Multi-modal Large Language Models (MLLMs), recent MLLM-based methods have achieved remarkable performance in image quality assessment. In this work, we extend this success to the document domain by adapting DeQA-Score, a state-of-the-art MLLM-based image quality scorer, for document quality assessment. We propose DeQA-Doc, a framework that leverages the visual language capabilities of MLLMs and a soft label strategy to regress continuous document quality scores. To adapt DeQA-Score to DeQA-Doc, we adopt two complementary solutions to construct soft labels without the variance information. Also, we relax the resolution constrains to support the large resolution of document images. Finally, we introduce ensemble methods to further enhance the performance. Extensive experiments demonstrate that DeQA-Doc significantly outperforms existing baselines, offering accurate and generalizable document quality assessment across diverse degradation types. Codes and model weights are available in https://github.com/Junjie-Gao19/DeQA-Doc.