Towards Natural Language-Based Document Image Retrieval: New Dataset and Benchmark

作者: Hao Guo, Xugong Qin, Jun Jie Ou Yang, Peng Zhang, Gangyan Zeng, Yubo Li, Hailun Lin

分类: cs.CV, cs.CL, cs.IR

发布日期: 2025-12-23

备注: CVPR 2025

💡 一句话要点

提出NL-DIR基准数据集，用于解决自然语言描述的文档图像检索问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文档图像检索 自然语言查询 视觉文档理解 NL-DIR数据集 对比学习

📋 核心要点

现有文档图像检索方法难以处理真实场景中细粒度语义的文本查询。
提出NL-DIR基准数据集，使用自然语言描述作为语义丰富的查询，促进相关研究。
通过零样本和微调实验，验证了现有模型在NL-DIR数据集上的性能，并探索了两阶段检索方法。

📝 摘要（中文）

文档图像检索（DIR）旨在根据给定的查询从图库中检索文档图像。现有的DIR方法主要基于图像查询，检索语义类别粗略相同的文档，例如报纸或收据。然而，这些方法难以有效地检索真实场景中通常提供的具有细粒度语义的文本查询的文档图像。为了弥合这一差距，我们引入了一个新的基于自然语言的文档图像检索（NL-DIR）基准，并提供了相应的评估指标。在这项工作中，自然语言描述作为DIR任务的语义丰富的查询。NL-DIR数据集包含41K张真实的文档图像，每张图像都配有五个高质量、细粒度的语义查询，这些查询通过大型语言模型生成和评估，并结合人工验证。我们对现有的主流对比视觉-语言模型和无OCR的视觉文档理解（VDU）模型进行了零样本和微调评估。进一步研究了一种两阶段检索方法，以提高性能，同时实现时间和空间效率。我们希望提出的NL-DIR基准能够为VDU社区带来新的机遇并促进研究。数据集和代码将在huggingface.co/datasets/nianbing/NL-DIR上公开。

🔬 方法详解

问题定义：论文旨在解决自然语言描述的文档图像检索问题。现有文档图像检索方法主要依赖图像查询，只能检索粗粒度语义类别（如报纸、收据）的文档，无法有效处理实际应用中常见的细粒度文本查询。这限制了文档图像检索在复杂场景下的应用。

核心思路：论文的核心思路是构建一个大规模的、高质量的自然语言描述的文档图像检索数据集（NL-DIR），并以此为基准，推动视觉文档理解（VDU）社区对自然语言查询的文档图像检索方法的研究。通过提供更贴近实际应用场景的数据，促进相关算法的开发和优化。

技术框架：论文主要包含以下几个部分：1) 构建NL-DIR数据集，包含41K张文档图像，每张图像配有5个高质量的自然语言描述；2) 使用大型语言模型生成候选描述，并进行人工验证，确保描述的质量和细粒度；3) 对现有主流的对比视觉-语言模型和无OCR的VDU模型进行零样本和微调评估；4) 探索两阶段检索方法，以提高检索效率和性能。

关键创新：该论文的关键创新在于构建了NL-DIR数据集，这是首个专门针对自然语言描述的文档图像检索任务的大规模数据集。与以往的图像查询方法相比，NL-DIR数据集更贴近实际应用场景，能够更好地评估和推动相关算法的发展。此外，论文还探索了一种两阶段检索方法，旨在提高检索效率和性能。

关键设计：NL-DIR数据集的关键设计在于使用大型语言模型生成候选描述，并通过人工验证来保证描述的质量。两阶段检索方法的具体细节未知，但其目标是在保证检索精度的前提下，提高检索速度和降低计算成本。论文中没有明确说明损失函数和网络结构的具体设计，但提到了对现有对比视觉-语言模型和无OCR的VDU模型进行了评估和微调。

🖼️ 关键图片

📊 实验亮点

论文构建了包含41K张文档图像的NL-DIR数据集，并对现有模型进行了评估。实验结果表明，现有模型在NL-DIR数据集上仍有提升空间。论文还探索了一种两阶段检索方法，旨在提高检索效率和性能，但具体的性能提升数据未知。

🎯 应用场景

该研究成果可应用于智能文档管理、信息检索、办公自动化等领域。例如，用户可以通过自然语言描述快速检索所需的合同、发票、报告等文档图像，提高工作效率。未来，该技术有望与智能助手结合，实现更智能化的文档处理和信息服务。

📄 摘要（原文）

Document image retrieval (DIR) aims to retrieve document images from a gallery according to a given query. Existing DIR methods are primarily based on image queries that retrieve documents within the same coarse semantic category, e.g., newspapers or receipts. However, these methods struggle to effectively retrieve document images in real-world scenarios where textual queries with fine-grained semantics are usually provided. To bridge this gap, we introduce a new Natural Language-based Document Image Retrieval (NL-DIR) benchmark with corresponding evaluation metrics. In this work, natural language descriptions serve as semantically rich queries for the DIR task. The NL-DIR dataset contains 41K authentic document images, each paired with five high-quality, fine-grained semantic queries generated and evaluated through large language models in conjunction with manual verification. We perform zero-shot and fine-tuning evaluations of existing mainstream contrastive vision-language models and OCR-free visual document understanding (VDU) models. A two-stage retrieval method is further investigated for performance improvement while achieving both time and space efficiency. We hope the proposed NL-DIR benchmark can bring new opportunities and facilitate research for the VDU community. Datasets and codes will be publicly available at huggingface.co/datasets/nianbing/NL-DIR.

Towards Natural Language-Based Document Image Retrieval: New Dataset and Benchmark

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理