SDS KoPub VDR: A Benchmark Dataset for Visual Document Retrieval in Korean Public Documents

📄 arXiv: 2511.04910v2 📥 PDF

作者: Jaehoon Lee, Sohyun Kim, Wanggeun Park, Geon Lee, Seungkyung Kim, Minyoung Lee

分类: cs.CL

发布日期: 2025-11-07 (更新: 2025-11-10)

备注: 27 pages, 15 figures, 6 tables

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

提出SDS KoPub VDR,用于评估韩语公共文档视觉文档检索

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉文档检索 韩语文档 多模态学习 基准数据集 文档智能

📋 核心要点

  1. 现有VDR基准数据集缺乏对非英语语言和复杂文档结构的支持,限制了模型在真实场景下的应用。
  2. 构建大规模韩语公共文档数据集SDS KoPub VDR,包含多种文档类型和复杂的视觉元素,并设计了多模态查询。
  3. 通过文本和多模态检索任务评估,揭示了现有模型在跨模态推理方面的不足,为未来研究提供了方向。

📝 摘要(中文)

本文提出了SDS KoPub VDR,这是一个大规模的公共基准数据集,用于检索和理解韩语公共文档。现有的视觉文档检索(VDR)基准主要集中在英语语言上,并且忽略了官方出版物的结构复杂性。该基准建立在361个真实文档之上,包括256个KOGL Type 1许可下的文件和105个来自官方法律门户的文件,涵盖了表格、图表和多栏布局等复杂的视觉元素。为了建立可靠的评估集,构建了600个查询-页面-答案三元组,这些三元组最初使用多模态模型(例如GPT-4o)生成,然后经过人工验证,以确保事实准确性和上下文相关性。查询涵盖六个主要的公共领域,并按所需的推理方式进行分类:基于文本、基于视觉和跨模态。SDS KoPub VDR在两个互补的任务上进行评估:(1)仅文本检索和(2)多模态检索,后者利用视觉特征以及文本。这种双重任务评估揭示了显著的性能差距,尤其是在需要跨模态推理的多模态场景中,即使对于最先进的模型也是如此。SDS KoPub VDR作为一个基础资源,能够进行严格和细粒度的评估,并为推进现实文档智能中的多模态AI提供了一个路线图。该数据集可在https://huggingface.co/datasets/SamsungSDS-Research/SDS-KoPub-VDR-Benchmark上获取。

🔬 方法详解

问题定义:现有视觉文档检索(VDR)基准数据集主要集中于英语,忽略了其他语言(如韩语)以及官方出版物中常见的复杂结构,例如表格、图表和多栏布局。这导致现有模型在处理真实世界的非英语文档时性能下降,缺乏有效的评估和改进手段。

核心思路:论文的核心思路是构建一个大规模、高质量的韩语公共文档VDR基准数据集,该数据集包含各种类型的文档和复杂的视觉元素,并设计了多模态查询,以全面评估模型在文本理解、视觉理解和跨模态推理方面的能力。通过提供这样一个基准,可以促进多模态AI在文档智能领域的进一步发展。

技术框架:SDS KoPub VDR数据集的构建流程主要包括以下几个阶段: 1. 数据收集:收集了361个真实世界的韩语公共文档,包括KOGL Type 1许可下的256个文件和来自官方法律门户的105个文件。 2. 查询生成:使用多模态模型(例如GPT-4o)生成初始的查询-页面-答案三元组,共计600个。 3. 人工验证:对生成的查询进行人工验证,以确保事实准确性和上下文相关性。 4. 任务设计:设计了两个互补的评估任务:文本检索和多模态检索。文本检索仅使用文本信息进行检索,而多模态检索则同时利用文本和视觉信息。

关键创新:该论文的关键创新在于构建了首个大规模的韩语公共文档VDR基准数据集。与现有数据集相比,SDS KoPub VDR具有以下优势: 1. 语言多样性:专注于韩语,填补了非英语VDR基准的空白。 2. 结构复杂性:包含各种复杂的视觉元素,例如表格、图表和多栏布局。 3. 多模态查询:设计了基于文本、基于视觉和跨模态的查询,全面评估模型的推理能力。

关键设计:在数据集构建过程中,为了保证查询的质量,论文采用了以下关键设计: 1. 多模态模型辅助生成:使用GPT-4o等先进的多模态模型生成初始查询,提高了查询的多样性和复杂性。 2. 人工验证:对生成的查询进行人工验证,确保查询的事实准确性和上下文相关性,避免了模型生成错误或不相关的查询。 3. 查询分类:将查询分为基于文本、基于视觉和跨模态三种类型,以便更细粒度地评估模型的不同能力。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,即使是最先进的模型在SDS KoPub VDR数据集上的表现仍有提升空间,尤其是在需要跨模态推理的多模态检索任务中。这表明现有模型在处理复杂韩语文档时仍存在不足,需要进一步的研究和改进。该数据集的发布为未来的研究提供了一个重要的评估平台。

🎯 应用场景

该研究成果可广泛应用于智能文档处理、法律信息检索、政府信息公开等领域。通过提升韩语文档的检索和理解能力,可以提高政府部门的工作效率,方便公众获取信息,并促进相关产业的发展。未来,该数据集可以作为训练和评估多模态AI模型的基础,推动文档智能技术的进步。

📄 摘要(原文)

Existing benchmarks for visual document retrieval (VDR) largely overlook non-English languages and the structural complexity of official publications. To address this gap, we introduce SDS KoPub VDR, the first large-scale, public benchmark for retrieving and understanding Korean public documents. The benchmark is built upon 361 real-world documents, including 256 files under the KOGL Type 1 license and 105 from official legal portals, capturing complex visual elements like tables, charts, and multi-column layouts. To establish a reliable evaluation set, we constructed 600 query-page-answer triples. These were initially generated using multimodal models (e.g., GPT-4o) and subsequently underwent human verification to ensure factual accuracy and contextual relevance. The queries span six major public domains and are categorized by the reasoning modality required: text-based, visual-based, and cross-modal. We evaluate SDS KoPub VDR on two complementary tasks: (1) text-only retrieval and (2) multimodal retrieval, which leverages visual features alongside text. This dual-task evaluation reveals substantial performance gaps, particularly in multimodal scenarios requiring cross-modal reasoning, even for state-of-the-art models. As a foundational resource, SDS KoPub VDR enables rigorous and fine-grained evaluation and provides a roadmap for advancing multimodal AI in real-world document intelligence. The dataset is available at https://huggingface.co/datasets/SamsungSDS-Research/SDS-KoPub-VDR-Benchmark.