SDS KoPub VDR: A Benchmark Dataset for Visual Document Retrieval in Korean Public Documents

作者: Jaehoon Lee, Sohyun Kim, Wanggeun Park, Geon Lee, Seungkyung Kim, Minyoung Lee

分类: cs.CL

发布日期: 2025-11-07 (更新: 2025-11-10)

备注: 27 pages, 15 figures, 6 tables

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

提出SDS KoPub VDR，用于评估韩语公共文档视觉文档检索

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉文档检索 韩语文档 多模态学习 基准数据集 文档智能

📋 核心要点

现有VDR基准数据集缺乏对非英语语言和复杂文档结构的支持，限制了模型在真实场景下的应用。
构建大规模韩语公共文档数据集SDS KoPub VDR，包含多种文档类型和复杂的视觉元素，并设计了多模态查询。
通过文本和多模态检索任务评估，揭示了现有模型在跨模态推理方面的不足，为未来研究提供了方向。

📝 摘要（中文）

本文提出了SDS KoPub VDR，这是一个大规模的公共基准数据集，用于检索和理解韩语公共文档。现有的视觉文档检索（VDR）基准主要集中在英语语言上，并且忽略了官方出版物的结构复杂性。该基准建立在361个真实文档之上，包括256个KOGL Type 1许可下的文件和105个来自官方法律门户的文件，涵盖了表格、图表和多栏布局等复杂的视觉元素。为了建立可靠的评估集，构建了600个查询-页面-答案三元组，这些三元组最初使用多模态模型（例如GPT-4o）生成，然后经过人工验证，以确保事实准确性和上下文相关性。查询涵盖六个主要的公共领域，并按所需的推理方式进行分类：基于文本、基于视觉和跨模态。SDS KoPub VDR在两个互补的任务上进行评估：（1）仅文本检索和（2）多模态检索，后者利用视觉特征以及文本。这种双重任务评估揭示了显著的性能差距，尤其是在需要跨模态推理的多模态场景中，即使对于最先进的模型也是如此。SDS KoPub VDR作为一个基础资源，能够进行严格和细粒度的评估，并为推进现实文档智能中的多模态AI提供了一个路线图。该数据集可在https://huggingface.co/datasets/SamsungSDS-Research/SDS-KoPub-VDR-Benchmark上获取。

🔬 方法详解

问题定义：现有视觉文档检索（VDR）基准数据集主要集中于英语，忽略了其他语言（如韩语）以及官方出版物中常见的复杂结构，例如表格、图表和多栏布局。这导致现有模型在处理真实世界的非英语文档时性能下降，缺乏有效的评估和改进手段。

核心思路：论文的核心思路是构建一个大规模、高质量的韩语公共文档VDR基准数据集，该数据集包含各种类型的文档和复杂的视觉元素，并设计了多模态查询，以全面评估模型在文本理解、视觉理解和跨模态推理方面的能力。通过提供这样一个基准，可以促进多模态AI在文档智能领域的进一步发展。

技术框架：SDS KoPub VDR数据集的构建流程主要包括以下几个阶段： 1. 数据收集：收集了361个真实世界的韩语公共文档，包括KOGL Type 1许可下的256个文件和来自官方法律门户的105个文件。 2. 查询生成：使用多模态模型（例如GPT-4o）生成初始的查询-页面-答案三元组，共计600个。 3. 人工验证：对生成的查询进行人工验证，以确保事实准确性和上下文相关性。 4. 任务设计：设计了两个互补的评估任务：文本检索和多模态检索。文本检索仅使用文本信息进行检索，而多模态检索则同时利用文本和视觉信息。

关键创新：该论文的关键创新在于构建了首个大规模的韩语公共文档VDR基准数据集。与现有数据集相比，SDS KoPub VDR具有以下优势： 1. 语言多样性：专注于韩语，填补了非英语VDR基准的空白。 2. 结构复杂性：包含各种复杂的视觉元素，例如表格、图表和多栏布局。 3. 多模态查询：设计了基于文本、基于视觉和跨模态的查询，全面评估模型的推理能力。

关键设计：在数据集构建过程中，为了保证查询的质量，论文采用了以下关键设计： 1. 多模态模型辅助生成：使用GPT-4o等先进的多模态模型生成初始查询，提高了查询的多样性和复杂性。 2. 人工验证：对生成的查询进行人工验证，确保查询的事实准确性和上下文相关性，避免了模型生成错误或不相关的查询。 3. 查询分类：将查询分为基于文本、基于视觉和跨模态三种类型，以便更细粒度地评估模型的不同能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是最先进的模型在SDS KoPub VDR数据集上的表现仍有提升空间，尤其是在需要跨模态推理的多模态检索任务中。这表明现有模型在处理复杂韩语文档时仍存在不足，需要进一步的研究和改进。该数据集的发布为未来的研究提供了一个重要的评估平台。

🎯 应用场景

该研究成果可广泛应用于智能文档处理、法律信息检索、政府信息公开等领域。通过提升韩语文档的检索和理解能力，可以提高政府部门的工作效率，方便公众获取信息，并促进相关产业的发展。未来，该数据集可以作为训练和评估多模态AI模型的基础，推动文档智能技术的进步。

📄 摘要（原文）

Existing benchmarks for visual document retrieval (VDR) largely overlook non-English languages and the structural complexity of official publications. To address this gap, we introduce SDS KoPub VDR, the first large-scale, public benchmark for retrieving and understanding Korean public documents. The benchmark is built upon 361 real-world documents, including 256 files under the KOGL Type 1 license and 105 from official legal portals, capturing complex visual elements like tables, charts, and multi-column layouts. To establish a reliable evaluation set, we constructed 600 query-page-answer triples. These were initially generated using multimodal models (e.g., GPT-4o) and subsequently underwent human verification to ensure factual accuracy and contextual relevance. The queries span six major public domains and are categorized by the reasoning modality required: text-based, visual-based, and cross-modal. We evaluate SDS KoPub VDR on two complementary tasks: (1) text-only retrieval and (2) multimodal retrieval, which leverages visual features alongside text. This dual-task evaluation reveals substantial performance gaps, particularly in multimodal scenarios requiring cross-modal reasoning, even for state-of-the-art models. As a foundational resource, SDS KoPub VDR enables rigorous and fine-grained evaluation and provides a roadmap for advancing multimodal AI in real-world document intelligence. The dataset is available at https://huggingface.co/datasets/SamsungSDS-Research/SDS-KoPub-VDR-Benchmark.

SDS KoPub VDR: A Benchmark Dataset for Visual Document Retrieval in Korean Public Documents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理