Benchmarking Vision-Language Models on Chinese Ancient Documents: From OCR to Knowledge Reasoning

作者: Haiyang Yu, Yuchuan Wu, Fan Shi, Lei Liao, Jinghui Lu, Xiaodong Ge, Han Wang, Minghan Zhuo, Xuecheng Wu, Xiang Fei, Hao Feng, Guozhi Tang, An-Lan Wang, Hanshen Zhu, Yangfan He, Quanhuan Liang, Liyuan Meng, Chao Feng, Can Huang, Jingqun Tang, Bin Li

分类: cs.CL

发布日期: 2025-09-10

💡 一句话要点

提出AncientDoc基准，评估视觉-语言模型在古籍文档理解中的OCR和知识推理能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 古籍文档理解 视觉-语言模型 OCR 知识推理 基准数据集 中文古籍 多模态学习

📋 核心要点

现有方法难以有效处理古籍文档的数字化和理解，视觉-语言模型在处理其视觉和语言复杂性方面面临挑战。
AncientDoc基准旨在全面评估VLMs在古籍文档上的性能，涵盖OCR、翻译、推理和知识问答等多个任务。
实验结果表明，现有VLMs在AncientDoc基准上表现不佳，突显了古籍文档理解的特殊性和挑战性。

📝 摘要（中文）

本文提出了AncientDoc，这是首个针对中文古籍文档的基准，旨在评估视觉-语言模型（VLMs）从光学字符识别（OCR）到知识推理的能力。中文古籍文档是中华历史和文化的宝贵载体，蕴含着各个领域的丰富知识，但在数字化和理解方面面临挑战。现有的文档基准主要集中在英文印刷文本或简体中文上，缺乏对古籍文档的VLMs评估。AncientDoc包含五个任务（页面级OCR、白话文翻译、基于推理的问答、基于知识的问答、语言变体问答），涵盖14种文档类型，超过100本书籍和约3,000页。基于AncientDoc，我们使用多种指标评估了主流VLMs，并辅以人工对齐的大型语言模型进行评分。

🔬 方法详解

问题定义：论文旨在解决视觉-语言模型在理解中文古籍文档时面临的挑战。现有方法，如传统OCR技术，仅能扫描图像，无法进行深层次的语义理解和知识推理。现有的视觉-语言模型在处理古籍文档特有的视觉复杂性（如模糊的文字、特殊的排版）和语言复杂性（如古文语法、多义词）时表现不佳。因此，需要一个专门的基准来评估和推动VLMs在古籍文档理解方面的研究。

核心思路：论文的核心思路是构建一个全面的、多任务的基准数据集，涵盖古籍文档理解的多个方面，包括OCR、翻译、推理和知识问答。通过在这一基准上评估现有VLMs的性能，可以清晰地了解它们的优势和不足，并为未来的研究提供方向。基准的设计考虑了古籍文档的特殊性，例如包含多种文档类型、复杂的版式和古文语言。

技术框架：AncientDoc基准包含五个主要任务：1) 页面级OCR：识别古籍文档图像中的文字。2) 白话文翻译：将古文翻译成现代白话文。3) 基于推理的问答：根据文档内容进行逻辑推理和问题回答。4) 基于知识的问答：需要利用外部知识库进行问题回答。5) 语言变体问答：考察模型对古文不同表达方式的理解能力。数据集涵盖14种文档类型，超过100本书籍和约3,000页。

关键创新：AncientDoc是首个专门针对中文古籍文档的视觉-语言理解基准。它不仅包含OCR任务，还涵盖了翻译、推理和知识问答等更高层次的任务，能够更全面地评估VLMs的性能。此外，AncientDoc的数据集涵盖了多种文档类型和复杂的版式，更贴近真实的应用场景。

关键设计：为了评估VLMs的性能，论文采用了多种指标，包括OCR的准确率、翻译的BLEU值、问答的准确率等。此外，论文还使用人工对齐的大型语言模型进行评分，以更准确地评估模型的语义理解能力。数据集的构建过程中，作者们仔细筛选了文档，并进行了人工标注，以保证数据的质量。

📊 实验亮点

实验结果表明，现有主流VLMs在AncientDoc基准上的表现与人类水平存在较大差距，尤其是在推理和知识问答任务上。例如，在知识问答任务中，模型的准确率远低于人类水平。这表明，现有VLMs在处理古籍文档的复杂性和专业性方面仍有很大的提升空间。该基准的发布将促进相关领域的研究。

🎯 应用场景

该研究成果可应用于古籍数字化、古籍知识图谱构建、智能古籍阅读助手等领域。通过提升视觉-语言模型对古籍文档的理解能力，可以更好地保护和传承中华文化遗产，并为历史研究提供更便捷的工具。未来，可以进一步探索如何利用VLMs进行古籍修复、古籍内容生成等任务。

📄 摘要（原文）

Chinese ancient documents, invaluable carriers of millennia of Chinese history and culture, hold rich knowledge across diverse fields but face challenges in digitization and understanding, i.e., traditional methods only scan images, while current Vision-Language Models (VLMs) struggle with their visual and linguistic complexity. Existing document benchmarks focus on English printed texts or simplified Chinese, leaving a gap for evaluating VLMs on ancient Chinese documents. To address this, we present AncientDoc, the first benchmark for Chinese ancient documents, designed to assess VLMs from OCR to knowledge reasoning. AncientDoc includes five tasks (page-level OCR, vernacular translation, reasoning-based QA, knowledge-based QA, linguistic variant QA) and covers 14 document types, over 100 books, and about 3,000 pages. Based on AncientDoc, we evaluate mainstream VLMs using multiple metrics, supplemented by a human-aligned large language model for scoring.

Benchmarking Vision-Language Models on Chinese Ancient Documents: From OCR to Knowledge Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册