Benchmarking Vision-Language Models on Chinese Ancient Documents: From OCR to Knowledge Reasoning

📄 arXiv: 2509.09731v1 📥 PDF

作者: Haiyang Yu, Yuchuan Wu, Fan Shi, Lei Liao, Jinghui Lu, Xiaodong Ge, Han Wang, Minghan Zhuo, Xuecheng Wu, Xiang Fei, Hao Feng, Guozhi Tang, An-Lan Wang, Hanshen Zhu, Yangfan He, Quanhuan Liang, Liyuan Meng, Chao Feng, Can Huang, Jingqun Tang, Bin Li

分类: cs.CL

发布日期: 2025-09-10


💡 一句话要点

提出AncientDoc基准测试,评估视觉语言模型在古籍文档理解中的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 古籍文档 视觉语言模型 基准测试 OCR 知识推理 自然语言处理 多模态学习

📋 核心要点

  1. 现有方法难以有效处理古籍文档的数字化和理解,视觉语言模型在处理古籍的视觉和语言复杂性方面存在不足。
  2. AncientDoc基准测试旨在全面评估视觉语言模型在古籍文档处理中的能力,涵盖OCR到知识推理等多个任务。
  3. 该基准包含多种古籍文档类型和任务,并使用人类对齐的大型语言模型进行评分,为古籍研究提供有力工具。

📝 摘要(中文)

中文古籍文献是中华数千年历史文化的宝贵载体,蕴含着各个领域的丰富知识,但在数字化和理解方面面临挑战。传统方法仅扫描图像,而当前的视觉语言模型(VLM)难以应对其视觉和语言的复杂性。现有的文档基准侧重于英文印刷文本或简体中文,在评估VLM对古代中文文档的性能方面存在空白。为了解决这个问题,我们提出了AncientDoc,这是第一个针对中文古籍文档的基准,旨在评估VLM从OCR到知识推理的能力。AncientDoc包括五个任务(页面级OCR、白话文翻译、基于推理的问答、基于知识的问答、语言变体问答),涵盖14种文档类型,100多本书籍和约3,000页。基于AncientDoc,我们使用多种指标评估了主流VLM,并辅以与人类对齐的大型语言模型进行评分。

🔬 方法详解

问题定义:论文旨在解决视觉语言模型在理解和处理中文古籍文档方面的不足。现有方法,如传统OCR和现有的VLM,难以有效应对古籍文档的特殊挑战,包括文字识别的准确性、古文翻译的流畅性、以及基于古籍知识的推理能力。现有的文档基准测试主要集中在现代英文或简体中文文档上,缺乏针对古籍文档的专门评估。

核心思路:论文的核心思路是构建一个全面的、多任务的基准测试数据集AncientDoc,用于系统性地评估VLM在古籍文档处理中的能力。通过涵盖OCR、翻译、问答等多个任务,AncientDoc能够更全面地反映VLM在古籍理解方面的性能。同时,引入与人类对齐的大型语言模型进行评分,以提高评估的客观性和准确性。

技术框架:AncientDoc基准测试包含五个主要任务:页面级OCR(识别古籍文字)、白话文翻译(将古文翻译成现代汉语)、基于推理的问答(根据文档内容进行逻辑推理)、基于知识的问答(利用外部知识回答问题)、语言变体问答(处理古籍中存在的语言变体)。数据集涵盖14种文档类型,100多本书籍和约3,000页。评估流程包括使用主流VLM模型进行预测,然后使用多种指标以及人类对齐的LLM进行评分。

关键创新:AncientDoc是第一个专门针对中文古籍文档的基准测试数据集,填补了现有文档基准测试的空白。它不仅包含多种任务类型,还涵盖了丰富的古籍文档类型,能够更全面地评估VLM在古籍理解方面的能力。此外,使用人类对齐的LLM进行评分,提高了评估的客观性和准确性。

关键设计:在数据构建方面,论文作者收集了大量的古籍文档,并进行了细致的标注,确保数据的质量和多样性。在任务设计方面,论文作者考虑了古籍文档的特殊性,设计了包括语言变体问答等具有挑战性的任务。在评估指标方面,论文作者使用了多种指标,包括OCR准确率、翻译质量、问答准确率等,并结合人类对齐的LLM进行综合评分。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AncientDoc基准测试的实验结果表明,现有主流VLM在古籍文档处理方面仍存在较大提升空间。例如,在OCR任务中,模型的准确率仍有待提高;在翻译任务中,模型的流畅性和准确性也需要进一步改进。该基准测试为后续研究提供了重要的参考,并为开发更有效的古籍文档处理模型指明了方向。

🎯 应用场景

该研究成果可应用于古籍数字化、古籍知识库构建、古籍智能检索、古籍辅助研究等领域。通过提高视觉语言模型对古籍文档的理解能力,可以更好地保护和传承中华优秀传统文化,并为相关研究提供更便捷的工具和资源。未来,该研究可以扩展到其他古代文献和语言,促进跨文化交流和知识共享。

📄 摘要(原文)

Chinese ancient documents, invaluable carriers of millennia of Chinese history and culture, hold rich knowledge across diverse fields but face challenges in digitization and understanding, i.e., traditional methods only scan images, while current Vision-Language Models (VLMs) struggle with their visual and linguistic complexity. Existing document benchmarks focus on English printed texts or simplified Chinese, leaving a gap for evaluating VLMs on ancient Chinese documents. To address this, we present AncientDoc, the first benchmark for Chinese ancient documents, designed to assess VLMs from OCR to knowledge reasoning. AncientDoc includes five tasks (page-level OCR, vernacular translation, reasoning-based QA, knowledge-based QA, linguistic variant QA) and covers 14 document types, over 100 books, and about 3,000 pages. Based on AncientDoc, we evaluate mainstream VLMs using multiple metrics, supplemented by a human-aligned large language model for scoring.