Chronicles-OCR: A Cross-Temporal Perception Benchmark for the Evolutionary Trajectory of Chinese Characters

📄 arXiv: 2605.11960v1 📥 PDF

作者: Gengluo Li, Shangpin Peng, Xingyu Wan, Chengquan Zhang, Hao Feng, Xin Xu, Pian Wu, Bang Li, Zengmao Ding, Yongge Liu, Yipei Ye, Yang Yang, Zhan Shu, Guojun Yan, Zhe Li, Can Ma, Weiping Wang, Yu Zhou, Han Hu

分类: cs.CV

发布日期: 2026-05-12

🔗 代码/项目: GITHUB


💡 一句话要点

提出Chronicles-OCR,用于评估VLLM在汉字演化轨迹上的跨时序视觉感知能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 古文字识别 视觉大语言模型 跨时序学习 数字人文 汉字演化 基准数据集 阶段自适应标注

📋 核心要点

  1. 现有古文字数据集缺乏对汉字跨越数千年演化过程的系统性视觉分布偏移的捕捉,限制了VLLM在历史文本理解中的应用。
  2. Chronicles-OCR通过构建包含七种汉字字体的综合基准数据集,并提出阶段自适应标注范式,来解决VLLM在跨时序汉字视觉感知上的挑战。
  3. Chronicles-OCR制定了四个定量任务,包括跨时期字符定位、细粒度古文字识别、古文解析和字体分类,用于评估VLLM的性能。

📝 摘要(中文)

视觉大语言模型(VLLM)在现代富文本视觉理解方面取得了显著成功。然而,它们在面对历史书写系统持续形态演变时的感知鲁棒性仍未得到充分探索。现有的古文字数据集通常侧重于孤立的历史时期,未能捕捉跨越数千年的系统性视觉分布偏移。为了弥合这一差距并赋能数字人文,我们推出了Chronicles-OCR,这是第一个专门用于评估VLLM在汉字完整演化轨迹(即七种汉字字体)上的跨时序视觉感知能力的综合基准。该数据集与顶尖机构的领域专家合作策划,包含2800张严格平衡的图像,涵盖从龟甲到纸质书法的各种物理媒介。为了适应不同历史阶段的剧烈形态和拓扑变化,我们提出了一种新颖的阶段自适应标注范式。基于此,Chronicles-OCR制定了四个严格的定量任务:跨时期字符定位、通过视觉指代的细粒度古文字识别、古文解析和字体分类。通过将视觉感知与语义推理隔离,Chronicles-OCR提供了一个权威的平台来揭示当前VLLM的局限性,为稳健的、具有演化意识的历史文本感知铺平道路。Chronicles-OCR可在https://github.com/VirtualLUOUCAS/Chronicles-OCR公开获取。

🔬 方法详解

问题定义:论文旨在解决视觉大语言模型(VLLM)在理解和识别跨越历史时期的汉字时所面临的挑战。现有的古文字数据集通常只关注特定的历史时期,缺乏对汉字演变过程的全面覆盖,导致VLLM在处理不同时期的汉字时表现不佳。此外,不同历史时期的汉字在形态和拓扑结构上存在显著差异,进一步增加了VLLM的识别难度。

核心思路:论文的核心思路是构建一个包含汉字完整演化轨迹的综合基准数据集,即Chronicles-OCR,并提出一种阶段自适应标注范式,以适应不同历史时期汉字的形态和拓扑变化。通过这个数据集,可以系统地评估VLLM在跨时序汉字视觉感知方面的能力,并为开发更鲁棒、更具有演化意识的历史文本感知模型提供支持。

技术框架:Chronicles-OCR数据集的构建流程包括以下几个主要阶段:1) 数据收集:与顶尖机构的领域专家合作,收集涵盖从龟甲到纸质书法的各种物理媒介的汉字图像。2) 数据标注:采用阶段自适应标注范式,根据不同历史时期汉字的特点进行精细标注。3) 任务设计:设计四个定量任务,包括跨时期字符定位、细粒度古文字识别、古文解析和字体分类,用于评估VLLM的性能。

关键创新:论文的关键创新点在于:1) 构建了首个包含汉字完整演化轨迹的综合基准数据集Chronicles-OCR。2) 提出了阶段自适应标注范式,能够有效处理不同历史时期汉字的形态和拓扑变化。3) 设计了四个定量任务,能够全面评估VLLM在跨时序汉字视觉感知方面的能力。

关键设计:阶段自适应标注范式是根据不同历史时期汉字的特点进行设计的。例如,对于甲骨文,由于其形态较为简单,可以采用简单的边界框标注;而对于金文和篆书,由于其形态较为复杂,需要采用更精细的轮廓标注。此外,为了保证数据集的平衡性,论文对不同历史时期的汉字图像数量进行了严格控制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Chronicles-OCR数据集包含2800张严格平衡的图像,涵盖七种汉字字体。论文提出了阶段自适应标注范式,并设计了四个定量任务。实验结果(具体数值未知)表明,现有的VLLM在处理跨时序汉字时仍存在局限性,Chronicles-OCR为评估和改进VLLM在历史文本理解方面的能力提供了一个有价值的平台。

🎯 应用场景

该研究成果可广泛应用于数字人文领域,例如古籍修复、历史文献研究、文化遗产保护等。通过提升VLLM对历史文本的理解能力,可以更有效地挖掘和利用历史文化资源,促进文化传承和创新。此外,该研究还可以为开发更通用、更鲁棒的视觉感知模型提供借鉴。

📄 摘要(原文)

Vision Large Language Models (VLLMs) have achieved remarkable success in modern text-rich visual understanding. However, their perceptual robustness in the face of the continuous morphological evolution of historical writing systems remains largely unexplored. Existing ancient text datasets typically focus on isolated historical periods, failing to capture the systematic visual distribution shifts spanning thousands of years. To bridge this gap and empower Digital Humanities, we introduce Chronicles-OCR, the first comprehensive benchmark specifically designed to evaluate the cross-temporal visual perception capabilities of VLLMs across the complete evolutionary trajectory of Chinese characters, known as the Seven Chinese Scripts. Curated in collaboration with top-tier institutional domain experts, the dataset comprises 2,800 strictly balanced images encompassing highly diverse physical media, ranging from tortoise shells to paper-based calligraphy. To accommodate the drastic morphological and topological variations across different historical stages, we propose a novel Stage-Adaptive Annotation Paradigm. Based on this, Chronicles-OCR formulates four rigorous quantitative tasks: cross-period character spotting, fine-grained archaic character recognition via visual referring, ancient text parsing, and script classification. By isolating visual perception from semantic reasoning, Chronicles-OCR provides an authoritative platform to expose the limitations of current VLLMs, paving the way for robust, evolution-aware historical text perception. Chronicles-OCR is publicly available at https://github.com/VirtualLUOUCAS/Chronicles-OCR.