AncientBench: Towards Comprehensive Evaluation on Excavated and Transmitted Chinese Corpora
作者: Zhihan Zhou, Daqian Shi, Rui Song, Lida Shi, Xiaolei Diao, Hao Xu
分类: cs.CL, cs.AI
发布日期: 2025-12-19
💡 一句话要点
提出AncientBench,用于全面评估模型对出土和传世古汉语语料的理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 古文字理解 大型语言模型 基准测试 出土文献 考古学
📋 核心要点
- 现有中文基准测试主要针对现代汉语和传世古籍,缺乏对出土古文字的评估。
- AncientBench从字形、发音、意义和语境四个维度,全面评估模型对古文字的理解能力。
- 实验结果表明,大型语言模型在古文字理解方面具有潜力,但与人类水平仍存在差距。
📝 摘要(中文)
为了评估大型语言模型对古文字的理解能力,尤其是在出土文献场景下的表现,本文提出了AncientBench。该基准测试分为四个维度,对应于古文字理解的四个能力:字形理解、发音理解、意义理解和语境理解。AncientBench包含十个任务,包括部首、声旁、同音字、完形填空、翻译等,为评估提供了一个全面的框架。研究团队召集了考古研究人员进行实验评估,提出了一个古文字模型作为基线,并对当前性能最佳的大型语言模型进行了广泛的实验。实验结果揭示了大型语言模型在古文字场景中的巨大潜力以及与人类的差距。该研究旨在促进大型语言模型在考古学和古代汉语语言领域的发展和应用。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在理解古文字,特别是出土文献方面能力的评估问题。现有的中文基准测试主要集中在现代汉语和传世古籍,缺乏对出土文献的覆盖,无法全面评估模型对古文字的理解能力。这阻碍了大型语言模型在考古学和古代汉语研究领域的应用。
核心思路:论文的核心思路是构建一个全面的古文字理解基准测试,AncientBench,它不仅包含传世文献,还特别关注出土文献。通过设计不同的任务,从字形、发音、意义和语境四个维度来评估模型对古文字的理解能力。这种多维度的评估方法能够更准确地反映模型在古文字理解方面的优势和不足。
技术框架:AncientBench的整体框架包含四个维度和十个任务。四个维度分别是:字形理解(glyph comprehension)、发音理解(pronunciation comprehension)、意义理解(meaning comprehension)和语境理解(contextual comprehension)。十个任务包括:部首识别、声旁识别、同音字辨析、完形填空、翻译等。研究团队还提出了一个古文字模型作为基线,并使用现有的大型语言模型进行实验。
关键创新:AncientBench的关键创新在于其对出土文献的关注以及多维度的评估体系。现有基准测试主要关注传世文献,忽略了出土文献的重要性。AncientBench通过包含出土文献,更全面地评估模型对古文字的理解能力。此外,通过字形、发音、意义和语境四个维度进行评估,能够更准确地反映模型在不同方面的能力。
关键设计:AncientBench的任务设计考虑了古文字的特点和理解的难点。例如,部首和声旁识别任务旨在评估模型对字形结构的理解能力,同音字辨析任务旨在评估模型对发音的理解能力,完形填空和翻译任务旨在评估模型对语境和意义的理解能力。具体的参数设置、损失函数和网络结构等技术细节在论文中没有详细说明,可能与使用的基线模型有关。
🖼️ 关键图片
📊 实验亮点
实验结果表明,目前的大型语言模型在古文字理解方面具有一定的潜力,但在各个维度上与人类水平仍存在显著差距。AncientBench的评估结果能够帮助研究人员了解模型在不同方面的优势和不足,从而有针对性地进行改进。具体性能数据和提升幅度在摘要中未提及,需要查阅论文全文。
🎯 应用场景
该研究成果可应用于考古学、历史学、古文字学等领域。通过AncientBench,研究人员可以更有效地评估和改进大型语言模型在古文字理解方面的能力,从而辅助古籍整理、文物修复、历史研究等工作。未来,该基准测试可以进一步扩展,包含更多类型的古文字和任务,为相关领域的研究提供更强大的支持。
📄 摘要(原文)
Comprehension of ancient texts plays an important role in archaeology and understanding of Chinese history and civilization. The rapid development of large language models needs benchmarks that can evaluate their comprehension of ancient characters. Existing Chinese benchmarks are mostly targeted at modern Chinese and transmitted documents in ancient Chinese, but the part of excavated documents in ancient Chinese is not covered. To meet this need, we propose the AncientBench, which aims to evaluate the comprehension of ancient characters, especially in the scenario of excavated documents. The AncientBench is divided into four dimensions, which correspond to the four competencies of ancient character comprehension: glyph comprehension, pronunciation comprehension, meaning comprehension, and contextual comprehension. The benchmark also contains ten tasks, including radical, phonetic radical, homophone, cloze, translation, and more, providing a comprehensive framework for evaluation. We convened archaeological researchers to conduct experimental evaluations, proposed an ancient model as baseline, and conducted extensive experiments on the currently best-performing large language models. The experimental results reveal the great potential of large language models in ancient textual scenarios as well as the gap with humans. Our research aims to promote the development and application of large language models in the field of archaeology and ancient Chinese language.