Fùxì: A Benchmark for Evaluating Language Models on Ancient Chinese Text Understanding and Generation

📄 arXiv: 2503.15837v1 📥 PDF

作者: Shangqing Zhao, Yuhao Zhou, Yupei Ren, Zhe Chen, Chenghao Jia, Fang Zhe, Zhaogaung Long, Shu Liu, Man Lan

分类: cs.CL, cs.AI

发布日期: 2025-03-20

备注: working in progress


💡 一句话要点

Fùxì:一个用于评估语言模型在古文理解与生成能力上的基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 古文理解 古文生成 语言模型 基准测试 文化传承

📋 核心要点

  1. 现有基准测试主要通过选择题评估古文理解,缺乏对古文生成能力的有效评估。
  2. Fùxì基准通过平衡理解与生成任务,并引入诗歌创作等新任务,全面评估模型能力。
  3. 该基准结合规则验证与LLM评估器,从语言准确性和文化真实性两方面评估生成质量。

📝 摘要(中文)

由于其独特的语言特征、复杂的结构约束和丰富的文化背景,古文文本处理对大型语言模型(LLMs)提出了独特的挑战。现有的基准主要侧重于通过多项选择题评估理解能力,但在评估模型在古文方面的生成能力方面仍然存在关键差距。我们推出了Fùxì,这是一个综合性的基准,用于评估21个不同任务中的理解和生成能力。我们的基准通过三个关键贡献脱颖而出:(1)平衡了理解和生成任务的覆盖范围,包括诗歌创作和对联完成等新颖任务;(2)专门为古文文本生成设计的评估指标,将基于规则的验证与微调的LLM评估器相结合;(3)一个系统性的评估框架,同时考虑了语言准确性和文化真实性。通过对最先进的LLM进行广泛的评估,我们揭示了理解和生成任务之间存在的显著性能差距,模型在理解方面取得了可喜的成果,但在生成任务(特别是那些需要深厚的文化知识和遵守古典格式的任务)中表现不佳。我们的研究结果突出了当前古文文本处理的局限性,并为未来的模型开发提供了见解。该基准、评估工具包和基线结果已公开,以促进该领域的研究。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在古文理解和生成任务中面临的挑战,特别是古文生成能力评估不足的问题。现有方法主要集中在理解任务上,忽略了古文独特的语言特征、结构约束和文化背景对生成任务的影响。因此,需要一个更全面的基准来评估模型在古文领域的生成能力。

核心思路:论文的核心思路是构建一个包含多种古文理解和生成任务的综合性基准,并设计专门的评估指标来衡量模型的生成质量。通过对现有大型语言模型进行评估,揭示其在古文处理方面的局限性,并为未来的模型开发提供指导。

技术框架:Fùxì基准包含21个不同的任务,涵盖了古文理解和生成两个方面。生成任务包括诗歌创作、对联完成等。评估框架结合了基于规则的验证和基于大型语言模型的评估器,从语言准确性和文化真实性两个维度评估生成质量。

关键创新:该基准的关键创新在于:1)平衡了理解和生成任务的覆盖范围;2)设计了专门针对古文文本生成的评估指标,结合了规则和LLM;3)构建了一个系统性的评估框架,同时考虑了语言准确性和文化真实性。

关键设计:评估指标的设计是关键。对于生成任务,除了传统的BLEU等指标外,还引入了基于规则的验证,例如检查诗歌的格律是否符合要求。同时,使用微调的大型语言模型作为评估器,判断生成文本的文化真实性和流畅性。具体的参数设置和网络结构取决于所使用的大型语言模型。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,现有的大型语言模型在古文理解任务上表现良好,但在生成任务上表现不佳,尤其是在需要深厚文化知识和遵守古典格式的任务中。这表明当前的模型在古文处理方面仍存在很大的提升空间,需要进一步的研究和开发。

🎯 应用场景

该研究成果可应用于古籍数字化、古文辅助写作、古文智能翻译等领域。通过提高语言模型对古文的理解和生成能力,可以更好地传承和利用中华优秀传统文化,并为相关研究提供技术支撑。

📄 摘要(原文)

Ancient Chinese text processing presents unique challenges for large language models (LLMs) due to its distinct linguistic features, complex structural constraints, and rich cultural context. While existing benchmarks have primarily focused on evaluating comprehension through multiple-choice questions, there remains a critical gap in assessing models' generative capabilities in classical Chinese. We introduce Fùxì, a comprehensive benchmark that evaluates both understanding and generation capabilities across 21 diverse tasks. Our benchmark distinguishes itself through three key contributions: (1) balanced coverage of both comprehension and generation tasks, including novel tasks like poetry composition and couplet completion, (2) specialized evaluation metrics designed specifically for classical Chinese text generation, combining rule-based verification with fine-tuned LLM evaluators, and (3) a systematic assessment framework that considers both linguistic accuracy and cultural authenticity. Through extensive evaluation of state-of-the-art LLMs, we reveal significant performance gaps between understanding and generation tasks, with models achieving promising results in comprehension but struggling considerably in generation tasks, particularly those requiring deep cultural knowledge and adherence to classical formats. Our findings highlight the current limitations in ancient Chinese text processing and provide insights for future model development. The benchmark, evaluation toolkit, and baseline results are publicly available to facilitate research in this domain.