Enhancing Multimodal Large Language Models for Ancient Chinese Character Evolution Analysis via Glyph-Driven Fine-Tuning
作者: Rui Song, Lida Shi, Ruihua Qi, Yingji Li, Hao Xu
分类: cs.CL, cs.AI
发布日期: 2026-04-13
备注: Accepted by ACL 2026 main
🔗 代码/项目: GITHUB
💡 一句话要点
提出GEVO框架,通过字形驱动微调增强多模态大语言模型对古汉字演变分析的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 古汉字演变 多模态大语言模型 字形驱动微调 文化遗产 字符识别
📋 核心要点
- 现有MLLM在字形层面的比较能力不足,限制了其在古汉字演变分析任务中的表现。
- 提出字形驱动的微调框架GEVO,显式地学习字形演变一致性,提升模型对文字演变的理解。
- 实验表明,即使是2B规模的模型,在所有评估任务上都能获得显著且一致的性能提升。
📝 摘要(中文)
近年来,多模态大语言模型(MLLMs)的快速发展促进了对古汉字的研究。文字演变是理解文化转型和历史连续性的重要途径,如何系统地利用MLLMs来支持和推进文字演变分析仍然是一个尚未充分探索的问题。为了弥合这一差距,我们构建了一个包含11个任务和超过13万个实例的综合基准,专门用于评估MLLMs在分析古汉字演变方面的能力。我们对多个广泛使用的MLLMs进行了广泛的评估,发现现有模型在字形层面的比较能力有限,并且在字符识别和演化推理等核心任务上的表现仍然受到很大限制。受此启发,我们提出了一个字形驱动的微调框架(GEVO),该框架明确地鼓励模型捕捉字形转换中的演化一致性,并增强其对文字演变的理解。实验结果表明,即使是2B规模的模型,在所有评估任务中也能实现一致且全面的性能提升。为了方便未来的研究,我们公开发布了基准和训练好的模型。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLMs)在古汉字演变分析中表现不足的问题。现有MLLMs在字形层面的比较能力有限,无法有效捕捉字形演变的细微差异,导致在字符识别、演化推理等核心任务上的性能受限。因此,如何提升MLLMs对古汉字字形演变的理解和推理能力是本文要解决的关键问题。
核心思路:论文的核心思路是通过字形驱动的微调,显式地引导模型学习字形演变过程中的一致性。具体来说,通过构建包含大量古汉字字形演变信息的训练数据,并设计相应的训练目标,使模型能够更好地理解字形之间的关联和演变规律。这种方法的核心在于将字形信息作为重要的先验知识融入到模型的训练过程中,从而提升模型在古汉字演变分析任务中的表现。
技术框架:GEVO框架主要包含数据构建和模型微调两个阶段。首先,构建一个包含11个任务和超过13万个实例的综合基准,用于评估模型在古汉字演变分析方面的能力。然后,利用该基准数据对MLLMs进行字形驱动的微调。微调过程中,模型接收包含古汉字字形信息的输入,并学习预测字形的演变结果或完成相关的推理任务。
关键创新:论文的关键创新在于提出了字形驱动的微调框架(GEVO),该框架显式地鼓励模型捕捉字形转换中的演化一致性。与传统的微调方法不同,GEVO更加注重字形信息的利用,通过构建专门的训练数据和设计相应的训练目标,使模型能够更好地理解字形之间的关联和演变规律。这种方法能够有效地提升模型在古汉字演变分析任务中的表现。
关键设计:GEVO框架的关键设计包括:1) 构建包含11个任务和超过13万个实例的综合基准,覆盖了字符识别、演化推理等多个方面;2) 设计字形驱动的微调策略,通过构建包含古汉字字形信息的训练数据,并设计相应的训练目标,使模型能够更好地理解字形之间的关联和演变规律;3) 采用对比学习等技术,鼓励模型学习字形之间的相似性和差异性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是2B规模的模型,在经过GEVO框架的微调后,在所有评估任务中都能实现一致且全面的性能提升。具体而言,在字符识别、演化推理等核心任务上的准确率得到了显著提高,表明GEVO框架能够有效地提升MLLMs对古汉字演变的理解和推理能力。这些结果证明了字形驱动微调的有效性,并为未来的研究提供了新的思路。
🎯 应用场景
该研究成果可应用于古籍数字化、历史文化研究、古文字学教育等领域。通过提升MLLMs对古汉字演变的理解能力,可以更高效地进行古籍整理、文物鉴定、历史考证等工作,并为古文字学的教学和研究提供新的工具和方法。此外,该研究还可以促进文化遗产的保护和传承,使更多人能够了解和认识中华优秀传统文化。
📄 摘要(原文)
In recent years, rapid advances in Multimodal Large Language Models (MLLMs) have increasingly stimulated research on ancient Chinese scripts. As the evolution of written characters constitutes a fundamental pathway for understanding cultural transformation and historical continuity, how MLLMs can be systematically leveraged to support and advance text evolution analysis remains an open and largely underexplored problem. To bridge this gap, we construct a comprehensive benchmark comprising 11 tasks and over 130,000 instances, specifically designed to evaluate the capability of MLLMs in analyzing the evolution of ancient Chinese scripts. We conduct extensive evaluations across multiple widely used MLLMs and observe that, while existing models demonstrate a limited ability in glyph-level comparison, their performance on core tasks-such as character recognition and evolutionary reasoning-remains substantially constrained. Motivated by these findings, we propose a glyph-driven fine-tuning framework (GEVO) that explicitly encourages models to capture evolutionary consistency in glyph transformations and enhances their understanding of text evolution. Experimental results show that even models at the 2B scale achieve consistent and comprehensive performance improvements across all evaluated tasks. To facilitate future research, we publicly release both the benchmark and the trained models\footnote{https://github.com/songruiecho/GEVO}.