Specializing Large Models for Oracle Bone Script Interpretation via Component-Grounded Multimodal Knowledge Augmentation

📄 arXiv: 2604.06711v1 📥 PDF

作者: Jianing Zhang, Runan Li, Honglin Pang, Ding Xia, Zhou Zhu, Qian Zhang, Chuntao Li, Xi Yang

分类: cs.CV, cs.CL

发布日期: 2026-04-08


💡 一句话要点

提出基于部件的多模态知识增强方法,用于甲骨文释读

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 甲骨文释读 视觉-语言模型 知识图谱 部件识别 多模态融合

📋 核心要点

  1. 现有甲骨文释读方法将问题简化为图像识别,忽略了字符部件的语义信息,导致解释不准确。
  2. 论文提出基于Agent的视觉-语言模型框架,通过部件识别、知识检索和关系推理,实现更准确的释读。
  3. 构建了包含结构和语义信息的OB-Radix数据集,并在三个基准测试中验证了该框架的有效性。

📝 摘要(中文)

甲骨文释读是一项具有挑战性的任务,能够深入了解古代的信仰、制度和文化。现有方法将释读视为一个封闭集合的图像识别问题,无法弥合“解释鸿沟”。虽然单个字符通常是独特且稀有的,但它们由一组有限的、重复出现的象形部件组成,这些部件带有可转移的语义意义。为了利用这种结构逻辑,我们提出了一个由Agent驱动的视觉-语言模型(VLM)框架,该框架集成了VLM以进行精确的视觉定位,以及基于LLM的Agent来自动执行部件识别、基于图的知识检索和关系推理的推理链,从而实现语言上准确的解释。为了支持这一点,我们还引入了OB-Radix,这是一个专家注释的数据集,提供了先前语料库中缺失的结构和语义数据,包括1,022个字符图像(934个唯一字符)和1,853个细粒度部件图像,涵盖478个不同的部件,并附有经过验证的解释。通过在三个不同任务的基准上评估我们的系统,我们证明了与基线方法相比,我们的框架产生了更详细和精确的释读。

🔬 方法详解

问题定义:甲骨文释读任务面临“解释鸿沟”问题,即现有方法将甲骨文视为孤立的图像进行识别,忽略了甲骨文中普遍存在的由少量部件组成,且部件具有可传递语义信息的结构特性。这导致释读结果缺乏语言学上的准确性和可解释性。

核心思路:论文的核心思路是利用甲骨文的结构特性,将释读过程分解为部件识别、知识检索和关系推理三个步骤。通过显式地建模部件的语义信息,并利用知识图谱进行推理,从而弥合“解释鸿沟”,提高释读的准确性和可解释性。

技术框架:整体框架包含以下几个主要模块:1) VLM视觉定位模块:用于识别甲骨文图像中的部件;2) LLM-based Agent:负责自动化推理链,包括部件识别、基于图的知识检索和关系推理;3) 知识图谱:存储部件的语义信息和关系;4) OB-Radix数据集:用于训练和评估模型。整个流程是,首先利用VLM识别图像中的部件,然后LLM Agent根据识别结果从知识图谱中检索相关信息,最后进行关系推理,生成最终的释读结果。

关键创新:最重要的技术创新点在于将视觉-语言模型与知识图谱相结合,并利用LLM Agent自动化推理过程。与现有方法相比,该方法能够显式地建模部件的语义信息,并利用知识图谱进行推理,从而提高释读的准确性和可解释性。此外,OB-Radix数据集的构建也为该领域的研究提供了宝贵的数据资源。

关键设计:论文的关键设计包括:1) VLM的选择和训练:选择合适的VLM模型,并利用OB-Radix数据集进行微调,以提高部件识别的准确性;2) 知识图谱的构建:构建包含部件语义信息和关系的知识图谱,并设计有效的检索算法;3) LLM Agent的设计:设计合理的prompt,引导LLM Agent进行部件识别、知识检索和关系推理;4) 损失函数的设计:设计合适的损失函数,用于训练VLM和LLM Agent。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了包含1022个字符图像和1853个部件图像的OB-Radix数据集。实验结果表明,该框架在三个基准测试中均优于基线方法,能够生成更详细和精确的释读结果,验证了该方法的有效性。

🎯 应用场景

该研究成果可应用于甲骨文等古代文字的自动释读,有助于历史文化研究和传承。此外,该方法也可推广到其他具有结构化特征的图像识别任务,例如手语识别、电路图识别等,具有广泛的应用前景。

📄 摘要(原文)

Deciphering ancient Chinese Oracle Bone Script (OBS) is a challenging task that offers insights into the beliefs, systems, and culture of the ancient era. Existing approaches treat decipherment as a closed-set image recognition problem, which fails to bridge the ``interpretation gap'': while individual characters are often unique and rare, they are composed of a limited set of recurring, pictographic components that carry transferable semantic meanings. To leverage this structural logic, we propose an agent-driven Vision-Language Model (VLM) framework that integrates a VLM for precise visual grounding with an LLM-based agent to automate a reasoning chain of component identification, graph-based knowledge retrieval, and relationship inference for linguistically accurate interpretation. To support this, we also introduce OB-Radix, an expert-annotated dataset providing structural and semantic data absent from prior corpora, comprising 1,022 character images (934 unique characters) and 1,853 fine-grained component images across 478 distinct components with verified explanations. By evaluating our system across three benchmarks of different tasks, we demonstrate that our framework yields more detailed and precise decipherments compared to baseline methods.