PictOBI-20k: Unveiling Large Multimodal Models in Visual Decipherment for Pictographic Oracle Bone Characters

📄 arXiv: 2509.05773v1 📥 PDF

作者: Zijian Chen, Wenjie Hua, Jinhao Li, Lirong Deng, Fan Du, Tingzhu Chen, Guangtao Zhai

分类: cs.CV

发布日期: 2025-09-06

备注: 6 pages, 6 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出PictOBI-20k数据集,用于评估大型多模态模型在甲骨文象形文字视觉释读中的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 甲骨文释读 大型多模态模型 视觉推理 数据集构建 语言先验

📋 核心要点

  1. 甲骨文解读受限于考古发掘的零星性和铭文语料库的有限性,阻碍了对早期人类生产方式的理解。
  2. 利用大型多模态模型(LMMs)的视觉感知能力,构建PictOBI-20k数据集,评估其在甲骨文视觉解读任务中的潜力。
  3. 实验表明,通用LMMs具备初步的视觉解读技能,但主要依赖语言先验,视觉信息利用不足,有待优化。

📝 摘要(中文)

甲骨文(OBCs)作为已知最古老的汉字形式,其解读一直是学者的终极目标,是理解人类早期生产方式的关键。目前,甲骨文的解读方法主要受限于考古发掘的零星性和铭文语料库的有限性。 借助大型多模态模型(LMMs)强大的视觉感知能力,利用LMMs进行甲骨文视觉解读的潜力日益增加。本文介绍PictOBI-20k,该数据集旨在评估LMMs在象形甲骨文的视觉解读任务中的表现。它包括2万个精心收集的甲骨文和真实物体图像,形成了超过1.5万个多项选择题。我们还进行了主观注释,以研究人类和LMMs在视觉推理中参考点的一致性。实验表明,通用LMMs具备初步的视觉解读技能,但LMMs并没有有效地利用视觉信息,而是在很大程度上受到语言先验的限制。我们希望我们的数据集能够促进未来面向甲骨文的LMMs中视觉注意力的评估和优化。代码和数据集将在https://github.com/OBI-Future/PictOBI-20k上提供。

🔬 方法详解

问题定义:论文旨在解决大型多模态模型在甲骨文象形文字视觉释读任务中的评估问题。现有方法缺乏专门针对甲骨文的数据集,难以有效评估和提升LMMs在此任务上的性能。LMMs在处理此类任务时,容易受到语言先验的影响,而无法充分利用视觉信息进行推理。

核心思路:论文的核心思路是构建一个高质量的甲骨文象形文字数据集,包含甲骨文图像和对应的真实物体图像,并设计多项选择题,以评估LMMs的视觉释读能力。通过分析LMMs的预测结果和人类的主观注释,可以深入了解LMMs在视觉推理中参考点的一致性,从而指导模型优化。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集与整理:收集2万个甲骨文和真实物体图像,并进行清洗和标注。2) 问题生成:基于图像数据,生成超过1.5万个多项选择题,用于评估LMMs的视觉释读能力。3) 模型评估:使用通用LMMs在PictOBI-20k数据集上进行测试,并分析其预测结果。4) 主观注释:进行人工标注,分析人类和LMMs在视觉推理中参考点的一致性。

关键创新:该论文的关键创新在于构建了PictOBI-20k数据集,这是首个专门用于评估LMMs在甲骨文象形文字视觉释读任务中的数据集。该数据集包含大量的甲骨文和真实物体图像,以及精心设计的多项选择题,可以有效评估LMMs的视觉推理能力。此外,论文还通过主观注释,深入分析了LMMs在视觉推理中参考点的一致性,为模型优化提供了新的思路。

关键设计:PictOBI-20k数据集的关键设计包括:1) 图像选择:选择具有代表性的甲骨文和真实物体图像,以保证数据集的多样性和覆盖性。2) 问题设计:设计多项选择题,考察LMMs对甲骨文象形文字的理解和推理能力。3) 评估指标:采用准确率等指标,评估LMMs的视觉释读性能。4) 主观注释:邀请专家进行人工标注,分析人类和LMMs在视觉推理中参考点的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通用LMMs具备初步的甲骨文视觉解读能力,但其性能受到语言先验的限制,无法有效利用视觉信息。在PictOBI-20k数据集上,LMMs的准确率有待提升。通过分析LMMs的预测结果和人类的主观注释,发现LMMs在视觉推理中参考点与人类存在差异,表明需要进一步优化LMMs的视觉注意力机制。

🎯 应用场景

该研究成果可应用于甲骨文的自动释读、古文字研究、文化遗产保护等领域。通过提升LMMs在甲骨文视觉释读任务中的性能,可以加速甲骨文的解读进程,促进对中华文明的深入理解。此外,该研究思路和方法也可推广到其他古文字的解读任务中,具有重要的学术价值和文化意义。

📄 摘要(原文)

Deciphering oracle bone characters (OBCs), the oldest attested form of written Chinese, has remained the ultimate, unwavering goal of scholars, offering an irreplaceable key to understanding humanity's early modes of production. Current decipherment methodologies of OBC are primarily constrained by the sporadic nature of archaeological excavations and the limited corpus of inscriptions. With the powerful visual perception capability of large multimodal models (LMMs), the potential of using LMMs for visually deciphering OBCs has increased. In this paper, we introduce PictOBI-20k, a dataset designed to evaluate LMMs on the visual decipherment tasks of pictographic OBCs. It includes 20k meticulously collected OBC and real object images, forming over 15k multi-choice questions. We also conduct subjective annotations to investigate the consistency of the reference point between humans and LMMs in visual reasoning. Experiments indicate that general LMMs possess preliminary visual decipherment skills, and LMMs are not effectively using visual information, while most of the time they are limited by language priors. We hope that our dataset can facilitate the evaluation and optimization of visual attention in future OBC-oriented LMMs. The code and dataset will be available at https://github.com/OBI-Future/PictOBI-20k.