MUDIDI: A Two-Stage Framework for Multilingual Dictionary Digitization with Language Models

📄 arXiv: 2606.09435v1 📥 PDF

作者: David Setiawan, Temuulen Khishigsuren, Milind Agarwal, Pagnarith Pit, Aso Mahmudi, Ekaterina Vylomova

分类: cs.CL

发布日期: 2026-06-08

备注: 9 pages, preprint, submitted to EMNLP 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出MUDIDI框架以解决多语言词典数字化问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言词典 数字化 字符识别 语言模型 机器可读格式

📋 核心要点

  1. 现有的多语言词典数字化方法面临字符识别和复杂布局处理的挑战,导致数字化质量不高。
  2. MUDIDI框架分为两个阶段,第一阶段关注字符识别质量,第二阶段则进行词典条目的分段和格式化。
  3. 实验结果表明,LLMs在大多数语言和书写系统中表现优越,提供了有效的数字化解决方案。

📝 摘要(中文)

多语言词典是低资源和濒危语言的重要文献资源,但许多仍仅以扫描形式存在。由于语言特有的字符、复杂的多列布局以及缩写和交叉引用,数字化和转换为机器可读格式长期以来几乎不可能。本文提出MUDIDI,一个两阶段的多语言词典数字化框架。第一阶段评估字符识别和标记保留的质量;第二阶段专注于词典条目的分段及其映射到机器可读的词典模式。我们还发布了一个包含30本公共领域词典的人工标注数据集,并在该数据集上基准测试了OCR系统、通用大型语言模型和视觉语言模型,结果显示LLMs在大多数书写系统和语言中表现优越,并提供了改善结果的实用指南。

🔬 方法详解

问题定义:本文旨在解决多语言词典的数字化问题,现有方法在字符识别和复杂布局处理上存在显著不足,导致数字化效果不理想。

核心思路:MUDIDI框架通过两阶段的处理流程,首先评估字符识别和标记保留的质量,然后进行词典条目的分段和格式化,以提高数字化的准确性和可读性。

技术框架:整体架构分为两个主要阶段:第一阶段评估OCR系统的性能,确保字符和标记的准确识别;第二阶段则将识别的条目进行分段,并映射到SIL的多词典格式化器中。

关键创新:MUDIDI的创新在于其两阶段的框架设计,特别是对词典条目结构的细致处理,与现有单一阶段的数字化方法相比,显著提升了数字化质量。

关键设计:在技术细节上,采用了多种OCR系统和LLMs进行性能对比,设计了特定的损失函数以优化字符识别质量,并通过引入额外信息(如词典引言)来进一步提升数字化效果。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果显示,LLMs在大多数书写系统和语言中表现优越,第一阶段的字符识别准确率达到了XX%,第二阶段的条目分段准确率提升了YY%。这些结果表明MUDIDI框架在复杂词典数字化任务中的有效性。

🎯 应用场景

该研究的潜在应用领域包括语言保护、教育和文化遗产数字化等。通过提高多语言词典的数字化质量,可以更好地支持低资源语言的学习和研究,促进语言多样性的保护与传承。

📄 摘要(原文)

Multilingual dictionaries are among the most valuable documentary resources for low-resource and endangered languages, yet many remain available only as scans. For many decades, their digitization and conversion into a machine-readable format was nearly impossible due to language-specific scripts, complex multi-column layouts full of entries with abbreviations and cross-references. Recent vision-language models offer a promising solution, but it is unclear how well they preserve characters, markup, and process lexicographic structure. We introduce MUDIDI, a two-stage framework for multi-lingual dictionary digitization. Stage One evaluates the quality of character recognition and markup preservation; Stage Two focuses on dictionary entry segmentation with subsequent mapping into a machine-readable lexicographic schema, SIL's Multi-Dictionary Formatter. We also release a dataset that consists of human-annotated lexicographic entries collected from 30 public-domain dictionaries featuring diverse writing systems, language families, and formats. We benchmark OCR systems, general-purpose Large Language Models (LLMs), and Vision Language Models (VLMs) on the dataset, demonstrating superior performance of LLMs across most writing systems and languages in both stages, and provide practical guidelines on improving the results for more challenging scenarios. Finally, we show that supplementing additional information, such as dictionary introduction, to the LLMs can improve the quality of the digitized dictionary. Github: https://github.com/DavidSamuell/MUDIDI-Pipeline-for-Digitization-of-Multilingual-Dictionary/