Manga109-v2026: Revisiting Manga109 Annotations for Modern Manga Understanding
作者: Jeonghun Baek, Atsuyuki Miyai, Shota Onohara, Hikaru Ikuta, Kiyoharu Aizawa
分类: cs.CL, cs.AI, cs.CV
发布日期: 2026-05-20
备注: Accepted to the Culture x AI Workshop at ICML 2026. Project page: https://manga109.github.io/manga109-project-website/en/
💡 一句话要点
Manga109-v2026:修订漫画109数据集,提升现代漫画理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 漫画理解 OCR 数据集修订 多模态学习 文本标注
📋 核心要点
- 现有Manga109数据集存在转录错误、标注粗糙等问题,无法满足现代OCR和多模态漫画理解任务的需求。
- 该论文结合OCR自动检测与人工校正,对Manga109数据集的对话文本标注进行全面修订。
- 新数据集Manga109-v2026包含约29,000个修订后的对话标注,更适合现代漫画理解系统。
📝 摘要(中文)
漫画是一种具有文化特色的多模态媒介,也是日本流行文化中最具影响力的形式之一。随着人工智能系统越来越多地应用于漫画理解、OCR和翻译,Manga109已成为漫画相关人工智能研究的基础数据集。然而,当前的Manga109数据集包含转录错误和粗糙的标注,这与现代OCR和多模态漫画理解任务不太一致。在这项工作中,我们重新审视了Manga109的对话文本标注,并确定了五类标注问题,包括转录错误、缺失文本区域、对话和拟声词重叠以及语音气泡分割不足。为了解决这些问题,我们结合了基于OCR的问题检测和人工修订,构建了Manga109-v2026,修订了大约29,000个对话标注。我们的修订更好地使Manga109与现代OCR和多模态漫画理解系统对齐,同时保留了漫画特有的表现结构。
🔬 方法详解
问题定义:Manga109数据集是漫画理解领域的重要资源,但其标注质量存在问题,包括转录错误、文本区域缺失、对话与拟声词混淆、语音气泡分割不准确等。这些问题限制了现代OCR和多模态漫画理解系统的性能,阻碍了相关研究的进展。现有方法主要依赖人工标注,效率低且容易出错。
核心思路:论文的核心思路是结合OCR技术自动检测标注错误,并辅以人工校正,从而高效、准确地提升Manga109数据集的标注质量。这种方法既能利用OCR的自动化优势,又能发挥人工校正的准确性,实现优势互补。
技术框架:该方法主要包含两个阶段:1) 基于OCR的问题检测:利用OCR引擎识别漫画图像中的文本,并与现有标注进行比对,自动检测潜在的标注错误,例如转录错误、缺失文本等。2) 人工修订:对OCR检测出的潜在错误进行人工审核和校正,确保标注的准确性和完整性。此外,还需解决对话和拟声词重叠、语音气泡分割等复杂问题。
关键创新:该方法的关键创新在于将OCR技术应用于标注错误的自动检测,显著提高了标注修订的效率和准确性。与完全依赖人工标注的方法相比,该方法能够大幅减少人工工作量,并降低人为错误的可能性。此外,该方法还针对漫画特有的表现形式(如拟声词、气泡等)进行了专门处理。
关键设计:具体的技术细节包括:选择合适的OCR引擎,并针对漫画文本的特点进行优化;设计有效的错误检测规则,例如基于编辑距离的转录错误检测、基于区域重叠的对话和拟声词混淆检测等;建立清晰的人工校正流程和规范,确保标注的一致性和准确性。论文未提供损失函数和网络结构等信息,可能是使用了现成的OCR引擎。
🖼️ 关键图片
📊 实验亮点
论文构建了Manga109-v2026数据集,修订了约29,000个对话标注,显著提升了数据集的质量。虽然论文中没有给出具体的性能数据,但可以推断,使用该数据集训练的OCR和漫画理解模型,其性能将优于使用原始Manga109数据集训练的模型。修订后的数据集更好地对齐了现代OCR和多模态漫画理解系统。
🎯 应用场景
Manga109-v2026数据集的发布将促进漫画理解、OCR、机器翻译等领域的研究进展。高质量的标注数据能够提升相关AI模型的性能,例如更准确的漫画文本识别、更自然的漫画翻译等。该数据集还有助于开发智能漫画阅读器、漫画创作辅助工具等应用,具有重要的实际价值和广泛的应用前景。
📄 摘要(原文)
Manga is a culturally distinctive multimodal medium and one of the most influential forms of Japanese popular culture. As AI systems increasingly target manga understanding, OCR, and translation, Manga109 has become a foundational dataset for manga-related AI research. However, the current Manga109 dataset contains transcription errors and coarse annotations, which do not align well with modern OCR and multimodal manga understanding tasks. In this work, we revisit the dialogue text annotations of Manga109 and identify five categories of annotation issues, including transcription errors, missing text regions, overlapping dialogue and onomatopoeia, and under-segmented speech balloons. To address these issues, we combine OCR-based issue detection and manual revision to construct Manga109-v2026, revising approximately 29,000 dialogue annotations. Our revisions better align Manga109 with modern OCR and multimodal manga understanding systems while preserving expressive structures characteristic of manga.