CoSMo: A Multimodal Transformer for Page Stream Segmentation in Comic Books

📄 arXiv: 2507.10053v1 📥 PDF

作者: Marc Serra Ortega, Emanuele Vivoli, Artemis Llabrés, Dimosthenis Karatzas

分类: cs.CV

发布日期: 2025-07-14


💡 一句话要点

提出CoSMo多模态Transformer,用于漫画书中页面流分割任务

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 漫画书分析 页面流分割 多模态Transformer 视觉语言模型 Transformer 计算机视觉 自然语言处理

📋 核心要点

  1. 现有方法在漫画书页面流分割任务中表现不足,难以满足自动化内容理解的需求。
  2. CoSMo模型利用Transformer架构,融合视觉和文本信息,提升页面流分割的准确性和鲁棒性。
  3. 实验结果表明,CoSMo在多个指标上显著优于传统方法和大型视觉-语言模型,确立了新的技术水平。

📝 摘要(中文)

本文提出了一种新颖的多模态Transformer模型CoSMo,用于漫画书中的页面流分割(PSS)任务。页面流分割是自动内容理解的关键步骤,是角色分析、故事索引或元数据丰富等下游任务的必要前提。我们针对这一独特的媒介形式,形式化了PSS问题,并整理了一个包含20,800页标注数据的新数据集。CoSMo开发了纯视觉和多模态两种变体,在F1-Macro、Panoptic Quality和流级别指标上,均优于传统基线和更大的通用视觉-语言模型。研究结果表明,视觉特征在漫画PSS宏观结构中占据主导地位,但多模态信息有助于解决具有挑战性的歧义。CoSMo建立了新的state-of-the-art,为可扩展的漫画书分析铺平了道路。

🔬 方法详解

问题定义:论文旨在解决漫画书中页面流分割(PSS)问题。现有的方法,包括传统图像处理技术和通用的视觉-语言模型,在处理漫画书特有的复杂布局、艺术风格和叙事结构时,表现出不足,难以准确地分割页面流,影响后续的自动化内容理解任务。

核心思路:论文的核心思路是利用Transformer架构强大的序列建模能力,同时融合视觉和文本信息,以更准确地理解漫画书的页面结构和叙事流程。通过多模态融合,模型可以更好地处理视觉歧义,并利用文本信息辅助分割。

技术框架:CoSMo模型采用Transformer架构,包含视觉编码器和文本编码器(可选)。视觉编码器负责提取图像特征,文本编码器负责提取文本特征。然后,模型将两种特征进行融合,并通过Transformer解码器预测页面流分割结果。整体流程包括图像输入、视觉特征提取、文本特征提取(可选)、特征融合、Transformer解码和分割结果输出。

关键创新:CoSMo的关键创新在于针对漫画书页面流分割任务设计的多模态Transformer架构。与传统的视觉方法相比,CoSMo能够利用文本信息辅助分割,提高准确性。与通用的视觉-语言模型相比,CoSMo针对漫画书的特点进行了优化,性能更优。

关键设计:CoSMo模型使用了标准的Transformer架构,并针对漫画书的特点进行了一些调整。例如,视觉编码器可以使用预训练的卷积神经网络(CNN)或Transformer模型。文本编码器可以使用预训练的语言模型。特征融合可以使用简单的拼接或更复杂的注意力机制。损失函数可以使用交叉熵损失或Dice损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoSMo模型在漫画书页面流分割任务中取得了显著的性能提升。在作者构建的包含20,800页标注数据的新数据集上,CoSMo在F1-Macro、Panoptic Quality和流级别指标上均优于传统基线和更大的通用视觉-语言模型,确立了新的state-of-the-art。

🎯 应用场景

CoSMo模型在漫画书分析领域具有广泛的应用前景,可用于自动化漫画书内容理解、角色分析、故事索引、元数据丰富等任务。该技术可以帮助漫画出版商和爱好者更高效地管理和分析大量的漫画书资源,并为开发新的漫画书应用和服务提供支持。

📄 摘要(原文)

This paper introduces CoSMo, a novel multimodal Transformer for Page Stream Segmentation (PSS) in comic books, a critical task for automated content understanding, as it is a necessary first stage for many downstream tasks like character analysis, story indexing, or metadata enrichment. We formalize PSS for this unique medium and curate a new 20,800-page annotated dataset. CoSMo, developed in vision-only and multimodal variants, consistently outperforms traditional baselines and significantly larger general-purpose vision-language models across F1-Macro, Panoptic Quality, and stream-level metrics. Our findings highlight the dominance of visual features for comic PSS macro-structure, yet demonstrate multimodal benefits in resolving challenging ambiguities. CoSMo establishes a new state-of-the-art, paving the way for scalable comic book analysis.