Towards Faithful Reasoning in Comics for Small MLLMs
作者: Chengcheng Feng, Haojie Yin, Yucheng Jin, Kaizhu Huang
分类: cs.CV, cs.AI
发布日期: 2026-01-06
💡 一句话要点
提出漫画推理框架以解决小型MLLMs在CVQA中的性能问题
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 漫画推理 视觉问答 多模态学习 链式思维 强化学习 幽默理解 小型模型
📋 核心要点
- 现有的链式思维方法在漫画视觉问答中表现不佳,尤其是小型模型在资源受限的情况下更为脆弱。
- 本文提出了一种新颖的漫画推理框架,结合模块化CoT生成和强化学习,以提高推理的准确性和可迁移性。
- 在五个具有挑战性的基准测试中,提出的3B模型超越了现有方法,平均提升了12.1%的性能。
📝 摘要(中文)
漫画基础的视觉问答(CVQA)对多模态大语言模型(MLLMs)提出了独特挑战,尤其是在符号抽象、叙事逻辑和幽默方面。尽管链式思维(CoT)提示被广泛应用于增强MLLM推理,但其直接应用于CVQA时,尤其是在小型模型中,性能反而下降。本文通过理论和实证分析揭示了标准CoT在CVQA中存在状态纠缠、虚假转移和探索效率低下的问题。为了解决这些问题,本文提出了一种新颖的漫画推理框架,旨在为小型MLLMs生成更真实和可迁移的推理链。该框架结合了模块化CoT生成、基于GRPO的强化微调和新颖的结构化奖励,并在多个幽默和抽象视觉推理任务上进行了评估,结果显示其在五个基准测试中超越了现有最先进的方法。
🔬 方法详解
问题定义:本文旨在解决小型MLLMs在漫画视觉问答(CVQA)中推理性能下降的问题。现有的链式思维方法在CVQA中表现不佳,导致状态纠缠和探索效率低下,尤其在资源受限的环境中更为明显。
核心思路:论文提出的漫画推理框架通过模块化的链式思维生成和基于GRPO的强化微调,旨在生成更真实和可迁移的推理链。这种设计能够有效减少推理过程中的错误和不必要的复杂性。
技术框架:整体架构包括三个主要模块:模块化CoT生成、GRPO强化微调和结构化奖励设计。模块化CoT生成负责生成初步推理链,GRPO强化微调则用于优化推理过程,而结构化奖励则帮助模型更好地评估和选择推理路径。
关键创新:最重要的技术创新在于将模块化CoT生成与GRPO强化微调相结合,并引入结构化奖励机制。这一方法与传统的CoT方法相比,能够更有效地处理CVQA中的复杂性和幽默元素。
关键设计:在模型设计中,采用了特定的损失函数以优化推理链的准确性,并通过结构化奖励来引导模型选择更有效的推理路径。此外,模型的参数设置经过精心调整,以适应小型MLLMs的特性。
📊 实验亮点
实验结果显示,提出的3B模型在五个基准测试中超越了现有最先进的方法,平均提升了12.1%的性能。这一显著的提升表明,新的漫画推理框架在处理复杂的视觉问答任务中具有重要的应用潜力和实际价值。
🎯 应用场景
该研究的潜在应用领域包括漫画理解、幽默内容分析以及其他需要复杂视觉推理的任务。通过提高小型MLLMs在这些领域的推理能力,研究成果能够推动相关应用的发展,提升用户体验和内容生成的质量。未来,该框架可能扩展到更广泛的多模态任务中,进一步促进人工智能在理解和生成复杂内容方面的能力。
📄 摘要(原文)
Comic-based visual question answering (CVQA) poses distinct challenges to multimodal large language models (MLLMs) due to its reliance on symbolic abstraction, narrative logic, and humor, which differ from conventional VQA tasks. Although Chain-of-Thought (CoT) prompting is widely used to enhance MLLM reasoning, surprisingly, its direct application to CVQA often degrades performance, especially in small-scale models. Our theoretical and empirical analyses reveal that standard CoT in CVQA suffers from state entanglement, spurious transitions, and exploration inefficiency, with small models particularly vulnerable in resource-constrained settings. To address these issues, we propose a novel comic reasoning framework, designed to produce more faithful and transferable reasoning chains in small MLLMs. Specifically, our framework combines modular CoT generation with GRPO-based reinforcement fine-tuning and a novel structured reward. Beyond comic VQA, we further evaluate our approach on a broader class of humor-centric and abstract visual reasoning tasks, including meme understanding and editorial cartoon interpretation. Across five challenging benchmarks, our 3B model outperforms state-of-the-art methods, and plug-in experiments yield an additional average improvement of $\mathbf{12.1\%}$ across different MLLMs.