Mini-Monkey: Alleviating the Semantic Sawtooth Effect for Lightweight MLLMs via Complementary Image Pyramid

📄 arXiv: 2408.02034v3 📥 PDF

作者: Mingxin Huang, Yuliang Liu, Dingkang Liang, Lianwen Jin, Xiang Bai

分类: cs.CV

发布日期: 2024-08-04 (更新: 2024-10-28)

🔗 代码/项目: GITHUB


💡 一句话要点

Mini-Monkey提出互补图像金字塔,缓解轻量级MLLM中的语义锯齿效应

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 高分辨率图像处理 语义锯齿效应 互补图像金字塔 尺度压缩机制 轻量级MLLM 文档理解 OCRBench

📋 核心要点

  1. 现有MLLM采用滑动窗口裁剪处理高分辨率图像,易切断物体造成语义不连续,影响小物体识别。
  2. 提出互补图像金字塔(CIP),动态构建图像金字塔,为裁剪策略提供互补语义信息,提升模型理解能力。
  3. 实验表明CIP能提升多种架构和容量的模型性能,提出的Mini-Monkey在多模态理解和文档理解上表现出色。

📝 摘要(中文)

本文关注多模态大语言模型(MLLM)中将图像缩放到高分辨率的问题。现有方法通常采用滑动窗口裁剪策略来适应分辨率的增加,但这种策略容易切断物体和连接区域,导致语义不连续,阻碍MLLM识别小型或不规则形状的物体或文本,产生语义锯齿效应,在轻量级MLLM中尤为明显。为了解决这个问题,本文提出了一种互补图像金字塔(CIP),这是一个简单、有效且即插即用的解决方案,旨在减轻高分辨率图像处理过程中的语义不连续性。CIP动态构建图像金字塔,为基于裁剪的MLLM提供互补的语义信息,使其能够充分获取各个层级的语义。此外,本文还引入了尺度压缩机制(SCM),通过压缩冗余的视觉tokens来减少额外的计算开销。实验表明,CIP可以持续提升各种架构(如MiniCPM-V-2、InternVL2和LLaVA-OneVision)、不同模型容量(1B→8B)和不同使用配置(免训练和微调)的性能。利用CIP和SCM,本文提出了一个轻量级的MLLM,Mini-Monkey,在通用多模态理解和文档理解方面都取得了显著的性能。在OCRBench上,2B版本的Mini-Monkey甚至超过了8B模型InternVL2-8B 12分。此外,训练Mini-Monkey的成本很低,只需要八个RTX 3090 GPU。

🔬 方法详解

问题定义:现有MLLM在处理高分辨率图像时,通常采用滑动窗口裁剪策略。这种策略的痛点在于,容易将图像中的物体或连通区域分割开,导致语义信息的丢失或不完整,尤其对于小物体、细长物体或文本等,会造成严重的语义不连续性,作者称之为“语义锯齿效应”。这种效应会显著降低模型对图像内容的理解能力,尤其是在轻量级MLLM中更为明显。

核心思路:论文的核心思路是通过构建一个互补图像金字塔(CIP),为基于裁剪的MLLM提供额外的、多尺度的图像信息。CIP包含原始分辨率图像以及一系列降采样后的图像,这些图像可以提供不同尺度的上下文信息,从而弥补滑动窗口裁剪造成的语义缺失。通过融合不同尺度的信息,模型可以更好地理解图像中的物体及其相互关系,从而缓解语义锯齿效应。

技术框架:Mini-Monkey的整体框架包括:1)图像编码器:用于提取图像特征;2)互补图像金字塔(CIP):生成多尺度图像表示;3)尺度压缩机制(SCM):减少CIP引入的额外计算量;4)语言模型:用于处理视觉特征和文本输入,并生成最终输出。具体流程是,首先使用图像编码器提取原始图像的特征,然后通过CIP生成多尺度图像特征,SCM对多尺度特征进行压缩,最后将压缩后的特征与文本输入一起送入语言模型进行处理。

关键创新:论文的关键创新在于提出了互补图像金字塔(CIP)和尺度压缩机制(SCM)。CIP通过提供多尺度图像信息,有效缓解了滑动窗口裁剪造成的语义锯齿效应。SCM则通过压缩冗余的视觉tokens,降低了CIP引入的额外计算开销,使得该方法可以在轻量级MLLM上高效应用。与现有方法相比,CIP是一种简单、有效且即插即用的解决方案,可以方便地集成到各种MLLM架构中。

关键设计:CIP的关键设计在于如何选择合适的图像尺度和融合策略。论文中动态构建图像金字塔,具体实现细节未知。SCM的关键设计在于如何有效地压缩视觉tokens,同时保留重要的语义信息,具体实现细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的CIP可以显著提升各种MLLM架构的性能,包括MiniCPM-V-2、InternVL2和LLaVA-OneVision等。在OCRBench数据集上,2B版本的Mini-Monkey甚至超过了8B模型InternVL2-8B 12分,证明了该方法的有效性。此外,训练Mini-Monkey的成本较低,只需要八个RTX 3090 GPU,使其更易于部署和应用。

🎯 应用场景

该研究成果可广泛应用于需要高分辨率图像理解的多模态任务中,例如文档理解、遥感图像分析、医学图像诊断等。通过缓解语义锯齿效应,可以提升模型在这些领域的性能和可靠性,具有重要的实际应用价值。未来,该方法有望进一步推广到其他多模态任务中,并与其他技术相结合,实现更强大的多模态理解能力。

📄 摘要(原文)

Recently, scaling images to high resolution has received much attention in multimodal large language models (MLLMs). Most existing practices adopt a sliding-window-style cropping strategy to adapt to resolution increase. Such a cropping strategy, however, can easily cut off objects and connected regions, which introduces semantic discontinuity and therefore impedes MLLMs from recognizing small or irregularly shaped objects or text, leading to a phenomenon we call the semantic sawtooth effect. This effect is particularly evident in lightweight MLLMs. To address this issue, we introduce a Complementary Image Pyramid (CIP), a simple, effective, and plug-and-play solution designed to mitigate semantic discontinuity during high-resolution image processing. In particular, CIP dynamically constructs an image pyramid to provide complementary semantic information for the cropping-based MLLMs, enabling them to richly acquire semantics at all levels. Furthermore, we introduce a Scale Compression Mechanism (SCM) to reduce the additional computational overhead by compressing the redundant visual tokens. Our experiments demonstrate that CIP can consistently enhance the performance across diverse architectures (e.g., MiniCPM-V-2, InternVL2, and LLaVA-OneVision), various model capacity (1B$\rightarrow$8B), and different usage configurations (training-free and fine-tuning). Leveraging the proposed CIP and SCM, we introduce a lightweight MLLM, Mini-Monkey, which achieves remarkable performance in both general multimodal understanding and document understanding. On the OCRBench, the 2B-version Mini-Monkey even surpasses the 8B model InternVL2-8B by 12 score. Additionally, training Mini-Monkey is cheap, requiring only eight RTX 3090 GPUs. The code is available at https://github.com/Yuliang-Liu/Monkey.