Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception
作者: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu
分类: cs.CV
发布日期: 2025-09-21 (更新: 2025-10-16)
备注: 20 pages, 6 figures
🔗 代码/项目: GITHUB
💡 一句话要点
提出自蒸馏RoI预测网络,提升MLLM细粒度感知能力,无需大规模标注。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 细粒度感知 区域建议网络 自蒸馏学习 视觉问答
📋 核心要点
- 现有MLLM方法在高分辨率图像处理中面临计算瓶颈,且依赖大规模标注或低效的注意力机制。
- 提出自蒸馏区域建议网络(SD-RPN),利用MLLM中间层注意力图生成伪标签,训练高效的RoI预测器。
- 实验表明,SD-RPN在少量数据下即可显著提升MLLM在TextVQA、DocVQA等任务上的精度。
📝 摘要(中文)
多模态大型语言模型(MLLMs)需要高分辨率视觉信息来进行细粒度感知,但处理整个高分辨率图像在计算上是难以承受的。现有方法通常需要在训练方法(依赖大规模标注数据集)和无训练方法(利用模型内部注意力,计算效率低且精度较差,需要多轮预填充或依赖缓慢的自回归解码过程)之间做出艰难的权衡。本文提出了一种高效、无标注的自蒸馏区域建议网络(SD-RPN),解决了这一难题。SD-RPN通过将MLLM中间层的噪声注意力图转换为高质量的伪RoI标签,显式地对信号进行去噪并消除歧义。我们使用这些标签来训练一个轻量级的区域建议网络(RPN),该网络学习更精确的定位。该RPN也非常高效,使用来自MLLM中间层的特征,通过单次前向传播预测RoI,将RoI识别与自回归生成分离,避免了代价高昂的多轮操作。为了验证我们的方法,我们将该框架集成到多个MLLM系列中。尽管仅在少量(例如10K)问答对上进行训练,但我们的方法表现出卓越的数据效率和泛化能力,在未见过的基准测试(包括TextVQA、DocVQA和V-Star)上实现了超过10%的绝对精度提升。我们的工作为增强MLLM的细粒度感知提供了一种实用且可扩展的解决方案,无需昂贵的监督或完整模型微调。
🔬 方法详解
问题定义:MLLM在处理高分辨率图像时,需要关注图像中的特定区域(RoI)以进行细粒度感知。然而,直接处理整个高分辨率图像计算成本过高。现有的RoI选择方法要么依赖于大规模标注数据进行训练,要么使用模型自身的注意力机制,但后者效率低下且精度不高,限制了MLLM的实际应用。
核心思路:本文的核心思路是利用MLLM自身的能力,通过自蒸馏的方式生成高质量的RoI伪标签,然后用这些伪标签训练一个轻量级的RoI预测器。这样既避免了对大规模标注数据的依赖,又提高了RoI预测的效率和精度。
技术框架:SD-RPN包含以下几个主要阶段:1) 从MLLM的中间层提取注意力图;2) 对注意力图进行去噪和消歧处理,生成高质量的伪RoI标签;3) 使用伪标签训练一个轻量级的区域建议网络(RPN);4) 将训练好的RPN集成到MLLM中,用于高效地预测RoI。整个框架避免了多轮前向传播和自回归解码,提高了效率。
关键创新:SD-RPN的关键创新在于利用自蒸馏的方式生成高质量的RoI伪标签。通过显式地对MLLM中间层的注意力图进行去噪和消歧处理,可以获得比直接使用注意力图更精确的RoI信息。这种方法无需人工标注,降低了训练成本。
关键设计:SD-RPN的关键设计包括:1) 使用高斯滤波等方法对注意力图进行去噪;2) 使用非极大值抑制(NMS)等方法消除RoI的歧义;3) 设计轻量级的RPN网络结构,以提高预测效率;4) 使用Smooth L1损失函数训练RPN,以提高RoI定位的精度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SD-RPN在TextVQA、DocVQA和V-Star等基准测试中,相对于现有方法实现了超过10%的绝对精度提升。即使仅使用10K问答对进行训练,SD-RPN也能表现出卓越的数据效率和泛化能力,证明了其在实际应用中的潜力。
🎯 应用场景
该研究成果可广泛应用于需要细粒度视觉感知的多模态任务中,例如文档理解、视觉问答、医学图像分析等。通过提升MLLM对图像细节的关注能力,可以提高其在这些任务中的性能。此外,该方法无需大规模标注,降低了应用成本,具有很高的实际应用价值和推广潜力。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.