Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

作者: Yuheng Shi, Xiaohuan Pei, Minjing Dong, Chang Xu

分类: cs.CV

发布日期: 2025-09-21 (更新: 2025-10-16)

备注: 20 pages, 6 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出自蒸馏RoI预测网络，提升MLLM细粒度感知能力，无需大规模标注。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 细粒度感知 区域建议网络 自蒸馏学习 视觉问答

📋 核心要点

现有MLLM方法在高分辨率图像处理中面临计算瓶颈，且依赖大规模标注或低效的注意力机制。
提出自蒸馏区域建议网络(SD-RPN)，利用MLLM中间层注意力图生成伪标签，训练高效的RoI预测器。
实验表明，SD-RPN在少量数据下即可显著提升MLLM在TextVQA、DocVQA等任务上的精度。

📝 摘要（中文）

多模态大型语言模型(MLLMs)需要高分辨率视觉信息来进行细粒度感知，但处理整个高分辨率图像在计算上是难以承受的。现有方法通常需要在训练方法（依赖大规模标注数据集）和无训练方法（利用模型内部注意力，计算效率低且精度较差，需要多轮预填充或依赖缓慢的自回归解码过程）之间做出艰难的权衡。本文提出了一种高效、无标注的自蒸馏区域建议网络(SD-RPN)，解决了这一难题。SD-RPN通过将MLLM中间层的噪声注意力图转换为高质量的伪RoI标签，显式地对信号进行去噪并消除歧义。我们使用这些标签来训练一个轻量级的区域建议网络(RPN)，该网络学习更精确的定位。该RPN也非常高效，使用来自MLLM中间层的特征，通过单次前向传播预测RoI，将RoI识别与自回归生成分离，避免了代价高昂的多轮操作。为了验证我们的方法，我们将该框架集成到多个MLLM系列中。尽管仅在少量（例如10K）问答对上进行训练，但我们的方法表现出卓越的数据效率和泛化能力，在未见过的基准测试（包括TextVQA、DocVQA和V-Star）上实现了超过10%的绝对精度提升。我们的工作为增强MLLM的细粒度感知提供了一种实用且可扩展的解决方案，无需昂贵的监督或完整模型微调。

🔬 方法详解

问题定义：MLLM在处理高分辨率图像时，需要关注图像中的特定区域(RoI)以进行细粒度感知。然而，直接处理整个高分辨率图像计算成本过高。现有的RoI选择方法要么依赖于大规模标注数据进行训练，要么使用模型自身的注意力机制，但后者效率低下且精度不高，限制了MLLM的实际应用。

核心思路：本文的核心思路是利用MLLM自身的能力，通过自蒸馏的方式生成高质量的RoI伪标签，然后用这些伪标签训练一个轻量级的RoI预测器。这样既避免了对大规模标注数据的依赖，又提高了RoI预测的效率和精度。

技术框架：SD-RPN包含以下几个主要阶段：1) 从MLLM的中间层提取注意力图；2) 对注意力图进行去噪和消歧处理，生成高质量的伪RoI标签；3) 使用伪标签训练一个轻量级的区域建议网络(RPN)；4) 将训练好的RPN集成到MLLM中，用于高效地预测RoI。整个框架避免了多轮前向传播和自回归解码，提高了效率。

关键创新：SD-RPN的关键创新在于利用自蒸馏的方式生成高质量的RoI伪标签。通过显式地对MLLM中间层的注意力图进行去噪和消歧处理，可以获得比直接使用注意力图更精确的RoI信息。这种方法无需人工标注，降低了训练成本。

关键设计：SD-RPN的关键设计包括：1) 使用高斯滤波等方法对注意力图进行去噪；2) 使用非极大值抑制(NMS)等方法消除RoI的歧义；3) 设计轻量级的RPN网络结构，以提高预测效率；4) 使用Smooth L1损失函数训练RPN，以提高RoI定位的精度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SD-RPN在TextVQA、DocVQA和V-Star等基准测试中，相对于现有方法实现了超过10%的绝对精度提升。即使仅使用10K问答对进行训练，SD-RPN也能表现出卓越的数据效率和泛化能力，证明了其在实际应用中的潜力。

🎯 应用场景

该研究成果可广泛应用于需要细粒度视觉感知的多模态任务中，例如文档理解、视觉问答、医学图像分析等。通过提升MLLM对图像细节的关注能力，可以提高其在这些任务中的性能。此外，该方法无需大规模标注，降低了应用成本，具有很高的实际应用价值和推广潜力。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) require high-resolution visual information to perform fine-grained perception, yet processing entire high-resolution images is computationally prohibitive. While recent methods leverage a Region-of-Interest (RoI) mechanism to focus on salient areas, they typically present a difficult trade-off: training-based approaches depend on large-scale annotated datasets, while training-free methods that utilize the model's internal attention are computationally inefficient and less accurate, requiring either multi-pass prefill stages or reliance on the slow auto-regressive decoding process. In this paper, we propose an efficient, annotation-free Self-Distilled Region Proposal Network (SD-RPN) that resolves this trade-off. The SD-RPN is built around a pipeline that transforms the noisy attention maps from the MLLM's middle layers into high-quality pseudo-RoI labels by explicitly denoising the signal and resolving ambiguity. We use these labels to train a lightweight Region Proposal Network (RPN) that learns a more precise localization. This RPN is also highly efficient, predicting the RoI in a single forward pass using features from the MLLM's middle layers, decoupling RoI identification from the auto-regressive generation and avoiding costly multi-pass operations. To validate our approach, we integrate the framework into multiple MLLM families. Despite being trained on only a few (e.g. 10K) question-answer pairs, our method demonstrates exceptional data efficiency and generalization, achieving over a 10% absolute accuracy improvement on unseen benchmarks, including TextVQA, DocVQA, and V-Star. Our work presents a practical and scalable solution for enhancing the fine-grained perception of MLLMs without requiring costly supervision or full model fine-tuning. Code is available at https://github.com/YuHengsss/SD-RPN.

Catching the Details: Self-Distilled RoI Predictors for Fine-Grained MLLM Perception

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理