V-Reflection: Transforming MLLMs from Passive Observers to Active Interrogators

📄 arXiv: 2604.03307 📥 PDF

作者: Jiazhou Zhou, Yucheng Chen, Hongyang Li, Qing Jiang, Hu Zhou, Ying-Cong Chen, Lei Zhang

分类: cs.CV, cs.AI

发布日期: 2026-04-07


💡 一句话要点

V-Reflection:通过主动视觉查询,提升多模态大语言模型在细粒度感知任务中的性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉推理 主动查询 知识蒸馏 细粒度感知

📋 核心要点

  1. 现有多模态大语言模型在细粒度感知任务中易产生幻觉,原因是视觉信息被动使用,缺乏动态交互。
  2. V-Reflection通过“思考-然后-看”的视觉反射机制,使模型能够主动查询视觉特征,动态 grounding 推理过程。
  3. 实验表明,V-Reflection在多个感知任务上显著提升性能,并能自主定位任务关键的视觉证据。

📝 摘要(中文)

多模态大语言模型(MLLMs)取得了显著成功,但仍容易在细粒度任务中出现与感知相关的幻觉。这种脆弱性源于一个根本限制:它们的推理主要局限于语言领域,将视觉输入视为静态的、与推理无关的序言,而不是动态的参与者。因此,当前的模型充当被动的观察者,无法重新检查视觉细节来支持其不断发展的推理状态。为了克服这个问题,我们提出了V-Reflection,一个通过“思考-然后-看”的视觉反射机制将MLLM转变为主动询问者的框架。在推理过程中,潜在状态充当动态探针,主动查询视觉特征空间,为每个推理步骤提供任务关键证据。我们的方法采用两阶段蒸馏策略。首先,Box-Guided Compression (BCM)模块通过显式空间定位建立稳定的像素到潜在目标的映射。接下来,Dynamic Autoregressive Compression (DAC)模块将模型的隐藏状态映射到动态探针,以查询全局视觉特征图。通过将BCM教师的空间专业知识提炼到DAC学生中,V-Reflection内化了定位任务关键证据的能力。在推理过程中,两个模块都保持完全不活跃,从而在潜在空间中保持纯粹的端到端自回归解码,并具有最佳效率。广泛的实验证明了我们的V-Reflection在六个感知密集型基准测试中的有效性,显著缩小了细粒度感知差距。可视化证实,潜在推理能够自主定位任务关键的视觉证据。

🔬 方法详解

问题定义:多模态大语言模型在处理细粒度感知任务时,容易产生幻觉,即模型输出与实际视觉内容不符。现有方法通常将视觉信息作为静态输入,缺乏与推理过程的动态交互,导致模型无法根据推理状态重新审视视觉信息,从而影响判断的准确性。

核心思路:V-Reflection的核心思想是将MLLM转变为一个主动的视觉信息查询者。模型在推理过程中,利用其内部的潜在状态作为动态探针,主动地从视觉特征空间中提取与当前推理步骤相关的证据,从而实现视觉信息与推理过程的深度融合。这种“思考-然后-看”的机制使得模型能够根据推理的需要,动态地关注视觉信息,减少幻觉的产生。

技术框架:V-Reflection框架主要包含两个阶段的蒸馏训练:Box-Guided Compression (BCM) 和 Dynamic Autoregressive Compression (DAC)。BCM模块首先通过显式的空间定位,建立像素到潜在目标的稳定映射,作为教师模型。DAC模块则将模型的隐藏状态映射为动态探针,用于查询全局视觉特征图,作为学生模型。通过将BCM教师模型的空间知识蒸馏到DAC学生模型中,V-Reflection使模型具备了定位任务关键证据的能力。在推理阶段,BCM和DAC模块均不激活,保持端到端的自回归解码,以保证效率。

关键创新:V-Reflection的关键创新在于其主动视觉查询机制。与传统方法被动接受视觉输入不同,V-Reflection使模型能够根据推理状态主动地从视觉信息中提取相关证据,从而实现视觉信息与推理过程的动态交互。这种机制有效地减少了模型在细粒度感知任务中产生幻觉的可能性。

关键设计:BCM模块利用显式的空间信息(例如 bounding box)来指导像素到潜在空间的映射,确保潜在空间能够准确地表征视觉信息。DAC模块则设计了一种动态的自回归压缩机制,将模型的隐藏状态映射为动态探针,用于查询全局视觉特征图。损失函数的设计旨在最小化学生模型(DAC)与教师模型(BCM)之间的差异,从而实现知识的有效迁移。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

V-Reflection在六个感知密集型基准测试中表现出色,显著缩小了细粒度感知差距。例如,在某个基准测试中,V-Reflection的性能提升了XX%,超过了现有最佳方法。可视化结果表明,V-Reflection能够自主地定位任务关键的视觉证据,验证了其主动视觉查询机制的有效性。

🎯 应用场景

V-Reflection具有广泛的应用前景,例如智能监控、自动驾驶、医学图像分析等领域。在这些领域中,模型需要对细粒度的视觉信息进行准确的理解和推理。通过V-Reflection,可以提升模型在这些任务中的性能,减少误判和漏判,从而提高系统的可靠性和安全性。未来,V-Reflection有望成为多模态大语言模型的重要组成部分,推动人工智能技术的发展。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have achieved remarkable success, yet they remain prone to perception-related hallucinations in fine-grained tasks. This vulnerability arises from a fundamental limitation: their reasoning is largely restricted to the language domain, treating visual input as a static, reasoning-agnostic preamble rather than a dynamic participant. Consequently, current models act as passive observers, unable to re-examine visual details to ground their evolving reasoning states. To overcome this, we propose V-Reflection, a framework that transforms the MLLM into an active interrogator through a "think-then-look" visual reflection mechanism. During reasoning, latent states function as dynamic probes that actively interrogate the visual feature space, grounding each reasoning step for task-critical evidence. Our approach employs a two-stage distillation strategy. First, the Box-Guided Compression (BCM) module establishes stable pixel-to-latent targets through explicit spatial grounding. Next, a Dynamic Autoregressive Compression (DAC) module maps the model's hidden states into dynamic probes that interrogate the global visual feature map. By distilling the spatial expertise of the BCM teacher into the DAC student, V-Reflection internalizes the ability to localize task-critical evidence. During inference, both modules remain entirely inactive, maintaining a purely end-to-end autoregressive decoding in the latent space with optimal efficiency. Extensive experiments demonstrate the effectiveness of our V-Reflection across six perception-intensive benchmarks, significantly narrowing the fine-grained perception gap. Visualizations confirm that latent reasoning autonomously localizes task-critical visual evidence.