See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

📄 arXiv: 2602.21497v1 📥 PDF

作者: Yongchang Zhang, Xianzheng Ma, Tianyi Liu, Guangquan Zhou, Yang Chen

分类: cs.CV

发布日期: 2026-02-25

备注: CVPR2026 Accepted


💡 一句话要点

提出一种免训练的迭代框架,通过视觉证据监督LVLM的多模态推理,提升视觉一致性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 多模态推理 视觉幻觉 免训练学习 链式思考 视觉证据 迭代推理

📋 核心要点

  1. 多模态CoT推理易受视觉幻觉影响,导致推理错误,现有强化学习方法成本高、泛化性差。
  2. 提出一种免训练的迭代框架,通过视觉证据池监督推理过程,确保每一步都与视觉信息对齐。
  3. 实验表明,该方法在多个基准测试中显著降低了幻觉率,并提高了推理准确性,无需额外训练。

📝 摘要(中文)

现有的大型视觉语言模型(LVLMs)通过生成长链式思考(CoT)响应展现了强大的推理能力。然而,多模态上下文中的CoT推理极易受到视觉幻觉传播的影响:一旦中间推理步骤与视觉证据不一致,即使后续步骤在逻辑上有效,也可能导致错误的最终答案。现有的解决方案试图通过强化学习(RL)训练模型“用图像思考”来缓解这个问题。虽然有效,但这些方法成本高昂、模型特定且难以跨架构推广。我们提出了一种轻量级方法,绕过RL训练,并为视觉基础的多模态推理提供了一个迭代的、免训练的、即插即用的框架。我们的核心思想是在测试时用视觉证据监督每个推理步骤,确保每个解码的token都由相应的视觉线索来证明。具体来说,我们构建了一个文本视觉证据池,以指导模型的推理生成。当现有证据不足时,视觉决策模块会根据正在进行的推理上下文,动态地从图像中提取额外的相关证据,扩展证据池,直到模型获得足够的视觉确定性来终止推理并产生最终答案。在多个LVLM骨干网络和基准测试上的大量实验证明了我们方法的有效性。我们的方法在TreeBench上实现了16.5%-29.5%的改进,在RH-Bench上实现了13.7%的RH-AUC增益,在不进行额外训练的情况下,显著降低了幻觉率,同时提高了推理准确性。

🔬 方法详解

问题定义:现有的大型视觉语言模型在多模态推理中容易产生视觉幻觉,即推理过程与图像内容不一致,导致错误的结论。现有的强化学习方法虽然可以缓解这个问题,但训练成本高昂,并且依赖于特定的模型结构,难以推广到不同的LVLM上。

核心思路:本文的核心思路是在推理过程中,利用视觉证据对每一步的推理进行监督,确保模型生成的每一个token都能够从图像中找到对应的视觉线索支持。通过这种方式,可以有效地减少视觉幻觉的产生,提高推理的准确性。

技术框架:该框架主要包含以下几个模块:1) 文本视觉证据池:用于存储从图像中提取的视觉证据,以文本形式表示。2) 推理生成模块:利用LVLM生成推理步骤。3) 视觉决策模块:判断当前证据池是否足以支持当前的推理步骤,如果不足,则从图像中提取新的视觉证据。4) 迭代更新模块:将新的视觉证据添加到证据池中,并重复推理生成和视觉决策的过程,直到模型获得足够的视觉确定性。

关键创新:该方法最大的创新在于提出了一种免训练的视觉监督框架,可以在测试时动态地利用视觉证据来指导模型的推理过程,而无需额外的训练。这使得该方法可以很容易地应用于不同的LVLM上,具有很强的通用性。

关键设计:视觉决策模块是该框架的关键。该模块需要判断当前证据池是否足以支持当前的推理步骤。具体实现上,可以通过计算当前推理步骤与证据池中证据的相关性来实现。如果相关性低于某个阈值,则认为证据不足,需要从图像中提取新的视觉证据。提取视觉证据的方式可以采用目标检测、图像分割等技术。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在TreeBench和RH-Bench基准测试中取得了显著的性能提升。在TreeBench上,该方法实现了16.5%-29.5%的改进,在RH-Bench上实现了13.7%的RH-AUC增益。这些结果表明,该方法可以有效地减少视觉幻觉,并提高推理的准确性,而且无需额外的训练。

🎯 应用场景

该研究成果可应用于需要高度视觉一致性的多模态推理任务,例如视觉问答、图像描述生成、机器人导航等。通过减少视觉幻觉,可以提高这些应用的可信度和可靠性,尤其是在安全攸关的场景中具有重要价值。未来,该方法有望扩展到更复杂的视觉语言任务中。

📄 摘要(原文)

Recent large vision-language models (LVLMs) have demonstrated impressive reasoning ability by generating long chain-of-thought (CoT) responses. However, CoT reasoning in multimodal contexts is highly vulnerable to visual hallucination propagation: once an intermediate reasoning step becomes inconsistent with the visual evidence, subsequent steps-even if logically valid-can still lead to incorrect final answers. Existing solutions attempt to mitigate this issue by training models to "think with images" via reinforcement learning (RL). While effective, these methods are costly, model-specific, and difficult to generalize across architectures. Differently, we present a lightweight method that bypasses RL training and provides an iterative, training-free, plug-and-play framework for visually-grounded multimodal reasoning. Our key idea is to supervise each reasoning step at test time with visual evidence, ensuring that every decoded token is justified by corresponding visual cues. Concretely, we construct a textual visual-evidence pool that guides the model's reasoning generation. When existing evidence is insufficient, a visual decider module dynamically extracts additional relevant evidence from the image based on the ongoing reasoning context, expanding the pool until the model achieves sufficient visual certainty to terminate reasoning and produce the final answer. Extensive experiments on multiple LVLM backbones and benchmarks demonstrate the effectiveness of our approach. Our method achieves 16.5%-29.5% improvements on TreeBench and 13.7% RH-AUC gains on RH-Bench, substantially reducing hallucination rates while improving reasoning accuracy without additional training.