Retrieve, Integrate, and Synthesize: Spatial-Semantic Grounded Latent Visual Reasoning

作者: Jin Cui, Xinyue Long, Xunyong Zhang, Yadong Zhang, Chuanchang Su, Jingye Gan, Boran Zhao, Pengju Ren

分类: cs.CL

发布日期: 2026-05-08

备注: 19 pages, 8 figures

💡 一句话要点

提出RIS框架：通过空间-语义接地实现多模态大模型的潜在视觉推理

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 潜在视觉推理 空间语义接地 注意力瓶颈 细粒度感知 视觉语言模型

📋 核心要点

现有MLLM将视觉信息压缩为文本导致细粒度感知瓶颈，且现有潜在推理方法存在流形兼容性差、推理轨迹偏离及被模型忽略等问题。
提出RIS框架，通过构建空间-语义接地数据集，利用渐进式注意力瓶颈和语言过渡标记，实现潜在推理与预训练推理电路的深度融合。
在多个视觉推理基准测试（如V*、HRBench）中表现优异，证明了该方法能学习到多样化、可解释且逐步集成的潜在推理轨迹。

📝 摘要（中文）

多模态大模型（MLLMs）在视觉语言推理方面取得了显著进展，但大多数方法将视觉证据压缩为离散的文本思维，导致细粒度感知的信息瓶颈。近期的潜在视觉推理方法试图在连续隐藏状态下进行推理，但研究发现它们存在流形兼容性不足的问题：潜在轨迹偏离预训练的推理电路、坍缩为与实例无关的模式，且在答案生成过程中常被绕过。为解决这些问题，本文提出了RIS（Retrieve, Integrate, and Synthesize），这是一个空间-语义接地框架，将潜在推理发展为预训练MLLM计算的兼容扩展。我们首先构建了一个包含边界框和区域特定语义描述的逐步接地推理数据集。在此监督下，RIS将潜在标记锚定到空间和语义证据上，通过渐进式注意力瓶颈强制其发挥因果作用，并引入短语言过渡标记将合成的潜在状态桥接到词汇对齐的解码中。在V*、HRBench4K、HRBench8K、MMVP和BLINK上的实验表明，该方法在闭源/开源及潜在推理基线上均有持续提升。

🔬 方法详解

问题定义：论文旨在解决多模态大模型在复杂视觉推理任务中，因将视觉信息过度压缩为文本而丢失细粒度特征，以及现有潜在推理方法与预训练模型流形不兼容、推理过程不可控的问题。

核心思路：RIS的核心思想是将潜在推理视为预训练MLLM推理电路的“兼容扩展”。通过引入空间与语义的双重锚定，确保潜在状态在推理过程中始终与视觉证据保持强相关，并利用过渡标记实现潜在空间到词汇空间的平滑映射。

技术框架：框架包含三个核心阶段：首先是构建包含边界框与语义描述的逐步推理数据集；其次是利用渐进式注意力瓶颈（Progressive Attention Bottleneck）强制潜在标记与视觉证据进行因果交互；最后通过短语言过渡标记（Short Language Transition Tokens）将处理后的潜在状态重新注入解码器。

关键创新：最重要的创新在于“空间-语义接地”机制，它打破了传统潜在推理与预训练模型之间的隔阂，通过显式的监督信号引导潜在轨迹，使其在推理过程中既保持语义一致性，又具备空间感知能力。

关键设计：采用了渐进式注意力机制来约束潜在标记的交互范围，防止信息坍缩；引入了专门的过渡标记来桥接连续的潜在推理空间与离散的词汇解码空间，确保推理结果能够被模型有效利用。

🖼️ 关键图片

📊 实验亮点

RIS在多个极具挑战性的视觉推理基准上展现了显著优势。在V*、HRBench4K/8K、MMVP及BLINK等数据集上，RIS均超越了现有的闭源与开源基线模型。实验分析表明，该方法不仅提升了推理准确率，还成功诱导模型学习到了多样化且可解释的潜在推理轨迹，证明了其在实现忠实、高效内部视觉推理方面的实用性。

🎯 应用场景

该研究在需要高精度视觉定位与复杂逻辑推理的场景中具有重要价值，如医疗影像诊断、自动驾驶场景理解、机器人视觉导航及工业质检。通过增强模型的内部推理能力，RIS能够显著提升MLLM在处理细粒度视觉任务时的准确性与可解释性，为构建更具鲁棒性的通用视觉智能系统提供技术支撑。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have made remarkable progress on vision-language reasoning, yet most methods still compress visual evidence into discrete textual thoughts, creating an information bottleneck for fine-grained perception. Recent latent visual reasoning methods attempt to reason in continuous hidden states, but we find that they suffer from insufficient manifold compatibility: latent trajectories drift away from pretrained reasoning circuits, collapse into instance-agnostic patterns, and are often bypassed during answer generation. To address these issues, we propose RIS (Retrieve, Integrate, and Synthesize), a spatial-semantic grounded framework that develops latent reasoning as a compatible extension of pretrained MLLM computation. We first construct a step-wise grounded reasoning dataset with bounding boxes and region-specific semantic descriptions. Built on this supervision, RIS anchors latent tokens to both spatial and semantic evidence, enforces their causal role through a progressive attention bottleneck, and introduces short language transition tokens to bridge synthesized latent states back to vocabulary-aligned decoding. Experiments on V*, HRBench4K, HRBench8K, MMVP, and BLINK show consistent improvements over closed/open-source and latent reasoning baselines. Further analyses demonstrate that RIS learns diverse, interpretable, and progressively integrated latent trajectories, offering a practical path toward faithful internal visual reasoning in MLLMs.

Retrieve, Integrate, and Synthesize: Spatial-Semantic Grounded Latent Visual Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理