ReGuLaR: Relation-Grounded Latent Reasoning for Large Vision-Language Models

📄 arXiv: 2605.30587v1 📥 PDF

作者: Zihu Wang, Karthik Somayaji N. S, Peng Li

分类: cs.CV

发布日期: 2026-05-28


💡 一句话要点

提出ReGuLaR框架,通过关系图推理增强大型视觉语言模型的潜在推理能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 关系推理 潜在推理 思维链 视觉问答

📋 核心要点

  1. 现有大型视觉语言模型的思维链推理不足以编码连续的视觉证据。
  2. ReGuLaR框架显式地将潜在状态与关键的视觉证据(对象及其关系)相关联。
  3. ReGuLaR在多个基准测试中始终优于现有方法,并取得了最先进的性能。

📝 摘要(中文)

本文提出了一种关系图推理的大型视觉语言模型框架ReGuLaR,旨在解决现有方法中潜在推理与视觉证据的组合和关系结构连接不足的问题。ReGuLaR在训练时使用ReGFormer来关注与问题相关的对象和对象间关系,而在推理时无需调用ReGFormer即可进行推理和生成答案。为了支持ReGuLaR的训练,作者构建了一个名为RGROUNDING-351K的真实世界视觉语言数据集,该数据集标注了关键对象边界框和对象间关系。大量实验表明,ReGuLaR始终优于现有方法,并取得了最先进的性能。代码将在接收后公开。

🔬 方法详解

问题定义:现有的大型视觉语言模型(LVLM)虽然可以通过思维链(CoT)推理来提高推理能力,但这种离散的文本推理不足以编码连续的视觉证据。虽然一些工作尝试将推理转移到连续的潜在空间,但这些方法未能充分将潜在推理与视觉证据的组合和关系结构联系起来。

核心思路:ReGuLaR的核心思路是将潜在推理与视觉场景中的对象及其关系显式地联系起来。通过在训练时引入一个关系图Transformer(ReGFormer),模型可以学习关注与问题相关的对象和对象之间的关系,从而在潜在空间中进行更有效的推理。在推理阶段,模型可以直接利用学习到的知识进行推理,而无需依赖ReGFormer。

技术框架:ReGuLaR框架包含以下几个主要组成部分:视觉编码器(用于提取图像特征)、文本编码器(用于编码问题)、ReGFormer(用于在训练时学习对象关系)和潜在推理模块(用于在潜在空间中进行推理)。在训练阶段,图像和问题首先被编码成特征向量,然后ReGFormer利用对象及其关系信息来指导潜在推理模块的学习。在推理阶段,模型直接使用学习到的潜在推理模块进行推理和答案生成。

关键创新:ReGuLaR的关键创新在于显式地将潜在推理与视觉场景中的对象关系联系起来。通过引入ReGFormer,模型可以学习到更丰富的视觉信息,从而提高推理的准确性和效率。与现有方法相比,ReGuLaR能够更好地利用视觉证据的组合和关系结构。

关键设计:ReGFormer的设计是ReGuLaR的关键。它采用Transformer架构,并输入对象边界框和对象关系信息。ReGFormer的目标是学习一个注意力机制,使得模型能够关注与问题相关的对象和关系。损失函数包括一个推理损失和一个关系预测损失,用于指导ReGFormer的学习。数据集RGROUNDING-351K的构建也至关重要,它提供了训练ReGFormer所需的标注数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ReGuLaR在多个视觉语言推理基准测试中取得了显著的性能提升,超越了现有的最先进方法。例如,在RGROUNDING-351K数据集上,ReGuLaR的性能优于其他模型,证明了其在关系推理方面的有效性。实验结果表明,显式地建模对象关系可以显著提高视觉语言模型的推理能力。

🎯 应用场景

ReGuLaR框架可应用于各种需要视觉推理的场景,例如视觉问答、图像描述生成、机器人导航等。通过增强模型对视觉场景的理解能力,可以提高这些应用在复杂环境中的性能和可靠性。该研究对于开发更智能、更具适应性的视觉语言模型具有重要意义。

📄 摘要(原文)

Chain-of-thought (CoT) reasoning has significantly improved the reasoning ability of large vision-language models (LVLMs) by verbalizing intermediate reasoning steps in natural language. However, such discrete textual rationales are often insufficient for encoding continuous visual evidence. Recent work addresses this limitation by moving reasoning into continuous latent space. Despite promising progress, existing methods leave latent reasoning insufficiently connected to the compositional and relational structure of visual evidence. To address this gap, we introduce ReGuLaR, a relation grounded latent reasoning framework that explicitly grounds latent states in these critical yet overlooked visual evidence. ReGuLaR uses a training-time ReGFormer to focus latent reasoning on question-relevant objects and inter-object relations, while at inference time the model reasons and generates answers without invoking the ReGFormer. To support training ReGuLaR, we construct RGROUNDING-351K, a real-world vision-language dataset annotated with key object bounding boxes and inter-object relations. Extensive experiments across diverse benchmarks show that ReGuLaR consistently outperforms existing approaches and achieves state-of-the-art performance. We include our code in the submission and will release the code and training data publicly upon acceptance.