VG-CoT: Towards Trustworthy Visual Reasoning via Grounded Chain-of-Thought

📄 arXiv: 2604.21396v1 📥 PDF

作者: Byeonggeuk Lim, Kyeonghyun Kim, JungMin Yun, YoungBin Kim

分类: cs.CV, cs.AI

发布日期: 2026-04-23

备注: Accepted to LREC 2026


💡 一句话要点

提出VG-CoT数据集,通过视觉证据 grounding 提升LVLM的可信视觉推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉推理 视觉语言模型 可信AI 数据集构建 Grounding Chain-of-Thought 自动化标注

📋 核心要点

  1. 现有视觉推理数据集缺乏可扩展性,且推理步骤与视觉证据对齐不足,限制了模型可信度的评估。
  2. 提出VG-CoT数据集,通过自动化流程将推理步骤与图像中的视觉证据显式关联,提升模型推理可信度。
  3. 实验表明,VG-CoT能有效提升LVLM在理由质量、答案准确性和推理-答案对齐方面的性能。

📝 摘要(中文)

大型视觉语言模型(LVLMs)的发展需要精确的基于局部区域的推理,忠实地将模型的逻辑建立在实际的视觉证据之上。然而,现有的数据集由于大量的手动标注以及多步推理与相应图像区域之间缺乏明确的对齐,在可扩展性方面面临限制,这制约了模型可信度的评估。为了应对这些挑战,我们提出了视觉Grounding Chain-of-Thought (VG-CoT)数据集,该数据集通过一个完全自动化的三阶段流程,将每个推理步骤与图像中的真实视觉证据显式地联系起来。该流程首先使用最先进的检测和OCR模型提取对象和文本级别的视觉证据,然后使用GPT-4o生成逐步的 grounded 推理,最后通过一个以理由驱动的开放集检测过程来细化grounding。此外,我们引入了一个新的基准,全面评估LVLMs在三个互补维度上的推理能力:理由质量、答案准确性和推理-答案对齐。对包括LLaVA-1.5和Qwen2-VL在内的代表性LVLMs的实验表明,在大多数评估指标上都有持续的改进,证实了VG-CoT有效地增强了可信的、基于证据的推理,同时保持了可扩展和经济高效的数据集构建。数据集和代码将在被接收后公开发布,以促进进一步的研究。

🔬 方法详解

问题定义:论文旨在解决现有视觉语言模型(LVLMs)在视觉推理过程中缺乏可信度的问题。现有的数据集通常依赖于大量的人工标注,难以扩展,并且缺乏多步推理与图像区域之间的明确对齐,导致模型难以进行基于视觉证据的推理,从而影响了模型的可解释性和可靠性。

核心思路:论文的核心思路是构建一个大规模的、具有明确视觉证据 grounding 的数据集VG-CoT。通过自动化流程,将推理的每一步都与图像中相关的视觉区域进行关联,从而使模型能够学习到基于视觉证据进行推理的能力。这种显式的 grounding 有助于提高模型推理过程的可解释性,并提升模型的可信度。

技术框架:VG-CoT的构建包含一个三阶段的自动化流程: 1. 视觉证据提取:利用先进的目标检测和OCR模型,从图像中提取对象和文本级别的视觉证据。 2. Grounded 推理生成:使用GPT-4o等大型语言模型,基于提取的视觉证据生成逐步的 grounded 推理过程。 3. Grounding 细化:通过一个以理由驱动的开放集检测过程,进一步细化推理步骤与视觉证据之间的关联。

关键创新:论文的关键创新在于提出了一个完全自动化的流程,用于构建具有明确视觉证据 grounding 的大规模数据集。与以往依赖人工标注的方法相比,该方法具有更高的可扩展性和效率。此外,论文还提出了一个新的基准,用于全面评估LVLMs在理由质量、答案准确性和推理-答案对齐三个维度上的推理能力。

关键设计:在视觉证据提取阶段,使用了最先进的目标检测和OCR模型,以确保提取的视觉证据的准确性和完整性。在Grounded 推理生成阶段,使用了GPT-4o等大型语言模型,并设计了合适的 prompt,以引导模型生成符合要求的推理过程。在Grounding 细化阶段,设计了一个以理由驱动的开放集检测过程,以进一步提高推理步骤与视觉证据之间的关联性。具体的参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在VG-CoT数据集上训练的LVLMs,如LLaVA-1.5和Qwen2-VL,在理由质量、答案准确性和推理-答案对齐等多个评估指标上均有显著提升。这些结果证实了VG-CoT数据集能够有效增强LVLMs的可信视觉推理能力,并为未来的研究提供了有价值的资源。

🎯 应用场景

该研究成果可应用于需要高可信度视觉推理的场景,例如自动驾驶、医疗诊断、智能安防等。通过提升模型基于视觉证据进行推理的能力,可以提高决策的准确性和可靠性,并增强用户对模型的信任。未来,该方法可以进一步扩展到其他多模态任务中,例如视频理解、机器人导航等。

📄 摘要(原文)

The advancement of Large Vision-Language Models (LVLMs) requires precise local region-based reasoning that faithfully grounds the model's logic in actual visual evidence. However, existing datasets face limitations in scalability due to extensive manual annotation and lack of explicit alignment between multi-step reasoning and corresponding image regions, which constrains the evaluation of model trustworthiness. To address these challenges, we propose the Visual Grounding Chain-of-Thought (VG-CoT) dataset, which explicitly links each reasoning step to real visual evidence within the image through a fully automated three-stage pipeline. The pipeline first extracts object- and text-level visual evidence using state-of-the-art detection and OCR models, then generates step-by-step grounded reasoning with GPT-4o, and finally refines the grounding through a rationale-driven open-set detection process. In addition, we introduce a new benchmark that comprehensively evaluates LVLMs reasoning across three complementary dimensions: Rationale Quality, Answer Accuracy, and Reasoning-Answer Alignment. Experiments with representative LVLMs, including LLaVA-1.5 and Qwen2-VL, demonstrate consistent improvements on most evaluation metrics, confirming that VG-CoT effectively enhances trustworthy, evidence-based reasoning while maintaining scalable and cost-efficient dataset construction. The dataset and code will be released publicly upon acceptance to facilitate further research.