Latent Chain-of-Thought for Visual Reasoning

作者: Guohao Sun, Hang Hua, Jian Wang, Jiebo Luo, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao

分类: cs.AI, cs.CL

发布日期: 2025-10-27 (更新: 2025-10-29)

备注: NeurIPS 2025

💡 一句话要点

提出基于隐式思维链的视觉推理方法，提升LVLM的泛化性和可解释性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉推理 大型视觉语言模型 思维链 变分推断 强化学习 泛化能力 可解释性

📋 核心要点

现有LVLM的思维链推理方法泛化性差，且过度依赖有偏见的奖励模型，限制了其在复杂推理任务中的应用。
论文将LVLM推理建模为后验推断，并提出基于分摊变分推断的训练算法，鼓励生成多样且合理的隐式思维链。
实验结果表明，该方法在多个视觉推理基准上显著提升了LVLM的性能、泛化能力和可解释性。

📝 摘要（中文）

本文针对大型视觉语言模型(LVLM)中思维链(CoT)推理泛化性差和依赖有偏奖励模型的问题，将LVLM中的推理过程重新建模为后验推断，并提出了一种基于分摊变分推断的可扩展训练算法。该算法利用多样性强化学习算法，引入了一种新颖的稀疏奖励函数，用于token级别的学习信号，鼓励多样化、高概率的隐式CoT，克服了确定性采样的局限性，避免了奖励利用。此外，还实现了一种贝叶斯推断缩放策略，用边际似然代替了代价高昂的Best-of-N和Beam Search，以有效地对最优的理由和答案进行排序。实验结果表明，该方法在七个推理基准测试中增强了最先进的LVLM的有效性、泛化性和可解释性。

🔬 方法详解

问题定义：现有的大型视觉语言模型（LVLM）在进行复杂视觉推理时，依赖于思维链（CoT）推理。然而，现有的训练算法，如SFT、PPO和GRPO，泛化能力不足，难以适应未见过的推理任务，并且严重依赖于有偏见的奖励模型，这限制了模型在实际应用中的可靠性。

核心思路：本文的核心思路是将LVLM中的推理过程视为一个后验推断问题。通过引入隐式的思维链（Latent CoT），模型可以在没有显式监督的情况下学习到推理过程。同时，利用分摊变分推断和多样性强化学习，鼓励模型生成多样且合理的推理路径，从而提高泛化能力和避免奖励利用。

技术框架：该方法包含以下几个主要模块：1）LVLM模型：作为推理的主体，负责接收输入并生成答案。2）隐式思维链：模型在推理过程中生成的中间推理步骤，但不对其进行显式监督。3）分摊变分推断：用于学习隐式思维链的分布，并生成多样化的推理路径。4）多样性强化学习：通过稀疏奖励函数，鼓励模型探索不同的推理路径，避免陷入局部最优。5）贝叶斯推断缩放：利用边际似然来高效地对候选答案进行排序，替代了计算成本高的Best-of-N和Beam Search。

关键创新：该方法最重要的创新点在于引入了隐式思维链的概念，并通过分摊变分推断和多样性强化学习来学习这些隐式推理路径。与现有方法相比，该方法不需要显式的思维链标注，并且能够生成更加多样化的推理路径，从而提高了模型的泛化能力和可解释性。

关键设计：在奖励函数设计上，采用了稀疏奖励，只在最终答案正确时给予奖励，鼓励模型探索不同的推理路径。在分摊变分推断中，使用了重参数化技巧，使得梯度可以反向传播到隐式思维链的生成器。贝叶斯推断缩放策略使用边际似然来近似后验概率，避免了对所有可能的推理路径进行穷举搜索。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在七个视觉推理基准测试中，显著提升了LVLM的性能。例如，在某些基准测试中，该方法将模型的准确率提高了5%以上，并且在未见过的推理任务上表现出更好的泛化能力。此外，该方法还提高了模型的可解释性，使得人们可以更好地理解模型的推理过程。

🎯 应用场景

该研究成果可应用于各种需要复杂视觉推理的场景，例如智能问答、视觉导航、机器人控制等。通过提升LVLM的推理能力和泛化性，可以使其在更广泛的实际应用中发挥作用，例如辅助医疗诊断、智能客服、自动驾驶等，具有重要的实际价值和未来影响。

📄 摘要（原文）

Chain-of-thought (CoT) reasoning is critical for improving the interpretability and reliability of Large Vision-Language Models (LVLMs). However, existing training algorithms such as SFT, PPO, and GRPO may not generalize well across unseen reasoning tasks and heavily rely on a biased reward model. To address this challenge, we reformulate reasoning in LVLMs as posterior inference and propose a scalable training algorithm based on amortized variational inference. By leveraging diversity-seeking reinforcement learning algorithms, we introduce a novel sparse reward function for token-level learning signals that encourage diverse, high-likelihood latent CoT, overcoming deterministic sampling limitations and avoiding reward hacking. Additionally, we implement a Bayesian inference-scaling strategy that replaces costly Best-of-N and Beam Search with a marginal likelihood to efficiently rank optimal rationales and answers. We empirically demonstrate that the proposed method enhances the state-of-the-art LVLMs on seven reasoning benchmarks, in terms of effectiveness, generalization, and interpretability.

Latent Chain-of-Thought for Visual Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理