Latent Chain-of-Thought for Visual Reasoning
作者: Guohao Sun, Hang Hua, Jian Wang, Jiebo Luo, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao
分类: cs.AI, cs.CL
发布日期: 2025-10-27 (更新: 2025-10-29)
备注: NeurIPS 2025
💡 一句话要点
提出基于隐式思维链的视觉推理方法,提升LVLM的泛化性和可解释性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉推理 大型视觉语言模型 思维链 变分推断 强化学习 泛化能力 可解释性
📋 核心要点
- 现有LVLM的思维链推理方法泛化性差,且过度依赖有偏见的奖励模型,限制了其在复杂推理任务中的应用。
- 论文将LVLM推理建模为后验推断,并提出基于分摊变分推断的训练算法,鼓励生成多样且合理的隐式思维链。
- 实验结果表明,该方法在多个视觉推理基准上显著提升了LVLM的性能、泛化能力和可解释性。
📝 摘要(中文)
本文针对大型视觉语言模型(LVLM)中思维链(CoT)推理泛化性差和依赖有偏奖励模型的问题,将LVLM中的推理过程重新建模为后验推断,并提出了一种基于分摊变分推断的可扩展训练算法。该算法利用多样性强化学习算法,引入了一种新颖的稀疏奖励函数,用于token级别的学习信号,鼓励多样化、高概率的隐式CoT,克服了确定性采样的局限性,避免了奖励利用。此外,还实现了一种贝叶斯推断缩放策略,用边际似然代替了代价高昂的Best-of-N和Beam Search,以有效地对最优的理由和答案进行排序。实验结果表明,该方法在七个推理基准测试中增强了最先进的LVLM的有效性、泛化性和可解释性。
🔬 方法详解
问题定义:现有的大型视觉语言模型(LVLM)在进行复杂视觉推理时,依赖于思维链(CoT)推理。然而,现有的训练算法,如SFT、PPO和GRPO,泛化能力不足,难以适应未见过的推理任务,并且严重依赖于有偏见的奖励模型,这限制了模型在实际应用中的可靠性。
核心思路:本文的核心思路是将LVLM中的推理过程视为一个后验推断问题。通过引入隐式的思维链(Latent CoT),模型可以在没有显式监督的情况下学习到推理过程。同时,利用分摊变分推断和多样性强化学习,鼓励模型生成多样且合理的推理路径,从而提高泛化能力和避免奖励利用。
技术框架:该方法包含以下几个主要模块:1)LVLM模型:作为推理的主体,负责接收输入并生成答案。2)隐式思维链:模型在推理过程中生成的中间推理步骤,但不对其进行显式监督。3)分摊变分推断:用于学习隐式思维链的分布,并生成多样化的推理路径。4)多样性强化学习:通过稀疏奖励函数,鼓励模型探索不同的推理路径,避免陷入局部最优。5)贝叶斯推断缩放:利用边际似然来高效地对候选答案进行排序,替代了计算成本高的Best-of-N和Beam Search。
关键创新:该方法最重要的创新点在于引入了隐式思维链的概念,并通过分摊变分推断和多样性强化学习来学习这些隐式推理路径。与现有方法相比,该方法不需要显式的思维链标注,并且能够生成更加多样化的推理路径,从而提高了模型的泛化能力和可解释性。
关键设计:在奖励函数设计上,采用了稀疏奖励,只在最终答案正确时给予奖励,鼓励模型探索不同的推理路径。在分摊变分推断中,使用了重参数化技巧,使得梯度可以反向传播到隐式思维链的生成器。贝叶斯推断缩放策略使用边际似然来近似后验概率,避免了对所有可能的推理路径进行穷举搜索。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在七个视觉推理基准测试中,显著提升了LVLM的性能。例如,在某些基准测试中,该方法将模型的准确率提高了5%以上,并且在未见过的推理任务上表现出更好的泛化能力。此外,该方法还提高了模型的可解释性,使得人们可以更好地理解模型的推理过程。
🎯 应用场景
该研究成果可应用于各种需要复杂视觉推理的场景,例如智能问答、视觉导航、机器人控制等。通过提升LVLM的推理能力和泛化性,可以使其在更广泛的实际应用中发挥作用,例如辅助医疗诊断、智能客服、自动驾驶等,具有重要的实际价值和未来影响。
📄 摘要(原文)
Chain-of-thought (CoT) reasoning is critical for improving the interpretability and reliability of Large Vision-Language Models (LVLMs). However, existing training algorithms such as SFT, PPO, and GRPO may not generalize well across unseen reasoning tasks and heavily rely on a biased reward model. To address this challenge, we reformulate reasoning in LVLMs as posterior inference and propose a scalable training algorithm based on amortized variational inference. By leveraging diversity-seeking reinforcement learning algorithms, we introduce a novel sparse reward function for token-level learning signals that encourage diverse, high-likelihood latent CoT, overcoming deterministic sampling limitations and avoiding reward hacking. Additionally, we implement a Bayesian inference-scaling strategy that replaces costly Best-of-N and Beam Search with a marginal likelihood to efficiently rank optimal rationales and answers. We empirically demonstrate that the proposed method enhances the state-of-the-art LVLMs on seven reasoning benchmarks, in terms of effectiveness, generalization, and interpretability.