Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models

作者: Minbin Huang, Runhui Huang, Chuanyang Zheng, Jingyao Li, Guoxuan Chen, Han Shi, Hong Cheng

分类: cs.CV

发布日期: 2025-10-11

💡 一句话要点

提出ACRE，通过一致性强化学习提升多模态大模型在视觉问答任务中的推理一致性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 强化学习 视觉问答 推理一致性 视频推理 数学推理

📋 核心要点

现有基于结果驱动的强化学习方法，在提升多模态大模型答案准确率的同时，可能导致推理链与最终答案不一致。
ACRE通过引入一致性验证奖励，鼓励模型在答案选项洗牌后，基于相同推理链给出一致的答案，从而提升推理的可靠性。
实验表明，ACRE在视频推理和数学推理任务上，相较于GRPO基线，分别取得了平均2.2%和1.5%的性能提升。

📝 摘要（中文）

大型语言模型（LLM）的最新进展表明，使用可验证奖励的强化学习（RLVR）可以通过直接优化正确性来显著增强推理能力，而不是仅仅依赖于监督模仿。这种范式已经扩展到多模态LLM，用于复杂的视频和图像理解任务。然而，虽然结果驱动的强化学习提高了答案的准确性，但它可能会无意中将推理链与最终答案分离，导致模型在推理过程和最终答案之间产生不一致。在多项选择视觉问答任务的实验中，标准的GRPO方法在MMVU上仅产生79.7%的推理步骤和所选答案之间的一致性，表明答案和推理之间经常不匹配。为此，我们提出了答案一致性强化学习（ACRE），它使用辅助一致性检查来修改GRPO算法。在模型为给定问题生成思维链和初始答案后，我们对答案选项进行洗牌，并使用相同的推理过程再次提示模型以预测第二个答案。我们设计了一种一致性验证奖励，只有当原始答案和洗牌后的答案一致且正确时，才会给予高奖励；否则，将相应地分配较低的奖励。这种机制惩罚了推理-答案的不一致，并阻止模型依赖于虚假模式，例如选项排序偏差。我们在具有挑战性的视频推理基准和多模态数学推理基准上评估了ACRE，在视频推理和数学推理任务上，相对于GRPO基线，平均提高了2.2%和1.5%。

🔬 方法详解

问题定义：论文旨在解决多模态大语言模型在视觉问答任务中，使用强化学习优化后，推理链和最终答案之间出现不一致的问题。现有方法如GRPO虽然能提高答案准确率，但忽略了推理过程的正确性，导致模型可能依赖于数据中的虚假相关性，例如选项顺序偏差，从而产生不一致的答案。

核心思路：论文的核心思路是通过引入答案一致性验证机制来约束强化学习过程。具体来说，模型在生成推理链和初始答案后，会对答案选项进行洗牌，并要求模型基于相同的推理链再次预测答案。如果两次预测的答案一致且正确，则给予高奖励；否则，给予低奖励。这种机制能够有效惩罚推理-答案的不一致性，并鼓励模型学习更可靠的推理模式。

技术框架：ACRE方法在GRPO（Gradient Regularized Policy Optimization）的基础上进行改进。整体流程如下： 1. 模型接收视觉输入和问题，生成思维链（Chain-of-Thought）和初始答案。 2. 对答案选项进行洗牌。 3. 模型使用相同的思维链，再次预测答案。 4. 计算一致性验证奖励：如果原始答案和洗牌后的答案一致且正确，则给予高奖励；否则，给予低奖励。 5. 使用强化学习算法（如GRPO）更新模型参数，目标是最大化累积奖励。

关键创新：ACRE的关键创新在于引入了答案一致性验证奖励，这是一种简单而有效的约束机制，能够显式地鼓励模型生成与答案一致的推理链。与传统的基于结果的强化学习方法不同，ACRE不仅关注答案的正确性，还关注推理过程的可靠性，从而提高了模型的泛化能力。

关键设计：一致性验证奖励的设计是关键。具体来说，奖励函数可以定义为： R = R_correctness + λ * R_consistency 其中，R_correctness是基于答案正确性的奖励，R_consistency是基于答案一致性的奖励，λ是一个超参数，用于平衡正确性和一致性。R_consistency可以定义为： R_consistency = 1 如果原始答案和洗牌后的答案一致 R_consistency = -1 如果原始答案和洗牌后的答案不一致此外，论文可能还涉及到一些其他的超参数设置，例如学习率、折扣因子等，这些参数需要根据具体的任务和数据集进行调整。

📊 实验亮点

实验结果表明，ACRE在视频推理和数学推理任务上均取得了显著的性能提升。在视频推理任务中，ACRE相较于GRPO基线，平均提高了2.2%的准确率。在数学推理任务中，ACRE相较于GRPO基线，平均提高了1.5%的准确率。这些结果表明，ACRE能够有效提高多模态大模型在复杂推理任务中的性能。

🎯 应用场景

ACRE方法具有广泛的应用前景，可以应用于各种需要可解释性和可靠性的多模态推理任务，例如视频理解、医学图像诊断、自动驾驶等。通过提高模型推理过程的一致性，可以增强用户对模型预测结果的信任度，并减少模型犯错的风险。此外，该方法还可以用于提高模型的鲁棒性，使其能够更好地应对噪声和对抗性攻击。

📄 摘要（原文）

Recent advances in large language models (LLMs) have demonstrated that reinforcement learning with verifiable rewards (RLVR) can significantly enhance reasoning abilities by directly optimizing correctness, rather than relying solely on supervised imitation. This paradigm has been extended to multimodal LLMs for complex video and image understanding tasks. However, while outcome-driven RL improves answer accuracy, it can inadvertently decouple the reasoning chain from the final answer, leading to situations where models produce inconsistency between the reasoning trace and final answer. In our experiments on multiple-choice visual question-answering tasks, the standard GRPO method yields only 79.7\% consistency on MMVU between the reasoning steps and the chosen answers, indicating frequent mismatches between answers and reasoning. To this end, we propose Answer-Consistent Reinforcement Learning (ACRE) that modifies the GRPO algorithm with an auxiliary consistency check. After the model generates a chain of thought and an initial answer for a given question, we shuffle the answer options and prompt the model again with the same reasoning trace to predict a second answer. We design a consistency-verification reward that grants a high reward only if both the original and the post-shuffle answers agree and are correct; otherwise, a lower reward is assigned accordingly. This mechanism penalizes reasoning-answer misalignment and discourages the model from relying on spurious patterns, such as option ordering biases. We evaluate ACRE on challenging Video Reasoning benchmarks and multimodal math reasoning benchmarks, achieving an average 2.2\% and 1.5\% improvement for Video Reasoning and Math Reasoning tasks over the GRPO baseline.

Answer-Consistent Chain-of-thought Reinforcement Learning For Multi-modal Large Langauge Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册