Boosting Process-Correct CoT Reasoning by Modeling Solvability of Multiple-Choice QA

📄 arXiv: 2509.25941v1 📥 PDF

作者: Raphael Schumann, Stefan Riezler

分类: cs.AI, cs.CL

发布日期: 2025-09-30


💡 一句话要点

通过建模多选题可解性,提升过程正确的CoT推理

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链推理 可解性建模 多选题问答 奖励模型 强化学习

📋 核心要点

  1. 现有大语言模型在多选题问答中易产生虚假CoT,导致错误答案,尤其在问题不可解时。
  2. 通过估计问题的可解性,并将其融入奖励模型和强化学习目标,优化模型学习过程。
  3. 实验表明,该方法能显著提高过程正确的推理率,并提升强化学习中的答案准确性。

📝 摘要(中文)

大型语言模型的推理质量不仅取决于生成正确答案,还取决于生成有效的中间步骤。本文通过多项选择题问答(MCQA)研究了这一点,MCQA提供了一个具有固定答案选项的受控环境。分析表明,当问题对于模型而言实际上是无法解决时,虚假的思维链(CoT)更有可能出现,从而导致假阳性。通过估计每个问题的可解性,揭示了一个学习最有效的中间状态。在此基础上,调整了结果监督奖励模型和具有群体相对优势的强化学习,将可解性纳入其目标。在数学和多模态数据集上的实验表明,这些修改始终产生更高的过程正确推理率,并且在强化学习中,答案准确性也得到了提高。研究结果强调了可解性是减少幻觉和提高CoT推理可靠性的关键因素。

🔬 方法详解

问题定义:现有的大型语言模型在进行多项选择题问答时,即使最终答案正确,其推理过程(Chain-of-Thought, CoT)也可能是不正确的,即模型给出的推理步骤是虚假的。尤其当问题本身对于模型来说是难以解决或者无法解决的时候,模型更容易产生这种虚假的推理过程,从而导致最终答案的错误。现有的方法缺乏对问题可解性的考虑,容易在不可解的问题上进行无效的学习,甚至产生负面影响。

核心思路:论文的核心思路是建模问题的可解性,并将其作为优化目标的一部分,从而引导模型在可解的问题上进行更有效的学习,并减少在不可解问题上产生虚假推理链的可能性。通过估计每个问题的可解性,可以区分哪些问题是模型能够有效学习的,哪些问题是模型难以解决的,从而有针对性地进行训练。

技术框架:整体框架包括以下几个主要步骤:1) 使用大型语言模型生成CoT推理过程和答案;2) 估计问题的可解性,可以使用模型自身的预测置信度或者其他外部信息;3) 构建奖励模型,该模型不仅考虑答案的正确性,还考虑推理过程的正确性和问题的可解性;4) 使用强化学习算法,例如PPO(Proximal Policy Optimization),根据奖励模型的反馈来优化模型的推理策略。框架的关键在于将可解性信息融入到奖励函数中,从而引导模型学习更可靠的推理过程。

关键创新:最重要的技术创新点在于将问题的可解性建模并融入到CoT推理的训练过程中。与现有方法只关注答案的正确性不同,该方法同时考虑了推理过程的正确性和问题的可解性,从而能够更有效地减少幻觉和提高推理的可靠性。这种方法能够让模型在学习过程中更加关注那些能够有效学习的问题,避免在不可解的问题上浪费计算资源,甚至产生负面影响。

关键设计:在奖励模型的设计中,需要考虑如何有效地将可解性信息融入到奖励函数中。一种方法是使用可解性作为奖励的权重,即对于可解性高的问题,给予更高的奖励,反之则给予较低的奖励。另一种方法是将可解性作为奖励的偏移量,即对于可解性高的问题,奖励值会相应增加,反之则会减少。在强化学习的训练过程中,可以使用group-relative advantage来更好地利用可解性信息,即根据问题的可解性将问题分成不同的组,然后计算每个问题相对于其所在组的平均表现的优势,从而更好地引导模型的学习。

📊 实验亮点

实验结果表明,通过将可解性纳入奖励模型和强化学习目标,该方法在数学和多模态数据集上均取得了显著的性能提升。具体而言,过程正确的推理率得到了提高,并且在强化学习中,答案的准确性也得到了改善。这些结果表明,可解性是影响CoT推理质量的关键因素,并且通过建模可解性可以有效地减少幻觉和提高推理的可靠性。

🎯 应用场景

该研究成果可应用于各种需要可信赖推理的场景,例如智能客服、医疗诊断、金融风控等。通过提高CoT推理的可靠性,可以减少模型产生错误结论的风险,提升用户对AI系统的信任度。此外,该方法还可以用于提升模型的鲁棒性,使其在面对复杂或模糊的问题时,能够给出更准确和可靠的答案。

📄 摘要(原文)

Reasoning quality in large language models depends not only on producing correct answers but also on generating valid intermediate steps. We study this through multiple-choice question answering (MCQA), which provides a controlled setting with fixed answer options. Our analysis shows that when questions are effectively unsolvable for a model, spurious chains of thought (CoTs) are more likely to appear, leading to false positives. By estimating the solvability of each question, we uncover an intermediate regime where learning is most effective. Building on this insight, we adapt outcome-supervised reward models and reinforcement learning with group-relative advantage to incorporate solvability into their objectives. Across experiments on math and multimodal datasets, these modifications consistently yield higher rates of process-correct reasoning and, in reinforcement learning, improved answer accuracy as well. Our results highlight solvability as a key factor for reducing hallucinations and increasing reliability in CoT reasoning.