Are Reasoning Models More Prone to Hallucination?

📄 arXiv: 2505.23646v1 📥 PDF

作者: Zijun Yao, Yantao Liu, Yanxu Chen, Jianhui Chen, Junfeng Fang, Lei Hou, Juanzi Li, Tat-Seng Chua

分类: cs.CL, cs.LG

发布日期: 2025-05-29


💡 一句话要点

研究表明,推理模型在事实性任务中可能更容易产生幻觉,但可通过特定训练流程缓解。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型推理模型 幻觉 后训练 冷启动微调 强化学习 模型不确定性 事实性 行为分析

📋 核心要点

  1. 大型推理模型(LRM)在复杂任务中表现出色,但其在事实性任务中是否会加剧幻觉现象尚不明确,存在争议。
  2. 该研究通过全面评估、行为分析和模型不确定性分析,深入探讨了LRM中幻觉的成因和影响因素。
  3. 研究发现,冷启动监督微调和可验证奖励强化学习能有效缓解幻觉,而蒸馏和无冷启动微调的强化学习则会加剧幻觉。

📝 摘要(中文)

最近发展起来的大型推理模型(LRM)在解决具有长链思维(CoT)推理能力的复杂任务中表现出强大的性能。由于这些LRM主要通过在形式推理任务上进行后训练而开发,因此它们是否能推广推理能力以帮助减少事实性任务中的幻觉仍然不清楚且存在争议。例如,DeepSeek-R1报告在事实性基准SimpleQA上的性能有所提高,而OpenAI-o3观察到更严重的幻觉。这种差异自然引出了以下研究问题:推理模型是否更容易产生幻觉?本文从三个角度探讨了这个问题。(1) 我们首先对LRM中的幻觉进行了全面的评估。我们的分析表明,经过完整的后训练流程,包括冷启动监督微调(SFT)和可验证奖励RL的LRM通常可以减轻幻觉。相比之下,单独的蒸馏和没有冷启动微调的RL训练会引入更细微的幻觉。(2) 为了探究不同的后训练流程如何改变对LRM中幻觉的影响,我们进行了行为分析。我们描述了两种直接影响LRM事实性的关键认知行为:缺陷重复,即表面层面的推理尝试反复遵循相同的底层缺陷逻辑;以及思考-答案不匹配,即最终答案未能忠实地匹配之前的CoT过程。(3) 此外,我们从模型不确定性的角度研究了LRM幻觉背后的机制。我们发现,LRM幻觉的增加通常与模型不确定性与事实准确性之间的不一致有关。我们的工作为理解LRM中的幻觉提供了初步的认识。

🔬 方法详解

问题定义:论文旨在解决大型推理模型(LRM)在事实性任务中是否比其他模型更容易产生幻觉的问题。现有研究对LRM在事实性任务中的表现存在矛盾的观察结果,缺乏对LRM幻觉现象的系统性分析和解释。因此,需要深入研究LRM的推理过程和模型特性,以理解其幻觉行为的根本原因。

核心思路:论文的核心思路是从三个角度分析LRM的幻觉问题:首先,进行全面的幻觉评估,比较不同训练流程对幻觉的影响;其次,通过行为分析,识别影响LRM事实性的关键认知行为;最后,从模型不确定性的角度,研究幻觉与模型预测准确性之间的关系。通过多角度的分析,揭示LRM幻觉的内在机制。

技术框架:论文的技术框架主要包括三个部分:1) 幻觉评估:设计实验评估不同后训练流程(如冷启动SFT、可验证奖励RL、蒸馏等)对LRM幻觉的影响。2) 行为分析:通过分析LRM的推理过程,识别并量化两种关键认知行为:缺陷重复和思考-答案不匹配。3) 模型不确定性分析:研究LRM的预测不确定性与事实准确性之间的关系,分析不确定性与幻觉之间的关联。

关键创新:论文的主要创新在于:1) 系统性地评估了不同后训练流程对LRM幻觉的影响,揭示了冷启动SFT和可验证奖励RL在缓解幻觉方面的作用。2) 提出了两种关键认知行为(缺陷重复和思考-答案不匹配),并分析了它们对LRM事实性的影响。3) 从模型不确定性的角度,解释了LRM幻觉的产生机制,为理解和缓解LRM幻觉提供了新的视角。

关键设计:在幻觉评估方面,论文设计了多种评估指标,以全面衡量LRM的幻觉程度。在行为分析方面,论文采用了人工标注和自动化分析相结合的方法,以准确识别和量化缺陷重复和思考-答案不匹配等行为。在模型不确定性分析方面,论文采用了多种不确定性估计方法,并分析了不确定性与预测准确性之间的相关性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,经过冷启动监督微调(SFT)和可验证奖励强化学习(RL)的LRM通常可以减轻幻觉,而单独的蒸馏和没有冷启动微调的RL训练会引入更多幻觉。此外,研究还识别出两种关键认知行为(缺陷重复和思考-答案不匹配)与LRM的幻觉现象密切相关。

🎯 应用场景

该研究成果可应用于提升大型语言模型在知识密集型任务中的可靠性和准确性,例如问答系统、信息检索和内容生成。通过理解和缓解推理模型中的幻觉现象,可以提高模型在实际应用中的可信度和实用性,减少错误信息的传播。

📄 摘要(原文)

Recently evolved large reasoning models (LRMs) show powerful performance in solving complex tasks with long chain-of-thought (CoT) reasoning capability. As these LRMs are mostly developed by post-training on formal reasoning tasks, whether they generalize the reasoning capability to help reduce hallucination in fact-seeking tasks remains unclear and debated. For instance, DeepSeek-R1 reports increased performance on SimpleQA, a fact-seeking benchmark, while OpenAI-o3 observes even severer hallucination. This discrepancy naturally raises the following research question: Are reasoning models more prone to hallucination? This paper addresses the question from three perspectives. (1) We first conduct a holistic evaluation for the hallucination in LRMs. Our analysis reveals that LRMs undergo a full post-training pipeline with cold start supervised fine-tuning (SFT) and verifiable reward RL generally alleviate their hallucination. In contrast, both distillation alone and RL training without cold start fine-tuning introduce more nuanced hallucinations. (2) To explore why different post-training pipelines alters the impact on hallucination in LRMs, we conduct behavior analysis. We characterize two critical cognitive behaviors that directly affect the factuality of a LRM: Flaw Repetition, where the surface-level reasoning attempts repeatedly follow the same underlying flawed logic, and Think-Answer Mismatch, where the final answer fails to faithfully match the previous CoT process. (3) Further, we investigate the mechanism behind the hallucination of LRMs from the perspective of model uncertainty. We find that increased hallucination of LRMs is usually associated with the misalignment between model uncertainty and factual accuracy. Our work provides an initial understanding of the hallucination in LRMs.