Do Cognitively Interpretable Reasoning Traces Improve LLM Performance?

📄 arXiv: 2508.16695v1 📥 PDF

作者: Siddhant Bhambri, Upasana Biswas, Subbarao Kambhampati

分类: cs.CL, cs.AI

发布日期: 2025-08-21


💡 一句话要点

研究表明,认知可解释的推理轨迹不一定能提升LLM在开放域问答任务中的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 思维链 可解释性 开放域问答 监督微调

📋 核心要点

  1. 现有研究假设CoT推理轨迹应具有语义意义且对用户可解释,但其必要性受到质疑。
  2. 通过对比不同可解释性的推理轨迹微调LLM,探究可解释性与LLM性能之间的关系。
  3. 实验结果表明,高性能的推理轨迹不一定具有高可解释性,暗示了解耦二者的潜在价值。

📝 摘要(中文)

本文探讨了在面向推理的大型语言模型(LLM)中,思维链(CoT)推理轨迹的可解释性是否对提升LLM性能至关重要。通过在开放域问答领域,对LLaMA和Qwen模型进行监督微调,使用了四种类型的推理轨迹:(1) DeepSeek R1轨迹,(2) LLM生成的R1轨迹摘要,(3) LLM生成的R1轨迹事后解释,以及(4)算法生成的、可验证的正确轨迹。为了量化可解释性和性能之间的权衡,还进行了一项包含100名参与者的人工评估研究,对每种轨迹类型的可解释性进行评分。结果表明,虽然在R1轨迹上进行微调可以获得最佳性能,但参与者认为这些轨迹的可解释性最差。这些发现表明,将中间token与最终用户的可解释性解耦是有益的。

🔬 方法详解

问题定义:论文旨在研究CoT推理轨迹的可解释性是否是提升LLM在开放域问答任务中性能的必要条件。现有方法通常假设CoT轨迹需要对人类用户具有语义意义,但缺乏对这一假设的直接验证。论文试图通过实验来检验这一假设,并量化可解释性与性能之间的权衡。

核心思路:论文的核心思路是通过对比不同类型的推理轨迹(包括高可解释性和低可解释性的轨迹)对LLM进行微调,然后评估微调后的模型在开放域问答任务上的性能。通过这种方式,论文可以确定可解释性是否与性能直接相关,或者是否存在其他因素在起作用。

技术框架:论文的技术框架主要包括以下几个步骤:1) 选择LLaMA和Qwen作为基础LLM;2) 收集或生成四种不同类型的推理轨迹:DeepSeek R1轨迹、LLM生成的R1轨迹摘要、LLM生成的R1轨迹事后解释、算法生成的正确轨迹;3) 使用这些轨迹对LLM进行监督微调;4) 在开放域问答任务上评估微调后的模型性能;5) 进行人工评估,量化每种轨迹类型的可解释性。

关键创新:论文的关键创新在于对CoT推理轨迹的可解释性提出了质疑,并尝试通过实验来验证这一质疑。以往的研究通常假设可解释性是提升LLM性能的关键因素,而论文则表明,高性能的推理轨迹不一定需要具有高可解释性。这种发现挑战了现有的认知,并为未来的研究提供了新的方向。

关键设计:论文的关键设计包括:1) 选择具有代表性的LLM(LLaMA和Qwen)作为实验对象;2) 设计了四种不同类型的推理轨迹,以覆盖不同的可解释性水平;3) 使用开放域问答任务作为评估指标,以衡量LLM的推理能力;4) 进行了人工评估,以量化每种轨迹类型的可解释性。这些设计确保了实验结果的可靠性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用DeepSeek R1轨迹进行微调可以获得最佳的性能,但人工评估显示,这些轨迹的可解释性最低。这一发现表明,在提升LLM性能方面,可解释性可能不是一个必要的条件。这一结果挑战了以往研究的假设,并为未来的研究提供了新的方向。

🎯 应用场景

该研究成果可应用于提升LLM在知识密集型任务中的表现,例如开放域问答、知识图谱推理等。通过解耦推理过程与用户可解释性,可以更灵活地设计和优化LLM的推理过程,从而提高性能。未来的研究可以探索如何利用不可解释但有效的推理轨迹来训练更强大的LLM。

📄 摘要(原文)

Recent progress in reasoning-oriented Large Language Models (LLMs) has been driven by introducing Chain-of-Thought (CoT) traces, where models generate intermediate reasoning traces before producing an answer. These traces, as in DeepSeek R1, are not only used to guide inference but also serve as supervision signals for distillation into smaller models. A common but often implicit assumption is that CoT traces should be semantically meaningful and interpretable to the end user. While recent research questions the need for semantic nature of these traces, in this paper, we ask: ``\textit{Must CoT reasoning traces be interpretable to enhance LLM task performance?}" We investigate this question in the Open Book Question-Answering domain by supervised fine-tuning LLaMA and Qwen models on four types of reasoning traces: (1) DeepSeek R1 traces, (2) LLM-generated summaries of R1 traces, (3) LLM-generated post-hoc explanations of R1 traces, and (4) algorithmically generated verifiably correct traces. To quantify the trade-off between interpretability and performance, we further conduct a human-subject study with 100 participants rating the interpretability of each trace type. Our results reveal a striking mismatch: while fine-tuning on R1 traces yields the strongest performance, participants judged these traces to be the least interpretable. These findings suggest that it is useful to decouple intermediate tokens from end user interpretability.