Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation

📄 arXiv: 2505.13792v1 📥 PDF

作者: Siddhant Bhambri, Upasana Biswas, Subbarao Kambhampati

分类: cs.CL, cs.AI

发布日期: 2025-05-20

备注: 10 pages


💡 一句话要点

探究基于推理轨迹的知识蒸馏中,可解释性轨迹与最终结果之间的脱节现象

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏 推理轨迹 可解释性 问答系统 问题分解

📋 核心要点

  1. 现有知识蒸馏方法依赖推理轨迹提升小模型性能,但推理轨迹的质量评估和与最终结果的相关性存在挑战。
  2. 论文提出一种基于规则的问题分解方法,将复杂问题分解为可解释的子问题,从而简化轨迹评估。
  3. 实验表明,正确的推理轨迹并不一定导致正确的最终答案,轨迹正确性与最终结果正确性相关性低。

📝 摘要(中文)

问答(QA)是一个具有挑战性和关键性的问题,尤其是在当今ChatGPT、Perplexity、Microsoft Copilot等交互式对话系统时代,用户要求模型输出的准确性和透明性。由于较小的语言模型(SLM)在计算上更有效,但通常不如较大的模型,因此知识蒸馏(KD)方法允许对这些较小的模型进行微调,以提高其最终性能。最近,由思维链(CoT)或DeepSeek R1等推理模型产生的中间tokens或所谓的“推理”轨迹被用作KD的训练信号。然而,这些推理轨迹通常是冗长的,难以解释或评估。在这项工作中,我们旨在解决评估这些推理轨迹的忠实性及其与最终性能的相关性的挑战。为此,我们采用了一种利用基于规则的问题分解的KD方法。这种方法允许我们将复杂的查询分解为结构化的子问题,生成可解释的轨迹,即使在推理时也可以轻松评估其正确性。具体来说,我们在开放式问答(Open Book QA)上演示了这种方法,将问题分解为分类步骤和信息检索步骤,从而简化了轨迹评估。我们对CoTemp QA、Microsoft Machine Reading Comprehension QA和Facebook bAbI QA数据集进行的正确和不正确轨迹的SFT实验揭示了一个惊人的发现,即正确的轨迹并不一定意味着模型输出正确的最终解决方案。同样,我们发现正确的最终解决方案与中间轨迹正确性之间的相关性较低。这些结果挑战了利用推理轨迹通过KD提高SLM最终性能背后的隐含假设。

🔬 方法详解

问题定义:论文旨在解决基于推理轨迹的知识蒸馏方法中,推理轨迹的正确性与最终问答结果的正确性之间存在的脱节问题。现有方法通常假设高质量的推理轨迹能够提升最终性能,但缺乏对这一假设的有效验证,并且推理轨迹本身的可解释性较差,难以评估其质量。

核心思路:论文的核心思路是通过将复杂的问答问题分解为更小、更易于理解和评估的子问题,从而生成更具可解释性的推理轨迹。通过这种方式,可以更容易地判断推理过程的正确性,并分析其与最终结果之间的关系。这种分解过程借鉴了规则推理的思想,将问题求解过程显式地表达出来。

技术框架:论文的技术框架主要包含以下几个阶段:1. 问题分解:将原始问答问题分解为一系列结构化的子问题,例如分类和信息检索。2. 轨迹生成:利用分解后的子问题,生成相应的推理轨迹,记录模型在解决每个子问题时的中间步骤和结果。3. 知识蒸馏:使用生成的推理轨迹作为监督信号,对小型语言模型进行微调,使其学习模仿大型模型的推理过程。4. 轨迹评估:评估生成的推理轨迹的正确性和可解释性,并分析其与最终问答结果之间的关系。

关键创新:论文的关键创新在于提出了基于规则的问题分解方法,用于生成可解释的推理轨迹。与传统的黑盒推理轨迹相比,这种方法生成的轨迹更易于理解和评估,从而能够更有效地分析推理过程的质量和与最终结果之间的关系。此外,论文还通过实验验证了推理轨迹的正确性与最终结果的正确性之间存在脱节现象,挑战了现有知识蒸馏方法的隐含假设。

关键设计:论文的关键设计包括:1. 问题分解规则的设计,需要根据具体的问答任务进行定制,确保分解后的子问题能够覆盖原始问题的关键信息。2. 轨迹生成过程的设计,需要记录模型在解决每个子问题时的中间步骤和结果,以便进行后续的评估和分析。3. 知识蒸馏损失函数的设计,需要考虑如何有效地利用推理轨迹作为监督信号,引导小型语言模型学习模仿大型模型的推理过程。论文使用了SFT(Supervised Fine-Tuning)方法进行微调,并针对不同的数据集进行了实验。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在CoTemp QA、Microsoft Machine Reading Comprehension QA和Facebook bAbI QA数据集上,正确的推理轨迹并不一定导致正确的最终答案,轨迹正确性与最终结果正确性之间的相关性较低。这一发现挑战了现有知识蒸馏方法中关于推理轨迹有效性的假设,并为未来的研究方向提供了新的启示。

🎯 应用场景

该研究成果可应用于提升对话系统的可靠性和可解释性,尤其是在需要高准确性和透明度的场景下,例如医疗诊断、金融咨询等。通过对推理过程进行分解和评估,可以更好地理解模型的决策过程,并提高用户对模型的信任度。此外,该研究还可以为知识蒸馏方法提供新的思路,探索更有效的利用推理轨迹提升小模型性能的方法。

📄 摘要(原文)

Question Answering (QA) poses a challenging and critical problem, particularly in today's age of interactive dialogue systems such as ChatGPT, Perplexity, Microsoft Copilot, etc. where users demand both accuracy and transparency in the model's outputs. Since smaller language models (SLMs) are computationally more efficient but often under-perform compared to larger models, Knowledge Distillation (KD) methods allow for finetuning these smaller models to improve their final performance. Lately, the intermediate tokens or the so called `reasoning' traces produced by Chain-of-Thought (CoT) or by reasoning models such as DeepSeek R1 are used as a training signal for KD. However, these reasoning traces are often verbose and difficult to interpret or evaluate. In this work, we aim to address the challenge of evaluating the faithfulness of these reasoning traces and their correlation with the final performance. To this end, we employ a KD method leveraging rule-based problem decomposition. This approach allows us to break down complex queries into structured sub-problems, generating interpretable traces whose correctness can be readily evaluated, even at inference time. Specifically, we demonstrate this approach on Open Book QA, decomposing the problem into a Classification step and an Information Retrieval step, thereby simplifying trace evaluation. Our SFT experiments with correct and incorrect traces on the CoTemp QA, Microsoft Machine Reading Comprehension QA, and Facebook bAbI QA datasets reveal the striking finding that correct traces do not necessarily imply that the model outputs the correct final solution. Similarly, we find a low correlation between correct final solutions and intermediate trace correctness. These results challenge the implicit assumption behind utilizing reasoning traces for improving SLMs' final performance via KD.