Reasoning-Grounded Natural Language Explanations for Language Models

📄 arXiv: 2503.11248v1 📥 PDF

作者: Vojtech Cahlik, Rodrigo Alves, Pavel Kordik

分类: cs.LG, cs.CL

发布日期: 2025-03-14


💡 一句话要点

提出一种基于推理过程的大语言模型自然语言可解释性技术

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 可解释性 自然语言解释 推理过程 联合预测

📋 核心要点

  1. 现有大语言模型缺乏可靠的自然语言解释,难以验证其决策过程的合理性。
  2. 该方法通过将推理过程融入模型上下文,并联合预测答案和解释,提高了解释的可靠性。
  3. 实验表明,该方法能实现答案和解释的高度一致性,并能提升答案质量。

📝 摘要(中文)

本文提出了一种大语言模型可解释性技术,通过将解释扎根于推理过程,从而获得更可靠的自然语言解释。推理过程的输出被转换为token序列,作为模型上下文的一部分,随后被解码为自然语言,用于生成最终答案或解释。为了提高解释的可靠性,我们提出了一种联合预测-解释方法,其中答案和解释直接从推理序列中推断,彼此不依赖。实验表明,该技术在多个问题领域实现了答案和解释的高度一致性,语言模型通常直接将推理序列中的部分决策复制到最终答案或解释中。此外,使用推理过程还可以提高答案的质量。

🔬 方法详解

问题定义:现有大语言模型的可解释性不足,难以提供可靠的自然语言解释,用户无法理解模型做出决策的原因。传统的解释方法可能依赖于事后分析,与模型的实际推理过程脱节,导致解释不忠实。

核心思路:论文的核心思路是将模型的推理过程显式地融入到生成解释的过程中。通过让模型在生成答案的同时,也生成一个可追溯的推理链,使得最终的解释能够基于这个推理链生成,从而保证了解释的可靠性。联合预测-解释方法避免了解释对答案的依赖,反之亦然,从而进一步提升了解释的真实性。

技术框架:该方法首先将推理过程表示为token序列,然后将其作为大语言模型的上下文。模型在生成答案和解释时,都会参考这个推理序列。具体流程包括:1)问题输入;2)推理过程生成token序列;3)将token序列加入模型上下文;4)模型基于上下文联合预测答案和解释。

关键创新:该方法最重要的创新点在于将推理过程显式地融入到大语言模型的解释生成中,并提出了一种联合预测-解释的框架。与传统的黑盒解释方法不同,该方法提供了一种白盒的解释方式,用户可以清晰地了解模型是如何一步步做出决策的。

关键设计:关键设计包括:1)推理过程的表示方式,如何将推理过程转化为token序列;2)联合预测-解释的损失函数设计,如何平衡答案和解释的生成质量;3)模型架构的选择,如何选择适合生成推理链和答案/解释的大语言模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个问题领域实现了答案和解释的高度一致性。具体而言,语言模型倾向于直接从推理序列中复制部分决策到最终答案或解释中,这表明该方法能够有效地将推理过程融入到解释生成中。此外,实验还表明,使用推理过程可以提高答案的质量。

🎯 应用场景

该研究成果可应用于需要高度可信赖AI系统的领域,例如医疗诊断、金融风控、法律咨询等。通过提供可靠的自然语言解释,可以增强用户对AI系统的信任,促进AI技术的广泛应用。未来,该技术可以进一步扩展到更复杂的推理场景,并与其他可解释性技术相结合。

📄 摘要(原文)

We propose a large language model explainability technique for obtaining faithful natural language explanations by grounding the explanations in a reasoning process. When converted to a sequence of tokens, the outputs of the reasoning process can become part of the model context and later be decoded to natural language as the model produces either the final answer or the explanation. To improve the faithfulness of the explanations, we propose to use a joint predict-explain approach, in which the answers and explanations are inferred directly from the reasoning sequence, without the explanations being dependent on the answers and vice versa. We demonstrate the plausibility of the proposed technique by achieving a high alignment between answers and explanations in several problem domains, observing that language models often simply copy the partial decisions from the reasoning sequence into the final answers or explanations. Furthermore, we show that the proposed use of reasoning can also improve the quality of the answers.