Towards Transparent Reasoning: What Drives Faithfulness in Large Language Models?

📄 arXiv: 2510.24236v2 📥 PDF

作者: Teague McMillan, Gabriele Dominici, Martin Gjoreski, Marc Langheinrich

分类: cs.CL

发布日期: 2025-10-28 (更新: 2025-11-03)

备注: 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Workshop: NeurIPS 2025 Workshop on Evaluating the Evolving LLM Lifecycle: Benchmarks, Emergent Abilities, and Scaling


💡 一句话要点

探究大语言模型忠实性的驱动因素,提升医疗等敏感领域的可信度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 忠实性 可解释性 少量样本学习 提示工程

📋 核心要点

  1. 现有大语言模型解释不忠实,忽略关键信息或引入虚假关联,降低了在医疗等敏感领域的应用可信度。
  2. 通过操纵少量样本、提示策略和训练过程,研究这些因素对模型忠实性的影响,旨在提升模型解释的可靠性。
  3. 实验表明,少量样本的数量和质量、提示设计以及指令调优均显著影响模型忠实性,为提升模型可信度提供指导。

📝 摘要(中文)

大语言模型(LLMs)常常产生不忠实于其预测驱动因素的解释。在医疗保健等领域,这种不忠实性尤其成问题:忽略显著临床线索或掩盖虚假捷径的解释会削弱临床医生的信任,并导致不安全的决策支持。本文研究了推理和训练时选择如何影响解释的忠实性,重点关注从业者在部署时可以控制的因素。我们在两个数据集(BBQ(社会偏见)和MedQA(医学执照问题))上评估了三个LLM(GPT-4.1-mini、LLaMA 70B、LLaMA 8B),并操纵了少量样本的数量和类型、提示策略以及训练过程。结果表明:(i)少量样本的数量和质量都显著影响模型的忠实性;(ii)忠实性对提示设计敏感;(iii)指令调优阶段提高了MedQA上测量的忠实性。这些发现为提高LLM在敏感领域的可解释性和可信度提供了见解。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLMs)在生成解释时不够忠实的问题。现有方法生成的解释可能无法准确反映模型进行预测的关键因素,尤其是在医疗等高风险领域,这会导致用户对模型的信任度降低,甚至可能导致错误的决策。现有方法缺乏对影响模型忠实性的因素的系统性研究,无法为提升模型可信度提供有效的指导。

核心思路:论文的核心思路是通过实验分析,探究推理和训练时期的各种因素(如少量样本的数量和质量、提示策略、指令调优等)对模型忠实性的影响。通过量化这些因素与模型忠实性之间的关系,为提升模型在敏感领域的可靠性和可解释性提供依据。论文着重关注从业者在部署时可以控制的因素,以便于实际应用。

技术框架:论文采用实验驱动的研究方法,主要包括以下几个阶段: 1. 模型选择:选择了三个具有代表性的大语言模型:GPT-4.1-mini、LLaMA 70B和LLaMA 8B。 2. 数据集选择:使用了BBQ(社会偏见)和MedQA(医学执照问题)两个数据集,分别代表了社会偏见和医学知识两个不同的领域。 3. 因素操纵:系统性地操纵了少量样本的数量和类型、提示策略以及训练过程(指令调优)。 4. 忠实性评估:使用适当的指标评估不同因素组合下模型的忠实性。 5. 结果分析:分析实验结果,确定哪些因素对模型忠实性有显著影响,并提出改进建议。

关键创新:论文的关键创新在于系统性地研究了多个因素对大语言模型忠实性的影响,并量化了这些因素与忠实性之间的关系。以往的研究可能只关注单个因素,或者缺乏对不同因素之间相互作用的深入分析。此外,论文还特别关注了从业者在部署时可以控制的因素,使得研究结果更具实用价值。

关键设计:论文的关键设计包括: 1. 少量样本的设计:精心设计了不同数量和类型的少量样本,以评估其对模型忠实性的影响。 2. 提示策略的设计:尝试了不同的提示策略,例如不同的问题表述方式、不同的上下文信息等,以评估其对模型忠实性的影响。 3. 指令调优的设计:通过指令调优,使模型更好地理解用户的意图,从而提高其忠实性。 4. 忠实性评估指标的选择:选择了合适的指标来量化模型的忠实性,例如,可以比较模型生成的解释与人工标注的解释之间的相似度。

📊 实验亮点

实验结果表明,少量样本的数量和质量对模型忠实性有显著影响,高质量的少量样本能有效提升模型解释的可靠性。此外,提示策略的设计也至关重要,精心设计的提示可以引导模型生成更忠实的解释。指令调优阶段显著提高了模型在MedQA数据集上的忠实性,表明通过针对特定任务的训练可以有效提升模型的可信度。

🎯 应用场景

该研究成果可应用于医疗诊断、法律咨询、金融风控等高风险领域,提升大语言模型在这些领域的应用可信度。通过优化少量样本、提示策略和训练过程,可以构建更可靠、更透明的AI系统,辅助专业人士进行决策,降低误判风险,并促进人机协作。

📄 摘要(原文)

Large Language Models (LLMs) often produce explanations that do not faithfully reflect the factors driving their predictions. In healthcare settings, such unfaithfulness is especially problematic: explanations that omit salient clinical cues or mask spurious shortcuts can undermine clinician trust and lead to unsafe decision support. We study how inference and training-time choices shape explanation faithfulness, focusing on factors practitioners can control at deployment. We evaluate three LLMs (GPT-4.1-mini, LLaMA 70B, LLaMA 8B) on two datasets-BBQ (social bias) and MedQA (medical licensing questions), and manipulate the number and type of few-shot examples, prompting strategies, and training procedure. Our results show: (i) both the quantity and quality of few-shot examples significantly impact model faithfulness; (ii) faithfulness is sensitive to prompting design; (iii) the instruction-tuning phase improves measured faithfulness on MedQA. These findings offer insights into strategies for enhancing the interpretability and trustworthiness of LLMs in sensitive domains.