Investigating Training and Generalization in Faithful Self-Explanations of Large Language Models
作者: Tomoki Doi, Masaru Isonuma, Hitomi Yanaka
分类: cs.CL
发布日期: 2025-12-08
备注: To appear in the Proceedings of the Asia-Pacific Chapter of the Association for Computational Linguistics: Student Research Workshop (AACL-SRW 2025)
💡 一句话要点
通过持续学习提升大语言模型自解释的忠实性与泛化能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 自解释性 忠实性 持续学习 特征归因
📋 核心要点
- 现有大语言模型的自解释能力不足,缺乏忠实性,难以反映模型真实决策过程。
- 利用特征归因方法生成伪忠实的单字约束解释,并通过持续学习提升模型的自解释能力。
- 实验证明该方法能有效提升自解释的忠实性,并具备跨任务和跨风格的泛化能力。
📝 摘要(中文)
大型语言模型有潜力根据用户指令生成各种风格的自解释。最近的研究表明,这些自解释通常缺乏忠实性,未能真实反映模型的实际行为。然而,如何提高忠实性的问题尚未得到充分探索。此外,由于不同解释风格具有表面上不同的特征,因此在一个风格中观察到的改进是否也适用于其他风格尚不清楚。本研究通过三个分类任务和三种解释风格,分析了忠实自解释训练的效果以及这些效果的泛化程度。我们使用特征归因方法构建可能忠实的单字约束解释,并将这些伪忠实自解释用于指令调整模型的持续学习。实验表明,训练可以提高所有分类任务和解释风格的自解释忠实性,并且这些改进也显示出泛化到多字设置和未见任务的迹象。此外,我们发现三种风格之间存在一致的跨风格泛化,表明训练可能有助于更广泛地提高忠实自解释能力。
🔬 方法详解
问题定义:现有的大语言模型虽然能够生成自解释,但这些解释往往并不忠实于模型实际的推理过程,即模型给出的解释可能与它做出预测的真正原因不符。这限制了自解释的可信度和实用性。如何提高自解释的忠实性是一个重要的研究问题。
核心思路:论文的核心思路是利用持续学习,通过训练让模型生成更忠实的自解释。具体来说,首先使用特征归因方法生成“伪忠实”的自解释作为训练数据,然后利用这些数据对指令调整后的模型进行持续学习,从而提高模型生成忠实自解释的能力。
技术框架:整体框架包括以下几个步骤:1) 使用特征归因方法(具体方法未知)为每个样本生成单字约束的解释,这些解释被认为是“伪忠实”的。2) 将这些样本和对应的“伪忠实”解释作为训练数据,对预训练的指令调整模型进行持续学习。3) 在多个分类任务和不同的解释风格下评估模型的自解释能力。
关键创新:关键创新在于利用特征归因方法生成的“伪忠实”解释作为训练数据,并通过持续学习的方式来提高大语言模型的自解释忠实性。此外,论文还研究了这种训练方法在不同任务和解释风格之间的泛化能力,这对于提高自解释的通用性具有重要意义。
关键设计:论文使用了单字约束的解释,这可能是为了简化问题,更容易生成“伪忠实”的解释。持续学习的具体实现细节未知,包括学习率、训练轮数等。特征归因方法的选择也未知,但它对于生成高质量的“伪忠实”解释至关重要。损失函数的设计也未知,但应该能够促使模型生成的解释与“伪忠实”解释尽可能一致。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过持续学习,模型在所有分类任务和解释风格下的自解释忠实性都得到了显著提高。此外,这种提升还表现出良好的泛化能力,可以推广到多字解释和未见过的任务上。三种解释风格之间也存在一致的跨风格泛化,表明该方法能够提升模型更广泛的自解释能力。
🎯 应用场景
该研究成果可应用于需要高度可信赖AI系统的领域,例如医疗诊断、金融风控等。通过提高模型自解释的忠实性,可以增强用户对AI决策的信任,并促进AI技术的更广泛应用。未来的研究可以探索更复杂的解释风格和更有效的训练方法,进一步提高自解释的质量和泛化能力。
📄 摘要(原文)
Large language models have the potential to generate explanations for their own predictions in a variety of styles based on user instructions. Recent research has examined whether these self-explanations faithfully reflect the models' actual behavior and has found that they often lack faithfulness. However, the question of how to improve faithfulness remains underexplored. Moreover, because different explanation styles have superficially distinct characteristics, it is unclear whether improvements observed in one style also arise when using other styles. This study analyzes the effects of training for faithful self-explanations and the extent to which these effects generalize, using three classification tasks and three explanation styles. We construct one-word constrained explanations that are likely to be faithful using a feature attribution method, and use these pseudo-faithful self-explanations for continual learning on instruction-tuned models. Our experiments demonstrate that training can improve self-explanation faithfulness across all classification tasks and explanation styles, and that these improvements also show signs of generalization to the multi-word settings and to unseen tasks. Furthermore, we find consistent cross-style generalization among three styles, suggesting that training may contribute to a broader improvement in faithful self-explanation ability.