An Agentic Approach to Generating XAI-Narratives
作者: Yifan He, David Martens
分类: cs.CL
发布日期: 2026-03-20
💡 一句话要点
提出基于多Agent框架的XAI叙事生成方法,提升解释的忠实性和连贯性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 可解释人工智能 XAI 自然语言生成 大型语言模型 多Agent系统 叙事生成 忠实性 连贯性
📋 核心要点
- 现有XAI方法过于技术化,缺乏对非专业人士的友好性,难以有效传达模型决策过程。
- 提出多Agent框架,通过叙述者生成叙事,评论Agent提供反馈,迭代优化叙事的忠实性和连贯性。
- 实验结果表明,该框架能显著提升叙事的忠实性,例如Claude-4.5-Sonnet模型上不忠实叙事减少90%。
📝 摘要(中文)
近年来,可解释人工智能(XAI)研究取得了显著进展。然而,现有的XAI方法因其技术性和专家导向而备受批评,促使人们开发更易于理解和访问的解释。为此,大型语言模型(LLM)生成的XAI叙事被认为是一种有前景的方法,可以将事后解释转化为更易于理解的自然语言解释。本文提出了一种用于XAI叙事生成和改进的多Agent框架。该框架包括叙述者(Narrator),它根据多个评论Agent(Critic Agent)对忠实性和连贯性指标的反馈来生成和修改叙事,从而通过迭代实现叙事的改进。我们设计了五个Agent系统(基本设计、评论设计、评论规则设计、连贯设计和连贯规则设计),并系统地评估了它们在五个LLM和五个表格数据集上的有效性。结果表明,基本设计、评论设计和评论规则设计能够有效提高所有LLM叙事的忠实性。在基本设计上,Claude-4.5-Sonnet表现最佳,经过三轮迭代后,不忠实叙事的数量减少了90%。为了解决反复出现的问题,我们进一步引入了一种基于多数投票的集成策略。除了DeepSeek-V3.2-Exp之外,这种方法始终提高了四个LLM的性能。这些发现突出了Agent系统在生成忠实和连贯的XAI叙事方面的潜力。
🔬 方法详解
问题定义:现有XAI方法生成的解释往往过于技术化,难以被非专业人士理解和信任。这些解释缺乏自然语言的流畅性和连贯性,使得用户难以从中获取有用的信息。因此,如何生成更易于理解、忠实于模型行为的XAI叙事是一个重要的挑战。
核心思路:本文的核心思路是利用多Agent系统模拟人类专家之间的协作,通过迭代改进XAI叙事。叙述者Agent负责生成初始叙事,而多个评论Agent则从不同角度(如忠实性和连贯性)对叙事进行评估和反馈。基于这些反馈,叙述者Agent不断修改和完善叙事,最终生成高质量的解释。
技术框架:该框架包含一个叙述者Agent和多个评论Agent。叙述者Agent负责根据给定的模型解释(如特征重要性)生成初始的自然语言叙事。评论Agent则根据预定义的指标(如忠实性、连贯性)对叙事进行评估,并提供反馈。叙述者Agent接收到反馈后,会根据反馈信息修改叙事,并再次提交给评论Agent进行评估。这个过程会迭代多次,直到叙事达到预定的质量标准。
关键创新:该方法最重要的创新点在于将多Agent系统应用于XAI叙事生成。通过引入多个评论Agent,可以从不同角度对叙事进行评估,从而更全面地提高叙事的质量。此外,迭代改进的机制也使得叙事能够不断优化,最终生成更准确、更易于理解的解释。与现有方法相比,该方法更加灵活和可扩展,可以根据不同的应用场景和需求定制不同的评论Agent。
关键设计:论文设计了五种不同的Agent系统:Basic Design、Critic Design、Critic-Rule Design、Coherent Design和Coherent-Rule Design。这些系统在评论Agent的设计上有所不同,例如,Critic Design使用LLM作为评论Agent,而Critic-Rule Design则使用预定义的规则。此外,论文还引入了一种基于多数投票的集成策略,用于整合多个Agent的输出,进一步提高叙事的质量。具体的参数设置和损失函数等技术细节在论文中没有详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于多Agent框架的XAI叙事生成方法能够显著提高叙事的忠实性。例如,在Basic Design中,Claude-4.5-Sonnet模型经过三轮迭代后,不忠实叙事的数量减少了90%。此外,基于多数投票的集成策略也能够进一步提高叙事的质量,在四个LLM上都取得了性能提升(DeepSeek-V3.2-Exp除外)。
🎯 应用场景
该研究成果可应用于金融、医疗、法律等多个领域,帮助非专业人士理解复杂的AI模型决策过程,增强模型的可信度和透明度。例如,在医疗诊断中,医生可以利用XAI叙事理解AI模型给出的诊断建议,从而做出更明智的决策。该方法还有助于提高公众对AI技术的信任度,促进AI技术的广泛应用。
📄 摘要(原文)
Explainable AI (XAI) research has experienced substantial growth in recent years. Existing XAI methods, however, have been criticized for being technical and expert-oriented, motivating the development of more interpretable and accessible explanations. In response, large language model (LLM)-generated XAI narratives have been proposed as a promising approach for translating post-hoc explanations into more accessible, natural-language explanations. In this work, we propose a multi-agent framework for XAI narrative generation and refinement. The framework comprises the Narrator, which generates and revises narratives based on feedback from multiple Critic Agents on faithfulness and coherence metrics, thereby enabling narrative improvement through iteration. We design five agentic systems (Basic Design, Critic Design, Critic-Rule Design, Coherent Design, and Coherent-Rule Design) and systematically evaluate their effectiveness across five LLMs on five tabular datasets. Results validate that the Basic Design, the Critic Design, and the Critic-Rule Design are effective in improving the faithfulness of narratives across all LLMs. Claude-4.5-Sonnet on Basic Design performs best, reducing the number of unfaithful narratives by 90% after three rounds of iteration. To address recurrent issues, we further introduce an ensemble strategy based on majority voting. This approach consistently enhances performance for four LLMs, except for DeepSeek-V3.2-Exp. These findings highlight the potential of agentic systems to produce faithful and coherent XAI narratives.