A Two-Stage LLM Framework for Accessible and Verified XAI Explanations
作者: Georgios Mermigkis, Dimitris Metaxakis, Marios Tyrovolas, Argiris Sofotasios, Nikolaos Avgeris, Panagiotis Hadjidoukas, Chrysostomos Stylios
分类: cs.AI
发布日期: 2026-04-14
备注: 8 pages, 8 figures, Accepted for publication at the 2026 IEEE World Congress on Computational Intelligence (WCCI 2026)
💡 一句话要点
提出双阶段LLM框架,提升可解释AI解释的可访问性和可靠性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 可解释AI 大型语言模型 自然语言解释 元验证 双阶段框架
📋 核心要点
- 现有XAI方法的自然语言解释缺乏准确性、忠实性和完整性保证,且评估方法主观,难以防止错误解释。
- 提出双阶段LLM框架,利用解释器LLM生成解释,验证器LLM评估并反馈,迭代优化解释质量。
- 实验表明,该框架能有效过滤不可靠解释,提升语言可访问性,并引导解释器进行更稳定连贯的推理。
📝 摘要(中文)
大型语言模型(LLM)越来越多地被用于将可解释人工智能(XAI)方法的技术输出转化为易于理解的自然语言解释。然而,现有方法通常缺乏准确性、忠实性和完整性的保证。同时,目前对这些叙述的评估主要还是主观的或局限于事后评分,无法防止有缺陷的解释到达最终用户。为了解决这些局限性,本文提出了一种双阶段LLM元验证框架,该框架包括:(i)一个解释器LLM,将原始XAI输出转换为自然语言叙述;(ii)一个验证器LLM,从忠实性、连贯性、完整性和幻觉风险等方面评估它们;以及(iii)一个迭代重馈机制,使用验证器的反馈来改进和完善它们。跨五个XAI技术和数据集的实验,使用三个系列的开源LLM,表明验证对于过滤不可靠的解释至关重要,同时提高了与原始XAI输出相比的语言可访问性。此外,对细化过程中熵产生率(EPR)的分析表明,验证器的反馈逐步引导解释器朝着更稳定和连贯的推理方向发展。总的来说,所提出的框架为更值得信赖和民主化的XAI系统提供了一条有效的途径。
🔬 方法详解
问题定义:现有可解释AI(XAI)方法产生的解释通常是技术性的,难以被非专业人士理解。虽然可以使用大型语言模型(LLM)将这些技术输出转换为自然语言解释,但现有方法无法保证解释的准确性、忠实性和完整性。此外,对这些解释的评估通常是主观的,缺乏客观的验证机制,导致不可靠的解释可能会传递给用户。
核心思路:本文的核心思路是引入一个验证机制,通过另一个LLM(验证器LLM)来评估解释器LLM生成的解释,并提供反馈以改进解释的质量。这种双LLM架构旨在模拟人类专家对解释进行审查和修正的过程,从而提高解释的可靠性和可信度。
技术框架:该框架包含两个主要阶段:解释阶段和验证阶段。在解释阶段,解释器LLM将原始XAI输出转换为自然语言叙述。在验证阶段,验证器LLM评估解释器生成的叙述,并从忠实性、连贯性、完整性和幻觉风险等方面进行评估。然后,验证器LLM将评估结果反馈给解释器LLM,解释器LLM根据反馈进行迭代改进。这个过程重复进行,直到解释满足预定的质量标准。
关键创新:该框架的关键创新在于引入了验证器LLM,它能够自动评估解释的质量并提供反馈。这种自动验证机制可以有效地过滤掉不可靠的解释,并提高解释的整体质量。此外,迭代重馈机制允许解释器LLM逐步改进其解释,从而产生更准确、更忠实和更易于理解的解释。
关键设计:框架的关键设计包括:(1) 使用不同的LLM作为解释器和验证器,以避免单一模型的偏差;(2) 定义明确的评估指标,如忠实性、连贯性、完整性和幻觉风险,用于指导验证器LLM的评估过程;(3) 设计有效的反馈机制,将验证器LLM的评估结果转化为可操作的指令,指导解释器LLM进行改进;(4) 使用熵产生率(EPR)来监控迭代过程的稳定性和收敛性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架能够有效过滤不可靠的解释,并显著提高解释的语言可访问性。与原始XAI输出相比,生成的解释更易于理解。此外,对熵产生率(EPR)的分析表明,验证器的反馈能够逐步引导解释器朝着更稳定和连贯的推理方向发展。该框架在多个XAI技术和数据集上都取得了良好的效果。
🎯 应用场景
该研究成果可应用于各种需要可解释AI的领域,如医疗诊断、金融风险评估、法律判决等。通过提供更易于理解和验证的解释,可以提高用户对AI系统的信任度,促进AI技术在各个领域的广泛应用。未来,该框架可以进一步扩展到支持更多类型的XAI方法和数据集,并集成到现有的AI开发工具中。
📄 摘要(原文)
Large Language Models (LLMs) are increasingly used to translate the technical outputs of eXplainable Artificial Intelligence (XAI) methods into accessible natural-language explanations. However, existing approaches often lack guarantees of accuracy, faithfulness, and completeness. At the same time, current efforts to evaluate such narratives remain largely subjective or confined to post-hoc scoring, offering no safeguards to prevent flawed explanations from reaching end-users. To address these limitations, this paper proposes a Two-Stage LLM Meta-Verification Framework that consists of (i) an Explainer LLM that converts raw XAI outputs into natural-language narratives, (ii) a Verifier LLM that assesses them in terms of faithfulness, coherence, completeness, and hallucination risk, and (iii) an iterative refeed mechanism that uses the Verifier's feedback to refine and improve them. Experiments across five XAI techniques and datasets, using three families of open-weight LLMs, show that verification is crucial for filtering unreliable explanations while improving linguistic accessibility compared with raw XAI outputs. In addition, the analysis of the Entropy Production Rate (EPR) during the refinement process indicates that the Verifier's feedback progressively guides the Explainer toward more stable and coherent reasoning. Overall, the proposed framework provides an efficient pathway toward more trustworthy and democratized XAI systems.