Agentic Explainable Artificial Intelligence (Agentic XAI) Approach To Explore Better Explanation

📄 arXiv: 2512.21066v2 📥 PDF

作者: Tomoaki Yamaguchi, Yutong Zhou, Masahiro Ryo, Keisuke Katsura

分类: cs.AI, cs.HC

发布日期: 2025-12-24 (更新: 2026-02-04)


💡 一句话要点

提出Agentic XAI框架,通过迭代优化解释提升农业推荐系统性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可解释人工智能 Agentic AI 大型语言模型 SHAP 迭代优化

📋 核心要点

  1. 现有XAI方法难以向非专业人士有效传达解释结果,阻碍了对AI预测的信任。
  2. 提出Agentic XAI框架,结合SHAP可解释性和LLM驱动的迭代优化,生成更易理解的解释。
  3. 在农业推荐系统用例中,该框架将推荐质量平均提升30-33%,但过度迭代会降低性能。

📝 摘要(中文)

可解释人工智能(XAI)能够基于数据理解因素与响应变量之间的关联,但将XAI输出传达给非专业人士仍然具有挑战性,从而阻碍了对基于AI的预测的信任。大型语言模型(LLM)已成为将技术解释转化为易于理解的叙述的有前途的工具,但agentic AI(LLM作为自主agent通过迭代改进运行)与XAI的集成仍未被探索。本研究提出了一个agentic XAI框架,该框架结合了基于SHAP的可解释性与多模态LLM驱动的迭代改进,以生成逐步增强的解释。作为一个用例,我们使用来自日本26个田地的水稻产量数据,将该框架测试为一个农业推荐系统。Agentic XAI最初提供了SHAP结果,并探索了如何在11轮改进迭代中(第0-10轮)通过额外的分析来改进解释。解释由人类专家(作物科学家)(n=12)和LLM(n=14)根据七个指标进行评估:特异性、清晰度、简洁性、实用性、上下文相关性、成本考虑和作物科学可信度。两个评估组都证实,该框架成功地提高了推荐质量,从第0轮开始平均得分提高了30-33%,并在第3-4轮达到峰值。然而,过度改进显示推荐质量大幅下降,表明存在偏差-方差权衡,早期轮次缺乏解释深度(偏差),而过度迭代引入了冗长和无根据的抽象(方差),正如指标特定分析所揭示的那样。这些发现表明,需要战略性提前停止(正则化)来优化实际效用,挑战了关于单调改进的假设,并为agentic XAI系统提供了基于证据的设计原则。

🔬 方法详解

问题定义:论文旨在解决XAI结果难以被非专业人士理解的问题。现有方法通常直接呈现复杂的XAI输出,缺乏针对目标受众的定制和优化,导致用户难以信任和采纳AI的建议。

核心思路:论文的核心思路是利用LLM的自然语言生成能力,将XAI的输出转化为更易于理解的解释。通过迭代改进,LLM可以逐步优化解释的质量,使其更具特异性、清晰度、简洁性、实用性、上下文相关性、成本意识和作物科学可信度。

技术框架:Agentic XAI框架包含以下主要模块:1) SHAP解释器:生成初始的特征重要性解释。2) LLM Agent:作为自主agent,接收SHAP解释并生成自然语言解释。3) 评估模块:使用人类专家和LLM评估生成的解释。4) 迭代优化:根据评估结果,LLM Agent进行迭代改进,生成更优的解释。整个流程循环进行,直到达到预定的停止条件。

关键创新:该方法最重要的创新点在于将agentic AI与XAI相结合,利用LLM的自主学习和迭代优化能力,自动生成和改进XAI解释。与传统方法相比,该方法能够更有效地将技术解释转化为用户友好的叙述。

关键设计:关键设计包括:1) 使用SHAP作为初始解释方法,提供特征重要性的定量评估。2) 设计合适的LLM prompt,引导LLM生成高质量的解释。3) 选择合适的评估指标,全面衡量解释的质量。4) 设置迭代停止条件,避免过度优化导致解释质量下降。论文还强调了偏差-方差权衡,并建议采用战略性提前停止(正则化)来优化实际效用。

📊 实验亮点

实验结果表明,Agentic XAI框架能够显著提高农业推荐系统的解释质量,平均得分提升30-33%。人类专家和LLM评估器均证实了该框架的有效性。然而,过度迭代会导致解释质量下降,表明存在偏差-方差权衡。最佳性能在迭代的早期阶段(第3-4轮)达到峰值。

🎯 应用场景

该研究成果可应用于各种需要向非专业人士解释AI决策的领域,例如医疗诊断、金融风险评估、法律判决等。通过将复杂的AI模型解释转化为易于理解的语言,可以提高用户对AI系统的信任度和采纳度,促进AI技术的广泛应用。

📄 摘要(原文)

Explainable artificial intelligence (XAI) enables data-driven understanding of factor associations with response variables, yet communicating XAI outputs to laypersons remains challenging, hindering trust in AI-based predictions. Large language models (LLMs) have emerged as promising tools for translating technical explanations into accessible narratives, yet the integration of agentic AI, where LLMs operate as autonomous agents through iterative refinement, with XAI remains unexplored. This study proposes an agentic XAI framework combining SHAP-based explainability with multimodal LLM-driven iterative refinement to generate progressively enhanced explanations. As a use case, we tested this framework as an agricultural recommendation system using rice yield data from 26 fields in Japan. The Agentic XAI initially provided a SHAP result and explored how to improve the explanation through additional analysis iteratively across 11 refinement rounds (Rounds 0-10). Explanations were evaluated by human experts (crop scientists) (n=12) and LLMs (n=14) against seven metrics: Specificity, Clarity, Conciseness, Practicality, Contextual Relevance, Cost Consideration, and Crop Science Credibility. Both evaluator groups confirmed that the framework successfully enhanced recommendation quality with an average score increase of 30-33% from Round 0, peaking at Rounds 3-4. However, excessive refinement showed a substantial drop in recommendation quality, indicating a bias-variance trade-off where early rounds lacked explanation depth (bias) while excessive iteration introduced verbosity and ungrounded abstraction (variance), as revealed by metric-specific analysis. These findings suggest that strategic early stopping (regularization) is needed for optimizing practical utility, challenging assumptions about monotonic improvement and providing evidence-based design principles for agentic XAI systems.