Quality Without Usefulness: LLM-Generated XAI Narratives as Trust Heuristics Rather Than Decision Aids
作者: Fabian Lukassen, Jan Herrmann, Christoph Weisser, Alexander Silbersdorff, Benjamin Saefken, Thomas Kneib
分类: cs.CL
发布日期: 2026-05-26
💡 一句话要点
LLM生成的可解释AI叙事未能提升决策效用,反成信任启发式
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 可解释AI 大型语言模型 自然语言解释 质量-效用差距 时间序列预测
📋 核心要点
- 现有方法生成的自然语言解释(NLE)在质量指标上表现良好,但其在实际决策中的效用性尚不明确。
- 该研究通过受控实验,考察了高质量NLE在时间序列能源预测任务中对决策准确性和信心的影响。
- 实验结果表明,NLE未能提高任务准确性,反而增加了参与者的自信心,甚至掩盖了模型失效的情况。
📝 摘要(中文)
先前研究表明,大型语言模型(LLM)可以将可解释AI(XAI)的输出转化为自然语言解释(NLE),并在诸如合理性、连贯性和可理解性等质量指标上获得高分。但是,解释质量是否能转化为实际效用?我们通过五个受控实验(跨60个测试实例的2,730个判断),在时间序列能源预测领域研究了这个问题,每个实验都将XAI文献中研究的效用的一个不同方面进行操作化。在将NLE质量保持在先前因子研究建立的高水平的情况下,我们发现NLE并没有提高任何五个任务的准确性,反而增加了自我报告的信心。安慰剂对照实验表明,这种信心的提升是由文本的存在而不是内容驱动的。在分布外检测任务中,NLE降低了LLM判断者标记不可靠预测的能力,提供了虚假的保证,掩盖了模型失效。我们将这些发现描述为质量-效用差距,并认为对XAI到NLE管道的评估必须扩展到文本质量指标之外,还要评估下游任务的性能。
🔬 方法详解
问题定义:现有研究侧重于提高LLM生成的可解释AI(XAI)叙事的质量,如合理性、连贯性和可理解性,但忽略了这些高质量叙事在实际应用中是否真正能帮助用户做出更好的决策。现有方法缺乏对XAI叙事效用性的系统评估,可能导致用户过度信任模型,甚至在模型出错时也无法察觉。
核心思路:该研究的核心思路是,将XAI叙事的质量和效用性区分开来,并采用受控实验的方法,考察高质量的LLM生成XAI叙事在下游任务中的实际效果。通过对比有无XAI叙事的情况下,用户在时间序列能源预测任务中的表现,评估XAI叙事是否能提高决策准确性、校准用户信心,以及帮助用户识别模型失效的情况。
技术框架:该研究采用实验设计方法,构建了五个受控实验,每个实验针对XAI效用性的一个特定方面进行评估。实验流程包括:1) 给定时间序列能源预测任务;2) 提供或不提供LLM生成的XAI叙事;3) 要求参与者做出预测或判断;4) 收集参与者的决策、信心水平等数据;5) 分析XAI叙事对决策准确性、信心校准和模型失效检测的影响。其中,LLM作为裁判评估预测的可靠性。
关键创新:该研究的关键创新在于,它揭示了LLM生成的高质量XAI叙事可能存在“质量-效用差距”,即高质量的叙事并不一定能提高决策效用,反而可能误导用户。此外,该研究还强调了在评估XAI系统时,除了关注文本质量指标外,更应关注其在下游任务中的实际效果。
关键设计:该研究的关键设计包括:1) 选择时间序列能源预测作为研究领域,因为它具有一定的复杂性和实际意义;2) 构建五个不同的实验,分别考察XAI叙事对决策准确性、信心校准、模型失效检测等不同方面的影响;3) 采用安慰剂对照实验,排除文本存在本身对用户信心的影响;4) 使用LLM作为裁判,评估预测的可靠性,模拟实际应用场景。
🖼️ 关键图片
📊 实验亮点
研究发现,高质量的LLM生成XAI叙事并未提高时间序列能源预测任务的准确性,反而增加了用户的自信心。在分布外检测任务中,NLE降低了LLM判断者标记不可靠预测的能力,提供了虚假的保证。安慰剂对照实验表明,信心的提升是由文本的存在而非内容驱动。这些结果表明,XAI叙事的质量并不等同于其效用。
🎯 应用场景
该研究成果对可解释AI系统的设计和评估具有重要指导意义。它提醒研究人员和开发者,不能仅仅追求XAI叙事的质量,更要关注其在实际应用中的效用。该研究可应用于金融、医疗、能源等领域,帮助用户更好地理解和信任AI系统,从而做出更明智的决策。未来的研究可以探索如何设计更有效的XAI叙事,以弥合质量-效用差距。
📄 摘要(原文)
Prior work shows that Large Language Models (LLMs) can transform Explainable AI (XAI) outputs into Natural Language Explanations (NLEs) that score highly on quality metrics such as plausibility, coherence, and comprehensibility. But does explanation quality translate to practical usefulness? We investigate this question in a time-series energy forecasting domain through five controlled experiments (2,730 judgments across 60 test instances), each operationalising a distinct facet of usefulness studied in the XAI literature. Holding NLE quality constant at the high levels established by a prior factorial study, we find that NLEs do not improve task accuracy on any of the five tasks, while inflating self-reported confidence. A placebic control shows that this confidence boost is driven by text presence rather than content. In an out-of-distribution detection task, NLEs reduce the LLM judge's ability to flag unreliable predictions, providing false reassurance that masks model failure. We characterise these findings as the Quality-Usefulness Gap and argue that evaluation of the XAI-to-NLE pipeline must extend beyond text-quality metrics to downstream task performance.