The Persuasion Paradox: When LLM Explanations Fail to Improve Human-AI Team Performance

📄 arXiv: 2604.03237 📥 PDF

作者: Ruth Cohen, Lu Feng, Ayala Bloch, Sarit Kraus

分类: cs.HC, cs.AI, cs.CL

发布日期: 2026-04-07


💡 一句话要点

揭示LLM解释在提升人机团队表现中的悖论

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人机团队 任务表现 说服悖论 模型不确定性 视觉推理 语言推理 交互设计

📋 核心要点

  1. 现有的LLM解释虽然提升了用户信心,但并未有效改善人机团队的任务表现,反而在某些情况下可能导致表现下降。
  2. 论文通过多阶段揭示设计和组间比较,探讨了AI预测与解释的独立效应,提出了基于模型不确定性的界面设计。
  3. 实验结果显示,在视觉推理任务中,基于不确定性的设计显著提高了准确性和错误恢复能力,而在语言推理任务中,LLM解释则表现最佳。

📝 摘要(中文)

尽管大型语言模型(LLMs)生成的自然语言解释被广泛应用于提升透明度和信任,但其对人机团队客观表现的影响仍不明确。本文识别出一种说服悖论:流畅的解释系统性地增加用户对AI的信心和依赖,但并未可靠地提高任务准确性,甚至在某些情况下会削弱任务表现。通过三项控制实验,研究发现视觉推理任务中,LLM解释提高了信心但未能超越AI预测的准确性,并显著抑制用户从模型错误中恢复的能力。相反,在语言逻辑推理任务中,LLM解释则表现出最高的准确性和恢复率,超越了专家撰写的解释和基于概率的支持。这一发现表明,叙述性解释的有效性强烈依赖于任务类型,并受到认知模式的调节。

🔬 方法详解

问题定义:本文旨在解决LLM解释对人机团队表现影响的不确定性,现有方法未能有效提升任务准确性,反而可能导致用户过度依赖AI。

核心思路:通过多阶段实验设计,区分AI预测与解释的效果,探索不同任务类型下解释的有效性,强调基于模型不确定性的设计。

技术框架:研究采用了三项控制实验,分别针对视觉推理和语言推理任务,使用组间比较分析用户对AI的信心、依赖及任务表现。

关键创新:识别出“说服悖论”,即流畅的解释虽然提升信心,但未必提高准确性,反而可能抑制错误恢复能力,强调了任务依赖性。

关键设计:在视觉推理中,采用了基于预测概率的不确定性展示界面,并引入选择性自动化策略,将不确定的案例推给人类处理,以提高准确性和恢复能力。实验中使用了多种性能指标来评估不同接口的效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,在视觉推理任务中,基于不确定性的界面设计相比于传统的解释界面,准确性和错误恢复能力显著提高,具体提升幅度达到XX%。而在语言推理任务中,LLM解释的准确性和恢复率超越了专家撰写的解释,显示出LLM在特定任务中的优势。

🎯 应用场景

该研究的潜在应用领域包括人机协作系统、智能助手和教育技术等,能够为设计更有效的交互界面提供理论依据,提升用户在复杂任务中的表现。未来可能影响AI系统的解释设计和用户信任机制,推动更智能的人机协作。

📄 摘要(原文)

While natural-language explanations from large language models (LLMs) are widely adopted to improve transparency and trust, their impact on objective human-AI team performance remains poorly understood. We identify a Persuasion Paradox: fluent explanations systematically increase user confidence and reliance on AI without reliably improving, and in some cases undermining, task accuracy.Across three controlled human-subject studies spanning abstract visual reasoning (RAVEN matrices) and deductive logical reasoning (LSAT problems), we disentangle the effects of AI predictions and explanations using a multi-stage reveal design and between-subjects comparisons. In visual reasoning, LLM explanations increase confidence but do not improve accuracy beyond the AI prediction alone, and substantially suppress users' ability to recover from model errors. Interfaces exposing model uncertainty via predicted probabilities, as well as a selective automation policy that defers uncertain cases to humans, achieve significantly higher accuracy and error recovery than explanation-based interfaces.In contrast, for language-based logical reasoning tasks, LLM explanations yield the highest accuracy and recovery rates, outperforming both expert-written explanations and probability-based support. This divergence reveals that the effectiveness of narrative explanations is strongly task-dependent and mediated by cognitive modality.Our findings demonstrate that commonly used subjective metrics such as trust, confidence, and perceived clarity are poor predictors of human-AI team performance. Rather than treating explanations as a universal solution, we argue for a shift toward interaction designs that prioritize calibrated reliance and effective error recovery over persuasive fluency.