Explainable AI as a Double-Edged Sword in Dermatology: The Impact on Clinicians versus The Public

📄 arXiv: 2512.12500v1 📥 PDF

作者: Xuhai Xu, Haoyu Hu, Haoran Zhang, Will Ke Wang, Reina Wang, Luis R. Soenksen, Omar Badri, Sheharbano Jafry, Elise Burger, Lotanna Nwandu, Apoorva Mehta, Erik P. Duhaime, Asif Qasim, Hause Lin, Janis Pereira, Jonathan Hershon, Paulius Mui, Alejandro A. Gru, Noémie Elhadad, Lena Mamykina, Matthew Groh, Philipp Tschandl, Roxana Daneshjou, Marzyeh Ghassemi

分类: cs.HC, cs.AI

发布日期: 2025-12-14


💡 一句话要点

可解释AI在皮肤科应用中是一把双刃剑:对临床医生与公众的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可解释AI 皮肤科诊断 大型语言模型 自动化偏见 人机协作

📋 核心要点

  1. 现有AI在医疗诊断中存在不透明性,难以建立用户信任,可能导致过度依赖或偏见。
  2. 论文研究了可解释AI(XAI)在皮肤科诊断中的影响,特别是多模态大型语言模型(LLM)的解释效果。
  3. 实验表明,LLM解释对普通用户产生自动化偏见,而经验丰富的医生则能从中受益,但呈现顺序会影响结果。

📝 摘要(中文)

人工智能(AI)正日益渗透到医疗保健领域,从医生助手到消费者应用。由于AI算法的不透明性给人类交互带来挑战,可解释AI(XAI)通过提供AI决策的洞察力来解决这个问题,但有证据表明XAI可能会自相矛盾地导致过度依赖或偏见。我们展示了来自两个大规模实验(623名普通人;153名初级保健医生,PCP)的结果,这些实验结合了基于公平性的诊断AI模型和不同的XAI解释,以检验XAI辅助,特别是多模态大型语言模型(LLM),如何影响诊断性能。在不同肤色之间平衡的AI辅助提高了准确性并减少了诊断差异。然而,LLM解释产生了不同的效果:普通用户表现出更高的自动化偏见——当AI正确时准确性提高,当AI出错时准确性降低——而经验丰富的PCP保持了弹性,无论AI准确性如何都能受益。当AI不正确时,首先呈现AI建议也会导致两组人的结果更差。这些发现突出了XAI基于专业知识和时机的不同影响,强调了LLM在医学AI中是一把“双刃剑”,并为未来的人机协作系统设计提供了信息。

🔬 方法详解

问题定义:论文旨在解决AI在皮肤科诊断中应用时,由于其决策过程不透明,导致用户(包括普通人和医生)可能过度依赖AI或产生偏见的问题。现有方法缺乏对不同用户群体差异化影响的深入研究,以及对XAI呈现方式(例如,建议的呈现顺序)的考量。

核心思路:论文的核心思路是通过实验研究不同类型的用户(普通人和医生)在接受不同形式的XAI(特别是LLM生成的解释)辅助时,诊断准确性和偏见的变化。通过对比不同XAI解释方式和呈现顺序,揭示XAI对不同用户群体的影响差异,从而为设计更有效的人机协作系统提供指导。

技术框架:该研究采用了包含以下主要步骤的实验框架:1) 构建一个基于公平性的皮肤病诊断AI模型;2) 使用不同的XAI方法(包括LLM生成的解释)为AI的诊断结果提供解释;3) 招募普通人和医生作为实验参与者;4) 让参与者在有或没有AI辅助的情况下进行皮肤病诊断;5) 评估参与者的诊断准确性和偏见,并分析XAI的影响。

关键创新:论文的关键创新在于:1) 首次系统性地研究了LLM生成的XAI在皮肤科诊断中对不同用户群体(普通人和医生)的影响差异;2) 揭示了LLM解释可能导致普通用户产生自动化偏见,而经验丰富的医生则能从中受益;3) 发现了XAI的呈现顺序(先呈现AI建议还是先让用户独立诊断)会显著影响诊断结果。

关键设计:实验中,AI模型可能是一个深度学习模型,用于皮肤病图像的分类。XAI方法包括但不限于:1) 基于注意力机制的可视化解释,突出显示图像中与诊断相关的区域;2) LLM生成的自然语言解释,解释AI做出诊断的原因。实验中控制了AI的准确性,使其在某些情况下是正确的,而在另一些情况下是错误的,以便评估XAI在不同情况下的影响。实验还控制了AI建议的呈现顺序,以评估其对诊断结果的影响。

📊 实验亮点

实验结果表明,AI辅助可以提高诊断准确性并减少诊断差异。然而,LLM解释对普通用户产生自动化偏见,当AI正确时准确性提高,当AI错误时准确性降低。经验丰富的医生则能从LLM解释中受益,无论AI准确性如何。此外,当AI不正确时,首先呈现AI建议会导致两组人的结果更差。

🎯 应用场景

该研究成果可应用于医疗AI系统的设计,特别是皮肤科诊断辅助工具。通过了解XAI对不同用户的影响,可以设计更有效的人机协作界面,减少自动化偏见,提高诊断准确性,并最终改善患者的治疗效果。该研究也为其他医疗领域的AI应用提供了借鉴,有助于推动医疗AI的健康发展。

📄 摘要(原文)

Artificial intelligence (AI) is increasingly permeating healthcare, from physician assistants to consumer applications. Since AI algorithm's opacity challenges human interaction, explainable AI (XAI) addresses this by providing AI decision-making insight, but evidence suggests XAI can paradoxically induce over-reliance or bias. We present results from two large-scale experiments (623 lay people; 153 primary care physicians, PCPs) combining a fairness-based diagnosis AI model and different XAI explanations to examine how XAI assistance, particularly multimodal large language models (LLMs), influences diagnostic performance. AI assistance balanced across skin tones improved accuracy and reduced diagnostic disparities. However, LLM explanations yielded divergent effects: lay users showed higher automation bias - accuracy boosted when AI was correct, reduced when AI erred - while experienced PCPs remained resilient, benefiting irrespective of AI accuracy. Presenting AI suggestions first also led to worse outcomes when the AI was incorrect for both groups. These findings highlight XAI's varying impact based on expertise and timing, underscoring LLMs as a "double-edged sword" in medical AI and informing future human-AI collaborative system design.