Dialectic-Med: Mitigating Diagnostic Hallucinations via Counterfactual Adversarial Multi-Agent Debate

📄 arXiv: 2604.11258v1 📥 PDF

作者: Zhixiang Lu, Jionglong Su

分类: cs.CL

发布日期: 2026-04-13

备注: Accepted by ACL 2026


💡 一句话要点

Dialectic-Med:通过对抗性多智能体辩论缓解医疗诊断中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 医疗诊断 视觉问答 对抗学习 多智能体系统

📋 核心要点

  1. 现有医疗多模态大模型易受确认偏差影响,产生视觉幻觉,且思维链方法缺乏有效纠错机制。
  2. Dialectic-Med构建多智能体对抗辩论框架,通过视觉证伪模块挑战诊断假设,保证推理基于验证过的视觉区域。
  3. 实验表明,Dialectic-Med在多个医疗VQA数据集上达到SOTA,显著提升了解释忠实度,并有效缓解了幻觉问题。

📝 摘要(中文)

医疗领域的多模态大型语言模型(MLLMs)存在严重的确认偏差,经常会产生视觉幻觉来支持最初的、可能错误的诊断假设。现有的思维链(CoT)方法缺乏内在的纠错机制,容易出现错误传播。为了弥补这一差距,我们提出了Dialectic-Med,这是一个多智能体框架,通过对抗性辩证来加强诊断的严谨性。与静态共识模型不同,Dialectic-Med协调了三个角色专业化智能体之间的动态交互:一个提出诊断假设的倡导者;一个配备了新型视觉证伪模块的反对者,主动检索矛盾的视觉证据来挑战倡导者;以及一个通过加权共识图解决冲突的调解者。通过显式地建模证伪的认知过程,我们的框架保证了诊断推理紧密地基于经过验证的视觉区域。在MIMIC-CXR-VQA、VQA-RAD和PathVQA上的实证评估表明,Dialectic-Med不仅实现了最先进的性能,而且从根本上提高了推理过程的可信度。除了准确性之外,我们的方法还显著提高了解释的忠实度,并果断地缓解了幻觉,从而在单智能体基线上建立了一个新的标准。

🔬 方法详解

问题定义:医疗领域的多模态大型语言模型在进行诊断时,容易受到确认偏差的影响,产生视觉幻觉,即捏造或错误解读视觉信息以支持预先存在的(可能错误的)诊断假设。现有的思维链(Chain-of-Thought, CoT)方法虽然试图提高推理过程的透明度,但缺乏内在的纠错机制,导致错误容易在推理链中传播和累积,最终影响诊断的准确性和可靠性。

核心思路:Dialectic-Med的核心思路是模拟人类辩论的过程,通过引入对抗性的观点来挑战和验证初始的诊断假设。具体来说,它构建了一个包含三个角色的多智能体系统:倡导者(Proponent)提出诊断假设,反对者(Opponent)负责寻找反驳证据,调解者(Mediator)负责评估双方的论点并达成共识。这种对抗性的过程能够迫使模型更严格地审查视觉信息,避免盲目地支持初始假设。

技术框架:Dialectic-Med框架包含三个主要模块,分别对应于三个智能体的角色:1) 倡导者(Proponent):负责根据输入的图像和问题,生成初始的诊断假设。2) 反对者(Opponent):配备了一个视觉证伪模块,该模块能够主动检索与倡导者提出的假设相矛盾的视觉证据。这个模块是框架的关键创新点。3) 调解者(Mediator):负责评估倡导者和反对者的论点,并通过加权共识图来整合双方的信息,最终得出诊断结论。整个过程是一个迭代的辩论过程,直到调解者认为已经充分评估了所有相关信息。

关键创新:Dialectic-Med最重要的技术创新点在于引入了视觉证伪模块。该模块能够主动寻找与当前诊断假设相矛盾的视觉证据,从而有效地抑制了确认偏差和视觉幻觉。与传统的CoT方法相比,Dialectic-Med不是简单地生成推理链,而是通过对抗性的辩论来验证推理的正确性。

关键设计:视觉证伪模块的设计是关键。具体实现细节未知,但可以推测其可能包含以下设计:1) 使用视觉问答(VQA)模型来生成针对特定视觉区域的问题,以验证该区域是否支持当前假设。2) 使用图像检索技术来寻找与当前图像相似,但诊断结果不同的图像,从而提供反例。3) 使用对抗生成网络(GAN)来生成与当前假设相矛盾的视觉信息,以测试模型的鲁棒性。调解者模块可能使用注意力机制来对不同智能体的论点进行加权,并使用图神经网络来建模智能体之间的关系。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Dialectic-Med在MIMIC-CXR-VQA、VQA-RAD和PathVQA等多个医疗VQA数据集上取得了显著的性能提升,达到了最先进水平。与单智能体基线模型相比,Dialectic-Med不仅提高了诊断准确率,还显著提升了解释的忠实度,并有效缓解了视觉幻觉问题。具体性能数据未知,但摘要强调了其在准确性、解释性和可信度方面的综合优势。

🎯 应用场景

Dialectic-Med具有广泛的应用前景,可用于辅助医生进行疾病诊断、医学影像分析和病理切片判读等。通过提高诊断的准确性和可信度,该方法可以减少误诊和漏诊,改善患者的治疗效果。此外,该方法还可以用于医学教育和培训,帮助学生和医生提高诊断能力。未来,Dialectic-Med有望成为医疗人工智能领域的重要组成部分。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) in healthcare suffer from severe confirmation bias, often hallucinating visual details to support initial, potentially erroneous diagnostic hypotheses. Existing Chain-of-Thought (CoT) approaches lack intrinsic correction mechanisms, rendering them vulnerable to error propagation. To bridge this gap, we propose Dialectic-Med, a multi-agent framework that enforces diagnostic rigor through adversarial dialectics. Unlike static consensus models, Dialectic-Med orchestrates a dynamic interplay between three role-specialized agents: a proponent that formulates diagnostic hypotheses; an opponent equipped with a novel visual falsification module that actively retrieves contradictory visual evidence to challenge the Proponent; and a mediator that resolves conflicts via a weighted consensus graph. By explicitly modeling the cognitive process of falsification, our framework guarantees that diagnostic reasoning is tightly grounded in verified visual regions. Empirical evaluations on MIMIC-CXR-VQA, VQA-RAD, and PathVQA demonstrate that Dialectic-Med not only achieves state-of-the-art performance but also fundamentally enhances the trustworthiness of the reasoning process. Beyond accuracy, our approach significantly enhances explanation faithfulness and decisively mitigates hallucinations, establishing a new standard over single-agent baselines.