Dialectic-Med: Mitigating Diagnostic Hallucinations via Counterfactual Adversarial Multi-Agent Debate

作者: Zhixiang Lu, Jionglong Su

分类: cs.CL

发布日期: 2026-04-13

备注: Accepted by ACL 2026

💡 一句话要点

Dialectic-Med：通过对抗性多智能体辩论缓解医疗诊断中的幻觉问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 医疗诊断 视觉问答 对抗学习 多智能体系统

📋 核心要点

现有医疗多模态大模型易受确认偏差影响，产生视觉幻觉，且思维链方法缺乏有效纠错机制。
Dialectic-Med构建多智能体对抗辩论框架，通过视觉证伪模块挑战诊断假设，保证推理基于验证过的视觉区域。
实验表明，Dialectic-Med在多个医疗VQA数据集上达到SOTA，显著提升了解释忠实度，并有效缓解了幻觉问题。

📝 摘要（中文）

医疗领域的多模态大型语言模型(MLLMs)存在严重的确认偏差，经常会产生视觉幻觉来支持最初的、可能错误的诊断假设。现有的思维链(CoT)方法缺乏内在的纠错机制，容易出现错误传播。为了弥补这一差距，我们提出了Dialectic-Med，这是一个多智能体框架，通过对抗性辩证来加强诊断的严谨性。与静态共识模型不同，Dialectic-Med协调了三个角色专业化智能体之间的动态交互：一个提出诊断假设的倡导者；一个配备了新型视觉证伪模块的反对者，主动检索矛盾的视觉证据来挑战倡导者；以及一个通过加权共识图解决冲突的调解者。通过显式地建模证伪的认知过程，我们的框架保证了诊断推理紧密地基于经过验证的视觉区域。在MIMIC-CXR-VQA、VQA-RAD和PathVQA上的实证评估表明，Dialectic-Med不仅实现了最先进的性能，而且从根本上提高了推理过程的可信度。除了准确性之外，我们的方法还显著提高了解释的忠实度，并果断地缓解了幻觉，从而在单智能体基线上建立了一个新的标准。

🔬 方法详解

问题定义：医疗领域的多模态大型语言模型在进行诊断时，容易受到确认偏差的影响，产生视觉幻觉，即捏造或错误解读视觉信息以支持预先存在的（可能错误的）诊断假设。现有的思维链（Chain-of-Thought, CoT）方法虽然试图提高推理过程的透明度，但缺乏内在的纠错机制，导致错误容易在推理链中传播和累积，最终影响诊断的准确性和可靠性。

核心思路：Dialectic-Med的核心思路是模拟人类辩论的过程，通过引入对抗性的观点来挑战和验证初始的诊断假设。具体来说，它构建了一个包含三个角色的多智能体系统：倡导者（Proponent）提出诊断假设，反对者（Opponent）负责寻找反驳证据，调解者（Mediator）负责评估双方的论点并达成共识。这种对抗性的过程能够迫使模型更严格地审查视觉信息，避免盲目地支持初始假设。

技术框架：Dialectic-Med框架包含三个主要模块，分别对应于三个智能体的角色：1) 倡导者（Proponent）：负责根据输入的图像和问题，生成初始的诊断假设。2) 反对者（Opponent）：配备了一个视觉证伪模块，该模块能够主动检索与倡导者提出的假设相矛盾的视觉证据。这个模块是框架的关键创新点。3) 调解者（Mediator）：负责评估倡导者和反对者的论点，并通过加权共识图来整合双方的信息，最终得出诊断结论。整个过程是一个迭代的辩论过程，直到调解者认为已经充分评估了所有相关信息。

关键创新：Dialectic-Med最重要的技术创新点在于引入了视觉证伪模块。该模块能够主动寻找与当前诊断假设相矛盾的视觉证据，从而有效地抑制了确认偏差和视觉幻觉。与传统的CoT方法相比，Dialectic-Med不是简单地生成推理链，而是通过对抗性的辩论来验证推理的正确性。

关键设计：视觉证伪模块的设计是关键。具体实现细节未知，但可以推测其可能包含以下设计：1) 使用视觉问答（VQA）模型来生成针对特定视觉区域的问题，以验证该区域是否支持当前假设。2) 使用图像检索技术来寻找与当前图像相似，但诊断结果不同的图像，从而提供反例。3) 使用对抗生成网络（GAN）来生成与当前假设相矛盾的视觉信息，以测试模型的鲁棒性。调解者模块可能使用注意力机制来对不同智能体的论点进行加权，并使用图神经网络来建模智能体之间的关系。

🖼️ 关键图片

📊 实验亮点

Dialectic-Med在MIMIC-CXR-VQA、VQA-RAD和PathVQA等多个医疗VQA数据集上取得了显著的性能提升，达到了最先进水平。与单智能体基线模型相比，Dialectic-Med不仅提高了诊断准确率，还显著提升了解释的忠实度，并有效缓解了视觉幻觉问题。具体性能数据未知，但摘要强调了其在准确性、解释性和可信度方面的综合优势。

🎯 应用场景

Dialectic-Med具有广泛的应用前景，可用于辅助医生进行疾病诊断、医学影像分析和病理切片判读等。通过提高诊断的准确性和可信度，该方法可以减少误诊和漏诊，改善患者的治疗效果。此外，该方法还可以用于医学教育和培训，帮助学生和医生提高诊断能力。未来，Dialectic-Med有望成为医疗人工智能领域的重要组成部分。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) in healthcare suffer from severe confirmation bias, often hallucinating visual details to support initial, potentially erroneous diagnostic hypotheses. Existing Chain-of-Thought (CoT) approaches lack intrinsic correction mechanisms, rendering them vulnerable to error propagation. To bridge this gap, we propose Dialectic-Med, a multi-agent framework that enforces diagnostic rigor through adversarial dialectics. Unlike static consensus models, Dialectic-Med orchestrates a dynamic interplay between three role-specialized agents: a proponent that formulates diagnostic hypotheses; an opponent equipped with a novel visual falsification module that actively retrieves contradictory visual evidence to challenge the Proponent; and a mediator that resolves conflicts via a weighted consensus graph. By explicitly modeling the cognitive process of falsification, our framework guarantees that diagnostic reasoning is tightly grounded in verified visual regions. Empirical evaluations on MIMIC-CXR-VQA, VQA-RAD, and PathVQA demonstrate that Dialectic-Med not only achieves state-of-the-art performance but also fundamentally enhances the trustworthiness of the reasoning process. Beyond accuracy, our approach significantly enhances explanation faithfulness and decisively mitigates hallucinations, establishing a new standard over single-agent baselines.

Dialectic-Med: Mitigating Diagnostic Hallucinations via Counterfactual Adversarial Multi-Agent Debate

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理