AD-Reasoning: Multimodal Guideline-Guided Reasoning for Alzheimer's Disease Diagnosis

📄 arXiv: 2603.24059v1 📥 PDF

作者: Qiuhui Chen, Yushan Deng, Xuancheng Yao, Yi Hong

分类: cs.CV

发布日期: 2026-03-25

备注: ICME 2026


💡 一句话要点

AD-Reasoning:提出多模态指导推理框架,用于阿尔茨海默病诊断

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阿尔茨海默病诊断 多模态融合 规则推理 强化学习 临床指南 可解释性 医学影像分析

📋 核心要点

  1. 现有阿尔茨海默病多模态诊断模型缺乏透明性,且与临床指南对齐不足,难以解释诊断依据。
  2. AD-Reasoning框架结合多模态数据和规则验证器,通过强化学习微调,确保诊断结果符合临床指南。
  3. 在AD-MultiSense数据集上,AD-Reasoning实现了最先进的诊断准确率,并提供了更透明的诊断理由。

📝 摘要(中文)

阿尔茨海默病(AD)的诊断需要整合神经影像学与异构临床证据,并在既定标准下进行推理,但大多数多模态模型仍然不透明且与指南的对齐性较弱。本文提出了AD-Reasoning,一个多模态框架,它将结构性MRI与六种临床模态相结合,并使用基于规则的验证器来生成结构化的、符合NIA-AA标准的诊断。AD-Reasoning结合了模态特定的编码器、双向交叉注意力融合以及强化微调,并使用可验证的奖励来强制输出格式、指南证据覆盖和推理-决策一致性。此外,本文还发布了AD-MultiSense,一个包含10,378次访问的多模态QA数据集,其中包含从ADNI/AIBL构建的、经过指南验证的理由。在AD-MultiSense上,AD-Reasoning实现了最先进的诊断准确率,并产生了结构化的理由,提高了相对于最新基线的透明度。

🔬 方法详解

问题定义:阿尔茨海默病(AD)的诊断依赖于多种模态的信息融合,包括神经影像和临床数据。现有的多模态模型通常是黑盒模型,缺乏透明性,难以解释诊断结果,并且与临床指南的对齐性较弱,无法保证诊断的可靠性和一致性。

核心思路:AD-Reasoning的核心思路是构建一个可解释的多模态推理框架,该框架能够利用结构性MRI和多种临床模态数据,并结合基于规则的验证器,生成符合NIA-AA标准的结构化诊断结果。通过强化学习微调,模型能够学习到符合临床指南的推理过程,从而提高诊断的准确性和透明性。

技术框架:AD-Reasoning框架包含以下几个主要模块:1) 模态特定编码器:用于提取不同模态数据的特征表示。2) 双向交叉注意力融合:用于融合不同模态的特征表示,捕捉模态间的关联性。3) 基于规则的验证器:用于验证诊断结果是否符合NIA-AA标准。4) 强化学习微调:使用可验证的奖励来强制输出格式、指南证据覆盖和推理-决策一致性。

关键创新:该论文的关键创新在于将规则推理与深度学习相结合,通过强化学习微调,使模型能够学习到符合临床指南的推理过程。此外,论文还提出了AD-MultiSense数据集,该数据集包含多模态数据和经过指南验证的理由,为模型的训练和评估提供了支持。

关键设计:在强化学习微调阶段,论文设计了可验证的奖励函数,该奖励函数考虑了输出格式、指南证据覆盖和推理-决策一致性。通过最大化奖励函数,模型能够学习到符合临床指南的推理策略。具体而言,奖励函数包括以下几个部分:1) 格式奖励:鼓励模型生成结构化的诊断结果。2) 证据奖励:鼓励模型覆盖临床指南中的关键证据。3) 一致性奖励:鼓励模型生成与证据一致的诊断决策。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AD-Reasoning在AD-MultiSense数据集上实现了最先进的诊断准确率,并提供了结构化的诊断理由,提高了诊断的透明度。实验结果表明,AD-Reasoning能够有效地利用多模态数据和临床指南,生成符合NIA-AA标准的诊断结果。相较于现有基线模型,AD-Reasoning在诊断准确率和透明度方面均有显著提升。

🎯 应用场景

AD-Reasoning框架可应用于阿尔茨海默病的辅助诊断,为临床医生提供更准确、透明的诊断结果和依据。该框架还可以扩展到其他疾病的诊断,通过结合多模态数据和临床指南,提高诊断的准确性和可靠性。此外,该研究提出的AD-MultiSense数据集可以促进多模态医学图像分析和临床决策支持系统的发展。

📄 摘要(原文)

Alzheimer's disease (AD) diagnosis requires integrating neuroimaging with heterogeneous clinical evidence and reasoning under established criteria, yet most multimodal models remain opaque and weakly guideline-aligned. We present AD-Reasoning, a multimodal framework that couples structural MRI with six clinical modalities and a rule-based verifier to generate structured, NIA-AA-consistent diagnoses. AD-Reasoning combines modality-specific encoders, bidirectional cross-attention fusion, and reinforcement fine-tuning with verifiable rewards that enforce output format, guideline evidence coverage, and reasoning--decision consistency. We also release AD-MultiSense, a 10,378-visit multimodal QA dataset with guideline-validated rationales built from ADNI/AIBL. On AD-MultiSense, AD-Reasoning achieves state-of-the-art diagnostic accuracy and produces structured rationales that improve transparency over recent baselines, while providing transparent rationales.