AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation

作者: Anees Ur Rehman Hashmi, Numan Saeed, Christoph Lippert

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-01-06

🔗 代码/项目: GITHUB

💡 一句话要点

AnatomiX：面向胸部X光片解读的解剖学感知多模态大语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 胸部X光片解读 多模态大语言模型 解剖学 grounding 医学影像理解 视觉问答

📋 核心要点

现有方法在胸部X光片解读中缺乏准确的解剖学对应关系，导致空间推理和解剖学理解不足。
AnatomiX 采用两阶段方法，首先识别解剖结构并提取特征，然后利用大语言模型完成下游任务。
实验结果表明，AnatomiX 在多个任务上优于现有方法，性能提升超过 25%。

📝 摘要（中文）

多模态医学大语言模型在胸部X光片解读方面取得了显著进展，但在空间推理和解剖学理解方面仍然面临挑战。现有的 grounding 技术虽然提高了整体性能，但通常无法建立真正的解剖学对应关系，导致医学领域中不正确的解剖学理解。为了解决这个问题，我们提出了 AnatomiX，一个多任务多模态大语言模型，专门为解剖学 grounding 的胸部X光片解读而设计。受到放射学工作流程的启发，AnatomiX 采用两阶段方法：首先，它识别解剖结构并提取其特征，然后利用大语言模型执行各种下游任务，如短语 grounding、报告生成、视觉问答和图像理解。在多个基准上的大量实验表明，与现有方法相比，AnatomiX 在解剖学推理方面表现出色，并在解剖学 grounding、短语 grounding、grounding 诊断和grounding 描述任务中实现了超过 25% 的性能提升。代码和预训练模型可在 https://github.com/aneesurhashmi/anatomix 获取。

🔬 方法详解

问题定义：现有方法在胸部X光片解读中，虽然使用了 grounding 技术，但无法建立图像特征与解剖结构之间的准确对应关系，导致模型在理解和推理时出现偏差，尤其是在需要精确定位病灶或描述解剖结构的任务中。现有方法的痛点在于缺乏对解剖结构的显式建模和利用。

核心思路：AnatomiX 的核心思路是模拟放射科医生的工作流程，即首先识别图像中的解剖结构，然后基于这些结构进行诊断和描述。通过显式地提取和利用解剖结构信息，模型可以更好地理解图像内容，并进行更准确的推理。这种设计借鉴了人类专家知识，提高了模型的可解释性和可靠性。

技术框架：AnatomiX 采用两阶段框架。第一阶段是解剖结构识别和特征提取，使用一个专门训练的模型（具体模型结构未知）来检测和分割胸部X光片中的关键解剖结构，并提取这些结构的视觉特征。第二阶段是利用大语言模型进行下游任务，将提取的解剖结构特征与文本信息结合，输入到大语言模型中，完成如短语 grounding、报告生成、视觉问答等任务。大语言模型部分具体采用的模型结构未知。

关键创新：AnatomiX 的关键创新在于其解剖学感知的 grounding 方法。与以往的 grounding 方法不同，AnatomiX 显式地建模了图像中的解剖结构，并将这些结构信息融入到大语言模型的输入中。这种方法使得模型能够更好地理解图像内容，并进行更准确的推理。本质区别在于从隐式 grounding 转向了显式解剖结构 grounding。

关键设计：论文中没有详细描述解剖结构识别模型的具体结构和训练细节，以及大语言模型的具体选择和训练策略。关于损失函数、网络结构等技术细节也未知。但可以推测，解剖结构识别模型可能使用了分割或目标检测相关的损失函数，大语言模型可能使用了交叉熵损失函数。

🖼️ 关键图片

📊 实验亮点

AnatomiX 在多个基准测试中表现出色，与现有方法相比，在解剖学 grounding、短语 grounding、grounding 诊断和grounding 描述任务中实现了超过 25% 的性能提升。这些结果表明，AnatomiX 在解剖学推理方面具有显著优势，能够更准确地理解和解释胸部X光片。

🎯 应用场景

AnatomiX 具有广泛的应用前景，可用于辅助放射科医生进行胸部X光片的诊断和报告生成，提高诊断效率和准确性。该模型还可以应用于医学教育和培训，帮助学生更好地理解胸部X光片中的解剖结构和病理特征。未来，AnatomiX 可以扩展到其他医学影像模态和解剖部位，构建更通用的医学影像理解系统。

📄 摘要（原文）

Multimodal medical large language models have shown impressive progress in chest X-ray interpretation but continue to face challenges in spatial reasoning and anatomical understanding. Although existing grounding techniques improve overall performance, they often fail to establish a true anatomical correspondence, resulting in incorrect anatomical understanding in the medical domain. To address this gap, we introduce AnatomiX, a multitask multimodal large language model explicitly designed for anatomically grounded chest X-ray interpretation. Inspired by the radiological workflow, AnatomiX adopts a two stage approach: first, it identifies anatomical structures and extracts their features, and then leverages a large language model to perform diverse downstream tasks such as phrase grounding, report generation, visual question answering, and image understanding. Extensive experiments across multiple benchmarks demonstrate that AnatomiX achieves superior anatomical reasoning and delivers over 25% improvement in performance on anatomy grounding, phrase grounding, grounded diagnosis and grounded captioning tasks compared to existing approaches. Code and pretrained model are available at https://github.com/aneesurhashmi/anatomix

AnatomiX, an Anatomy-Aware Grounded Multimodal Large Language Model for Chest X-Ray Interpretation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册