MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

📄 arXiv: 2602.12705v2 📥 PDF

作者: Baorong Shi, Bo Cui, Boyuan Jiang, Deli Yu, Fang Qian, Haihua Yang, Huichao Wang, Jiale Chen, Jianfei Pan, Jieqiong Cao, Jinghao Lin, Kai Wu, Lin Yang, Shengsheng Yao, Tao Chen, Xiaojun Xiao, Xiaozhong Ji, Xu Wang, Yijun He, Zhixiong Yang

分类: cs.CL, cs.AI, cs.CV, eess.IV

发布日期: 2026-02-13 (更新: 2026-02-16)

备注: XIAOHE Medical AI team. Currently, the model is exclusively available on XIAOHE AI Doctor, accessible via both the App Store and the Douyin Mini Program


💡 一句话要点

MedXIAOHE:构建医学多模态大模型,提升临床应用中的医学理解与推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学多模态学习 视觉-语言模型 持续预训练 强化学习 医学推理 临床应用 知识图谱

📋 核心要点

  1. 现有医学多模态模型在知识覆盖范围和处理罕见疾病方面存在不足,限制了其在临床实践中的应用。
  2. MedXIAOHE通过实体感知的持续预训练框架,整合异构医学语料库,扩展知识覆盖范围,缓解长尾问题。
  3. 该模型结合强化学习和工具增强的Agent训练,提升了医学推理能力,并集成了用户偏好和证据推理以提高可靠性。

📝 摘要(中文)

本文介绍了MedXIAOHE,一个医学视觉-语言基础模型,旨在提升真实临床应用中的通用医学理解和推理能力。MedXIAOHE在各种医学基准测试中实现了最先进的性能,并在多种能力上超越了领先的闭源多模态系统。为了实现这一目标,我们提出了一个实体感知的持续预训练框架,该框架组织异构医学语料库,以扩大知识覆盖范围并减少长尾差距(例如,罕见疾病)。对于医学专家级别的推理和交互,MedXIAOHE通过强化学习和工具增强的Agent训练,整合了多样化的医学推理模式,从而实现具有可验证决策追踪的多步骤诊断推理。为了提高实际使用中的可靠性,MedXIAOHE集成了用户偏好规则、基于证据的推理和低幻觉长文本报告生成,并改进了对医学指令的遵循。我们发布此报告以记录我们的实际设计选择、扩展见解和评估框架,希望激发进一步的研究。

🔬 方法详解

问题定义:现有医学多模态模型在医学知识的覆盖范围上存在不足,尤其是在罕见疾病等长尾数据上表现较差。此外,模型的推理能力和可靠性也需要进一步提升,以满足实际临床应用的需求。现有方法难以有效整合异构医学数据,并且缺乏有效的机制来保证推理过程的透明性和可信度。

核心思路:MedXIAOHE的核心思路是通过构建一个大规模的医学视觉-语言基础模型,并采用实体感知的持续预训练框架来扩展模型的知识覆盖范围。同时,利用强化学习和工具增强的Agent训练来提升模型的推理能力和可靠性。通过整合用户偏好和证据推理,进一步提高模型在实际应用中的可用性。

技术框架:MedXIAOHE的技术框架主要包括以下几个模块:1) 实体感知的持续预训练模块,用于整合异构医学语料库并扩展知识覆盖范围;2) 医学推理模块,利用强化学习和工具增强的Agent训练来提升推理能力;3) 可靠性增强模块,整合用户偏好、证据推理和低幻觉长文本报告生成,以提高模型在实际应用中的可靠性。

关键创新:MedXIAOHE的关键创新在于:1) 提出了实体感知的持续预训练框架,能够有效整合异构医学数据并缓解长尾问题;2) 采用了强化学习和工具增强的Agent训练,提升了医学推理能力,并实现了可验证的决策追踪;3) 集成了用户偏好和证据推理,提高了模型在实际应用中的可靠性和可用性。

关键设计:在实体感知的持续预训练中,采用了实体链接技术来识别医学文本中的实体,并利用这些实体来指导模型的预训练过程。在医学推理模块中,使用了强化学习来优化Agent的推理策略,并利用外部工具来辅助推理过程。在可靠性增强模块中,设计了用户偏好规则和证据推理机制,以确保模型生成的报告符合用户的需求并基于可靠的证据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MedXIAOHE在多个医学基准测试中取得了最先进的性能,并在多种能力上超越了领先的闭源多模态系统。具体性能数据和对比基线未在摘要中明确给出,但强调了其在医学理解和推理能力上的显著提升。

🎯 应用场景

MedXIAOHE可应用于辅助诊断、医学报告生成、医学知识问答等多个领域。它能够帮助医生更准确地进行诊断,提高工作效率,并为患者提供更个性化的医疗服务。未来,该模型有望在远程医疗、智能健康管理等方面发挥更大的作用。

📄 摘要(原文)

We present MedXIAOHE, a medical vision-language foundation model designed to advance general-purpose medical understanding and reasoning in real-world clinical applications. MedXIAOHE achieves state-of-the-art performance across diverse medical benchmarks and surpasses leading closed-source multimodal systems on multiple capabilities. To achieve this, we propose an entity-aware continual pretraining framework that organizes heterogeneous medical corpora to broaden knowledge coverage and reduce long-tail gaps (e.g., rare diseases). For medical expert-level reasoning and interaction, MedXIAOHE incorporates diverse medical reasoning patterns via reinforcement learning and tool-augmented agentic training, enabling multi-step diagnostic reasoning with verifiable decision traces. To improve reliability in real-world use, MedXIAOHE integrates user-preference rubrics, evidence-grounded reasoning, and low-hallucination long-form report generation, with improved adherence to medical instructions. We release this report to document our practical design choices, scaling insights, and evaluation framework, hoping to inspire further research.