PulseMind: A Multi-Modal Medical Model for Real-World Clinical Diagnosis

作者: Jiao Xu, Junwei Liu, Jiangwei Lao, Qi Zhu, Yunpeng Zhao, Congyun Jin, Shinan Liu, Zhihong Lu, Lihe Zhang, Xin Chen, Jian Wang, Ping Wang

分类: cs.CV, cs.AI

发布日期: 2026-01-12

备注: Accepted to AAAI 2026

💡 一句话要点

PulseMind：用于真实临床诊断的多模态医学模型，解决异构输入和上下文理解难题。

🎯 匹配领域: 支柱八：物理动画 (Physics-based Animation)

关键词: 多模态医学模型 临床诊断 多轮对话 强化学习 医学图像 自然语言处理 医疗健康 数据集构建

📋 核心要点

现有医学多模态模型难以处理真实临床诊断中异构输入和持续上下文理解的挑战。
PulseMind 通过构建大规模多模态数据集、设计综合评估基准和定制训练框架来解决上述问题。
实验结果表明，PulseMind 在诊断咨询和公共医学基准上均表现出竞争力的性能。

📝 摘要（中文）

医学多模态模型的最新进展主要集中在皮肤病学、病理学或放射学等专业图像分析领域。然而，它们并未完全捕捉到真实临床诊断的复杂性，后者涉及异构输入，并且需要在医患互动期间进行持续的上下文理解。为了弥合这一差距，我们推出了 PulseMind，这是一个新的多模态诊断模型系列，它集成了系统策划的数据集、全面的评估基准和量身定制的训练框架。具体而言，我们首先构建了一个诊断数据集 MediScope，它包含 98,000 个真实的多轮咨询和 601,500 张医学图像，涵盖 10 多个主要临床科室和 200 多个亚专科。然后，为了更好地反映真实临床诊断的需求，我们开发了 PulseMind Benchmark，这是一个多轮诊断咨询基准，具有包含主动性、准确性、有用性和语言质量的四维评估协议。最后，我们设计了一个专为多模态临床诊断量身定制的训练框架，该框架以名为基于比较的强化策略优化 (CRPO) 的核心组件为中心。与绝对分数奖励相比，CRPO 使用来自多维比较的相对偏好信号来提供稳定且与人类对齐的训练指导。大量的实验表明，PulseMind 在诊断咨询基准和公共医学基准上都取得了具有竞争力的性能。

🔬 方法详解

问题定义：论文旨在解决真实临床诊断中，现有医学多模态模型无法有效处理异构输入和持续上下文理解的问题。现有方法通常专注于特定图像分析任务，缺乏对多轮医患交互过程的建模能力，难以模拟真实临床场景。

核心思路：PulseMind 的核心思路是构建一个能够理解和利用多模态信息（包括文本和图像），并能进行多轮对话的诊断模型。通过引入大规模多模态数据集和基于比较的强化学习方法，使模型能够更好地学习人类医生的诊断过程。

技术框架：PulseMind 的整体框架包括三个主要部分：1) MediScope 数据集：一个包含 98,000 个真实多轮咨询和 601,500 张医学图像的大规模数据集。2) PulseMind Benchmark：一个用于评估多轮诊断咨询的基准，包含主动性、准确性、有用性和语言质量四个维度。3) 基于比较的强化策略优化 (CRPO) 训练框架：一个专门为多模态临床诊断设计的训练框架，使用相对偏好信号进行训练。

关键创新：PulseMind 的关键创新在于提出了基于比较的强化策略优化 (CRPO) 训练方法。与传统的基于绝对分数奖励的强化学习方法不同，CRPO 使用来自多维比较的相对偏好信号，从而提供更稳定且与人类对齐的训练指导。这种方法能够更好地模拟人类医生的诊断过程，并提高模型的诊断准确性和实用性。

关键设计：CRPO 的关键设计包括：1) 使用多维比较来获取相对偏好信号。2) 设计合适的奖励函数，以鼓励模型生成高质量的诊断建议。3) 采用合适的网络结构来融合多模态信息，例如使用 Transformer 模型来处理文本和图像数据。具体的参数设置和网络结构细节在论文中可能未完全公开，属于未知信息。

🖼️ 关键图片

📊 实验亮点

PulseMind 在自建的 PulseMind Benchmark 和公共医学基准上都取得了具有竞争力的性能。CRPO 训练方法能够提供更稳定且与人类对齐的训练指导，从而提高模型的诊断准确性和实用性。具体性能数据和提升幅度需要在论文中查找，此处为未知信息。

🎯 应用场景

PulseMind 有潜力应用于智能辅助诊断、远程医疗、医学教育等领域。它可以帮助医生提高诊断效率和准确性，尤其是在资源匮乏的地区。未来，PulseMind 可以作为医生助手，提供诊断建议，并辅助进行病例分析，从而改善医疗服务质量。

📄 摘要（原文）

Recent advances in medical multi-modal models focus on specialized image analysis like dermatology, pathology, or radiology. However, they do not fully capture the complexity of real-world clinical diagnostics, which involve heterogeneous inputs and require ongoing contextual understanding during patient-physician interactions. To bridge this gap, we introduce PulseMind, a new family of multi-modal diagnostic models that integrates a systematically curated dataset, a comprehensive evaluation benchmark, and a tailored training framework. Specifically, we first construct a diagnostic dataset, MediScope, which comprises 98,000 real-world multi-turn consultations and 601,500 medical images, spanning over 10 major clinical departments and more than 200 sub-specialties. Then, to better reflect the requirements of real-world clinical diagnosis, we develop the PulseMind Benchmark, a multi-turn diagnostic consultation benchmark with a four-dimensional evaluation protocol comprising proactiveness, accuracy, usefulness, and language quality. Finally, we design a training framework tailored for multi-modal clinical diagnostics, centered around a core component named Comparison-based Reinforcement Policy Optimization (CRPO). Compared to absolute score rewards, CRPO uses relative preference signals from multi-dimensional com-parisons to provide stable and human-aligned training guidance. Extensive experiments demonstrate that PulseMind achieves competitive performance on both the diagnostic consultation benchmark and public medical benchmarks.

PulseMind: A Multi-Modal Medical Model for Real-World Clinical Diagnosis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理