Baichuan-M4: A Clinical-Grade Medical Agent System for Continuous Care

📄 arXiv: 2606.08982v1 📥 PDF

作者: Aiyuan Yang, Chengfeng Dou, Da Pan, Dian Wang, Fan Yang, Fei Deng, Fei Li, Guangwei Ai, Hui Liu, Hongda Zhang, Jinyang Tai, Kai Lu, Lijun Liu, Linwei Chen, Linyu Li, Meiqing Guo, Peidong Guo, Qiang Ju, Rihui Xin, Shuai Wang, XinKai Ma, Xudong Chen, Yichuan Mo, Canbin Piao, Leyi Pan, Yihe Luo, Zian Wang

分类: cs.AI

发布日期: 2026-06-08


💡 一句话要点

提出Baichuan-M4以解决连续医疗护理问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续护理 医疗大模型 强化学习 多模态感知 临床工具 患者记忆管理 证据检索

📋 核心要点

  1. 现有医疗问答系统多为单次交互,缺乏持续护理能力,无法有效管理患者长期健康数据。
  2. Baichuan-M4通过构建一个协调的医疗代理系统,整合强化学习与多模态感知,提升医疗服务的连续性与准确性。
  3. 在多项医疗评估中,Baichuan-M4在知识、安全性和多模态理解等方面表现优异,幻觉率显著降低。

📝 摘要(中文)

Baichuan-M4是Baichuan Intelligence开发的临床级医疗大模型,旨在实现持续护理,而非单次医疗问答。该系统围绕三个核心支柱构建:Baichuan-Harness,一个统一的运行时环境,确保强化学习训练与实际部署的一致性,同时强制执行行动约束、工具使用、长期患者记忆和多代理协调;核心推理模型,采用持续护理强化学习框架进行训练,集成了跨度级奖励建模(SPAR++)、推理路径压缩、课程学习和稳定的策略优化;临床工具层,负责患者记忆管理、权威证据检索和跨文档、X光片及皮肤病的多模态医学感知。在跨维度医疗评估套件中,Baichuan-M4在静态医学知识与安全性、动态OSCE风格咨询、长期临床记忆、基于证据的检索、医学文档OCR和多模态图像理解等方面取得了领先结果,同时将幻觉率降低至3.3%。

🔬 方法详解

问题定义:本论文旨在解决现有医疗问答系统在持续护理方面的不足,尤其是在长期患者记忆和多次交互中的应用挑战。现有方法往往无法有效整合患者的历史数据与实时咨询。

核心思路:论文提出的核心解决思路是构建一个协调的医疗代理系统,利用强化学习框架和多模态感知技术,实现对患者长期健康数据的管理与实时咨询的有效结合。

技术框架:Baichuan-M4的整体架构包括三个主要模块:Baichuan-Harness(统一运行时)、核心推理模型和临床工具层。Baichuan-Harness确保训练与部署的一致性,核心推理模型负责推理与决策,临床工具层则处理患者记忆与证据检索。

关键创新:该系统的关键创新在于引入了跨度级奖励建模(SPAR++)和推理路径压缩技术,使得模型在处理复杂医疗咨询时更加高效与准确。这些创新使得Baichuan-M4在动态环境中表现优异。

关键设计:在设计上,系统采用了稳定的策略优化算法,并结合课程学习策略,以逐步提升模型的学习效果。此外,临床工具层的多模态感知能力使得系统能够处理不同类型的医学数据,如文档、图像等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在实验中,Baichuan-M4在静态医学知识、安全性和动态咨询等多个维度上均取得了领先结果,尤其在幻觉率方面降低至3.3%,显示出其在实际应用中的可靠性与有效性。

🎯 应用场景

Baichuan-M4的潜在应用场景包括医院的智能医疗助手、远程医疗咨询平台以及健康管理系统。其持续护理能力能够帮助医生更好地管理患者的长期健康记录,提高医疗服务的效率和质量,未来可能在医疗行业中发挥重要作用。

📄 摘要(原文)

Baichuan-M4 is Baichuan Intelligence's clinical-grade medical large model, designed for \emph{continuous care} rather than single-turn medical question answering. It is built as a coordinated medical agent system around three pillars: \textbf{Baichuan-Harness}, a unified runtime that keeps reinforcement-learning training and real-world deployment consistent while enforcing action constraints, tool use, long-term patient memory, and multi-agent coordination; a \textbf{core reasoning model} trained with a continuous-care reinforcement-learning framework that integrates span-level reward modeling (SPAR++), reasoning-path compression, curriculum learning, and stabilized policy optimization; and a \textbf{clinical tool layer} for patient-memory management, authoritative evidence-based retrieval, and multimodal medical perception across documents, X-rays, and dermatology. On a cross-dimensional medical evaluation suite, Baichuan-M4 attains leading results in static medical knowledge and safety, dynamic OSCE-style consultation, long-context clinical memory, evidence-based retrieval, medical document OCR, and multimodal image understanding, while lowering the hallucination rate to 3.3\%.