Dolphin v1.0 Technical Report

📄 arXiv: 2509.25748v3 📥 PDF

作者: Taohan Weng, Kaibing Hu, Henan Liu, Siya Liu, Xiaoyang Liu, Zhenyu Liu, Jiren Ren, Boyan Wang, Boyang Wang, Yiyu Wang, Yalun Wu, Chaoran Yan, Kaiwen Yan, Jinze Yu, Chi Zhang, Duo Zhang, Haoyun Zheng, Xiaoqing Guo, Jacques Souquet, Hongcheng Guo, Anjie Le

分类: cs.CV, cs.AI

发布日期: 2025-09-30 (更新: 2025-10-19)


💡 一句话要点

Dolphin v1.0:首个大规模多模态超声影像基础模型,统一解决多种临床任务。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 超声影像 多模态学习 深度学习 医学影像 强化学习

📋 核心要点

  1. 现有超声影像AI模型泛化性差,难以应对超声影像的噪声和多样性,限制了其临床应用。
  2. Dolphin系列模型通过大规模多模态数据集和三阶段训练策略,提升了超声影像AI的感知、泛化和临床适应性。
  3. Dolphin R1在U2-Bench超声任务上取得了显著提升,U2-score是第二名模型的两倍以上,达到新的SOTA。

📝 摘要(中文)

超声技术在现代医学中至关重要,但面临操作者依赖性、图像噪声和实时扫描等挑战,阻碍了人工智能的整合。虽然大型多模态模型在其他医学影像领域表现出色,但它们难以应对超声的复杂性。为了解决这个问题,我们推出了Dolphin v1.0 (V1)及其推理增强版本Dolphin R1,这是首个大规模多模态超声基础模型,在一个统一的视觉-语言框架中统一了各种临床任务。为了解决超声的可变性和噪声问题,我们策划了一个200万规模的多模态数据集,结合了教科书知识、公共数据、合成样本和通用语料库。这确保了强大的感知、泛化和临床适应性。Dolphin系列采用三阶段训练策略:领域专业预训练、指令驱动对齐和基于强化学习的优化。Dolphin v1.0在分类、检测、回归和报告生成方面提供了可靠的性能。Dolphin R1通过强化学习和超声特定的奖励来增强诊断推理、推理透明度和可解释性。在U2-Bench上对八个超声任务进行评估,Dolphin R1的U2-score达到0.5835,是第二好模型(0.2968)的两倍以上,创造了新的state of the art。Dolphin v1.0也表现出很强的竞争力,验证了统一框架的有效性。比较表明,推理增强训练显著提高了诊断准确性、一致性和可解释性,突出了其在高风险医疗人工智能中的重要性。

🔬 方法详解

问题定义:现有超声影像AI模型通常针对特定任务设计,缺乏通用性和泛化能力。超声影像本身具有噪声大、变异性强等特点,进一步加剧了模型训练的难度。现有方法难以有效利用多模态信息,例如教科书知识和临床报告,导致模型性能受限。

核心思路:Dolphin系列模型的核心思路是构建一个统一的多模态超声影像基础模型,能够处理多种临床任务。通过大规模数据集的训练,模型能够学习到超声影像的通用特征表示,从而提高泛化能力。引入推理增强训练,提升模型的诊断准确性、一致性和可解释性。

技术框架:Dolphin系列模型采用三阶段训练策略。第一阶段是领域专业预训练,利用大规模超声影像数据集进行预训练,使模型学习到超声影像的通用特征。第二阶段是指令驱动对齐,通过指令微调,使模型能够理解和执行各种临床任务。第三阶段是基于强化学习的优化,利用超声特定的奖励函数,进一步提升模型的诊断推理能力。

关键创新:Dolphin系列模型的关键创新在于:1) 构建了大规模多模态超声影像数据集,包含教科书知识、公共数据、合成样本和通用语料库。2) 提出了三阶段训练策略,有效提升了模型的性能和泛化能力。3) 引入了推理增强训练,显著提高了模型的诊断准确性、一致性和可解释性。

关键设计:Dolphin R1使用强化学习来优化模型的推理过程。奖励函数的设计至关重要,需要结合超声影像的特点和临床需求。例如,可以设计奖励函数来鼓励模型生成更准确、更完整的诊断报告。具体的网络结构和参数设置在论文中没有详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Dolphin R1在U2-Bench基准测试中取得了显著成果,U2-score达到0.5835,是第二名模型(0.2968)的两倍以上,创造了新的state of the art。Dolphin v1.0也表现出很强的竞争力,验证了统一框架的有效性。推理增强训练显著提高了诊断准确性、一致性和可解释性。

🎯 应用场景

Dolphin系列模型可应用于多种临床场景,包括超声影像的分类、检测、分割、报告生成等。该模型能够辅助医生进行诊断,提高诊断效率和准确性,尤其是在缺乏经验的医生或资源有限的地区,具有重要的应用价值。未来,该模型有望实现超声影像的自动化分析和诊断,推动医疗人工智能的发展。

📄 摘要(原文)

Ultrasound is crucial in modern medicine but faces challenges like operator dependence, image noise, and real-time scanning, hindering AI integration. While large multimodal models excel in other medical imaging areas, they struggle with ultrasound's complexities. To address this, we introduce Dolphin v1.0 (V1) and its reasoning-augmented version, Dolphin R1-the first large-scale multimodal ultrasound foundation models unifying diverse clinical tasks in a single vision-language framework.To tackle ultrasound variability and noise, we curated a 2-million-scale multimodal dataset, combining textbook knowledge, public data, synthetic samples, and general corpora. This ensures robust perception, generalization, and clinical adaptability.The Dolphin series employs a three-stage training strategy: domain-specialized pretraining, instruction-driven alignment, and reinforcement-based refinement. Dolphin v1.0 delivers reliable performance in classification, detection, regression, and report generation. Dolphin R1 enhances diagnostic inference, reasoning transparency, and interpretability through reinforcement learning with ultrasound-specific rewards.Evaluated on U2-Bench across eight ultrasound tasks, Dolphin R1 achieves a U2-score of 0.5835-over twice the second-best model (0.2968) setting a new state of the art. Dolphin v1.0 also performs competitively, validating the unified framework. Comparisons show reasoning-enhanced training significantly improves diagnostic accuracy, consistency, and interpretability, highlighting its importance for high-stakes medical AI.