Echo-α: Large Agentic Multimodal Reasoning Model for Ultrasound Interpretation
作者: Jing Zhang, Wentao Jiang, Tao Huang, Zhiwei Wang, Jianxin Liu, Jian Chen, Ping Ye, Gang Wang, Zengmao Wang, Bo Du, Dacheng Tao
分类: cs.CV
发布日期: 2026-04-30
备注: 12 pages, 4 figures. Technical report
🔗 代码/项目: GITHUB
💡 一句话要点
提出Echo-α,用于超声图像解读的Agentic多模态推理模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 超声图像解读 多模态推理 Agentic模型 深度学习 医学影像分析
📋 核心要点
- 现有超声图像解读方法在病灶定位和临床推理间存在trade-off,专用检测器定位准但推理弱,MLLM推理灵活但医学领域知识不足。
- Echo-α采用Agentic多模态推理,通过invoke-and-reason框架,整合器官特异性检测器和全局视觉信息,进行有依据的诊断决策。
- 通过监督学习和强化学习,Echo-α在肾脏和乳腺超声数据集上,定位(Grounding)和诊断(Diagnosis)性能均超越现有基线。
📝 摘要(中文)
超声图像解读既需要精确定位病灶,又需要全面的临床推理。现有方法通常只擅长其中一种能力:专用检测器定位能力强但推理能力有限,而多模态大型语言模型(MLLM)提供灵活的推理但缺乏在专业医学领域的扎实基础。我们提出了Echo-α,一种用于超声图像解读的Agentic多模态推理模型,它在invoke-and-reason框架内统一了这些优势。Echo-α经过训练,可以协调器官特异性检测器的输出,将其与全局视觉上下文集成,并将结果证据转化为超出仅检测器推理的有根据的诊断决策。这种行为通过九项任务的监督课程建立,然后通过不同奖励权衡下的顺序强化学习进行改进,从而产生用于病灶定位的Echo-α-Grounding和用于最终诊断的Echo-α-Diagnosis。在多中心肾脏和乳腺超声基准测试中,Echo-α在定位和诊断方面均优于有竞争力的基线。特别是在跨中心测试集上,Echo-α-Grounding达到56.73%/43.78%的F1@0.5,Echo-α-Diagnosis在肾脏/乳腺超声上达到74.90%/49.20%的总体准确率。这些结果表明,Agentic多模态推理可以将专用检测器转化为可验证的临床证据,为更准确、可解释和可转移的超声AI系统提供了一条实用途径。
🔬 方法详解
问题定义:超声图像解读需要同时具备精确的病灶定位和全面的临床推理能力。然而,现有的方法往往只能侧重于其中一个方面。例如,专门的检测器虽然在病灶定位方面表现出色,但缺乏进行复杂临床推理的能力。而多模态大型语言模型(MLLMs)虽然具备灵活的推理能力,但通常缺乏在特定医学领域的专业知识和扎实基础,导致在超声图像解读任务中表现不佳。因此,如何将病灶定位的准确性和临床推理的全面性结合起来,是当前超声图像解读领域面临的一个重要挑战。
核心思路:Echo-α的核心思路是利用Agentic多模态推理,将器官特异性检测器的输出与全局视觉上下文信息进行整合,从而做出有依据的诊断决策。这种方法的核心在于将检测器视为提供局部证据的“专家”,然后通过一个Agent来协调这些“专家”的意见,并结合全局信息进行综合判断。通过这种方式,Echo-α能够克服现有方法在定位和推理能力上的trade-off,实现更准确、可解释和可转移的超声图像解读。
技术框架:Echo-α的整体架构基于一个invoke-and-reason框架。该框架包含以下几个主要模块:1) 器官特异性检测器:用于检测超声图像中的特定器官和病灶。2) 多模态大型语言模型(MLLM):用于进行临床推理和诊断决策。3) Agent:负责协调检测器的输出,将其与全局视觉上下文信息进行整合,并将结果传递给MLLM。4) 训练模块:通过监督学习和强化学习,训练Agent的行为,使其能够做出最佳的诊断决策。整个流程如下:首先,超声图像经过器官特异性检测器,得到病灶的定位信息。然后,Agent将这些定位信息与全局视觉上下文信息进行整合,形成一个综合的证据。最后,MLLM基于这些证据进行临床推理,给出最终的诊断结果。
关键创新:Echo-α最重要的技术创新点在于其Agentic多模态推理框架。与现有方法相比,Echo-α不是简单地将检测器的输出作为MLLM的输入,而是通过一个Agent来协调和整合这些输出。这种方法有以下几个优势:1) 能够更好地利用器官特异性检测器的专业知识。2) 能够将局部信息与全局信息进行整合,从而做出更全面的判断。3) 能够通过强化学习来优化Agent的行为,使其能够做出最佳的诊断决策。
关键设计:Echo-α的关键设计包括以下几个方面:1) 九项任务的监督课程:用于初始化Agent的行为,使其能够理解超声图像的语义信息。2) 顺序强化学习:用于优化Agent的行为,使其能够做出最佳的诊断决策。3) 不同的奖励权衡:用于平衡定位和诊断的准确性。4) Echo-α-Grounding和Echo-α-Diagnosis:分别用于病灶定位和最终诊断,通过不同的训练策略进行优化。
🖼️ 关键图片
📊 实验亮点
Echo-α在多中心肾脏和乳腺超声基准测试中表现出色。在跨中心测试集上,Echo-α-Grounding在肾脏和乳腺超声上分别达到了56.73%和43.78%的F1@0.5,表明其具有良好的病灶定位能力。Echo-α-Diagnosis在肾脏和乳腺超声上分别达到了74.90%和49.20%的总体准确率,显著优于其他基线方法,验证了Agentic多模态推理在超声图像解读中的有效性。
🎯 应用场景
Echo-α在医疗诊断领域具有广泛的应用前景,尤其是在超声影像分析方面。它可以辅助医生进行更准确、高效的诊断,减少误诊率,提高患者的治疗效果。此外,Echo-α还可以应用于远程医疗、医学教育等领域,为医疗资源的普及和医学知识的传播做出贡献。未来,Echo-α有望成为一种重要的临床辅助工具,推动超声AI系统的发展。
📄 摘要(原文)
Ultrasound interpretation requires both precise lesion localization and holistic clinical reasoning, yet existing methods typically excel at only one of these capabilities: specialized detectors offer strong localization but limited reasoning, whereas multimodal large language models (MLLMs) provide flexible reasoning but weak grounding in specialized medical domains. We present Echo-α, an agentic multimodal reasoning model for ultrasound interpretation that unifies these strengths within an invoke-and-reason framework. Echo-α is trained to coordinate organ-specific detector outputs, integrate them with global visual context, and convert the resulting evidence into grounded diagnostic decisions beyond detector-only inference. This behavior is established through a nine-task supervised curriculum and then refined by sequential reinforcement learning under different reward trade-offs, yielding Echo-α-Grounding for lesion anchoring and Echo-α-Diagnosis for final diagnosis. On multi-center renal and breast ultrasound benchmarks, Echo-α outperforms competitive baselines on both grounding and diagnosis. In particular, on cross-center test sets, Echo-α-Grounding attains 56.73%/43.78% F1@0.5 and Echo- α-Diagnosis reaches 74.90%/49.20% overall accuracy on renal/breast ultrasound. These results suggest that agentic multimodal reasoning can turn specialized detectors into verifiable clinical evidence, offering a practical route toward ultrasound AI systems that are more accurate, interpretable, and transferable. The repository is at https://github.com/MiliLab/Echo-Alpha.