Echo-α: Large Agentic Multimodal Reasoning Model for Ultrasound Interpretation

作者: Jing Zhang, Wentao Jiang, Tao Huang, Zhiwei Wang, Jianxin Liu, Jian Chen, Ping Ye, Gang Wang, Zengmao Wang, Bo Du, Dacheng Tao

分类: cs.CV

发布日期: 2026-04-30

备注: 12 pages, 4 figures. Technical report

🔗 代码/项目: GITHUB

💡 一句话要点

提出Echo-α，用于超声图像解读的Agentic多模态推理模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 超声图像解读 多模态推理 Agentic模型 深度学习 医学影像分析

📋 核心要点

现有超声图像解读方法在病灶定位和临床推理间存在trade-off，专用检测器定位准但推理弱，MLLM推理灵活但医学领域知识不足。
Echo-α采用Agentic多模态推理，通过invoke-and-reason框架，整合器官特异性检测器和全局视觉信息，进行有依据的诊断决策。
通过监督学习和强化学习，Echo-α在肾脏和乳腺超声数据集上，定位（Grounding）和诊断（Diagnosis）性能均超越现有基线。

📝 摘要（中文）

超声图像解读既需要精确定位病灶，又需要全面的临床推理。现有方法通常只擅长其中一种能力：专用检测器定位能力强但推理能力有限，而多模态大型语言模型(MLLM)提供灵活的推理但缺乏在专业医学领域的扎实基础。我们提出了Echo-α，一种用于超声图像解读的Agentic多模态推理模型，它在invoke-and-reason框架内统一了这些优势。Echo-α经过训练，可以协调器官特异性检测器的输出，将其与全局视觉上下文集成，并将结果证据转化为超出仅检测器推理的有根据的诊断决策。这种行为通过九项任务的监督课程建立，然后通过不同奖励权衡下的顺序强化学习进行改进，从而产生用于病灶定位的Echo-α-Grounding和用于最终诊断的Echo-α-Diagnosis。在多中心肾脏和乳腺超声基准测试中，Echo-α在定位和诊断方面均优于有竞争力的基线。特别是在跨中心测试集上，Echo-α-Grounding达到56.73%/43.78%的F1@0.5，Echo-α-Diagnosis在肾脏/乳腺超声上达到74.90%/49.20%的总体准确率。这些结果表明，Agentic多模态推理可以将专用检测器转化为可验证的临床证据，为更准确、可解释和可转移的超声AI系统提供了一条实用途径。

🔬 方法详解

问题定义：超声图像解读需要同时具备精确的病灶定位和全面的临床推理能力。然而，现有的方法往往只能侧重于其中一个方面。例如，专门的检测器虽然在病灶定位方面表现出色，但缺乏进行复杂临床推理的能力。而多模态大型语言模型（MLLMs）虽然具备灵活的推理能力，但通常缺乏在特定医学领域的专业知识和扎实基础，导致在超声图像解读任务中表现不佳。因此，如何将病灶定位的准确性和临床推理的全面性结合起来，是当前超声图像解读领域面临的一个重要挑战。

核心思路：Echo-α的核心思路是利用Agentic多模态推理，将器官特异性检测器的输出与全局视觉上下文信息进行整合，从而做出有依据的诊断决策。这种方法的核心在于将检测器视为提供局部证据的“专家”，然后通过一个Agent来协调这些“专家”的意见，并结合全局信息进行综合判断。通过这种方式，Echo-α能够克服现有方法在定位和推理能力上的trade-off，实现更准确、可解释和可转移的超声图像解读。

技术框架：Echo-α的整体架构基于一个invoke-and-reason框架。该框架包含以下几个主要模块：1) 器官特异性检测器：用于检测超声图像中的特定器官和病灶。2) 多模态大型语言模型（MLLM）：用于进行临床推理和诊断决策。3) Agent：负责协调检测器的输出，将其与全局视觉上下文信息进行整合，并将结果传递给MLLM。4) 训练模块：通过监督学习和强化学习，训练Agent的行为，使其能够做出最佳的诊断决策。整个流程如下：首先，超声图像经过器官特异性检测器，得到病灶的定位信息。然后，Agent将这些定位信息与全局视觉上下文信息进行整合，形成一个综合的证据。最后，MLLM基于这些证据进行临床推理，给出最终的诊断结果。

关键创新：Echo-α最重要的技术创新点在于其Agentic多模态推理框架。与现有方法相比，Echo-α不是简单地将检测器的输出作为MLLM的输入，而是通过一个Agent来协调和整合这些输出。这种方法有以下几个优势：1) 能够更好地利用器官特异性检测器的专业知识。2) 能够将局部信息与全局信息进行整合，从而做出更全面的判断。3) 能够通过强化学习来优化Agent的行为，使其能够做出最佳的诊断决策。

关键设计：Echo-α的关键设计包括以下几个方面：1) 九项任务的监督课程：用于初始化Agent的行为，使其能够理解超声图像的语义信息。2) 顺序强化学习：用于优化Agent的行为，使其能够做出最佳的诊断决策。3) 不同的奖励权衡：用于平衡定位和诊断的准确性。4) Echo-α-Grounding和Echo-α-Diagnosis：分别用于病灶定位和最终诊断，通过不同的训练策略进行优化。

🖼️ 关键图片

📊 实验亮点

Echo-α在多中心肾脏和乳腺超声基准测试中表现出色。在跨中心测试集上，Echo-α-Grounding在肾脏和乳腺超声上分别达到了56.73%和43.78%的F1@0.5，表明其具有良好的病灶定位能力。Echo-α-Diagnosis在肾脏和乳腺超声上分别达到了74.90%和49.20%的总体准确率，显著优于其他基线方法，验证了Agentic多模态推理在超声图像解读中的有效性。

🎯 应用场景

Echo-α在医疗诊断领域具有广泛的应用前景，尤其是在超声影像分析方面。它可以辅助医生进行更准确、高效的诊断，减少误诊率，提高患者的治疗效果。此外，Echo-α还可以应用于远程医疗、医学教育等领域，为医疗资源的普及和医学知识的传播做出贡献。未来，Echo-α有望成为一种重要的临床辅助工具，推动超声AI系统的发展。

📄 摘要（原文）

Ultrasound interpretation requires both precise lesion localization and holistic clinical reasoning, yet existing methods typically excel at only one of these capabilities: specialized detectors offer strong localization but limited reasoning, whereas multimodal large language models (MLLMs) provide flexible reasoning but weak grounding in specialized medical domains. We present Echo-α, an agentic multimodal reasoning model for ultrasound interpretation that unifies these strengths within an invoke-and-reason framework. Echo-α is trained to coordinate organ-specific detector outputs, integrate them with global visual context, and convert the resulting evidence into grounded diagnostic decisions beyond detector-only inference. This behavior is established through a nine-task supervised curriculum and then refined by sequential reinforcement learning under different reward trade-offs, yielding Echo-α-Grounding for lesion anchoring and Echo-α-Diagnosis for final diagnosis. On multi-center renal and breast ultrasound benchmarks, Echo-α outperforms competitive baselines on both grounding and diagnosis. In particular, on cross-center test sets, Echo-α-Grounding attains 56.73%/43.78% F1@0.5 and Echo- α-Diagnosis reaches 74.90%/49.20% overall accuracy on renal/breast ultrasound. These results suggest that agentic multimodal reasoning can turn specialized detectors into verifiable clinical evidence, offering a practical route toward ultrasound AI systems that are more accurate, interpretable, and transferable. The repository is at https://github.com/MiliLab/Echo-Alpha.

Echo-α: Large Agentic Multimodal Reasoning Model for Ultrasound Interpretation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理