FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

作者: Xiaotian Hu, Junwei Huang, Mingxuan Liu, Kasidit Anmahapong, Yifei Chen, Yitong Luo, Yiming Huang, Xuguang Bai, Zihan Li, Yi Liao, Haibo Qu, Qiyuan Tian

分类: cs.CV, cs.MA

发布日期: 2026-03-10

💡 一句话要点

提出FetalAgents，用于胎儿超声图像和视频分析的多智能体系统。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 胎儿超声 多智能体系统 图像分析 视频分析 产前筛查

📋 核心要点

现有胎儿超声分析工具难以兼顾任务精度和端到端工作流程的通用性，限制了临床应用。
FetalAgents采用多智能体系统，动态协调专业视觉专家，提升诊断、测量和分割性能。
实验表明，FetalAgents在多个临床任务中表现出最稳健和准确的性能，优于其他模型。

📝 摘要（中文）

胎儿超声(US)是产前筛查的主要成像方式，但其解读严重依赖临床医生的专业知识。尽管深度学习和基础模型取得了进展，但现有的胎儿超声分析自动化工具难以平衡特定任务的准确性与支持端到端临床工作流程所需的全流程通用性。为了解决这些限制，我们提出了FetalAgents，这是第一个用于全面胎儿超声分析的多智能体系统。通过轻量级的智能体协调框架，FetalAgents动态地编排专业的视觉专家，以最大限度地提高诊断、测量和分割的性能。此外，FetalAgents通过支持端到端视频流摘要，超越了静态图像分析，其中关键帧在多个解剖平面上自动识别，由协调的专家分析，并与患者元数据合成为结构化的临床报告。跨八个临床任务的广泛多中心外部评估表明，与专门的模型和多模态大型语言模型(MLLM)相比，FetalAgents始终提供最稳健和准确的性能，最终为胎儿超声分析和报告提供了一个可审计的、与工作流程对齐的解决方案。

🔬 方法详解

问题定义：现有胎儿超声图像和视频分析方法，要么是针对特定任务设计的，缺乏通用性，无法支持完整的临床工作流程；要么是依赖大型多模态模型，但性能不如专门的模型，且缺乏可解释性。因此，需要一种既能保证特定任务的准确性，又能支持端到端流程的自动化分析工具。

核心思路：FetalAgents的核心思路是将复杂的胎儿超声分析任务分解为多个子任务，并为每个子任务分配专门的智能体（视觉专家）。通过一个轻量级的协调框架，动态地调度这些智能体，以完成整个分析流程。这种模块化的设计使得系统具有更高的灵活性和可扩展性，同时也能更好地利用领域知识。

技术框架：FetalAgents的整体架构包含以下几个主要模块：1) 视频流摘要模块：自动识别超声视频中的关键帧，并提取相关的解剖平面。2) 智能体池：包含多个专门的视觉专家，分别负责诊断、测量和分割等任务。3) 协调框架：根据当前的任务需求，动态地调度智能体池中的专家，并将它们的输出结果进行整合。4) 报告生成模块：将分析结果与患者元数据结合，生成结构化的临床报告。

关键创新：FetalAgents的关键创新在于其多智能体架构和动态协调框架。与传统的单模型方法相比，FetalAgents能够更好地利用领域知识，并针对不同的任务选择最合适的专家。与大型多模态模型相比，FetalAgents具有更高的可解释性和可控性。此外，FetalAgents还支持端到端的视频流摘要和报告生成，从而实现了更完整的自动化分析流程。

关键设计：协调框架的设计是FetalAgents的关键。具体来说，协调框架需要根据当前的任务需求，动态地选择合适的智能体，并将它们的输出结果进行整合。这可以通过一个基于规则的系统或者一个学习型的调度器来实现。此外，每个智能体的设计也需要考虑到其特定的任务需求，例如，诊断智能体可能需要使用更复杂的模型来提高准确性，而测量智能体可能需要使用更轻量级的模型来提高效率。

🖼️ 关键图片

📊 实验亮点

FetalAgents在八个临床任务的多中心外部评估中，始终表现出最稳健和准确的性能，优于专门的模型和多模态大型语言模型(MLLM)。这表明FetalAgents的多智能体架构和动态协调框架能够有效地利用领域知识，并针对不同的任务选择最合适的专家，从而实现更高的性能。

🎯 应用场景

FetalAgents可应用于产前筛查的各个环节，例如自动测量胎儿生物指标、检测胎儿畸形、评估胎儿生长发育状况等。该系统能够减轻临床医生的工作负担，提高诊断效率和准确性，并为远程医疗提供支持。未来，FetalAgents有望成为胎儿超声分析的标准工具，并促进人工智能在妇产科领域的广泛应用。

📄 摘要（原文）

Fetal ultrasound (US) is the primary imaging modality for prenatal screening, yet its interpretation relies heavily on the expertise of the clinician. Despite advances in deep learning and foundation models, existing automated tools for fetal US analysis struggle to balance task-specific accuracy with the whole-process versatility required to support end-to-end clinical workflows. To address these limitations, we propose FetalAgents, the first multi-agent system for comprehensive fetal US analysis. Through a lightweight, agentic coordination framework, FetalAgents dynamically orchestrates specialized vision experts to maximize performance across diagnosis, measurement, and segmentation. Furthermore, FetalAgents advances beyond static image analysis by supporting end-to-end video stream summarization, where keyframes are automatically identified across multiple anatomical planes, analyzed by coordinated experts, and synthesized with patient metadata into a structured clinical report. Extensive multi-center external evaluations across eight clinical tasks demonstrate that FetalAgents consistently delivers the most robust and accurate performance when compared against specialized models and multimodal large language models (MLLMs), ultimately providing an auditable, workflow-aligned solution for fetal ultrasound analysis and reporting.

FetalAgents: A Multi-Agent System for Fetal Ultrasound Image and Video Analysis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理