Ultrasound Report Generation with Multimodal Large Language Models for Standardized Texts

作者: Peixuan Ge, Tongkun Su, Faqin Lv, Baoliang Zhao, Peng Zhang, Chi Hong Wong, Liang Yao, Yu Sun, Zenan Wang, Pak Kin Wong, Ying Hu

分类: eess.IV, cs.AI, cs.CV

发布日期: 2025-05-13 (更新: 2025-05-19)

💡 一句话要点

提出基于多模态大语言模型的超声报告生成框架，实现标准化文本输出。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 超声报告生成 多模态大语言模型 多语言训练 文本图像对齐 医学影像 标准化文本 视觉Transformer

📋 核心要点

超声报告生成面临图像差异大、依赖操作者、需标准化文本等难题，且缺乏一致性数据集。
提出统一框架，融合多语言片段训练，对齐模块化文本和图像数据，生成一致性报告。
实验表明，该方法在BLEU、ROUGE-L和CIDEr指标上均优于现有方法，并减少了错误。

📝 摘要（中文）

本文提出了一种统一的多器官和多语言超声(US)报告生成框架，旨在解决超声图像的可变性、操作者依赖性以及对标准化文本的需求等挑战。该方法集成了基于片段的多语言训练，并利用了超声报告的标准化特性。通过将模块化文本片段与多样化的图像数据对齐，并构建英汉双语数据集，该方法实现了跨器官部位和语言的一致且临床准确的文本生成。通过选择性地解冻视觉Transformer (ViT)进行微调，进一步提高了文本-图像对齐效果。与先前的最先进方法KMVE相比，该方法在BLEU评分上实现了约2%的相对提升，ROUGE-L提升约3%，CIDEr提升约15%，同时显著减少了缺失或不正确内容等错误。通过将多器官和多语言报告生成统一到一个可扩展的框架中，这项工作展示了在实际临床工作流程中的强大潜力。

🔬 方法详解

问题定义：超声报告生成任务面临的挑战包括：超声图像质量受操作者影响大，图像变异性高；缺乏大规模、标准化的超声图像数据集；需要生成符合临床规范的标准化文本报告。现有方法难以有效应对这些挑战，尤其是在多器官和多语言场景下，容易出现信息缺失、内容错误等问题。

核心思路：论文的核心思路是利用超声报告的标准化特性，将报告分解为模块化的文本片段，并将其与对应的超声图像进行对齐训练。通过构建多语言数据集，并采用多语言训练策略，实现跨器官和跨语言的报告生成。此外，通过选择性解冻ViT进行微调，进一步提升文本-图像对齐效果。

技术框架：该框架包含以下主要模块：1) 多模态数据输入模块，接收超声图像和对应的文本报告；2) 文本片段提取模块，将文本报告分解为模块化的文本片段；3) 多语言训练模块，利用英汉双语数据集进行训练，实现跨语言的知识迁移；4) 视觉Transformer (ViT)模块，用于提取图像特征；5) 文本生成模块，根据图像特征生成对应的文本报告；6) 微调模块，通过选择性解冻ViT，进一步优化文本-图像对齐效果。

关键创新：该论文的关键创新点在于：1) 提出了一种统一的多器官和多语言超声报告生成框架，能够处理不同器官和语言的报告生成任务；2) 采用了基于片段的多语言训练策略，有效利用了超声报告的标准化特性；3) 通过选择性解冻ViT进行微调，进一步提升了文本-图像对齐效果。

关键设计：在多语言训练中，使用了英汉双语数据集，并采用了跨语言的损失函数，以促进跨语言的知识迁移。在微调阶段，选择性地解冻ViT的某些层，以避免过拟合，并更好地适应超声图像的特点。具体的损失函数和网络结构细节在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在BLEU、ROUGE-L和CIDEr等指标上均优于先前的最先进方法KMVE。具体而言，BLEU评分提升约2%，ROUGE-L提升约3%，CIDEr提升约15%。此外，该方法还显著减少了报告中缺失或不正确内容等错误，提高了报告的质量和可靠性。

🎯 应用场景

该研究成果可应用于临床超声诊断工作流程中，辅助医生快速生成高质量的超声报告，提高诊断效率和准确性。尤其是在多语种环境下，可以为不同语言的患者提供服务。未来，该技术有望扩展到其他医学影像领域，例如X光、CT等，实现更广泛的临床应用。

📄 摘要（原文）

Ultrasound (US) report generation is a challenging task due to the variability of US images, operator dependence, and the need for standardized text. Unlike X-ray and CT, US imaging lacks consistent datasets, making automation difficult. In this study, we propose a unified framework for multi-organ and multilingual US report generation, integrating fragment-based multilingual training and leveraging the standardized nature of US reports. By aligning modular text fragments with diverse imaging data and curating a bilingual English-Chinese dataset, the method achieves consistent and clinically accurate text generation across organ sites and languages. Fine-tuning with selective unfreezing of the vision transformer (ViT) further improves text-image alignment. Compared to the previous state-of-the-art KMVE method, our approach achieves relative gains of about 2\% in BLEU scores, approximately 3\% in ROUGE-L, and about 15\% in CIDEr, while significantly reducing errors such as missing or incorrect content. By unifying multi-organ and multi-language report generation into a single, scalable framework, this work demonstrates strong potential for real-world clinical workflows.

Ultrasound Report Generation with Multimodal Large Language Models for Standardized Texts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理