ReXSonoVQA: A Video QA Benchmark for Procedure-Centric Ultrasound Understanding

📄 arXiv: 2604.10916v1 📥 PDF

作者: Xucheng Wang, Xiaoman Zhang, Sung Eun Kim, Ankit Pal, Pranav Rajpurkar

分类: cs.CV, cs.AI

发布日期: 2026-04-13


💡 一句话要点

提出ReXSonoVQA:一个面向超声流程理解的视频问答基准

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 视频问答 超声理解 流程理解 视觉-语言模型 基准数据集

📋 核心要点

  1. 现有视觉-语言模型在超声图像理解方面缺乏对动态流程的理解能力,限制了其在超声机器人等领域的应用。
  2. ReXSonoVQA通过构建包含视频片段和问答对的数据集,针对动作目标推理、伪影消除和流程规划等能力进行评估。
  3. 实验表明,现有VLMs在处理超声视频的故障排除问题时表现不佳,揭示了模型在因果推理方面的不足。

📝 摘要(中文)

超声图像采集需要熟练的探头操作和实时调整。视觉-语言模型(VLMs)有望实现自主超声系统,但现有基准仅评估静态图像,缺乏对动态流程理解的评估。我们提出了ReXSonoVQA,一个视频问答基准,包含514个视频片段和514个问题(249个多项选择,265个自由回答),目标是评估三个能力:动作-目标推理、伪影消除与优化、流程上下文与规划。对Gemini 3 Pro、Qwen3.5-397B、LLaVA-Video-72B和Seed 2.0 Pro的零样本评估表明,VLMs可以提取一些流程信息,但故障排除问题仍然具有挑战性,且相对于纯文本基线没有显著提升,暴露了因果推理的局限性。ReXSonoVQA能够促进超声培训、指导和机器人自动化的感知系统开发。

🔬 方法详解

问题定义:论文旨在解决现有视觉-语言模型在超声视频理解方面缺乏流程理解能力的问题。现有方法主要关注静态图像,无法有效处理超声采集过程中的动态操作和实时调整,这限制了其在超声机器人、远程超声等领域的应用。

核心思路:论文的核心思路是构建一个专门针对超声流程理解的视频问答基准数据集ReXSonoVQA。通过设计针对性的问题,评估模型在动作-目标推理、伪影消除与优化、流程上下文与规划等方面的能力,从而推动相关领域的研究。

技术框架:ReXSonoVQA数据集包含514个超声视频片段和514个问题,问题类型包括多项选择题和自由回答题。数据集围绕超声采集过程中的关键步骤和常见问题进行设计,旨在全面评估模型对超声流程的理解能力。

关键创新:ReXSonoVQA是首个针对超声流程理解的视频问答基准数据集。它不仅关注静态图像的识别,更侧重于对动态操作和流程上下文的理解,弥补了现有基准的不足。

关键设计:ReXSonoVQA数据集的问题设计围绕三个核心能力展开:1) 动作-目标推理:理解操作动作与预期结果之间的关系;2) 伪影消除与优化:识别和解决超声图像中的伪影;3) 流程上下文与规划:理解超声采集的整体流程和规划。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文对Gemini 3 Pro、Qwen3.5-397B、LLaVA-Video-72B和Seed 2.0 Pro等先进VLMs进行了零样本评估。实验结果表明,这些模型在提取超声流程信息方面具备一定能力,但在故障排除问题上表现不佳,与纯文本基线相比没有显著提升,表明现有模型在因果推理方面存在局限性。

🎯 应用场景

ReXSonoVQA数据集可用于训练和评估视觉-语言模型在超声领域的应用,例如超声机器人、远程超声诊断、超声培训系统等。该研究有助于提高超声诊断的准确性和效率,降低对操作人员的技能要求,并促进超声技术的普及。

📄 摘要(原文)

Ultrasound acquisition requires skilled probe manipulation and real-time adjustments. Vision-language models (VLMs) could enable autonomous ultrasound systems, but existing benchmarks evaluate only static images, not dynamic procedural understanding. We introduce ReXSonoVQA, a video QA benchmark with 514 video clips and 514 questions (249 MCQ, 265 free-response) targeting three competencies: Action-Goal Reasoning, Artifact Resolution & Optimization, and Procedure Context & Planning. Zero-shot evaluation of Gemini 3 Pro, Qwen3.5-397B, LLaVA-Video-72B, and Seed 2.0 Pro shows VLMs can extract some procedural information, but troubleshooting questions remain challenging with minimal gains over text-only baselines, exposing limitations in causal reasoning. ReXSonoVQA enables developing perception systems for ultrasound training, guidance, and robotic automation.