ReXInTheWild: A Unified Benchmark for Medical Photograph Understanding

📄 arXiv: 2603.19517v1 📥 PDF

作者: Oishi Banerjee, Sung Eun Kim, Alexandra N. Willauer, Julius M. Kernbach, Abeer Rihan Alomaish, Reema Abdulwahab S. Alghamdi, Hassan Rayhan Alomaish, Mohammed Baharoon, Xiaoman Zhang, Julian Nicolas Acosta, Christine Zhou, Pranav Rajpurkar

分类: cs.CV, cs.LG

发布日期: 2026-03-19

备注: 11 pages, 4 figures


💡 一句话要点

提出ReXInTheWild,用于评估视觉-语言模型理解医学照片的统一基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学图像理解 视觉-语言模型 基准数据集 多模态学习 临床推理

📋 核心要点

  1. 现有的视觉-语言模型在理解医学照片方面存在不足,缺乏一个综合性的基准来评估其医学内容理解能力。
  2. ReXInTheWild基准通过提供临床医生验证的医学照片和多项选择题,促进模型在自然图像理解和医学推理方面的能力。
  3. 实验结果表明,即使是领先的多模态大型语言模型在ReXInTheWild上也表现出显著的性能差异,突显了该基准的挑战性。

📝 摘要(中文)

本文介绍ReXInTheWild,这是一个包含955个由临床医生验证的多项选择题的基准,涵盖来自生物医学文献的484张照片,涉及七个临床主题。该基准旨在评估视觉-语言模型解释医学照片内容的能力。分析这些图像需要细粒度的自然图像理解和特定领域的医学推理,这对通用模型和专用模型都提出了挑战。在ReXInTheWild上评估时,领先的多模态大型语言模型表现出显著的性能差异:Gemini-3达到78%的准确率,其次是Claude Opus 4.5 (72%)和GPT-5 (68%),而医学专家模型MedGemma仅达到37%。系统的错误分析揭示了四类常见错误,从低级几何错误到高级推理失败,需要不同的缓解策略。该数据集已在HuggingFace上发布。

🔬 方法详解

问题定义:论文旨在解决视觉-语言模型在理解日常医学照片方面缺乏有效评估基准的问题。现有方法要么是通用型,无法深入理解医学领域的细粒度信息,要么是医学专用型,缺乏对自然图像的通用理解能力。因此,需要一个能够同时考察自然图像理解和医学推理能力的综合性基准。

核心思路:论文的核心思路是构建一个包含真实世界医学照片和对应临床问题的多项选择题数据集,以此来评估视觉-语言模型在医学图像理解方面的能力。通过分析模型的错误类型,可以进一步指导模型改进的方向。

技术框架:ReXInTheWild基准的构建流程主要包括以下几个阶段:1) 从生物医学文献中收集医学照片;2) 由临床医生对照片进行验证和标注;3) 基于照片内容设计多项选择题,并由临床医生进行审核;4) 将数据集发布在HuggingFace上,供研究人员使用。

关键创新:该基准的关键创新在于其真实性和临床相关性。数据集中的照片来源于真实的生物医学文献,问题由临床医生设计和验证,确保了基准的临床有效性。此外,该基准还提供了一个系统的错误分析框架,帮助研究人员深入了解模型的不足之处。

关键设计:ReXInTheWild包含484张医学照片和955个多项选择题,涵盖七个临床主题。评估指标为准确率。论文对多个领先的多模态大型语言模型进行了评估,并分析了它们的错误类型,包括低级几何错误、高级推理失败等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,Gemini-3在ReXInTheWild上达到了78%的准确率,Claude Opus 4.5为72%,GPT-5为68%,而医学专家模型MedGemma仅为37%。这表明即使是领先的多模态大型语言模型在医学图像理解方面仍有很大的提升空间。错误分析揭示了模型在几何理解、对象识别和医学推理等方面存在的不足。

🎯 应用场景

ReXInTheWild基准可用于评估和改进视觉-语言模型在远程医疗、在线健康咨询等领域的应用。通过提高模型对医学照片的理解能力,可以帮助医生进行诊断、制定治疗方案,并为患者提供更准确的健康信息。该基准的发布将促进医学图像理解领域的研究进展,并推动相关技术的实际应用。

📄 摘要(原文)

Everyday photographs taken with ordinary cameras are already widely used in telemedicine and other online health conversations, yet no comprehensive benchmark evaluates whether vision-language models can interpret their medical content. Analyzing these images requires both fine-grained natural image understanding and domain-specific medical reasoning, a combination that challenges both general-purpose and specialized models. We introduce ReXInTheWild, a benchmark of 955 clinician-verified multiple-choice questions spanning seven clinical topics across 484 photographs sourced from the biomedical literature. When evaluated on ReXInTheWild, leading multimodal large language models show substantial performance variation: Gemini-3 achieves 78% accuracy, followed by Claude Opus 4.5 (72%) and GPT-5 (68%), while the medical specialist model MedGemma reaches only 37%. A systematic error analysis also reveals four categories of common errors, ranging from low-level geometric errors to high-level reasoning failures and requiring different mitigation strategies. ReXInTheWild provides a challenging, clinically grounded benchmark at the intersection of natural image understanding and medical reasoning. The dataset is available on HuggingFace.