Rethinking Patient Education as Multi-turn Multi-modal Interaction

📄 arXiv: 2604.14656v1 📥 PDF

作者: Zonghai Yao, Zhipeng Tang, Chengtao Lin, Xiong Luo, Benlu Wang, Juncheng Huang, Chin Siang Ong, Hong Yu

分类: cs.AI, cs.CL, cs.CV

发布日期: 2026-04-16

备注: Equal contribution for the first two authors


💡 一句话要点

提出MedImageEdu基准,用于评估多模态交互式患者教育智能体

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 患者教育 医学影像 人机交互 视觉语言模型

📋 核心要点

  1. 现有医学多模态基准侧重静态任务,忽略了患者教育中多轮交互和视觉引导的需求。
  2. MedImageEdu基准通过模拟医患对话,引入绘图工具,评估智能体在证据基础上的多模态教学能力。
  3. 实验表明,现有视觉语言模型在视觉基础、安全性和处理情绪化互动方面存在不足,有待提升。

📝 摘要(中文)

当前医学多模态基准测试主要集中于静态任务,如图像问答、报告生成和纯文本改写。而患者教育要求更高:系统必须识别图像中的相关证据,引导患者观察重点,用易懂的语言解释发现,并处理困惑或不安。现有患者教育工作主要基于文本,但图文结合的解释可能更有助于理解。本文提出了MedImageEdu,一个用于多轮、基于证据的放射学患者教育基准。每个案例提供放射学报告文本和图像。DoctorAgent与PatientAgent交互,后者受教育程度、健康素养和性格等隐藏因素影响。当患者问题需要视觉支持时,DoctorAgent可以根据报告、图像和当前问题向绘图工具发出指令。该工具返回图像,然后DoctorAgent生成包含图像和基于证据的通俗解释的多模态回复。MedImageEdu包含来自三个来源的150个案例,并从咨询、安全和范围、语言质量、绘图质量和图文回复质量五个维度评估咨询过程和最终多模态回复。对代表性的开源和闭源视觉语言模型智能体的评估表明,存在三个一致的差距:流畅的语言通常超过忠实的视觉基础,安全是所有疾病类别中最薄弱的维度,情绪紧张的互动比低教育或低健康素养更难处理。MedImageEdu提供了一个受控的测试平台,用于评估多模态智能体是否可以基于证据进行教学,而不仅仅是回答文本。

🔬 方法详解

问题定义:现有医学多模态基准主要关注静态任务,如图像问答,而忽略了患者教育场景下多轮交互、证据 grounding 和视觉引导的需求。现有的患者教育工作也主要集中在文本层面,缺乏对多模态信息利用的探索。因此,如何构建一个能够有效评估多模态智能体在患者教育场景下表现的基准测试,是一个亟待解决的问题。

核心思路:本文的核心思路是构建一个模拟医患对话的交互式环境,其中 DoctorAgent 需要根据 PatientAgent 的提问,从放射学报告和图像中提取相关证据,并利用绘图工具生成视觉解释,最终以多模态的形式向患者提供教育。这种交互式的方式能够更真实地反映患者教育的实际场景,并对智能体的多模态理解和推理能力提出更高的要求。

技术框架:MedImageEdu 基准测试包含以下几个主要组成部分:1) 放射学案例库,包含放射学报告文本和图像;2) PatientAgent,模拟患者的提问,其行为受教育程度、健康素养和性格等因素影响;3) DoctorAgent,负责回答患者的提问,并利用绘图工具生成视觉解释;4) 绘图工具,根据 DoctorAgent 的指令,在图像上进行标注或绘制;5) 评估指标,从咨询、安全和范围、语言质量、绘图质量和图文回复质量五个维度评估 DoctorAgent 的表现。

关键创新:MedImageEdu 的关键创新在于其交互式的评估方式和对多模态证据 grounding 的强调。与传统的静态基准测试不同,MedImageEdu 通过模拟医患对话,能够更全面地评估智能体在患者教育场景下的表现。此外,MedImageEdu 还引入了绘图工具,使得智能体能够生成视觉解释,从而更好地支持患者的理解。

关键设计:在 MedImageEdu 中,PatientAgent 的行为由一个隐藏的 profile 控制,该 profile 包含教育程度、健康素养和性格等因素。DoctorAgent 需要根据 PatientAgent 的提问和 profile 信息,选择合适的回答策略和绘图指令。评估指标的设计也充分考虑了患者教育的特殊性,例如,安全和范围指标用于评估 DoctorAgent 是否提供了准确和全面的信息,语言质量指标用于评估 DoctorAgent 是否使用了通俗易懂的语言。

📊 实验亮点

实验结果表明,现有视觉语言模型在 MedImageEdu 基准上表现出三个主要不足:语言流畅性优于视觉 grounding 的准确性,安全性是薄弱环节,处理情绪化互动更具挑战。这些发现为未来研究指明了方向。

🎯 应用场景

MedImageEdu基准可用于训练和评估面向患者教育的智能体,提升医疗服务的可及性和个性化程度。未来可应用于远程医疗、健康咨询等领域,帮助患者更好地理解病情和治疗方案,促进医患沟通。

📄 摘要(原文)

Most medical multimodal benchmarks focus on static tasks such as image question answering, report generation, and plain-language rewriting. Patient education is more demanding: systems must identify relevant evidence across images, show patients where to look, explain findings in accessible language, and handle confusion or distress. Yet most patient education work remains text-only, even though combined image-and-text explanations may better support understanding. We introduce MedImageEdu, a benchmark for multi-turn, evidence-grounded radiology patient education. Each case provides a radiology report with report text and case images. A DoctorAgent interacts with a PatientAgent, conditioned on a hidden profile that captures factors such as education level, health literacy, and personality. When a patient question would benefit from visual support, the DoctorAgent can issue drawing instructions grounded in the report, case images, and the current question to a benchmark-provided drawing tool. The tool returns image(s), after which the DoctorAgent produces a final multimodal response consisting of the image(s) and a grounded plain-language explanation. MedImageEdu contains 150 cases from three sources and evaluates both the consultation process and the final multimodal response along five dimensions: Consultation, Safety and Scope, Language Quality, Drawing Quality, and Image-Text Response Quality. Across representative open- and closed-source vision-language model agents, we find three consistent gaps: fluent language often outpaces faithful visual grounding, safety is the weakest dimension across disease categories, and emotionally tense interactions are harder than low education or low health literacy. MedImageEdu provides a controlled testbed for assessing whether multimodal agents can teach from evidence rather than merely answer from text.