Checkup2Action: A Multimodal Clinical Check-up Report Dataset for Patient-Oriented Action Card Generation

📄 arXiv: 2605.11533v1 📥 PDF

作者: Sike Xiang, Shuang Chen, Kevin Qinghong Lin, Jialin Yu, Yijia Sun, Philip Torr, Amir Atapour-Abarghouei

分类: cs.CL, cs.CV

发布日期: 2026-05-12


💡 一句话要点

提出Checkup2Action数据集,用于评估多模态临床报告生成患者导向行动卡片的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 临床报告 行动卡片生成 自然语言处理 医学人工智能

📋 核心要点

  1. 现有方法难以将复杂的临床检查报告转化为患者易于理解和执行的行动建议。
  2. Checkup2Action数据集旨在提供一个基准,用于评估大型语言模型生成患者导向行动卡片的能力。
  3. 实验表明,现有大型语言模型在问题覆盖率、行动正确性、简洁性和安全性之间存在权衡。

📝 摘要(中文)

临床检查报告是多模态文档,包含页面布局、表格、数值生物标志物、异常标志、影像学发现和领域特定术语。这些异构证据难以被非专业人士理解并转化为具体的后续行动。尽管大型语言模型在医学总结和分诊支持方面显示出潜力,但它们从多模态检查报告中生成安全、优先排序和以患者为中心的行动的能力仍未得到充分评估。我们提出了Checkup2Action,一个用于结构化“行动卡片”生成的多模态临床检查报告数据集和基准。每张卡片描述一个临床相关问题,并指定其优先级、推荐科室、后续时间窗口、面向患者的解释以及给临床医生的问题,同时避免诊断或治疗处方声明。该数据集包含2,000份经过脱敏的真实检查报告,涵盖人口统计信息、体格检查、实验室检查、心血管评估、影像学相关证据和医生总结。我们将检查报告到行动的生成形式化为约束结构化生成任务,并引入了一个评估协议,涵盖问题覆盖率和精确度、优先级一致性、科室和时间推荐准确性、行动复杂性、有用性、可读性和安全合规性。通用和医学大型语言模型的实验揭示了问题覆盖率、行动正确性、简洁性和安全对齐之间的明显权衡。Checkup2Action为评估基于临床检查报告的患者导向推理提供了一个新的多模态基准。

🔬 方法详解

问题定义:论文旨在解决临床检查报告难以被非专业人士理解,并转化为具体行动建议的问题。现有方法,特别是大型语言模型,虽然在医学领域展现出潜力,但缺乏针对多模态临床报告生成安全、优先排序和以患者为中心的行动的基准。

核心思路:论文的核心思路是构建一个高质量的多模态数据集Checkup2Action,并将其形式化为一个约束结构化生成任务。通过定义“行动卡片”的结构,明确需要生成的信息类型(优先级、推荐科室、时间窗口、解释、问题),从而引导模型学习生成更实用、更安全的行动建议。这样设计的目的是为了弥合临床报告和患者行动之间的鸿沟。

技术框架:整体框架围绕Checkup2Action数据集展开。首先,收集并脱敏2000份真实临床检查报告,涵盖多种模态信息。然后,人工标注生成对应的“行动卡片”,形成训练数据。最后,利用这些数据训练和评估大型语言模型,并使用提出的评估协议进行性能分析。评估协议包含多个指标,如问题覆盖率、精确度、优先级一致性、科室和时间推荐准确性、行动复杂性、有用性、可读性和安全合规性。

关键创新:该论文的关键创新在于构建了一个新的多模态数据集Checkup2Action,并将其定义为一个约束结构化生成任务。与以往的医学文本摘要或问答任务不同,该任务更侧重于生成可执行的、以患者为中心的行动建议,并考虑了安全性、优先级等因素。此外,提出的评估协议也更全面地评估了生成行动卡片的质量。

关键设计:行动卡片的设计是关键。每张卡片包含以下字段:临床相关问题、优先级、推荐科室、后续时间窗口、面向患者的解释以及给临床医生的问题。这些字段的设计旨在提供全面、易懂、可操作的建议。此外,数据集的构建过程中,对报告进行了严格的脱敏处理,确保患者隐私。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通用和医学大型语言模型在Checkup2Action数据集上存在明显的权衡。例如,提高问题覆盖率可能会降低行动的正确性或增加安全性风险。这表明,现有模型在处理多模态临床报告并生成安全、有效的行动建议方面仍有提升空间。Checkup2Action数据集为进一步研究提供了有价值的基准。

🎯 应用场景

该研究成果可应用于智能健康助手、远程医疗、患者教育等领域。通过自动生成患者导向的行动卡片,帮助患者更好地理解自身健康状况,并采取适当的后续行动。这有助于提高患者的依从性,改善治疗效果,并减轻医生的工作负担。未来,该技术有望进一步发展,实现个性化的健康管理。

📄 摘要(原文)

Clinical check-up reports are multimodal documents that combine page layouts, tables, numerical biomarkers, abnormality flags, imaging findings, and domain-specific terminology. Such heterogeneous evidence is difficult for laypersons to interpret and translate into concrete follow-up actions. Although large language models show promise in medical summarisation and triage support, their ability to generate safe, prioritised, and patient-oriented actions from multimodal check-up reports remains under-benchmarked. We present \textbf{Checkup2Action}, a multimodal clinical check-up report dataset and benchmark for structured \textit{Action Card} generation. Each card describes one clinically relevant issue and specifies its priority, recommended department, follow-up time window, patient-facing explanation, and questions for clinicians, while avoiding diagnostic or treatment-prescriptive claims. The dataset contains 2,000 de-identified real-world check-up reports covering demographic information, physical examinations, laboratory tests, cardiovascular assessments, imaging-related evidence, and physician summaries. We formulate checkup-to-action generation as a constrained structured generation task and introduce an evaluation protocol covering issue coverage and precision, priority consistency, department and time recommendation accuracy, action complexity, usefulness, readability, and safety compliance. Experiments with general-purpose and medical large language models reveal clear trade-offs between issue coverage, action correctness, conciseness, and safety alignment. Checkup2Action provides a new multimodal benchmark for evaluating patient-oriented reasoning over clinical check-up reports.