CCS: Clinical Consensus Selection for Radiology Report Generation
作者: Xi Zhang, Yingshu Li, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho
分类: cs.CL, cs.CV
发布日期: 2026-05-28
备注: 17 pages, 6 figures
💡 一句话要点
提出临床共识选择(CCS)框架,提升放射报告生成中推理阶段的报告质量。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 放射报告生成 临床共识选择 多模态学习 大型语言模型 医学影像 推理优化
📋 核心要点
- 现有放射报告生成方法在推理阶段存在瓶颈,默认解码选择的报告可能并非临床最优。
- 提出临床共识选择(CCS)框架,通过采样多个候选报告并选择临床共识最高的报告来提升性能。
- 实验表明,CCS在多个数据集和模型上均优于单路径解码和Best-of-N基线,尤其在临床指标上提升显著。
📝 摘要(中文)
放射报告生成(RRG)通常被建模为单路径生成任务,多模态大型语言模型(MLLM)生成一个解码报告作为最终输出。尽管最近的进展主要由扩大训练数据、模型容量和检索机制驱动,但在推理时提高报告质量仍未得到充分探索。本文观察到,固定的放射MLLM通常在其候选池中生成比默认解码选择的报告在临床上更强的报告,这表明推理时的决策仍然是一个被忽视的瓶颈。为了解决这个问题,我们提出了临床共识选择(CCS),这是一个与解码器无关的推理时选择框架,它采样多个候选报告,并选择在整个rollout池中具有最高临床共识的报告。CCS将基于文本的效用与通过图像-报告训练的多模态嵌入器计算的放射学适应效用统一起来,该嵌入器测量候选者在表面文本相似性之外的一致性。在三个数据集和多个放射MLLM上,CCS始终优于单路径解码和通用Best-of-N基线,尤其是在临床指标上。进一步的分析表明,图像接地的效用形成了一个不同于文本共识的选择轴,并且在推理时改进RRG仍有很大的空间。
🔬 方法详解
问题定义:放射报告生成任务通常采用单路径生成方式,即模型仅生成一个报告作为最终输出。然而,即使是训练好的模型,其候选报告池中也可能存在临床质量更高的报告,但由于解码策略的限制,这些优质报告未能被选中。现有方法主要集中在扩大训练数据和模型规模上,忽略了推理阶段的优化。
核心思路:CCS的核心思路是,通过采样多个候选报告,并选择在临床上具有最高共识的报告,从而提升最终报告的质量。这种方法借鉴了集成学习的思想,通过综合多个候选结果来提高鲁棒性和准确性。选择临床共识最高的报告,而非仅仅依赖模型的默认输出,能够更好地利用模型的能力。
技术框架:CCS框架主要包含以下几个步骤:1) 使用放射MLLM生成多个候选报告;2) 使用文本相似度度量和图像-报告多模态嵌入器计算候选报告之间的共识度;3) 根据计算出的共识度,选择得分最高的报告作为最终输出。该框架与具体的解码器无关,可以应用于不同的放射MLLM。
关键创新:CCS的关键创新在于引入了临床共识的概念,并将其用于推理阶段的报告选择。与传统的基于文本相似度的共识度量方法不同,CCS还利用了图像-报告多模态嵌入器来衡量候选报告在图像层面的共识度。这种多模态共识度量方法能够更准确地反映报告的临床质量。
关键设计:CCS的关键设计包括:1) 候选报告的采样策略,例如采用Top-k采样或Nucleus采样;2) 共识度度量方法,包括文本相似度度量(如ROUGE、BLEU)和图像-报告多模态嵌入器;3) 共识度加权策略,如何平衡文本共识和图像共识的重要性。论文中使用了放射学领域适配的多模态嵌入器,以更好地捕捉图像和报告之间的关联。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在三个数据集和多个放射MLLM上,CCS consistently 优于单路径解码和通用Best-of-N基线。尤其是在临床指标上,CCS取得了显著的提升,验证了其有效性。分析表明,图像接地的效用形成了一个不同于文本共识的选择轴,表明多模态信息融合的重要性。
🎯 应用场景
CCS框架可应用于各种放射报告生成系统,提升报告的临床质量和准确性,辅助医生进行诊断和治疗决策。该方法具有通用性,可与其他报告生成模型结合使用,提高临床工作效率,减少误诊漏诊的风险。未来可扩展到其他医学影像报告生成任务。
📄 摘要(原文)
Radiology report generation (RRG) is commonly formulated as a single-path generation task, where a multimodal large language model (MLLM) produces one decoded report as the final output. While recent progress has largely been driven by scaling training data, model capacity, and retrieval mechanisms, improving report quality at inference time remains underexplored. In this work, we observe that fixed radiology MLLMs often generate clinically stronger reports elsewhere in their candidate pool than the one selected by default decoding, suggesting that inference-time decision making remains an overlooked bottleneck. To address this, we propose Clinical Consensus Selection (CCS), a decoder-agnostic inference-time selection framework that samples multiple candidate reports and selects the one with the highest clinical consensus across the rollout pool. CCS unifies text-based utilities with a radiology-adapted utility computed by an image--report-trained multimodal embedder, which measures candidate agreement beyond surface-level textual similarity. Across three datasets and multiple radiology MLLMs, CCS consistently improves inference-time performance over single-path decoding and generic Best-of-N baselines, with particularly clear gains on clinical metrics. Further analysis shows that image-grounded utility forms a selection axis distinct from textual consensus and that substantial headroom remains for improving RRG at inference time.