Random Direct Preference Optimization for Radiography Report Generation

📄 arXiv: 2509.21351v1 📥 PDF

作者: Valentin Samokhin, Boris Shirokikh, Mikhail Goncharov, Dmitriy Umerenkov, Maksim Bobrin, Ivan Oseledets, Dmitry Dylov, Mikhail Belyaev

分类: cs.CV, cs.AI, cs.CL

发布日期: 2025-09-19


💡 一句话要点

提出基于随机直接偏好优化的胸片报告生成方法,提升临床指标。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 放射影像报告生成 直接偏好优化 随机对比学习 医学图像分析 视觉语言模型

📋 核心要点

  1. 现有放射影像报告生成方法在临床应用中质量不足,无法有效缓解放射科医生的工作压力。
  2. 论文提出一种基于直接偏好优化(DPO)的框架,利用随机对比采样构建训练对,无需人工标注。
  3. 实验表明,该方法在不增加额外训练数据的情况下,可将临床性能指标提升高达5%。

📝 摘要(中文)

放射影像报告生成(RRG)作为减轻放射科医生日益增长工作量的有前景的工具,在医学图像分析领域受到了广泛关注。尽管取得了许多进展,但现有方法尚未达到在实际临床环境中部署所需的质量。同时,大型视觉语言模型(VLMs)通过采用最初为大型语言模型(LLMs)设计的训练策略(如对齐技术)在通用领域取得了显著进展。本文提出了一种与模型无关的框架,利用直接偏好优化(DPO)来提高RRG的准确性。我们的方法利用随机对比采样来构建训练对,无需奖励模型或人工偏好注释。通过在三个最先进的模型上补充我们的随机DPO进行的实验表明,我们的方法在不需要任何额外训练数据的情况下,将临床性能指标提高了高达5%。

🔬 方法详解

问题定义:放射影像报告生成(RRG)旨在自动生成对放射影像的诊断报告,以减轻放射科医生的工作负担。然而,现有RRG方法生成的报告质量不高,难以满足临床实际需求,例如准确性和相关性不足。现有方法依赖于复杂的奖励模型或人工标注的偏好数据,增加了训练成本和难度。

核心思路:论文的核心思路是利用直接偏好优化(DPO)框架,通过随机对比采样生成训练数据,避免了对奖励模型或人工标注的依赖。DPO直接优化策略,旨在使模型生成的报告更符合临床需求,提高报告的准确性和相关性。

技术框架:该方法是一个与模型无关的框架,可以应用于现有的各种RRG模型。整体流程包括:1) 使用随机对比采样生成训练对,包括一个“胜者”报告和一个“败者”报告;2) 使用DPO损失函数对RRG模型进行微调,鼓励模型生成更接近“胜者”报告的输出;3) 在验证集上评估模型性能,并根据结果调整训练参数。

关键创新:该方法最重要的创新点在于使用随机对比采样来构建训练数据,无需人工标注或复杂的奖励模型。这种方法降低了训练成本,并提高了训练数据的多样性。此外,该方法是模型无关的,可以方便地应用于现有的各种RRG模型。

关键设计:关键设计包括:1) 随机对比采样策略,例如随机选择不同的解码策略(如不同的temperature或top-p采样)生成对比报告;2) DPO损失函数的具体形式,通常基于softmax函数,鼓励模型生成更接近“胜者”报告的概率分布;3) 超参数的选择,例如DPO损失函数的权重系数,需要根据具体数据集进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,将该方法应用于三个最先进的RRG模型后,临床性能指标(具体指标未知)提升了高达5%,且无需额外的训练数据。这表明该方法具有良好的泛化能力和实用价值。与需要人工标注或复杂奖励模型的方法相比,该方法在降低训练成本的同时,实现了性能的显著提升。

🎯 应用场景

该研究成果可应用于医疗影像辅助诊断领域,帮助放射科医生快速生成高质量的诊断报告,提高诊断效率和准确性。该方法无需人工标注,降低了部署成本,具有广泛的应用前景。未来,该方法可以扩展到其他医学影像报告生成任务,例如CT、MRI等。

📄 摘要(原文)

Radiography Report Generation (RRG) has gained significant attention in medical image analysis as a promising tool for alleviating the growing workload of radiologists. However, despite numerous advancements, existing methods have yet to achieve the quality required for deployment in real-world clinical settings. Meanwhile, large Visual Language Models (VLMs) have demonstrated remarkable progress in the general domain by adopting training strategies originally designed for Large Language Models (LLMs), such as alignment techniques. In this paper, we introduce a model-agnostic framework to enhance RRG accuracy using Direct Preference Optimization (DPO). Our approach leverages random contrastive sampling to construct training pairs, eliminating the need for reward models or human preference annotations. Experiments on supplementing three state-of-the-art models with our Random DPO show that our method improves clinical performance metrics by up to 5%, without requiring any additional training data.