Unleashing Video Language Models for Fine-grained HRCT Report Generation
作者: Yingying Fang, Huichi Zhou, KinHei Lee, Yijia Wang, Zhenxuan Zhang, Jiahao Huang, Guang Yang
分类: cs.CV
发布日期: 2026-03-12
备注: MICCAI 2026
💡 一句话要点
提出AbSteering框架,利用视频语言模型进行精细化HRCT报告生成。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: HRCT报告生成 视频语言模型 医学影像 异常检测 思维链 直接偏好优化 深度学习
📋 核心要点
- HRCT报告生成面临病理多样性和空间稀疏性挑战,现有方法难以充分利用3D空间信息。
- AbSteering框架通过异常中心思维链和直接偏好优化,引导VideoLMs进行精确HRCT报告生成。
- 实验表明,AbSteering优于领域特定CT基础模型,提高了检测敏感性并减轻了幻觉。
📝 摘要(中文)
从高分辨率计算机断层扫描(HRCT)生成精确的诊断报告对于临床工作流程至关重要,但由于3D体积内病理多样性和空间稀疏性,这仍然是一个巨大的挑战。虽然视频语言模型(VideoLMs)在通用领域表现出卓越的时空推理能力,但它们在特定领域、高容量医学图像解释中的适应性仍未得到充分探索。本文提出了一种以异常为中心的框架AbSteering,引导VideoLMs进行精确的HRCT报告生成。具体来说,AbSteering引入了:(i)一种以异常为中心的思维链方案,强制进行异常推理;(ii)一种直接偏好优化目标,利用临床上容易混淆的异常作为难负例,以增强细粒度区分。结果表明,通用VideoLMs在这种范式的指导下,对高容量医学成像具有很强的迁移性。值得注意的是,AbSteering优于最先进的领域特定CT基础模型(这些模型使用大规模CT进行预训练),在提高检测敏感性的同时,减轻了幻觉。
🔬 方法详解
问题定义:HRCT报告生成任务旨在根据HRCT图像生成详细的诊断报告。现有方法,特别是基于CT预训练的模型,虽然在一定程度上解决了该问题,但仍存在检测敏感性不足和产生幻觉的问题。此外,通用视频语言模型在医学图像领域的应用潜力尚未充分挖掘。
核心思路:AbSteering的核心思路是利用通用视频语言模型强大的时空推理能力,并针对HRCT报告生成的特殊需求进行优化。通过引入以异常为中心的思维链和直接偏好优化,引导模型关注关键病灶,提高报告的准确性和可靠性。
技术框架:AbSteering框架主要包含两个关键模块:(1) 异常中心思维链(Abnormality-centric Chain-of-Thought):该模块强制模型首先识别并推理HRCT图像中的异常区域,然后基于这些异常区域生成报告。这有助于模型关注关键信息,避免产生与图像不符的幻觉。(2) 直接偏好优化(Direct Preference Optimization):该模块利用临床上容易混淆的异常作为难负例,训练模型区分细微的病理差异,从而提高报告的精细度和准确性。
关键创新:AbSteering的关键创新在于将通用视频语言模型应用于HRCT报告生成,并设计了以异常为中心的训练策略。与传统的领域特定预训练模型相比,AbSteering能够更好地利用通用模型的知识,并在特定任务上取得更好的性能。此外,直接偏好优化通过引入难负例,显著提高了模型区分细粒度病理差异的能力。
关键设计:异常中心思维链的具体实现方式是,在训练过程中,模型首先需要预测图像中存在的异常类型和位置,然后基于这些预测生成报告。直接偏好优化使用了一种特殊的损失函数,该函数鼓励模型对正确的报告给予更高的偏好,同时对包含混淆异常的报告给予较低的偏好。具体的参数设置和网络结构细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
AbSteering框架在HRCT报告生成任务上取得了显著的性能提升,优于最先进的领域特定CT基础模型。实验结果表明,AbSteering在提高检测敏感性的同时,有效地减轻了幻觉现象。具体的性能数据和对比基线在论文中进行了详细展示(未知)。
🎯 应用场景
该研究成果可应用于辅助医生进行HRCT图像的诊断和报告生成,提高诊断效率和准确性,减少误诊和漏诊。此外,该方法还可以推广到其他医学影像领域,例如MRI、X光等,具有广阔的应用前景。未来,该技术有望集成到智能医疗系统中,为患者提供更优质的医疗服务。
📄 摘要(原文)
Generating precise diagnostic reports from High-Resolution Computed Tomography (HRCT) is critical for clinical workflow, yet it remains a formidable challenge due to the high pathological diversity and spatial sparsity within 3D volumes. While Video Language Models (VideoLMs) have demonstrated remarkable spatio-temporal reasoning in general domains, their adaptability to domain-specific, high-volume medical interpretation remains underexplored. In this work, we present AbSteering, an abnormality-centric framework that steers VideoLMs toward precise HRCT report generation. Specifically, AbSteering introduces: (i) an abnormality-centric Chain-of-Thought scheme that enforces abnormality reasoning, and (ii) a Direct Preference Optimization objective that utilizes clinically confusable abnormalities as hard negatives to enhance fine-grained discrimination. Our results demonstrate that general-purpose VideoLMs possess strong transferability to high-volume medical imaging when guided by this paradigm. Notably, AbSteering outperforms state-of-the-art domain-specific CT foundation models, which are pretrained with large-scale CTs, achieving superior detection sensitivity while simultaneously mitigating hallucinations. Our data and model weights are released at https://anonymous.4open.science/r/hrct-report-generation-video-vlm-728C/