Unleashing Video Language Models for Fine-grained HRCT Report Generation

作者: Yingying Fang, Huichi Zhou, KinHei Lee, Yijia Wang, Zhenxuan Zhang, Jiahao Huang, Guang Yang

分类: cs.CV

发布日期: 2026-03-12

备注: MICCAI 2026

💡 一句话要点

提出AbSteering框架，利用视频语言模型进行精细化HRCT报告生成。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: HRCT报告生成 视频语言模型 医学影像 异常检测 思维链 直接偏好优化 深度学习

📋 核心要点

HRCT报告生成面临病理多样性和空间稀疏性挑战，现有方法难以充分利用3D空间信息。
AbSteering框架通过异常中心思维链和直接偏好优化，引导VideoLMs进行精确HRCT报告生成。
实验表明，AbSteering优于领域特定CT基础模型，提高了检测敏感性并减轻了幻觉。

📝 摘要（中文）

从高分辨率计算机断层扫描(HRCT)生成精确的诊断报告对于临床工作流程至关重要，但由于3D体积内病理多样性和空间稀疏性，这仍然是一个巨大的挑战。虽然视频语言模型(VideoLMs)在通用领域表现出卓越的时空推理能力，但它们在特定领域、高容量医学图像解释中的适应性仍未得到充分探索。本文提出了一种以异常为中心的框架AbSteering，引导VideoLMs进行精确的HRCT报告生成。具体来说，AbSteering引入了：(i)一种以异常为中心的思维链方案，强制进行异常推理；(ii)一种直接偏好优化目标，利用临床上容易混淆的异常作为难负例，以增强细粒度区分。结果表明，通用VideoLMs在这种范式的指导下，对高容量医学成像具有很强的迁移性。值得注意的是，AbSteering优于最先进的领域特定CT基础模型（这些模型使用大规模CT进行预训练），在提高检测敏感性的同时，减轻了幻觉。

🔬 方法详解

问题定义：HRCT报告生成任务旨在根据HRCT图像生成详细的诊断报告。现有方法，特别是基于CT预训练的模型，虽然在一定程度上解决了该问题，但仍存在检测敏感性不足和产生幻觉的问题。此外，通用视频语言模型在医学图像领域的应用潜力尚未充分挖掘。

核心思路：AbSteering的核心思路是利用通用视频语言模型强大的时空推理能力，并针对HRCT报告生成的特殊需求进行优化。通过引入以异常为中心的思维链和直接偏好优化，引导模型关注关键病灶，提高报告的准确性和可靠性。

技术框架：AbSteering框架主要包含两个关键模块：(1) 异常中心思维链(Abnormality-centric Chain-of-Thought)：该模块强制模型首先识别并推理HRCT图像中的异常区域，然后基于这些异常区域生成报告。这有助于模型关注关键信息，避免产生与图像不符的幻觉。(2) 直接偏好优化(Direct Preference Optimization)：该模块利用临床上容易混淆的异常作为难负例，训练模型区分细微的病理差异，从而提高报告的精细度和准确性。

关键创新：AbSteering的关键创新在于将通用视频语言模型应用于HRCT报告生成，并设计了以异常为中心的训练策略。与传统的领域特定预训练模型相比，AbSteering能够更好地利用通用模型的知识，并在特定任务上取得更好的性能。此外，直接偏好优化通过引入难负例，显著提高了模型区分细粒度病理差异的能力。

关键设计：异常中心思维链的具体实现方式是，在训练过程中，模型首先需要预测图像中存在的异常类型和位置，然后基于这些预测生成报告。直接偏好优化使用了一种特殊的损失函数，该函数鼓励模型对正确的报告给予更高的偏好，同时对包含混淆异常的报告给予较低的偏好。具体的参数设置和网络结构细节在论文中进行了详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

AbSteering框架在HRCT报告生成任务上取得了显著的性能提升，优于最先进的领域特定CT基础模型。实验结果表明，AbSteering在提高检测敏感性的同时，有效地减轻了幻觉现象。具体的性能数据和对比基线在论文中进行了详细展示（未知）。

🎯 应用场景

该研究成果可应用于辅助医生进行HRCT图像的诊断和报告生成，提高诊断效率和准确性，减少误诊和漏诊。此外，该方法还可以推广到其他医学影像领域，例如MRI、X光等，具有广阔的应用前景。未来，该技术有望集成到智能医疗系统中，为患者提供更优质的医疗服务。

📄 摘要（原文）

Generating precise diagnostic reports from High-Resolution Computed Tomography (HRCT) is critical for clinical workflow, yet it remains a formidable challenge due to the high pathological diversity and spatial sparsity within 3D volumes. While Video Language Models (VideoLMs) have demonstrated remarkable spatio-temporal reasoning in general domains, their adaptability to domain-specific, high-volume medical interpretation remains underexplored. In this work, we present AbSteering, an abnormality-centric framework that steers VideoLMs toward precise HRCT report generation. Specifically, AbSteering introduces: (i) an abnormality-centric Chain-of-Thought scheme that enforces abnormality reasoning, and (ii) a Direct Preference Optimization objective that utilizes clinically confusable abnormalities as hard negatives to enhance fine-grained discrimination. Our results demonstrate that general-purpose VideoLMs possess strong transferability to high-volume medical imaging when guided by this paradigm. Notably, AbSteering outperforms state-of-the-art domain-specific CT foundation models, which are pretrained with large-scale CTs, achieving superior detection sensitivity while simultaneously mitigating hallucinations. Our data and model weights are released at https://anonymous.4open.science/r/hrct-report-generation-video-vlm-728C/

Unleashing Video Language Models for Fine-grained HRCT Report Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理