A Multimodal Clinically Informed Coarse-to-Fine Framework for Longitudinal CT Registration in Proton Therapy

作者: Caiwen Jiang, Yuzhen Ding, Mi Jia, Samir H. Patel, Terence T. Sio, Jonathan B. Ashman, Lisa A. McGee, Jean-Claude M. Rwigema, William G. Rule, Sameer R. Keole, Sujay A. Vora, William W. Wong, Nathan Y. Yu, Michele Y. Halyard, Steven E. Schild, Dinggang Shen, Wei Liu

分类: cs.CV

发布日期: 2026-04-15

💡 一句话要点

提出多模态临床信息融合的粗到细配准框架，用于质子治疗中的纵向CT配准。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 质子治疗 形变图像配准 多模态融合 深度学习 临床信息 粗到细 Transformer 医学影像

📋 核心要点

传统DIR方法速度慢，深度学习方法未充分利用临床信息，限制了质子治疗中纵向CT配准的效率和准确性。
提出一种粗到细的配准框架，融合CT图像、靶区轮廓、剂量分布等临床多模态信息，实现更精确的形变估计。
在包含1222个CT扫描对的大规模数据集上验证，结果表明该方法优于现有技术，提升了配准的临床意义。

📝 摘要（中文）

质子治疗在保护危及器官方面具有优势，但对解剖结构变化高度敏感，因此需要精确的纵向CT扫描形变图像配准(DIR)。传统DIR方法速度慢，难以适应在线自适应工作流程。现有基于深度学习的方法主要针对通用基准设计，未能充分利用临床相关信息。本文提出了一种临床可扩展的粗到细形变配准框架，整合质子放疗工作流程中的多模态信息，以适应不同的临床场景。该模型采用双CNN编码器进行分层特征提取，并使用基于Transformer的解码器逐步细化形变场。除了CT强度外，还通过解剖和风险引导的注意力机制、文本条件特征调制和前景感知优化，整合了靶区和危及器官轮廓、剂量分布和治疗计划文本等临床关键先验信息，从而实现以解剖为中心和临床信息驱动的形变估计。在包含多个解剖区域和疾病类型的1222个配对计划和重复CT扫描的大规模质子治疗DIR数据集上评估了该框架。实验结果表明，该方法优于现有技术，实现了快速、稳健且具有临床意义的配准。

🔬 方法详解

问题定义：质子治疗对解剖结构变化敏感，需要精确的纵向CT配准。现有DIR方法速度慢，难以适应在线自适应工作流程，且深度学习方法未能充分利用临床信息，导致配准精度和效率受限。

核心思路：利用质子治疗流程中丰富的临床信息（如靶区轮廓、剂量分布、治疗计划文本等）作为先验知识，指导形变场的估计，从而提高配准的准确性和临床意义。采用粗到细的策略，先进行全局配准，再逐步细化局部形变，以提高效率和鲁棒性。

技术框架：该框架包含两个CNN编码器和一个Transformer解码器。两个CNN编码器分别提取固定图像和浮动图像的分层特征。Transformer解码器利用编码器提取的特征，并结合临床先验信息，逐步细化形变场。框架还包括解剖和风险引导的注意力机制、文本条件特征调制和前景感知优化等模块。

关键创新：该方法的核心创新在于将多模态临床信息（CT图像、靶区轮廓、剂量分布、治疗计划文本等）融入到深度学习配准框架中。通过解剖和风险引导的注意力机制、文本条件特征调制和前景感知优化，使模型能够关注与临床目标相关的区域，并利用文本信息进行特征调制，从而实现更精确和临床意义的配准。

关键设计：采用了双CNN编码器进行分层特征提取，以捕捉不同尺度的解剖结构信息。使用Transformer解码器进行形变场估计，利用其强大的建模能力。设计了解剖和风险引导的注意力机制，使模型能够关注与临床目标相关的区域。使用文本条件特征调制，将治疗计划文本信息融入到特征表示中。采用了前景感知优化，以提高靶区和危及器官的配准精度。

🖼️ 关键图片

📊 实验亮点

在包含1222个CT扫描对的大规模质子治疗DIR数据集上，该方法优于现有技术，实现了快速、稳健且具有临床意义的配准。实验结果表明，该方法在配准精度和临床相关性方面均有显著提升，为质子治疗的在线自适应放疗提供了有力支持。

🎯 应用场景

该研究成果可应用于质子治疗的在线自适应放疗工作流程中，提高纵向CT图像配准的精度和效率，从而优化治疗计划，减少对危及器官的损伤，并最终改善患者的治疗效果。该方法也可推广到其他需要精确图像配准的医学影像领域，如肿瘤监测、手术导航等。

📄 摘要（原文）

Proton therapy offers superior organ-at-risk sparing but is highly sensitive to anatomical changes, making accurate deformable image registration (DIR) across longitudinal CT scans essential. Conventional DIR methods are often too slow for emerging online adaptive workflows, while existing deep learning-based approaches are primarily designed for generic benchmarks and underutilize clinically relevant information beyond images. To address this gap, we propose a clinically scalable coarse-to-fine deformable registration framework that integrates multimodal information from the proton radiotherapy workflow to accommodate diverse clinical scenarios. The model employs dual CNN-based encoders for hierarchical feature extraction and a transformer-based decoder to progressively refine deformation fields. Beyond CT intensities, clinically critical priors, including target and organ-at-risk contours, dose distributions, and treatment planning text, are incorporated through anatomy- and risk-guided attention, text-conditioned feature modulation, and foreground-aware optimization, enabling anatomically focused and clinically informed deformation estimation. We evaluate the proposed framework on a large-scale proton therapy DIR dataset comprising 1,222 paired planning and repeat CT scans across multiple anatomical regions and disease types. Extensive experiments demonstrate consistent improvements over state-of-the-art methods, enabling fast and robust clinically meaningful registration.

A Multimodal Clinically Informed Coarse-to-Fine Framework for Longitudinal CT Registration in Proton Therapy

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理