GLeVE: Graph-Guided Lesion Grounding with Proposal Verification in 3D CT
作者: Shuo Jiang, Yuhao Hong, Chunbo Jiang, Weihong Chen, Huangwei Chen, Shenghao Zhu, Beining Wu, Mingxuan Liu, Zhu Zhu, Feiwei Qin, Min Tan, Yifei Chen
分类: cs.CV
发布日期: 2026-05-21
备注: 11 pages, 4 figures
💡 一句话要点
提出GLeVE框架,通过图引导和提案验证实现3D CT图像中病灶的精准定位。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学影像 病灶定位 图神经网络 解剖先验 3D CT 视觉语言 放射报告
📋 核心要点
- 现有方法在放射报告与3D CT图像病灶定位中,存在语义鸿沟和依赖短语对齐等问题,导致定位精度不足。
- GLeVE框架通过图结构编码病灶关系,并结合解剖先验进行提案验证,实现更精准的文本-病灶对齐。
- 在AbdomenAtlas 3.0数据集上,GLeVE在分割精度和病灶定位方面均优于现有方法,证明了其有效性。
📝 摘要(中文)
将放射报告描述与3D CT图像对齐对于可验证的临床解释至关重要,但由于自由文本叙述和体积解剖结构之间的语义-空间差距,这项任务仍然具有挑战性。现有的报告辅助和视觉-语言定位方法通常依赖于短语级别的对齐或密集的像素监督,导致有限的病灶对应关系和次优的定位精度。我们提出了GLeVE,一个图引导的病灶定位框架,具有解剖先验验证和基于八叉树的自回归细化。GLeVE将每个病灶描述视为一个原子语义单元,并通过关系感知图推理对器官属性、特征和病灶间关系进行编码,以产生区分性的病灶查询。具有区域级验证的解剖感知提案生成强制执行一对一的文本-病灶对齐,而分层八叉树细化逐步提高边界描绘。在AbdomenAtlas 3.0上的实验表明,在分割精度和病灶级别定位方面,相对于经典多模态基础模型和报告监督基线,GLeVE 均获得了持续的提升。
🔬 方法详解
问题定义:论文旨在解决3D CT图像中,如何根据放射报告精准定位病灶的问题。现有方法主要依赖短语级别的对齐或者像素级别的监督,忽略了病灶之间的关系以及解剖结构的先验知识,导致定位精度不高,无法实现病灶级别的精准对应。
核心思路:论文的核心思路是将每个病灶描述视为一个独立的语义单元,通过构建图结构来建模病灶之间的关系,并利用解剖结构的先验知识来验证定位结果,从而实现更精准的病灶定位。通过关系感知的图推理,可以更好地理解病灶之间的相互影响,而解剖先验验证则可以排除不合理的定位结果。
技术框架:GLeVE框架主要包含三个模块:1)关系感知图推理模块,用于编码病灶描述的语义信息和病灶之间的关系;2)解剖感知提案生成模块,用于生成候选的病灶区域,并利用解剖先验知识进行验证;3)基于八叉树的自回归细化模块,用于逐步提高病灶边界的描绘精度。整个流程首先通过图推理生成病灶查询,然后利用解剖先验生成候选区域,最后通过八叉树细化边界。
关键创新:论文的关键创新在于:1)将病灶描述视为原子语义单元,避免了短语级别的对齐误差;2)利用图结构建模病灶之间的关系,提高了语义理解能力;3)引入解剖先验知识进行提案验证,减少了定位错误;4)采用基于八叉树的自回归细化方法,提高了边界描绘精度。与现有方法相比,GLeVE更加注重病灶级别的对应关系,并充分利用了病灶之间的关系和解剖结构的先验知识。
关键设计:在关系感知图推理模块中,使用了GCN(图卷积网络)来编码病灶之间的关系。在解剖感知提案生成模块中,使用了预训练的解剖分割模型来获取解剖结构的先验信息。在基于八叉树的自回归细化模块中,使用了多尺度的特征融合策略,以提高边界描绘的精度。损失函数包括分割损失和定位损失,用于优化模型的参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GLeVE在AbdomenAtlas 3.0数据集上取得了显著的性能提升。在分割精度方面,GLeVE优于现有的多模态基础模型和报告监督基线。在病灶级别定位方面,GLeVE也取得了明显的优势,证明了其在精准定位病灶方面的有效性。具体提升幅度在论文中进行了详细的量化。
🎯 应用场景
该研究成果可应用于医学影像辅助诊断领域,帮助医生更准确地定位和识别病灶,提高诊断效率和准确性。此外,该技术还可以用于医学影像报告的自动生成和验证,减少人工错误,提升医疗质量。未来,该方法有望推广到其他医学影像模态和疾病类型的诊断中。
📄 摘要(原文)
Grounding radiology report descriptions to 3D CT volumes is essential for verifiable clinical interpretation, yet remains challenging due to the semantic-spatial gap between free-text narratives and volumetric anatomy. Existing report-assisted and vision-language grounding methods typically rely on phrase-level alignment or dense pixel supervision, resulting in limited lesion-wise correspondence and suboptimal localization accuracy. We propose GLeVE, a graph-guided lesion grounding framework with anatomical prior verification and octree-based autoregressive refinement. GLeVE treats each lesion description as an atomic semantic unit and encodes organ attribution, attributes, and inter-lesion relations through relation-aware graph reasoning to produce discriminative lesion-wise queries. Anatomy-aware proposal generation with region-level verification enforces one-to-one text-lesion alignment, while hierarchical octree refinement progressively improves boundary delineation. Experiments on AbdomenAtlas 3.0 demonstrate consistent gains over classical multimodal foundation models and report-supervised baselines in both segmentation accuracy and lesion-level localization.