GLeVE: Graph-Guided Lesion Grounding with Proposal Verification in 3D CT

作者: Shuo Jiang, Yuhao Hong, Chunbo Jiang, Weihong Chen, Huangwei Chen, Shenghao Zhu, Beining Wu, Mingxuan Liu, Zhu Zhu, Feiwei Qin, Min Tan, Yifei Chen

分类: cs.CV

发布日期: 2026-05-21

备注: 11 pages, 4 figures

💡 一句话要点

提出GLeVE框架，通过图引导和提案验证实现3D CT图像中病灶的精准定位。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学影像 病灶定位 图神经网络 解剖先验 3D CT 视觉语言 放射报告

📋 核心要点

现有方法在放射报告与3D CT图像病灶定位中，存在语义鸿沟和依赖短语对齐等问题，导致定位精度不足。
GLeVE框架通过图结构编码病灶关系，并结合解剖先验进行提案验证，实现更精准的文本-病灶对齐。
在AbdomenAtlas 3.0数据集上，GLeVE在分割精度和病灶定位方面均优于现有方法，证明了其有效性。

📝 摘要（中文）

将放射报告描述与3D CT图像对齐对于可验证的临床解释至关重要，但由于自由文本叙述和体积解剖结构之间的语义-空间差距，这项任务仍然具有挑战性。现有的报告辅助和视觉-语言定位方法通常依赖于短语级别的对齐或密集的像素监督，导致有限的病灶对应关系和次优的定位精度。我们提出了GLeVE，一个图引导的病灶定位框架，具有解剖先验验证和基于八叉树的自回归细化。GLeVE将每个病灶描述视为一个原子语义单元，并通过关系感知图推理对器官属性、特征和病灶间关系进行编码，以产生区分性的病灶查询。具有区域级验证的解剖感知提案生成强制执行一对一的文本-病灶对齐，而分层八叉树细化逐步提高边界描绘。在AbdomenAtlas 3.0上的实验表明，在分割精度和病灶级别定位方面，相对于经典多模态基础模型和报告监督基线，GLeVE 均获得了持续的提升。

🔬 方法详解

问题定义：论文旨在解决3D CT图像中，如何根据放射报告精准定位病灶的问题。现有方法主要依赖短语级别的对齐或者像素级别的监督，忽略了病灶之间的关系以及解剖结构的先验知识，导致定位精度不高，无法实现病灶级别的精准对应。

核心思路：论文的核心思路是将每个病灶描述视为一个独立的语义单元，通过构建图结构来建模病灶之间的关系，并利用解剖结构的先验知识来验证定位结果，从而实现更精准的病灶定位。通过关系感知的图推理，可以更好地理解病灶之间的相互影响，而解剖先验验证则可以排除不合理的定位结果。

技术框架：GLeVE框架主要包含三个模块：1)关系感知图推理模块，用于编码病灶描述的语义信息和病灶之间的关系；2)解剖感知提案生成模块，用于生成候选的病灶区域，并利用解剖先验知识进行验证；3)基于八叉树的自回归细化模块，用于逐步提高病灶边界的描绘精度。整个流程首先通过图推理生成病灶查询，然后利用解剖先验生成候选区域，最后通过八叉树细化边界。

关键创新：论文的关键创新在于：1)将病灶描述视为原子语义单元，避免了短语级别的对齐误差；2)利用图结构建模病灶之间的关系，提高了语义理解能力；3)引入解剖先验知识进行提案验证，减少了定位错误；4)采用基于八叉树的自回归细化方法，提高了边界描绘精度。与现有方法相比，GLeVE更加注重病灶级别的对应关系，并充分利用了病灶之间的关系和解剖结构的先验知识。

关键设计：在关系感知图推理模块中，使用了GCN（图卷积网络）来编码病灶之间的关系。在解剖感知提案生成模块中，使用了预训练的解剖分割模型来获取解剖结构的先验信息。在基于八叉树的自回归细化模块中，使用了多尺度的特征融合策略，以提高边界描绘的精度。损失函数包括分割损失和定位损失，用于优化模型的参数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GLeVE在AbdomenAtlas 3.0数据集上取得了显著的性能提升。在分割精度方面，GLeVE优于现有的多模态基础模型和报告监督基线。在病灶级别定位方面，GLeVE也取得了明显的优势，证明了其在精准定位病灶方面的有效性。具体提升幅度在论文中进行了详细的量化。

🎯 应用场景

该研究成果可应用于医学影像辅助诊断领域，帮助医生更准确地定位和识别病灶，提高诊断效率和准确性。此外，该技术还可以用于医学影像报告的自动生成和验证，减少人工错误，提升医疗质量。未来，该方法有望推广到其他医学影像模态和疾病类型的诊断中。

📄 摘要（原文）

Grounding radiology report descriptions to 3D CT volumes is essential for verifiable clinical interpretation, yet remains challenging due to the semantic-spatial gap between free-text narratives and volumetric anatomy. Existing report-assisted and vision-language grounding methods typically rely on phrase-level alignment or dense pixel supervision, resulting in limited lesion-wise correspondence and suboptimal localization accuracy. We propose GLeVE, a graph-guided lesion grounding framework with anatomical prior verification and octree-based autoregressive refinement. GLeVE treats each lesion description as an atomic semantic unit and encodes organ attribution, attributes, and inter-lesion relations through relation-aware graph reasoning to produce discriminative lesion-wise queries. Anatomy-aware proposal generation with region-level verification enforces one-to-one text-lesion alignment, while hierarchical octree refinement progressively improves boundary delineation. Experiments on AbdomenAtlas 3.0 demonstrate consistent gains over classical multimodal foundation models and report-supervised baselines in both segmentation accuracy and lesion-level localization.

GLeVE: Graph-Guided Lesion Grounding with Proposal Verification in 3D CT

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理