Semantic-Topological Graph Reasoning for Language-Guided Pulmonary Screening
作者: Chenyu Xue, Yiran Liu, Mian Zhou, Jionglong Su, Zhixiang Lu
分类: cs.CV, cs.AI
发布日期: 2026-04-07
💡 一句话要点
提出语义-拓扑图推理框架,用于语言引导的肺部筛查,显著提升分割精度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 肺部筛查 语言引导 语义-拓扑图 意图蒸馏 选择性微调 医学图像分割 多模态学习
📋 核心要点
- 现有方法难以处理临床报告的语义模糊性,且在低对比度扫描中难以区分复杂解剖结构。
- 提出语义-拓扑图推理框架,结合LLM的推理能力和视觉基础模型的分割能力,解决上述问题。
- 实验结果表明,该框架在LIDC-IDRI数据集上取得了81.5%的DSC,超越现有方法。
📝 摘要(中文)
本文提出了一种用于语言引导肺部筛查的语义-拓扑图推理(STGR)框架,旨在解决现有方法在处理临床报告的语义模糊性和低对比度扫描中复杂解剖结构重叠时的困难。该框架结合了大型语言模型(LLaMA-3-V)的推理能力和视觉基础模型(MedSAM)的零样本分割能力。具体而言,引入了文本到视觉意图蒸馏(TVID)模块以提取精确的诊断指导。为了解决解剖结构模糊性,将掩码选择建模为动态图推理问题。此外,为了确保部署可行性,采用选择性非对称微调(SAFT)策略,仅更新不到1%的参数。在LIDC-IDRI和LNDb数据集上的严格五折交叉验证表明,该框架达到了新的state-of-the-art,在LIDC-IDRI上实现了81.5%的Dice相似系数(DSC),超过了LISA等领先的基于LLM的工具5%以上。SAFT策略作为一种强大的正则化器,产生了卓越的交叉验证稳定性(0.6% DSC方差),为稳健的、上下文感知的临床部署铺平了道路。
🔬 方法详解
问题定义:现有基于多模态和基础模型的医学图像分割方法在处理自由文本临床指令引导的肺部筛查任务时,面临着临床报告的语义模糊性问题,以及在低对比度扫描中难以区分复杂解剖结构重叠的挑战。此外,在有限的医学数据集上对这些大型架构进行完全微调,不可避免地会导致严重的过拟合现象。
核心思路:论文的核心思路是将大型语言模型的推理能力与视觉基础模型的零样本分割能力相结合,利用语言模型理解临床报告的意图,并指导视觉模型进行精确的肺部病灶分割。通过构建语义-拓扑图来建模候选病灶之间的关系,从而解决解剖结构模糊性问题。同时,采用选择性非对称微调策略,避免在有限数据集上对大型模型进行完全微调,从而缓解过拟合问题。
技术框架:该框架主要包含三个模块:1) 文本到视觉意图蒸馏(TVID)模块,用于从临床报告中提取精确的诊断指导;2) 语义-拓扑图推理模块,用于建模候选病灶之间的空间和语义关系,并进行掩码选择;3) 选择性非对称微调(SAFT)策略,用于在保证模型性能的同时,减少需要微调的参数量。整体流程是:首先,使用TVID模块从临床报告中提取意图向量;然后,使用MedSAM生成候选病灶的掩码;接着,构建语义-拓扑图,并使用图推理算法选择最佳的掩码;最后,使用SAFT策略对模型进行微调。
关键创新:论文的关键创新点在于:1) 提出了文本到视觉意图蒸馏(TVID)模块,能够从临床报告中提取精确的诊断指导,从而更好地引导视觉模型的分割;2) 将掩码选择建模为动态图推理问题,能够有效地解决解剖结构模糊性问题;3) 提出了选择性非对称微调(SAFT)策略,能够在保证模型性能的同时,显著减少需要微调的参数量,从而缓解过拟合问题。与现有方法相比,该方法能够更好地利用临床报告中的信息,并能够更有效地解决解剖结构模糊性问题。
关键设计:TVID模块使用LLaMA-3-V作为基础模型,通过prompt工程提取意图向量。语义-拓扑图的节点表示候选病灶的掩码,边表示掩码之间的空间和语义关系。空间关系通过计算掩码之间的距离来表示,语义关系通过计算掩码对应的视觉特征之间的相似度来表示。图推理算法使用GCN进行节点分类,从而选择最佳的掩码。SAFT策略只微调TVID模块和图推理模块的参数,而不微调MedSAM的参数。
🖼️ 关键图片
📊 实验亮点
该框架在LIDC-IDRI数据集上实现了81.5%的Dice相似系数(DSC),超过了LISA等领先的基于LLM的工具5%以上。此外,SAFT策略作为一种强大的正则化器,产生了卓越的交叉验证稳定性(0.6% DSC方差),表明该方法具有良好的泛化能力和鲁棒性。
🎯 应用场景
该研究成果可应用于计算机辅助诊断系统,辅助医生进行肺部疾病的筛查和诊断,提高诊断效率和准确性。尤其在医疗资源匮乏的地区,该技术可以远程辅助诊断,具有重要的社会价值。未来,该方法可以扩展到其他医学影像分析任务中,例如肝脏、肾脏等器官的病灶分割。
📄 摘要(原文)
Medical image segmentation driven by free-text clinical instructions is a critical frontier in computer-aided diagnosis. However, existing multimodal and foundation models struggle with the semantic ambiguity of clinical reports and fail to disambiguate complex anatomical overlaps in low-contrast scans. Furthermore, fully fine-tuning these massive architectures on limited medical datasets invariably leads to severe overfitting. To address these challenges, we propose a novel Semantic-Topological Graph Reasoning (STGR) framework for language-guided pulmonary screening. Our approach elegantly synergizes the reasoning capabilities of large language models (LLaMA-3-V) with the zero-shot delineation of vision foundation models (MedSAM). Specifically, we introduce a Text-to-Vision Intent Distillation (TVID) module to extract precise diagnostic guidance. To resolve anatomical ambiguity, we formulate mask selection as a dynamic graph reasoning problem, where candidate lesions are modeled as nodes and edges capture spatial and semantic affinities. To ensure deployment feasibility, we introduce a Selective Asymmetric Fine-Tuning (SAFT) strategy that updates less than 1% of the parameters. Rigorous 5-fold cross-validation on the LIDC-IDRI and LNDb datasets demonstrates that our framework establishes a new state-of-the-art. Notably, it achieves an 81.5% Dice Similarity Coefficient (DSC) on LIDC-IDRI, outperforming leading LLM-based tools like LISA by over 5%. Crucially, our SAFT strategy acts as a powerful regularizer, yielding exceptional cross-fold stability (0.6% DSC variance) and paving the way for robust, context-aware clinical deployment.