Causal-SAM-LLM: Large Language Models as Causal Reasoners for Robust Medical Segmentation
作者: Tao Tang, Shijie Xu, Jionglong Su, Zhixiang Lu
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-07-04 (更新: 2026-01-16)
备注: Accepted by IEEE ICASSP 2026
💡 一句话要点
Causal-SAM-LLM:利用大语言模型进行因果推理,提升医学分割的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学图像分割 因果推理 大语言模型 领域泛化 对比学习
📋 核心要点
- 医学图像分割模型泛化性差,易受成像风格等非解剖因素干扰,限制了临床应用。
- Causal-SAM-LLM利用大语言模型进行因果推理,解耦图像内容和风格,提升模型鲁棒性。
- 实验表明,该方法在跨数据集分割任务中显著提升了Dice score和Hausdorff距离,性能优于现有方法。
📝 摘要(中文)
医学图像分割深度学习模型的临床应用受到泛化能力不足的严重限制,这通常源于模型学习了与领域相关的伪相关性。为了克服这一挑战,我们提出了Causal-SAM-LLM,这是一个将大语言模型(LLM)提升为因果推理者的新框架。该框架基于冻结的Segment Anything Model(SAM)编码器,包含两个协同创新。首先,语言对抗解耦(LAD)利用视觉-语言模型生成丰富的、描述图像风格的文本描述。通过训练分割模型的特征与这些风格描述形成对比差异,模型学习到一种鲁棒的、去除非因果信息的表示。其次,测试时因果干预(TCI)提供了一种交互机制,LLM解释临床医生的自然语言命令,实时调整分割解码器的特征,从而实现有针对性的错误纠正。我们在来自四个公共数据集(BTCV、CHAOS、AMOS、BraTS)的综合基准上进行了广泛的评估,评估了跨扫描仪、跨模态和跨解剖结构的泛化能力。Causal-SAM-LLM在分布外(OOD)鲁棒性方面建立了新的技术水平,平均Dice得分提高了6.2个百分点,Hausdorff距离减少了15.8毫米,同时仅使用了不到完整模型9%的可训练参数。我们的工作为构建鲁棒、高效和可交互控制的医学人工智能系统开辟了一条新道路。
🔬 方法详解
问题定义:医学图像分割模型在面对不同扫描仪、成像模态和解剖结构的数据时,泛化能力较差。这是因为模型容易学习到图像内容和领域特定成像风格之间的虚假相关性,导致在新的数据集上表现不佳。现有的方法往往难以有效地解耦图像内容和风格,从而限制了模型的鲁棒性。
核心思路:Causal-SAM-LLM的核心思路是将大语言模型(LLM)作为因果推理器,通过语言对抗解耦(LAD)去除图像中的非因果信息,并通过测试时因果干预(TCI)实现交互式的错误纠正。这种设计旨在使模型能够学习到与成像风格无关的、更本质的解剖结构表示,从而提高模型的泛化能力。
技术框架:Causal-SAM-LLM框架主要包含以下几个模块:1) 冻结的Segment Anything Model (SAM) 编码器,用于提取图像特征;2) 视觉-语言模型,用于生成图像风格的文本描述;3) 语言对抗解耦(LAD)模块,通过对比学习的方式,使分割模型的特征与风格描述解耦;4) 分割解码器,用于生成分割结果;5) 测试时因果干预(TCI)模块,利用LLM解释临床医生的自然语言命令,并调整分割解码器的特征。整体流程是,首先使用SAM编码器提取图像特征,然后通过LAD模块去除风格信息,再通过分割解码器生成分割结果,最后通过TCI模块进行交互式的错误纠正。
关键创新:该论文最重要的技术创新点在于将大语言模型引入到医学图像分割任务中,并将其作为因果推理器使用。通过LAD和TCI两个模块,实现了图像内容和风格的解耦,并实现了交互式的错误纠正。与现有方法相比,该方法能够更有效地去除图像中的非因果信息,从而提高模型的鲁棒性和泛化能力。
关键设计:LAD模块的关键设计在于使用对比学习的方式,训练分割模型的特征与风格描述之间的差异。具体来说,使用视觉-语言模型生成图像风格的文本描述,然后通过对比损失函数,使分割模型的特征与正样本(同一图像的特征)相似,与负样本(风格描述)不相似。TCI模块的关键设计在于使用LLM解释临床医生的自然语言命令,并将其转化为对分割解码器特征的调整。具体来说,使用LLM将自然语言命令转化为向量表示,然后将其与分割解码器的特征进行融合,从而实现交互式的错误纠正。
🖼️ 关键图片
📊 实验亮点
Causal-SAM-LLM在跨数据集的医学图像分割任务中取得了显著的性能提升。在包含BTCV、CHAOS、AMOS和BraTS数据集的综合基准测试中,该方法在分布外(OOD)鲁棒性方面建立了新的技术水平,平均Dice得分提高了6.2个百分点,Hausdorff距离减少了15.8毫米,同时仅使用了不到完整模型9%的可训练参数。这些结果表明,该方法能够有效地提高模型的泛化能力和鲁棒性。
🎯 应用场景
Causal-SAM-LLM具有广泛的应用前景,可用于各种医学图像分割任务,例如器官分割、肿瘤分割等。该方法能够提高模型在不同数据集上的泛化能力,减少对标注数据的依赖,降低模型部署成本。此外,该方法还支持交互式的错误纠正,可以帮助医生更准确地进行诊断和治疗。
📄 摘要(原文)
The clinical utility of deep learning models for medical image segmentation is severely constrained by their inability to generalize to unseen domains. This failure is often rooted in the models learning spurious correlations between anatomical content and domain-specific imaging styles. To overcome this fundamental challenge, we introduce Causal-SAM-LLM, a novel framework that elevates Large Language Models (LLMs) to the role of causal reasoners. Our framework, built upon a frozen Segment Anything Model (SAM) encoder, incorporates two synergistic innovations. First, Linguistic Adversarial Disentanglement (LAD) employs a Vision-Language Model to generate rich, textual descriptions of confounding image styles. By training the segmentation model's features to be contrastively dissimilar to these style descriptions, it learns a representation robustly purged of non-causal information. Second, Test-Time Causal Intervention (TCI) provides an interactive mechanism where an LLM interprets a clinician's natural language command to modulate the segmentation decoder's features in real-time, enabling targeted error correction. We conduct an extensive empirical evaluation on a composite benchmark from four public datasets (BTCV, CHAOS, AMOS, BraTS), assessing generalization under cross-scanner, cross-modality, and cross-anatomy settings. Causal-SAM-LLM establishes a new state of the art in out-of-distribution (OOD) robustness, improving the average Dice score by up to 6.2 points and reducing the Hausdorff Distance by 15.8 mm over the strongest baseline, all while using less than 9% of the full model's trainable parameters. Our work charts a new course for building robust, efficient, and interactively controllable medical AI systems.