TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy
作者: Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun Gu
分类: cs.CV
发布日期: 2026-03-10
备注: 18 pages, 12 figures, extended version of the submission to MICCAI 2026
💡 一句话要点
提出TubeMLLM,用于血管解剖结构中拓扑知识探索的统一基础模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 血管解剖 拓扑结构 多模态学习 大语言模型 医学影像分析
📋 核心要点
- 医学血管解剖建模面临拓扑结构复杂和数据集偏移的挑战,现有模型易出现拓扑不一致问题。
- TubeMLLM通过整合拓扑先验知识,并与视觉表征对齐,增强模型对血管拓扑结构的感知能力。
- 实验表明,TubeMLLM在多个数据集上表现出色,尤其在零样本跨模态迁移和鲁棒性方面有显著提升。
📝 摘要(中文)
针对医学血管解剖结构建模中拓扑结构复杂和数据集偏移敏感的问题,论文提出了TubeMLLM,一个统一的基础模型,用于结构化理解和可控生成。该模型通过显式的自然语言提示整合拓扑先验,并将其与视觉表征对齐,从而增强拓扑感知能力。此外,论文构建了TubeMData,一个包含全面拓扑中心任务的多模态基准数据集,并引入自适应损失权重策略,以强调训练期间的拓扑关键区域。在十五个不同数据集上的实验表明,TubeMLLM 具有优越性,尤其是在零样本跨模态迁移和对抗图像退化方面表现出强大的鲁棒性。
🔬 方法详解
问题定义:医学血管解剖结构建模面临着拓扑结构复杂且对数据集偏移敏感的挑战。现有的任务特定模型常常出现拓扑结构不一致的问题,例如人为的断连和虚假的合并,这严重影响了模型的可靠性和泛化能力。
核心思路:论文的核心思路是利用多模态大语言模型(MLLM)的零样本泛化能力,构建一个统一的基础模型,该模型能够同时理解血管的视觉表征和拓扑结构。通过将拓扑先验知识融入模型,并结合可控生成技术,从而提升模型对血管解剖结构的理解和建模能力。
技术框架:TubeMLLM的整体架构包含视觉编码器、语言模型和共享注意力机制。视觉编码器负责提取血管图像的视觉特征,语言模型负责处理拓扑结构的自然语言描述,共享注意力机制则用于将视觉特征和语言描述对齐,从而实现多模态信息的融合。模型训练过程中,使用TubeMData数据集,并采用自适应损失权重策略,以强调拓扑关键区域的学习。
关键创新:TubeMLLM的关键创新在于将拓扑先验知识显式地融入到模型中。通过自然语言提示,模型能够学习到血管的拓扑结构规则,从而避免了传统方法中容易出现的拓扑错误。此外,TubeMLLM还引入了自适应损失权重策略,使得模型能够更加关注拓扑关键区域的学习,从而提升了模型的拓扑感知能力。
关键设计:TubeMLLM的关键设计包括:1) 使用预训练的视觉Transformer作为视觉编码器;2) 使用预训练的大语言模型作为语言模型;3) 设计共享注意力机制,用于融合视觉特征和语言描述;4) 构建TubeMData数据集,包含多种拓扑中心任务;5) 采用自适应损失权重策略,根据区域的重要性调整损失权重。
🖼️ 关键图片
📊 实验亮点
TubeMLLM在十五个不同的数据集上进行了广泛的实验,结果表明该模型在多个方面都优于现有的方法。例如,在彩色眼底摄影数据集上,TubeMLLM显著降低了全局拓扑差异,将$β_{0}$数量误差从37.42降低到8.58。此外,TubeMLLM在X射线血管造影数据集上实现了67.50%的Dice score,并将$β_{0}$误差降低到1.21,展示了强大的零样本跨模态迁移能力。
🎯 应用场景
TubeMLLM在医学影像分析领域具有广泛的应用前景,例如血管分割、血管重建、疾病诊断等。该模型能够帮助医生更准确地理解血管的拓扑结构,从而提高诊断的准确性和效率。此外,TubeMLLM还可以应用于医学教育和科研领域,为血管解剖学的研究提供新的工具和方法。
📄 摘要(原文)
Modeling medical vessel-like anatomy is challenging due to its intricate topology and sensitivity to dataset shifts. Consequently, task-specific models often suffer from topological inconsistencies, including artificial disconnections and spurious merges. Motivated by the promise of multimodal large language models (MLLMs) for zero-shot generalization, we propose TubeMLLM, a unified foundation model that couples structured understanding with controllable generation for medical vessel-like anatomy. By integrating topological priors through explicit natural language prompting and aligning them with visual representations in a shared-attention architecture, TubeMLLM significantly enhances topology-aware perception. Furthermore, we construct TubeMData, a pionner multimodal benchmark comprising comprehensive topology-centric tasks, and introduce an adaptive loss weighting strategy to emphasize topology-critical regions during training. Extensive experiments on fifteen diverse datasets demonstrate our superiority. Quantitatively, TubeMLLM achieves state-of-the-art out-of-distribution performance, substantially reducing global topological discrepancies on color fundus photography (decreasing the $β_{0}$ number error from 37.42 to 8.58 compared to baselines). Notably, TubeMLLM exhibits exceptional zero-shot cross-modality transferring ability on unseen X-ray angiography, achieving a Dice score of 67.50% while significantly reducing the $β_{0}$ error to 1.21. TubeMLLM also maintains robustness against degradations such as blur, noise, and low resolution. Furthermore, in topology-aware understanding tasks, the model achieves 97.38% accuracy in evaluating mask topological quality, significantly outperforming standard vision-language baselines.