Unveiling and Bridging the Functional Perception Gap in MLLMs: Atomic Visual Alignment and Hierarchical Evaluation via PET-Bench
作者: Zanting Ye, Xiaolong Niu, Xuanbin Wu, Xu Han, Shengyuan Liu, Jing Hao, Zhihao Peng, Hao Sun, Jieqin Lv, Fanghu Wang, Yanchao Huang, Hubing Wu, Yixuan Yuan, Habib Zaidi, Arman Rahmim, Yefeng Zheng, Lijun Lu
分类: cs.CV
发布日期: 2026-01-06
备注: 9 pages, 6 figures, 6 tables
🔗 代码/项目: GITHUB
💡 一句话要点
PET-Bench揭示MLLM在功能影像感知上的差距,提出AVA方法提升诊断准确率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 功能影像 正电子发射断层扫描 原子视觉对齐 医学诊断 思维链 幻觉问题
📋 核心要点
- 现有MLLM在功能影像理解上存在不足,无法有效解码功能示踪剂的生物分布,易受形态学先验影响。
- 提出原子视觉对齐(AVA)方法,通过微调使模型先掌握低级功能感知,再进行高级诊断推理。
- 实验表明,AVA能有效弥合感知差距,将CoT从幻觉源转变为推理工具,显著提升诊断准确率。
📝 摘要(中文)
多模态大型语言模型(MLLM)在解剖模态的异常检测和报告生成等任务中表现出卓越的性能,但其在功能成像方面的能力在很大程度上仍未被探索。本文识别并量化了一个基本的功能感知差距:当前视觉编码器无法独立于形态学先验来解码功能示踪剂的生物分布。本文以正电子发射断层扫描(PET)作为研究这种脱节的典型模态,推出了PET-Bench,这是第一个大规模功能成像基准,包含来自9732项多中心、多示踪剂PET研究的52308个分层QA对。对19个最先进的MLLM的广泛评估揭示了一个关键的安全隐患,即思维链(CoT)幻觉陷阱。研究发现,广泛认为可以增强推理的标准CoT提示,反而将语言生成与PET中的视觉证据分离,产生临床上流畅但事实上没有根据的诊断。为了解决这个问题,本文提出原子视觉对齐(AVA),这是一种简单的微调策略,它在高级诊断推理之前强制掌握低级功能感知。结果表明,AVA有效地弥合了感知差距,将CoT从幻觉的来源转变为强大的推理工具,并将诊断准确率提高了高达14.83%。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型(MLLM)在功能影像,特别是PET影像理解上的不足。现有方法在处理PET影像时,容易受到形态学先验的干扰,无法准确解码功能示踪剂的生物分布,导致诊断结果不准确。现有的MLLM在功能成像领域的应用探索不足,缺乏专门的评测基准。
核心思路:论文的核心思路是,在进行高级诊断推理之前,先让模型掌握低级的、原子的视觉感知能力。通过强制模型学习功能示踪剂的生物分布与对应疾病之间的关系,从而避免模型过度依赖形态学信息,提高诊断的准确性和可靠性。这种思路类似于人类专家在诊断疾病时,首先观察影像上的关键特征,然后再结合临床信息进行综合判断。
技术框架:论文提出了PET-Bench基准数据集,用于评估MLLM在功能影像理解上的能力。同时,提出了原子视觉对齐(AVA)方法,作为一种微调策略,用于提升MLLM在PET影像上的表现。整体流程包括:首先,使用PET-Bench数据集对MLLM进行微调,使其掌握低级功能感知能力;然后,使用微调后的模型进行诊断推理,并评估其准确性。论文还分析了CoT prompting在PET影像诊断中存在的“幻觉陷阱”问题。
关键创新:论文的关键创新在于:1) 提出了PET-Bench,这是首个大规模功能影像基准数据集,填补了该领域的空白;2) 提出了原子视觉对齐(AVA)方法,通过微调强制模型学习低级功能感知,有效解决了MLLM在PET影像理解中存在的“幻觉陷阱”问题;3) 揭示了CoT prompting在功能影像诊断中可能存在的负面影响,并提出了相应的解决方案。
关键设计:AVA方法的关键设计在于微调策略。具体来说,AVA通过构建一系列原子级别的视觉对齐任务,例如,让模型识别PET影像中特定区域的示踪剂分布情况,并将这些信息与对应的疾病关联起来。微调过程中,可以使用交叉熵损失函数来衡量模型的预测结果与真实标签之间的差异。此外,论文还可能探索了不同的网络结构和参数设置,以进一步提升AVA方法的性能。具体的网络结构和参数设置细节可能在论文的实验部分进行详细描述。
📊 实验亮点
实验结果表明,在PET-Bench基准数据集上,AVA方法能够显著提升MLLM的诊断准确率,最高提升幅度达到14.83%。通过对比不同MLLM在应用AVA前后的表现,验证了AVA方法的有效性。此外,实验还揭示了CoT prompting在PET影像诊断中可能存在的负面影响,并证明了AVA方法能够有效缓解这一问题。
🎯 应用场景
该研究成果可应用于医疗诊断领域,辅助医生进行更准确、更可靠的疾病诊断,尤其是在神经退行性疾病、肿瘤等疾病的早期诊断方面具有重要价值。未来,该方法有望推广到其他功能影像模态,并与其他临床信息相结合,构建更智能化的医疗诊断系统,提升医疗服务水平。
📄 摘要(原文)
While Multimodal Large Language Models (MLLMs) have demonstrated remarkable proficiency in tasks such as abnormality detection and report generation for anatomical modalities, their capability in functional imaging remains largely unexplored. In this work, we identify and quantify a fundamental functional perception gap: the inability of current vision encoders to decode functional tracer biodistribution independent of morphological priors. Identifying Positron Emission Tomography (PET) as the quintessential modality to investigate this disconnect, we introduce PET-Bench, the first large-scale functional imaging benchmark comprising 52,308 hierarchical QA pairs from 9,732 multi-site, multi-tracer PET studies. Extensive evaluation of 19 state-of-the-art MLLMs reveals a critical safety hazard termed the Chain-of-Thought (CoT) hallucination trap. We observe that standard CoT prompting, widely considered to enhance reasoning, paradoxically decouples linguistic generation from visual evidence in PET, producing clinically fluent but factually ungrounded diagnoses. To resolve this, we propose Atomic Visual Alignment (AVA), a simple fine-tuning strategy that enforces the mastery of low-level functional perception prior to high-level diagnostic reasoning. Our results demonstrate that AVA effectively bridges the perception gap, transforming CoT from a source of hallucination into a robust inference tool and improving diagnostic accuracy by up to 14.83%. Code and data are available at https://github.com/yezanting/PET-Bench.