The Scaffold Effect: How Prompt Framing Drives Apparent Multimodal Gains in Clinical VLM Evaluation

📄 arXiv: 2603.28387v1 📥 PDF

作者: Doan Nam Long Vu, Simone Balloccu

分类: cs.AI, cs.LG

发布日期: 2026-03-30


💡 一句话要点

提出框架效应以解决临床VLM评估中的多模态表现问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 框架效应 视觉-语言模型 临床AI 神经影像分析 多模态推理 性能评估 证据整合

📋 核心要点

  1. 现有的视觉-语言模型在临床应用中,性能提升往往受到表面伪影的影响,缺乏真实的证据整合。
  2. 论文提出通过任务提示中的框架效应来提升模型性能,强调神经影像上下文的重要性。
  3. 实验结果显示,较小的VLM在引入神经影像上下文后,F1得分提升可达58%,并揭示了模型性能的表面性。

📝 摘要(中文)

可信赖的临床人工智能要求性能提升反映真实的证据整合,而非表面伪影。本文评估了12个开放权重的视觉-语言模型(VLM)在两个临床神经影像队列上的二分类表现。研究发现,在缺乏可靠个体诊断信号的情况下,较小的VLM在引入神经影像上下文后,F1得分提升可达58%。对比分析显示,任务提示中仅提及MRI可用性就能解释70-80%的性能提升,形成了我们称之为“框架效应”的领域特定现象。专家评估揭示了在所有条件下均存在神经影像基础的虚构理由,偏好对齐的过程消除了MRI引用行为,使两种条件均趋向随机基线。研究结果表明,表面评估不足以作为多模态推理的有效指标,直接影响VLM在临床环境中的部署。

🔬 方法详解

问题定义:本文旨在解决在临床神经影像分析中,视觉-语言模型(VLM)性能提升的表面性问题。现有方法往往未能真实反映证据整合,导致评估结果不可靠。

核心思路:论文提出了“框架效应”的概念,强调在任务提示中提及MRI可用性对模型性能的显著影响。通过这种方式,研究者能够揭示模型在缺乏真实影像数据时的表现。

技术框架:研究采用了12个开放权重的VLM进行评估,分别在两个临床神经影像数据集上进行二分类任务。主要模块包括数据预处理、模型训练、性能评估和对比分析。

关键创新:最重要的创新点在于识别并量化“框架效应”,即仅通过提及MRI可用性就能显著提升模型性能,这一现象在现有文献中尚未被充分探讨。

关键设计:研究中采用了对比信心分析,评估模型在不同条件下的表现,设置了多种实验条件以验证框架效应的普遍性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,较小的VLM在引入神经影像上下文后,F1得分提升可达58%。对比分析表明,任务提示中提及MRI可用性可解释70-80%的性能变化,揭示了模型性能的表面性和潜在的虚构理由。

🎯 应用场景

该研究的潜在应用领域包括临床诊断辅助系统、医学影像分析和智能医疗决策支持。通过提升VLM在神经影像分析中的可靠性,能够为临床医生提供更为准确的决策依据,进而改善患者的诊疗效果。未来,随着技术的不断进步,框架效应的理解和应用可能会扩展到其他医学领域。

📄 摘要(原文)

Trustworthy clinical AI requires that performance gains reflect genuine evidence integration rather than surface-level artifacts. We evaluate 12 open-weight vision-language models (VLMs) on binary classification across two clinical neuroimaging cohorts, \textsc{FOR2107} (affective disorders) and \textsc{OASIS-3} (cognitive decline). Both datasets come with structural MRI data that carries no reliable individual-level diagnostic signal. Under these conditions, smaller VLMs exhibit gains of up to 58\% F1 upon introduction of neuroimaging context, with distilled models becoming competitive with counterparts an order of magnitude larger. A contrastive confidence analysis reveals that merely \emph{mentioning} MRI availability in the task prompt accounts for 70-80\% of this shift, independent of whether imaging data is present, a domain-specific instance of modality collapse we term the \emph{scaffold effect}. Expert evaluation reveals fabrication of neuroimaging-grounded justifications across all conditions, and preference alignment, while eliminating MRI-referencing behavior, collapses both conditions toward random baseline. Our findings demonstrate that surface evaluations are inadequate indicators of multimodal reasoning, with direct implications for the deployment of VLMs in clinical settings.