Promptception: How Sensitive Are Large Multimodal Models to Prompts?
作者: Mohamed Insaf Ismithdeen, Muhammad Uzair Khattak, Salman Khan
分类: cs.CV, cs.AI, cs.CL, cs.LG
发布日期: 2025-09-04
备注: Accepted to EMNLP 2025
💡 一句话要点
Promptception:揭示大型多模态模型对提示词的敏感性,并提出稳健评估框架。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型多模态模型 提示词工程 敏感性分析 多项选择问答 模型评估
📋 核心要点
- 现有LMMs在MCQA任务中对提示词的微小变化非常敏感,导致评估结果不稳定,缺乏透明度。
- 提出Promptception框架,系统性地评估LMMs对不同类型提示词的敏感性,包含多种提示词变体。
- 实验表明,专有模型对提示词更敏感,开源模型更稳定但理解复杂提示词能力较弱,并据此提出针对性提示原则。
📝 摘要(中文)
近年来,大型多模态模型(LMMs)取得了显著进展,但多项选择问答(MCQA)中LMMs的提示词设计仍然缺乏深入理解。研究表明,即使提示词的措辞和结构发生微小变化,也可能导致某些提示词和模型的准确率偏差高达15%。这种可变性对透明和公平的LMM评估构成了挑战,因为模型通常会报告使用精心选择的提示词获得的最佳性能。为了解决这个问题,我们引入了Promptception,这是一个用于评估LMMs中提示词敏感性的系统框架。它包含61种提示词类型,涵盖15个类别和6个超类别,每个类别都针对提示词制定的特定方面。我们使用Promptception评估了10个LMMs,范围从轻量级开源模型到GPT-4o和Gemini 1.5 Pro,并使用了3个MCQA基准:MMStar、MMMU-Pro、MVBench。研究结果表明,专有模型对提示词措辞的敏感性更高,反映了与指令语义的更紧密对齐,而开源模型则更稳定,但在细致和复杂的措辞方面表现不佳。基于此分析,我们提出了针对专有和开源LMMs量身定制的提示原则,从而实现更稳健和公平的模型评估。
🔬 方法详解
问题定义:论文旨在解决大型多模态模型(LMMs)在多项选择问答(MCQA)任务中,由于提示词的微小变化而导致性能大幅波动的问题。现有方法通常依赖于精心设计的单一提示词进行评估,无法反映模型对不同提示词的鲁棒性,导致评估结果缺乏公平性和透明度。
核心思路:核心思路是构建一个全面的提示词集合,系统性地评估LMMs对不同提示词变体的敏感性。通过分析模型在不同提示词下的性能差异,揭示模型对提示词的依赖程度,并为模型评估和提示词设计提供指导。
技术框架:Promptception框架包含以下几个主要组成部分: 1. 提示词集合构建:设计了61种提示词类型,涵盖15个类别和6个超类别,每个类别针对提示词制定的特定方面,例如措辞、结构、指令等。 2. 模型评估:使用构建的提示词集合,在多个MCQA基准数据集上评估LMMs的性能。 3. 敏感性分析:分析模型在不同提示词下的性能差异,量化模型对提示词的敏感程度。 4. 提示原则制定:基于敏感性分析的结果,为专有和开源LMMs制定针对性的提示原则。
关键创新:最重要的技术创新点在于提出了一个系统性的提示词敏感性评估框架Promptception。该框架通过构建全面的提示词集合,并对LMMs进行系统评估,能够更全面地了解模型对提示词的依赖程度,从而实现更稳健和公平的模型评估。与现有方法相比,Promptception不仅关注模型的最佳性能,更关注模型在不同提示词下的性能分布,从而更准确地反映模型的真实能力。
关键设计:Promptception框架的关键设计包括: 1. 提示词类型的多样性:为了全面评估模型对不同提示词的敏感性,Promptception设计了多种提示词类型,涵盖了提示词的各个方面。 2. 评估指标的选择:除了传统的准确率指标外,Promptception还关注模型在不同提示词下的性能方差,以量化模型对提示词的敏感程度。 3. 针对性提示原则的制定:基于敏感性分析的结果,Promptception为专有和开源LMMs制定了针对性的提示原则,以指导用户选择合适的提示词。
🖼️ 关键图片
📊 实验亮点
实验结果表明,专有模型(如GPT-4o和Gemini 1.5 Pro)对提示词的措辞和结构更加敏感,而开源模型则相对稳定。在某些情况下,提示词的微小变化会导致专有模型的准确率偏差高达15%。基于这些发现,论文提出了针对专有和开源LMMs的提示原则,可以显著提高模型评估的公平性和可靠性。
🎯 应用场景
该研究成果可应用于大型多模态模型的公平评估、提示词工程优化以及模型鲁棒性提升。通过Promptception框架,可以更全面地了解模型对提示词的依赖程度,从而选择更合适的提示词,提高模型在实际应用中的性能。此外,该研究还可以指导模型开发者设计更鲁棒的模型,减少模型对提示词的敏感性。
📄 摘要(原文)
Despite the success of Large Multimodal Models (LMMs) in recent years, prompt design for LMMs in Multiple-Choice Question Answering (MCQA) remains poorly understood. We show that even minor variations in prompt phrasing and structure can lead to accuracy deviations of up to 15% for certain prompts and models. This variability poses a challenge for transparent and fair LMM evaluation, as models often report their best-case performance using carefully selected prompts. To address this, we introduce Promptception, a systematic framework for evaluating prompt sensitivity in LMMs. It consists of 61 prompt types, spanning 15 categories and 6 supercategories, each targeting specific aspects of prompt formulation, and is used to evaluate 10 LMMs ranging from lightweight open-source models to GPT-4o and Gemini 1.5 Pro, across 3 MCQA benchmarks: MMStar, MMMU-Pro, MVBench. Our findings reveal that proprietary models exhibit greater sensitivity to prompt phrasing, reflecting tighter alignment with instruction semantics, while open-source models are steadier but struggle with nuanced and complex phrasing. Based on this analysis, we propose Prompting Principles tailored to proprietary and open-source LMMs, enabling more robust and fair model evaluation.