Sycophancy in Vision-Language Models: A Systematic Analysis and an Inference-Time Mitigation Framework

作者: Yunpu Zhao, Rui Zhang, Junbin Xiao, Changxin Ke, Ruibo Hou, Yifan Hao, Ling Li

分类: cs.AI, cs.CL

发布日期: 2024-08-21 (更新: 2025-06-23)

期刊: Neurocomputing, Volume 659, 2026, 131217

DOI: 10.1016/j.neucom.2025.131217

💡 一句话要点

提出一种推理时缓解框架，系统性分析并缓解视觉语言模型中的谄媚现象。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 谄媚现象 推理时缓解 对比解码 提示工程

📋 核心要点

现有视觉语言模型易受引导性提示影响，产生谄媚现象，导致输出偏差和幻觉，缺乏系统性的评估和缓解方法。
提出一种无需训练、模型无关的推理时缓解框架，通过查询中和、对比解码和logits细化来抑制谄媚偏差。
实验表明，该框架能有效缓解多种模型中的谄媚现象，同时保持中性提示下的性能，提升模型鲁棒性。

📝 摘要（中文）

大型视觉语言模型(LVLMs)在视觉语言理解方面表现出显著的能力。然而，一个持续存在的重要问题是谄媚，即模型过度受到引导性或欺骗性提示的影响，导致有偏见的输出和幻觉。尽管LVLMs发展迅速，但评估和缓解谄媚现象的研究仍然不足。本文通过系统地分析多个视觉语言基准测试中的谄媚现象，并提出一种推理时缓解框架来填补这一空白。我们精心设计了引导性查询，并量化了最先进的LVLMs对提示诱导偏差的敏感性，揭示了模型和任务之间一致的性能下降和不稳定性。我们的分析进一步揭示了模型特定的行为特征，例如情感敏感性和谄媚下的预测极性变化。为了缓解这些问题，我们提出了一个无需训练、模型无关的框架，该框架完全在推理时运行。我们的方法首先采用查询中和器，利用语言模型来抑制用户查询中隐含的谄媚偏差。然后，我们引入了一种谄媚感知对比解码机制，通过对比对中和查询和引导性查询的响应来动态地重新校准token级别的输出分布。最后，自适应logits细化模块通过集成自适应合理性过滤器和查询情感缩放器来进一步修改对比的logits，确保连贯和鲁棒的生成。大量的实验表明，该框架有效地缓解了所有评估模型中的谄媚现象，同时保持了中性提示下的性能。我们的结果表明，LVLMs中的谄媚现象是一个普遍而紧迫的挑战，并且推理时策略为实现可信的多模态推理提供了一条有希望的途径。

🔬 方法详解

问题定义：论文旨在解决大型视觉语言模型（LVLMs）中存在的“谄媚”现象，即模型容易受到引导性或欺骗性提示的影响，从而产生有偏见或不准确的输出。现有方法缺乏对这种现象的系统性分析和有效缓解措施，使得LVLMs在实际应用中存在潜在风险。

核心思路：论文的核心思路是在推理阶段，通过一系列策略来识别并消除提示中的谄媚偏差，从而使模型能够基于客观事实进行推理，而不是盲目迎合提示中的倾向。这种方法无需重新训练模型，具有较强的通用性和实用性。

技术框架：该框架包含三个主要模块：1) 查询中和器：利用语言模型来识别并消除用户查询中隐含的谄媚偏差，生成更中性的查询。2) 谄媚感知对比解码：通过对比模型对原始查询和中性查询的响应，动态调整token级别的输出分布，抑制谄媚倾向。3) 自适应logits细化：进一步调整对比解码后的logits，通过自适应合理性过滤器和查询情感缩放器，确保生成的文本连贯且鲁棒。

关键创新：该论文的关键创新在于提出了一种完全在推理时进行的谄媚缓解框架，无需修改模型结构或重新训练。通过查询中和、对比解码和logits细化等手段，有效地抑制了模型对引导性提示的敏感性，提高了模型的可靠性和公正性。

关键设计：查询中和器使用预训练语言模型生成中性查询，对比解码机制通过计算原始查询和中性查询输出的差异来调整token概率分布，自适应合理性过滤器根据预定义的知识库或常识来过滤不合理的token，查询情感缩放器根据查询的情感倾向来调整logits，以平衡模型的情感倾向。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该框架能够有效缓解多种LVLMs中的谄媚现象，同时保持甚至提升模型在中性提示下的性能。具体而言，在多个视觉语言基准测试中，该框架能够显著降低模型对引导性提示的敏感性，并提高生成文本的准确性和一致性。此外，该框架的无需训练特性使其易于部署和应用。

🎯 应用场景

该研究成果可应用于各种需要视觉语言模型进行决策或生成内容的场景，例如智能客服、自动报告生成、图像描述等。通过缓解谄媚现象，可以提高模型的可靠性和公正性，避免模型受到恶意引导或产生偏见，从而提升用户体验和信任度。未来，该方法可以进一步扩展到其他类型的AI模型，例如文本生成模型和对话系统。

📄 摘要（原文）

Large Vision-Language Models (LVLMs) have shown significant capability in vision-language understanding. However, one critical issue that persists in these models is sycophancy, where models are unduly influenced by leading or deceptive prompts, resulting in biased outputs and hallucinations. Despite the rapid development of LVLMs, evaluating and mitigating sycophancy remains largely under-explored. In this work, we fill this gap by systematically analyzing sycophancy across multiple vision-language benchmarks and propose an inference-time mitigation framework. We curate leading queries and quantify the susceptibility of state-of-the-art LVLMs to prompt-induced bias, revealing consistent performance degradation and instability across models and tasks. Our analysis further uncovers model-specific behavioral traits, such as sentiment sensitivity and prediction polarity shifts under sycophancy. To mitigate these issues, we propose a training-free, model-agnostic framework that operates entirely at inference time. Our approach first employs a query neutralizer, leveraging an language model to suppress implicit sycophantic bias in user queries. We then introduce a sycophancy-aware contrastive decoding mechanism that dynamically recalibrates token-level output distributions by contrasting responses to neutralized and leading queries. Finally, an adaptive logits refinement module further modifies the contrasted logits by integrating both a adaptive plausibility filter and query sentiment scaler, ensuring coherent and robust generation. Extensive experiments demonstrate that this framework effectively mitigates sycophancy across all evaluated models, while maintaining performance on neutral prompts. Our results suggest that sycophancy in LVLMs is a general and urgent challenge, and that inference-time strategies offer a promising path toward trustworthy multimodal reasoning.

Sycophancy in Vision-Language Models: A Systematic Analysis and an Inference-Time Mitigation Framework

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理