Semantic Misalignment in Vision-Language Models under Perceptual Degradation

📄 arXiv: 2601.08355v1 📥 PDF

作者: Guo Cheng

分类: cs.CV

发布日期: 2026-01-13


💡 一句话要点

研究视觉语言模型在感知退化下的语义失调问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 语义失调 感知退化 自动驾驶 多模态学习

📋 核心要点

  1. 现有视觉语言模型在面对现实环境中的感知退化时表现出明显的脆弱性,导致语义推理和决策不可靠。
  2. 本文提出了一种系统化的方法,通过引入感知现实的损坏来研究VLMs的语义失调,重点分析其对下游任务的影响。
  3. 实验结果表明,尽管传统分割指标变化不大,但VLM的行为却出现严重失调,强调了评估框架的重要性。

📝 摘要(中文)

视觉语言模型(VLMs)在自动驾驶和具身人工智能系统中越来越多地被应用,其中可靠的感知对于安全的语义推理和决策至关重要。尽管近期的VLMs在多模态基准测试中表现出色,但其对现实感知退化的鲁棒性仍然不够了解。本文系统研究了在上游视觉感知受控退化下VLMs的语义失调,使用Cityscapes数据集的语义分割作为代表性感知模块。我们引入了感知现实的损坏,虽然在传统分割指标上仅导致适度下降,但在下游VLM行为中观察到严重失败,包括虚构的物体提及、安全关键实体的遗漏和不一致的安全判断。为量化这些影响,我们提出了一组语言级失调指标,分析其与多种对比性和生成性VLMs的分割质量之间的关系。结果揭示了像素级鲁棒性与多模态语义可靠性之间的明显脱节,突显了当前基于VLM的系统的关键局限性,并激励了需要明确考虑感知不确定性的安全关键应用评估框架。

🔬 方法详解

问题定义:本文旨在解决视觉语言模型在感知退化情况下的语义失调问题,现有方法未能充分考虑感知不确定性对模型性能的影响。

核心思路:通过引入感知现实的损坏,系统研究VLMs在视觉感知退化下的表现,提出新的语言级失调指标来量化模型的失调现象。

技术框架:研究采用了Cityscapes数据集进行语义分割,构建了一个包含感知损坏的实验框架,分析了多种对比性和生成性VLMs的表现。

关键创新:提出了一组新的语言级失调指标,能够捕捉到虚构提及、安全关键实体遗漏和安全误解等现象,填补了现有研究的空白。

关键设计:在实验中,采用了多种损坏类型,并通过对比分析不同VLMs的分割质量与语义失调之间的关系,揭示了模型在感知退化下的脆弱性。

📊 实验亮点

实验结果显示,在引入感知现实的损坏后,VLMs在下游任务中出现了严重的失调现象,例如虚构物体提及的比例高达30%,而传统分割指标的变化却不明显。这一发现强调了像素级鲁棒性与多模态语义可靠性之间的脱节。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、机器人导航和具身人工智能系统等安全关键场景。通过提高VLMs在感知退化下的鲁棒性,能够显著提升这些系统的安全性和可靠性,进而推动智能系统在复杂环境中的应用。

📄 摘要(原文)

Vision-Language Models (VLMs) are increasingly deployed in autonomous driving and embodied AI systems, where reliable perception is critical for safe semantic reasoning and decision-making. While recent VLMs demonstrate strong performance on multimodal benchmarks, their robustness to realistic perception degradation remains poorly understood. In this work, we systematically study semantic misalignment in VLMs under controlled degradation of upstream visual perception, using semantic segmentation on the Cityscapes dataset as a representative perception module. We introduce perception-realistic corruptions that induce only moderate drops in conventional segmentation metrics, yet observe severe failures in downstream VLM behavior, including hallucinated object mentions, omission of safety-critical entities, and inconsistent safety judgments. To quantify these effects, we propose a set of language-level misalignment metrics that capture hallucination, critical omission, and safety misinterpretation, and analyze their relationship with segmentation quality across multiple contrastive and generative VLMs. Our results reveal a clear disconnect between pixel-level robustness and multimodal semantic reliability, highlighting a critical limitation of current VLM-based systems and motivating the need for evaluation frameworks that explicitly account for perception uncertainty in safety-critical applications.