Vision Language Models Map Logos to Text via Semantic Entanglement in the Visual Projector

作者: Sifan Li, Hongkai Chen, Yujun Cai, Qingwen Ye, Liyang Chen, Junsong Yuan, Yiwei Wang

分类: cs.CV, cs.CL

发布日期: 2025-10-14

💡 一句话要点

视觉语言模型通过视觉投影器的语义纠缠将Logo映射到文本，易产生幻觉

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 Logo识别 幻觉问题 语义纠缠 视觉投影器 多模态学习 模型鲁棒性

📋 核心要点

现有视觉语言模型在处理logo识别时，即使logo不包含文字，也容易产生幻觉，错误地生成品牌名称或相关文本。
该论文的核心思想是，VLMs的视觉投影器存在语义纠缠，导致模型依赖符号先验而非字形感知，从而产生幻觉。
通过实验发现，幻觉与投影器维度的一个小子集有关，有针对性的消融可以有效减少幻觉，同时保持OCR的准确性。

📝 摘要（中文）

视觉语言模型(VLMs)在多模态推理方面取得了显著进展，但仍然容易产生幻觉，即输出没有视觉证据支持。本文研究了一个先前被忽视的场景：logo幻觉，即模型生成品牌名称或文本内容，尽管logo中没有可见的文字。通过精心设计的纯符号、混合和带文本的logo数据集，以及具有挑战性的Hard-60子集，系统地测量了主流VLMs的幻觉程度。通过九种结构化扰动来探测模型的鲁棒性，结果表明，即使在强烈的扭曲下，幻觉仍然存在，遮挡暴露了最明显的弱点。使用开源LLaVA的嵌入级别分析表明，幻觉与投影器维度的一个小子集有关，并且有针对性的消融可以显著减少错误，同时保持OCR的准确性。这些发现表明，VLMs通常依赖于符号先验，而不是真正的字形感知，特别是对于标志性的圆形logo，并且投影器子空间在这种失败模式中起着决定性的作用。这项工作贡献了一种新的诊断视角和可操作的缓解措施，强调了投影器解耦和OCR引导的解码是构建更值得信赖的多模态系统的有希望的方向。

🔬 方法详解

问题定义：论文旨在解决视觉语言模型在logo识别任务中出现的幻觉问题，即在没有文字的logo图像上生成不正确的文本描述。现有方法未能充分利用视觉信息，过度依赖预训练的符号先验知识，导致对logo的错误理解。

核心思路：论文的核心思路是，视觉语言模型中的视觉投影器存在语义纠缠，导致模型将logo的视觉特征错误地映射到文本空间。通过分析投影器的嵌入空间，可以找到导致幻觉的关键维度，并进行有针对性的干预。

技术框架：论文主要采用以下技术框架：1)构建包含纯符号、混合和带文本logo的数据集，以及一个具有挑战性的Hard-60子集。2)使用这些数据集评估主流VLMs的幻觉程度。3)通过结构化扰动测试模型的鲁棒性。4)使用开源LLaVA进行嵌入级别分析，识别投影器中与幻觉相关的维度。5)通过消融实验验证关键维度的作用。

关键创新：论文的关键创新在于：1)首次系统地研究了VLMs在logo识别任务中的幻觉问题。2)揭示了视觉投影器中的语义纠缠是导致幻觉的关键因素。3)提出了一种通过消融投影器关键维度来减少幻觉的方法。

关键设计：论文的关键设计包括：1)精心设计的logo数据集，涵盖不同类型的logo。2)结构化扰动，用于测试模型的鲁棒性。3)嵌入级别分析，用于识别投影器中的关键维度。4)有针对性的消融实验，用于验证关键维度的作用。具体来说，消融实验通过mask掉投影器中与幻觉相关的维度，观察模型输出的变化，从而验证这些维度对幻觉的影响。

🖼️ 关键图片

📊 实验亮点

实验结果表明，主流VLMs在logo识别任务中普遍存在幻觉现象，尤其是在处理纯符号logo时。通过消融投影器中与幻觉相关的维度，可以在显著减少幻觉的同时，保持OCR的准确性。例如，在Hard-60数据集上，消融关键维度后，幻觉率降低了XX%（具体数据未在摘要中给出）。

🎯 应用场景

该研究成果可应用于提升视觉语言模型在图像理解任务中的可靠性和准确性，尤其是在涉及品牌识别、产品搜索等场景中。通过减少幻觉，可以提高用户对模型的信任度，并避免因错误信息导致的商业损失。未来的研究可以探索更有效的投影器解耦方法，以及结合OCR引导的解码策略，进一步提升多模态系统的性能。

📄 摘要（原文）

Vision Language Models (VLMs) have achieved impressive progress in multimodal reasoning; yet, they remain vulnerable to hallucinations, where outputs are not grounded in visual evidence. In this paper, we investigate a previously overlooked setting: logo hallucination, where models generate brand names or textual content despite logos containing no visible words. Using curated splits of pure symbols, hybrids, and text-bearing logos, as well as the challenging Hard-60 subset, we systematically measure hallucination across leading VLMs. We further probe robustness through nine structured perturbations and show that hallucinations persist even under strong distortions, with occlusion exposing the sharpest weaknesses. Embedding-level analysis with open-weight LLaVA demonstrates that hallucination is tied to a small subset of projector dimensions, and targeted ablation substantially reduces errors while preserving OCR accuracy. Together, these findings reveal that VLMs often rely on symbolic priors rather than genuine glyph perception, particularly for iconic circular logos, and that projector subspaces play a decisive role in this failure mode. Our work contributes both a novel diagnostic lens and actionable mitigation insights, highlighting projector disentanglement and OCR-guided decoding as promising directions for building more trustworthy multimodal systems.

Vision Language Models Map Logos to Text via Semantic Entanglement in the Visual Projector

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理