Senses Wide Shut: A Representation-Action Gap in Omnimodal LLMs
作者: Trung Nguyen Quang, Yiming Gao, Fanyi Pu, Kaichen Zhang, Shuo Sun, Ziwei Liu
分类: cs.AI, cs.CL
发布日期: 2026-05-13
💡 一句话要点
揭示全模态大语言模型中表征与行动之间的差距,并提出探针引导的logit调整方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 全模态大语言模型 多模态理解 冲突检测 表征-行动差距 探针引导logit调整
📋 核心要点
- 现有全模态大语言模型在处理感官输入与文本描述冲突时,缺乏有效的冲突检测机制,导致对错误信息的接受。
- 论文提出IMAVB基准数据集,并设计实验来分离多模态理解和冲突检测,从而诊断模型在感知和行动上的不足。
- 实验发现模型存在表征-行动差距,并提出探针引导的logit调整(PGLA)方法,通过调整解码过程来改善拒绝行为。
📝 摘要(中文)
本文研究了全模态大语言模型在处理文本前提与其感知到的视觉或听觉信息相矛盾时的表现,旨在区分模型失败的原因是感知错误还是行动错误。作者构建了一个名为IMAVB的基准数据集,包含500个长视频片段,通过操纵视觉和听觉模态以及前提条件(标准或误导性),来评估模型在多模态理解之外的冲突检测能力。实验结果表明,模型存在“表征-行动差距”:隐藏状态能够可靠地编码前提与感知之间的不匹配,但模型却很少拒绝错误的主张。模型表现出两种失败模式:低拒绝率和过度拒绝率。音频模态的性能低于视觉模态,且该差距对不同的prompt具有鲁棒性。作为初步干预手段,探针引导的logit调整(PGLA)将编码的不匹配信号重新注入解码过程,从而改善了拒绝行为。研究表明,全模态理解的瓶颈在于翻译而非感知。
🔬 方法详解
问题定义:论文旨在解决全模态大语言模型在处理文本前提与其感知到的多模态信息(视觉、听觉)相矛盾时,无法有效检测并拒绝错误主张的问题。现有方法未能充分测试模型在感知层面是否真正理解了多模态信息,以及这种理解是否能转化为正确的行动(拒绝错误信息)。
核心思路:论文的核心思路是将多模态理解和冲突检测分离,通过构建包含矛盾信息的测试用例,来评估模型是否能够识别并拒绝与感知输入不一致的文本前提。通过分析模型的内部表征,来判断模型是否已经感知到了冲突,但未能将其转化为正确的输出行为。
技术框架:论文构建了一个名为IMAVB的基准数据集,包含长视频片段,并设计了2x2的实验,分别操纵目标模态(视觉、听觉)和前提条件(标准、误导性)。通过分析模型在不同条件下的表现,来评估其多模态理解和冲突检测能力。此外,论文还提出了探针引导的logit调整(PGLA)方法,作为一种干预手段,将编码的不匹配信号重新注入解码过程。
关键创新:论文的关键创新在于:1) 提出了IMAVB基准数据集,用于评估全模态模型的冲突检测能力;2) 揭示了全模态大语言模型中存在的“表征-行动差距”,即模型能够感知到冲突,但未能将其转化为正确的输出行为;3) 提出了探针引导的logit调整(PGLA)方法,作为一种干预手段,改善了模型的拒绝行为。
关键设计:IMAVB数据集包含500个长视频片段,每个片段都配有文本描述,其中一部分描述与视频或音频内容相矛盾。实验中,作者使用了多个开源全模态大语言模型和Gemini 3.1 Pro,并设计了多种prompt变体,以评估模型的鲁棒性。PGLA方法通过训练一个探针来预测隐藏状态中是否存在不匹配信号,然后利用该探针的输出来调整解码过程中的logit,从而引导模型拒绝错误的主张。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有全模态大语言模型普遍存在表征-行动差距,即模型能够感知到前提与感官输入之间的矛盾,但却未能有效拒绝错误的主张。通过PGLA方法,模型的拒绝行为得到了显著改善,表明全模态理解的瓶颈在于翻译而非感知。音频模态的性能明显低于视觉模态,提示未来研究需要更加关注音频信息的处理。
🎯 应用场景
该研究成果可应用于提升多模态智能体的可靠性和安全性,例如在自动驾驶、智能家居、医疗诊断等领域,确保AI系统能够准确理解并响应真实世界的复杂信息,避免因错误信息而导致的安全风险。未来的研究可以探索更有效的表征对齐和行动策略,以弥合表征-行动差距。
📄 摘要(原文)
When an omnimodal large language model accepts a question whose textual premise contradicts what it actually sees or hears, does the failure lie in perception or in action? Recent omnimodal models are positioned as perception-grounded agents that jointly process video, audio, and text, yet a basic form of grounding remains untested: catching a textual claim that conflicts with the model's own sensory input. We introduce IMAVB, a curated 500-clip benchmark of long-form movies with a 2x2 design crossing target modality (vision, audio) and premise condition (standard, misleading), which lets us measure conflict detection separately from ordinary multimodal comprehension. Across eight open-source omnimodal LLMs and Gemini 3.1 Pro, we document a Representation-Action Gap: hidden states reliably encode premise-perception mismatches even when the same models almost never reject the false claim in their outputs. Behaviorally, models fall into two failure modes: under-rejection, in which they answer misleading questions as if the false premise were true; and over-rejection, in which they reject more often but also reject standard questions, sacrificing ordinary comprehension accuracy. The gap is modality-asymmetric (audio grounding underperforms vision) and prompt-resistant across seven variants. As an initial diagnostic intervention, a probe-guided logit adjustment (PGLA) re-injects the encoded mismatch signal into decoding and consistently improves rejection behavior. Together, these results suggest the bottleneck for omnimodal grounding lies in translation, not perception.