Mechanistic Diagnostics of Spatial Lexical Bias in Multimodal Large Language Model Spatial Reasoning
作者: Chuang Ma, Qianying Liu, Tomoyuki Obuchi, Fei Cheng, Wang Yang, Sudong Cai, Shuyuan Zheng, Akiko Aizawa, Sadao Kurohashi
分类: cs.CL, cs.CV
发布日期: 2026-06-01
💡 一句话要点
揭示多模态大语言模型空间推理中的词汇偏见并提出轻量级修正方案
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 空间推理 词汇偏见 机制可解释性 Direct Preference Optimization
📋 核心要点
- 现有MLLM在空间推理任务中表现不佳,常被归因于视觉信息处理不足。
- 论文发现空间词汇偏见:答案选项中的空间关系词会影响模型选择,即使视觉信息正确。
- 通过机制可解释性工具定位偏见来源,并提出轻量级DPO更新,显著提升模型性能。
📝 摘要(中文)
多模态大语言模型(MLLMs)在空间多项选择题上仍然不可靠,其失败通常归因于视觉信息关注不足。本文识别出一种互补的失败模式,即空间词汇偏见:在答案选项中添加一个空间关系词会吸引模型的决策,并使新添加的选项更有可能被选中。使用九个开源MLLM,我们表明这种现象被广泛观察到。特别是,模型可以正确回答一个二元空间问题,但一旦将不正确的第三个空间选项添加到答案集中,就会始终选择该选项。我们将这种二元稳定但三元脆弱的情况分离为诊断示例,并利用机制可解释性工具,揭示出失败的很大一部分源于语言侧而不是视觉侧:视觉注意力分析和残差流探测表明,正确的空间关系在这些失败中仍然在内部可用,而不相关的选项控制、激活修补和稀疏组件干预将偏差追溯到特定的LLM侧通道和神经元。基于这一发现,我们表明,在微小的单对象对合成数据上进行轻量级的仅LLM的DPO更新可以减轻偏差,在合成数据上将四向鲁棒准确率提高了高达100个点,在更广泛的评估数据集WhatsUp、SpatialMQA-Direct和VSR上分别提高了68.0、32.6和20.1个点。
🔬 方法详解
问题定义:多模态大语言模型在处理空间推理任务时,容易受到答案选项中空间关系词的影响,即使模型已经正确理解了视觉信息。这种“空间词汇偏见”导致模型在添加包含空间关系词的错误选项后,反而会选择该错误选项,降低了模型的可靠性。现有方法主要关注视觉信息处理,忽略了语言侧的潜在问题。
核心思路:论文的核心思路是识别并诊断MLLM中的空间词汇偏见,并提出一种轻量级的修正方案。通过构建特定的诊断示例,并结合机制可解释性工具,深入分析模型内部的决策过程,从而定位偏见的来源。然后,利用Direct Preference Optimization (DPO)算法,在少量合成数据上对语言模型进行微调,以减轻这种偏见。
技术框架:论文的技术框架主要包括以下几个阶段:1) 构建诊断数据集:设计二元稳定但三元脆弱的测试用例,用于检测空间词汇偏见。2) 模型评估:在多个开源MLLM上评估空间词汇偏见的普遍性。3) 机制可解释性分析:利用视觉注意力分析、残差流探测、激活修补和稀疏组件干预等工具,定位偏见的来源。4) 偏见缓解:使用DPO算法,在合成数据上对语言模型进行微调,以减轻空间词汇偏见。5) 性能评估:在多个数据集上评估微调后的模型性能。
关键创新:论文最重要的技术创新点在于:1) 识别并定义了MLLM中的空间词汇偏见,揭示了语言侧对空间推理的影响。2) 利用机制可解释性工具,深入分析了偏见的来源,发现偏见主要源于语言模型侧的特定通道和神经元。3) 提出了一种轻量级的DPO更新方案,可以在少量数据上有效地减轻偏见,提升模型性能。与现有方法相比,该方法更加关注语言侧的问题,并且具有更高的效率和可扩展性。
关键设计:在偏见缓解阶段,论文使用了Direct Preference Optimization (DPO)算法,这是一种无需奖励模型的强化学习方法,可以直接优化语言模型的策略。论文在微小的单对象对合成数据上进行DPO更新,避免了对大量数据的依赖。此外,论文还使用了激活修补和稀疏组件干预等技术,以更精确地定位和干预模型中的偏见来源。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,论文提出的轻量级DPO更新方案能够有效减轻空间词汇偏见,在合成数据上将四向鲁棒准确率提高了高达100个点,在WhatsUp、SpatialMQA-Direct和VSR等数据集上分别提高了68.0、32.6和20.1个点。这些结果验证了该方案的有效性和泛化能力。
🎯 应用场景
该研究成果可应用于提升多模态大语言模型在机器人导航、智能家居、自动驾驶等领域的空间推理能力。通过减轻空间词汇偏见,可以提高模型在复杂环境中的决策准确性和可靠性,从而改善人机交互体验,并促进相关技术的实际应用。
📄 摘要(原文)
Multimodal large language models (MLLMs) remain unreliable on spatial multiple-choice questions, and their failures are often attributed to poorly attended visual information. In this work, we identify a complementary failure mode, spatial lexical bias: adding a spatial relation word to the answer options can attract the model's decision and make the newly added option likely to be selected. Using nine open-weight MLLMs, we show that this phenomenon is widely observed. In particular, models can answer a binary spatial question correctly, yet consistently select an incorrect third spatial option once it is added to the answer set. We isolate such binary-stable but ternary-fragile cases as diagnostic examples and leverage mechanistic interpretability tools, revealing that a substantial part of the failure instead originates on the language side rather than the visual side: visual attention analyses and residual-stream probes show the correct spatial relation remains internally available on these failures, while irrelevant-option controls, activation patching, and sparse component interventions trace the bias to specific LLM-side channels and neurons. Based on this finding, we show that a lightweight LLM-only DPO update on tiny single-object-pair synthetic data mitigates the bias, lifting four-way robust accuracy by up to 100 points on synthetic data, and by 68.0, 32.6, and 20.1 points on broader evaluation datasets WhatsUp, SpatialMQA-Direct, and VSR.