Where MLLMs Attend and What They Rely On: Explaining Autoregressive Token Generation
作者: Ruoyu Chen, Xiaoqing Guo, Kangwei Liu, Siyuan Liang, Shiming Liu, Qunli Zhang, Laiyuan Wang, Hua Zhang, Xiaochun Cao
分类: cs.CV
发布日期: 2025-09-26 (更新: 2026-01-07)
💡 一句话要点
EAGLE:轻量级黑盒框架,解释多模态大语言模型自回归token生成过程。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 可解释性 归因分析 自回归生成 视觉语言对齐
📋 核心要点
- 现有MLLM缺乏对生成token与视觉模态依赖程度的深入理解,导致模型决策过程难以解释。
- EAGLE框架通过量化语言先验和感知证据的影响,将token归因于图像中的紧凑区域,从而解释token生成。
- 实验表明,EAGLE在忠实性、定位和幻觉诊断方面优于现有方法,且资源消耗更少,提升了MLLM的可解释性。
📝 摘要(中文)
多模态大语言模型(MLLM)在对齐视觉输入和自然语言输出方面表现出了卓越的能力。然而,生成的token在多大程度上依赖于视觉模态仍然知之甚少,这限制了解释性和可靠性。本文提出了EAGLE,一个轻量级的黑盒框架,用于解释MLLM中的自回归token生成。EAGLE将任何选定的token归因于紧凑的感知区域,同时量化语言先验和感知证据的相对影响。该框架引入了一个目标函数,统一了充分性(洞察力得分)和不可或缺性(必要性得分),通过对稀疏图像区域的贪婪搜索进行优化,以实现忠实和高效的归因。除了空间归因,EAGLE还执行模态感知分析,解耦token所依赖的内容,从而提供对模型决策的细粒度解释。在开源MLLM上的大量实验表明,EAGLE在忠实性、定位和幻觉诊断方面始终优于现有方法,同时需要更少的GPU内存。这些结果突出了其在提高MLLM可解释性方面的有效性和实用性。
🔬 方法详解
问题定义:现有的多模态大语言模型(MLLM)在生成文本时,其生成的token对视觉信息的依赖程度难以量化和解释。这导致我们难以理解模型是如何利用视觉信息做出决策的,也难以诊断模型可能出现的幻觉问题。现有的方法通常计算量大,或者无法提供足够细粒度的解释。
核心思路:EAGLE的核心思路是通过归因分析,将生成的token与图像中的特定区域联系起来,并量化语言先验和视觉证据对token生成的影响。通过优化一个结合了充分性和必要性的目标函数,找到对token生成贡献最大的图像区域。这样可以揭示模型关注的视觉信息,并判断其是否合理。
技术框架:EAGLE框架主要包含以下几个步骤:1) 选择需要解释的token;2) 通过贪婪搜索,在图像中找到对该token生成贡献最大的稀疏区域;3) 计算该区域的洞察力得分(sufficiency score)和必要性得分(necessity score),分别衡量该区域对token生成的充分性和不可或缺性;4) 进行模态感知分析,区分token对语言先验和视觉信息的依赖程度。
关键创新:EAGLE的关键创新在于其目标函数,该函数同时考虑了充分性和必要性,能够更准确地找到对token生成至关重要的图像区域。此外,EAGLE采用贪婪搜索和稀疏化技术,显著降低了计算复杂度,使其能够应用于大型MLLM。模态感知分析则提供了更细粒度的解释,揭示了token对不同模态信息的依赖程度。
关键设计:EAGLE的目标函数是sufficiency score和necessity score的加权组合。sufficiency score衡量移除某个区域后,token生成概率的下降程度;necessity score衡量只保留某个区域时,token生成概率的提升程度。权重参数用于平衡两个score的重要性。贪婪搜索算法用于在图像中选择区域,每次选择能够最大化目标函数值的区域。稀疏化技术用于减少搜索空间,提高效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EAGLE在忠实性、定位和幻觉诊断方面均优于现有方法。具体来说,EAGLE能够更准确地定位对token生成至关重要的图像区域,并能够更有效地诊断模型产生的幻觉。此外,EAGLE所需的GPU内存显著低于现有方法,使其能够应用于更大规模的MLLM。例如,在某个实验中,EAGLE的GPU内存消耗比最先进的方法降低了50%以上。
🎯 应用场景
EAGLE可用于评估和改进多模态大语言模型的可靠性和可信度。例如,可以利用EAGLE诊断模型在特定场景下是否产生了幻觉,或者模型是否过度依赖语言先验而忽略了视觉信息。此外,EAGLE还可以帮助开发者更好地理解模型的内部机制,从而设计出更有效的模型架构和训练方法。该研究对提升多模态人工智能系统的透明度和可控性具有重要意义。
📄 摘要(原文)
Multimodal large language models (MLLMs) have demonstrated remarkable capabilities in aligning visual inputs with natural language outputs. Yet, the extent to which generated tokens depend on visual modalities remains poorly understood, limiting interpretability and reliability. In this work, we present EAGLE, a lightweight black-box framework for explaining autoregressive token generation in MLLMs. EAGLE attributes any selected tokens to compact perceptual regions while quantifying the relative influence of language priors and perceptual evidence. The framework introduces an objective function that unifies sufficiency (insight score) and indispensability (necessity score), optimized via greedy search over sparsified image regions for faithful and efficient attribution. Beyond spatial attribution, EAGLE performs modality-aware analysis that disentangles what tokens rely on, providing fine-grained interpretability of model decisions. Extensive experiments across open-source MLLMs show that EAGLE consistently outperforms existing methods in faithfulness, localization, and hallucination diagnosis, while requiring substantially less GPU memory. These results highlight its effectiveness and practicality for advancing the interpretability of MLLMs.