Mitigating Mask Prior Drift and Positional Attention Collapse in Large Diffusion Vision-Language Models
作者: Sujung Hong, Chanyong Yoon, Seongjae Hwang
分类: cs.CV
发布日期: 2026-05-14
💡 一句话要点
针对大型扩散视觉-语言模型,提出Mask先验抑制和单调RoPE缩放,解决长文本生成中的重复生成和视觉 grounding 退化问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 视觉-语言模型 长文本生成 视觉 grounding 注意力机制
📋 核心要点
- 现有大型扩散视觉-语言模型在长文本生成中存在重复生成和视觉 grounding 退化的问题,限制了其应用。
- 论文提出 Mask 先验抑制和单调 RoPE 缩放两种策略,分别缓解 mask 先验漂移和位置注意力崩溃问题。
- 实验表明,该方法在通用多模态和视觉 grounding 任务上均优于基线模型,尤其在长文本描述任务中提升显著。
📝 摘要(中文)
大型扩散视觉-语言模型(LDVLMs)作为自回归模型的替代方案,因其并行解码的高效推理和双向注意力机制带来的全局上下文感知能力而备受关注。然而,它们在长文本生成中的表现仍未被充分探索。本文指出,现有的LDVLMs存在重复生成和视觉 grounding 性能下降的问题,并归因于两个潜在原因:一是生成 token 初始化为 mask token 导致其隐层表示逐渐向共享先验方向漂移;二是位置注意力偏差与迭代 unmasking 过程的不匹配抑制了对信息丰富的视觉 token 的关注,从而降低了视觉 grounding 效果。基于这些发现,我们提出了一种无需训练的方法,即 Mask 先验抑制和单调 RoPE 缩放,以减轻解码过程中的 mask 先验漂移和位置注意力崩溃。在通用多模态基准测试和视觉 grounding 任务上的实验表明,该方法优于基线 LDVLMs,并在长文本描述基准测试中取得了显著提升。结果表明,这些问题可以通过轻量级的即插即用策略有效解决,该策略无需额外训练,并且可以推广到各种 LDVLM 架构。
🔬 方法详解
问题定义:论文旨在解决大型扩散视觉-语言模型(LDVLMs)在长文本生成任务中出现的两个主要问题:重复生成和视觉 grounding 性能下降。现有 LDVLMs 在长文本生成时,容易产生重复的内容,并且无法准确地将生成的文本与图像中的相关区域对应起来。这两个问题限制了 LDVLMs 在需要生成长篇、详细描述的应用场景中的表现。
核心思路:论文的核心思路是针对性地解决导致重复生成和视觉 grounding 性能下降的根本原因。对于重复生成问题,论文认为这是由于生成 token 初始化为 mask token 导致的隐层表示向共享先验方向漂移。对于视觉 grounding 性能下降问题,论文认为是位置注意力偏差与迭代 unmasking 过程的不匹配抑制了对信息丰富的视觉 token 的关注。因此,论文分别提出了 Mask 先验抑制和单调 RoPE 缩放两种策略。
技术框架:论文提出的方法是即插即用的,不需要重新训练模型,可以直接应用于现有的 LDVLM 架构。整体流程如下:首先,使用 LDVLM 生成文本;然后,应用 Mask 先验抑制策略来减少 mask 先验漂移;接着,应用单调 RoPE 缩放策略来调整位置注意力偏差;最后,输出生成的文本。
关键创新:论文的关键创新在于发现了 LDVLMs 在长文本生成中存在的 mask 先验漂移和位置注意力崩溃问题,并提出了相应的解决方案。Mask 先验抑制通过抑制 mask token 的先验信息,减少了重复生成的可能性。单调 RoPE 缩放通过调整 RoPE 的缩放比例,使得模型能够更好地关注信息丰富的视觉 token,从而提高了视觉 grounding 性能。
关键设计:Mask 先验抑制的具体实现方式是,在生成过程中,对 mask token 的隐层表示进行抑制,使其远离共享先验方向。单调 RoPE 缩放的具体实现方式是,根据生成步数动态调整 RoPE 的缩放比例,使得模型在生成初期更加关注全局信息,在生成后期更加关注局部信息。具体缩放函数的选择需要根据实验结果进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的 Mask 先验抑制和单调 RoPE 缩放策略能够有效提升 LDVLMs 在长文本生成任务中的性能。在通用多模态基准测试和视觉 grounding 任务上,该方法均优于基线模型。尤其是在长文本描述任务中,性能提升显著,重复生成现象明显减少,视觉 grounding 准确性得到提高。
🎯 应用场景
该研究成果可应用于图像描述生成、视觉故事讲述、视觉问答等领域。通过提升长文本生成质量和视觉 grounding 准确性,可以使机器更好地理解图像内容,并生成更自然、更符合人类表达习惯的文本描述。未来,该技术有望应用于智能客服、内容创作、教育娱乐等多个行业。
📄 摘要(原文)
Large diffusion vision-language models (LDVLMs) have recently emerged as a promising alternative to autoregressive models, enabling parallel decoding for efficient inference and leveraging bidirectional attention for global context. Despite these advances, their behavior under long-form generation remains underexplored. In this work, we show that existing LDVLMs suffer from repetitive generation and degraded visual grounding, and identify two underlying causes. First, repetitive generation originates from a mask token prior: since generation tokens are initialized as mask tokens, their hidden representations progressively drift toward a shared prior direction over generation steps. Second, a fundamental misalignment between the positional attention bias and the iterative unmasking process suppresses attention toward informative visual tokens, degrading visual grounding. Based on these insights, we propose a training-free approach, introducing Mask Prior Suppression and Monotonic RoPE Scaling to mitigate mask prior drift and positional attention collapse during decoding. Experiments on general multimodal benchmarks and visual grounding tasks demonstrate improvements over baseline LDVLMs, with robust gains on long-form description benchmarks. Our results show that these failures can be effectively addressed with a lightweight, plug-and-play strategy that requires no additional training and generalizes across diverse LDVLM architectures.