Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

📄 arXiv: 2605.00814v1 📥 PDF

作者: Siyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Zefeng He, Muxin Fu, Daizong Liu, Wei-Long Zheng, Yu Cheng

分类: cs.CV, cs.AI

发布日期: 2026-05-01


💡 一句话要点

提出持久视觉记忆(PVM)模块,解决LVLM深度生成中的视觉信号稀释问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 长序列生成 视觉信号稀释 持久视觉记忆 多模态学习

📋 核心要点

  1. 现有LVLM在长序列生成中存在视觉信号衰减问题,影响了模型对视觉信息的持续感知能力。
  2. 论文提出持久视觉记忆(PVM)模块,通过建立与距离无关的检索路径,直接提供视觉嵌入,增强视觉感知。
  3. 实验表明,PVM在Qwen3-VL模型上显著提升了复杂推理任务的精度,且参数开销极小。

📝 摘要(中文)

自回归大型视觉语言模型(LVLM)在多模态任务中表现出色,但面临“视觉信号稀释”现象,即文本历史的积累扩大了注意力分配函数,导致视觉注意力随生成序列长度的增加而衰减。为了解决这个问题,我们提出了持久视觉记忆(PVM),这是一个轻量级的可学习模块,旨在确保持续的、按需的视觉感知。PVM作为LVLM中前馈网络(FFN)的并行分支集成,建立了一个与距离无关的检索路径,直接提供视觉嵌入以实现精确的视觉感知,从而在结构上缓解了深度生成中固有的信号抑制。在Qwen3-VL模型上的大量实验表明,PVM以可忽略的参数开销带来了显著的改进,在4B和8B规模上都实现了持续的平均精度提升,尤其是在需要持续视觉感知的复杂推理任务中。此外,深入分析表明,PVM可以抵抗长度引起的信号衰减并加速内部预测收敛。

🔬 方法详解

问题定义:大型视觉语言模型(LVLM)在自回归生成长文本时,由于文本序列长度的增加,视觉信息的注意力权重逐渐降低,导致“视觉信号稀释”现象。这使得模型难以保持对原始图像信息的持续关注,影响了需要长期视觉感知的任务性能。现有方法难以有效解决这种长度依赖的视觉信号衰减问题。

核心思路:论文的核心思路是引入一个额外的、持久的视觉记忆模块(PVM),该模块独立于自回归的文本生成过程,直接提供原始图像的视觉嵌入。通过建立一个与文本长度无关的视觉信息检索通道,PVM可以缓解因文本序列增长导致的视觉信号衰减。

技术框架:PVM模块与LVLM中的前馈网络(FFN)并行存在。在每一层,PVM接收来自视觉编码器的原始视觉特征,并维护一个可学习的视觉记忆库。在生成过程中,PVM根据当前文本特征从记忆库中检索相关的视觉嵌入,并将检索到的视觉信息与FFN的输出融合,共同用于后续的文本生成。整体架构保持了LVLM的主体结构,仅增加了一个轻量级的PVM分支。

关键创新:PVM的关键创新在于其“持久性”和“按需检索”的特性。与传统的注意力机制不同,PVM不依赖于文本序列的长度来分配视觉注意力,而是通过一个独立的检索机制直接获取相关的视觉信息。这种设计有效地避免了视觉信号的稀释,并允许模型在生成长文本时保持对原始图像的持续感知。

关键设计:PVM包含一个可学习的视觉记忆库,该记忆库存储了从原始图像提取的视觉嵌入。检索过程基于文本特征与记忆库中视觉嵌入之间的相似度,可以使用余弦相似度等度量方式。检索到的视觉嵌入通过一个线性层进行投影,并与FFN的输出进行融合。损失函数方面,可以使用标准的交叉熵损失来训练整个模型,PVM模块通过反向传播进行优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PVM在Qwen3-VL模型上取得了显著的性能提升。在4B和8B规模的模型上,PVM都带来了平均精度的提升,尤其是在需要复杂推理的任务中。例如,在某些视觉问答任务中,PVM能够将准确率提高5%以上。此外,分析表明PVM能够有效抵抗长度引起的信号衰减,并加速内部预测的收敛。

🎯 应用场景

该研究成果可应用于需要持续视觉感知的多模态任务,例如视觉问答、图像描述生成、视频理解等。通过增强模型对视觉信息的长期记忆能力,可以提升这些任务的性能和用户体验。未来,该技术还可能应用于机器人导航、自动驾驶等领域,帮助机器人在复杂环境中更好地理解和利用视觉信息。

📄 摘要(原文)

While autoregressive Large Vision-Language Models (LVLMs) demonstrate remarkable proficiency in multimodal tasks, they face a "Visual Signal Dilution" phenomenon, where the accumulation of textual history expands the attention partition function, causing visual attention to decay inversely with generated sequence length. To counteract this, we propose Persistent Visual Memory (PVM), a lightweight learnable module designed to ensure sustained, on-demand visual perception. Integrated as a parallel branch alongside the Feed-Forward Network (FFN) in LVLMs, PVM establishes a distance-agnostic retrieval pathway that directly provides visual embeddings for precise visual perception, thereby structurally mitigating the signal suppression inherent to deep generation. Extensive experiments on Qwen3-VL models demonstrate that PVM brings notable improvements with negligible parameter overhead, delivering consistent average accuracy gains across both 4B and 8B scales, particularly in complex reasoning tasks that demand persistent visual perception. Furthermore, in-depth analysis reveals that PVM can resist length-induced signal decay and accelerate internal prediction convergence.