Can Vision Replace Text in Working Memory? Evidence from Spatial n-Back in Vision-Language Models

作者: Sichu Liang, Hongyu Zhu, Wenwen Wang, Deyu Zhou

分类: cs.CL

发布日期: 2026-02-04

💡 一句话要点

探究视觉信息在视觉-语言模型工作记忆中的作用：基于空间n-back任务的证据

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 工作记忆 空间n-back任务 多模态学习 近因效应

📋 核心要点

现有研究缺乏对视觉-语言模型中视觉信息工作记忆能力的深入探究，特别是与文本信息相比。
该研究通过空间n-back任务，对比视觉和文本两种模态下，视觉-语言模型的工作记忆表现。
实验结果表明，模型在文本模态下的表现优于视觉模态，并揭示了近因效应和网格大小对模型行为的影响。

📝 摘要（中文）

工作记忆是智能行为的核心组成部分，它为维护和更新任务相关信息提供了一个动态的工作空间。最近的研究使用n-back任务来探测大型语言模型中类似工作记忆的行为，但尚不清楚在视觉-语言模型中，当信息以视觉而非文本代码呈现时，相同的探测是否会引发类似的计算。我们评估了Qwen2.5和Qwen2.5-VL在受控的空间n-back任务上的表现，该任务以匹配的文本渲染或图像渲染网格呈现。在所有条件下，模型在文本条件下的准确率和d'值都明显高于视觉条件。为了在过程层面解释这些差异，我们使用了逐次试验的对数概率证据，发现名义上的2/3-back任务常常未能反映所指示的滞后，而是与近因锁定的比较相一致。我们进一步表明，网格大小会改变刺激流中的最近重复结构，从而改变干扰和错误模式。这些结果促使我们对多模态工作记忆进行计算敏感的解释。

🔬 方法详解

问题定义：论文旨在研究视觉-语言模型在处理视觉信息时的工作记忆能力，并将其与处理文本信息时的能力进行比较。现有方法主要集中在语言模型的工作记忆研究，缺乏对视觉-语言模型中视觉信息处理的深入分析。现有方法难以区分模型是真正执行了n-back任务，还是仅仅依赖于近因效应等启发式策略。

核心思路：论文的核心思路是通过设计一个空间n-back任务，分别以文本和图像两种形式呈现刺激，来比较视觉-语言模型在不同模态下的工作记忆表现。通过分析模型的准确率、d'值以及逐次试验的对数概率证据，来推断模型的工作记忆过程，并揭示模型可能存在的偏差和策略。

技术框架：整体框架包括以下几个步骤：1）设计空间n-back任务，其中刺激以文本或图像形式呈现；2）使用Qwen2.5和Qwen2.5-VL模型进行实验；3）评估模型的准确率和d'值；4）分析逐次试验的对数概率证据，以了解模型的决策过程；5）改变网格大小，观察其对模型表现的影响。

关键创新：论文的关键创新在于：1）首次将空间n-back任务应用于视觉-语言模型，以研究其视觉工作记忆能力；2）通过分析逐次试验的对数概率证据，揭示了模型可能存在的近因效应等偏差；3）研究了网格大小对模型表现的影响，表明刺激的结构会影响模型的工作记忆过程。

关键设计：空间n-back任务中，使用不同大小的网格（例如3x3、4x4）来呈现刺激。刺激可以是文本或图像，表示网格中的一个位置。模型需要判断当前刺激是否与n步之前的刺激相同。使用准确率和d'值作为评估指标。通过分析逐次试验的对数概率证据，来判断模型是否真正执行了n-back任务，还是仅仅依赖于近因效应。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Qwen2.5和Qwen2.5-VL模型在文本模态下的n-back任务中表现明显优于视觉模态，准确率和d'值均显著提高。对逐次试验的对数概率证据分析表明，模型在2/3-back任务中常常未能反映所指示的滞后，而是倾向于依赖近因效应。此外，改变网格大小会影响刺激流中的最近重复结构，从而改变模型的干扰和错误模式。

🎯 应用场景

该研究成果可应用于提升视觉-语言模型在需要工作记忆的任务中的表现，例如视频理解、视觉导航和人机交互等领域。通过理解模型在处理视觉信息时的局限性，可以设计更有效的模型架构和训练方法，从而提高模型的泛化能力和鲁棒性。此外，该研究也为多模态工作记忆的研究提供了新的思路和方法。

📄 摘要（原文）

Working memory is a central component of intelligent behavior, providing a dynamic workspace for maintaining and updating task-relevant information. Recent work has used n-back tasks to probe working-memory-like behavior in large language models, but it is unclear whether the same probe elicits comparable computations when information is carried in a visual rather than textual code in vision-language models. We evaluate Qwen2.5 and Qwen2.5-VL on a controlled spatial n-back task presented as matched text-rendered or image-rendered grids. Across conditions, models show reliably higher accuracy and d' with text than with vision. To interpret these differences at the process level, we use trial-wise log-probability evidence and find that nominal 2/3-back often fails to reflect the instructed lag and instead aligns with a recency-locked comparison. We further show that grid size alters recent-repeat structure in the stimulus stream, thereby changing interference and error patterns. These results motivate computation-sensitive interpretations of multimodal working memory.

Can Vision Replace Text in Working Memory? Evidence from Spatial n-Back in Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理