One Token per Multimodal Evidence: Latent Memory for Resource-Constrained QA

📄 arXiv: 2606.10572v1 📥 PDF

作者: Zhi Zheng, Ziqiao Meng, Hao Luan, Wei Liu, Wee Sun Lee

分类: cs.AI

发布日期: 2026-06-09

🔗 代码/项目: GITHUB


💡 一句话要点

提出潜在记忆以解决资源受限的多模态问答问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 潜在记忆 多模态问答 资源受限应用 高维潜在令牌 信息检索 智能问答 模型压缩

📋 核心要点

  1. 现有的多模态问答系统在处理外部记忆时,面临高令牌消耗和存储压力的问题,难以适应资源受限的应用场景。
  2. 本文提出的潜在记忆通过将原始证据替换为高维潜在令牌,优化了检索和生成过程,减少了资源消耗。
  3. 在七个文本和多模态问答基准上,潜在记忆的表现与先进的RAG基线相当,但生成令牌消耗减少了3到10倍,显示出显著的效率提升。

📝 摘要(中文)

外部记忆有效地将大型语言模型(LLMs)和视觉语言模型(VLMs)与相关的多模态证据结合起来进行问答(QA)。然而,现有的记忆范式以原始文本和图像形式表示每个记忆项,导致检索系统必须将检索到的文本或图像传递给生成的LLMs/VLMs,从而造成高昂的令牌消耗和存储压力,难以满足资源受限的应用需求。为此,本文提出了潜在记忆(Latent Memory),一种潜在空间记忆范式,用单个高维潜在令牌替代每个原始文本或图像证据项。潜在记忆在统一的潜在表示空间中操作,查询被嵌入到该空间以检索相关的潜在令牌,并将检索到的潜在令牌直接提示给预训练的LLM或VLM进行答案生成。潜在记忆在七个文本问答基准和多模态问答基准上进行了评估,表现出与先进的RAG基线相当的问答性能,同时消耗的生成令牌减少了3到10倍。

🔬 方法详解

问题定义:本文旨在解决现有多模态问答系统在使用外部记忆时的高令牌消耗和存储压力问题。现有方法需要将原始文本和图像传递给生成模型,导致资源受限应用的不可行性。

核心思路:论文提出的潜在记忆通过引入高维潜在令牌替代原始证据,允许在统一的潜在表示空间中进行检索和生成,从而降低资源消耗。

技术框架:整体架构包括一个小型压缩LLM/VLM用于生成潜在令牌,一个嵌入模块将查询映射到潜在空间,以及一个生成模块用于答案生成。

关键创新:最重要的创新在于将每个记忆项替换为高维潜在令牌,并通过重建、对比和蒸馏目标进行统一训练,使得潜在令牌在重建、检索和生成中都具有信息性。

关键设计:关键设计包括潜在令牌的高维表示、统一的损失函数(结合重建损失、对比损失和蒸馏损失),以及模块间的端到端训练策略。潜在记忆的训练过程确保了每个潜在令牌的多功能性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在七个文本问答基准和多模态问答基准上,潜在记忆的问答性能与先进的RAG基线相当,但生成令牌消耗减少了3到10倍。此外,在WebQA上,潜在记忆展现了最强的图像基础问答性能,证明了其在多模态场景中的有效性。

🎯 应用场景

该研究的潜在应用领域包括智能问答系统、信息检索和多模态交互等。通过降低资源消耗,潜在记忆能够在移动设备和边缘计算环境中实现高效的多模态问答,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

External memory effectively grounds large language models (LLMs) and vision-language models (VLMs)-based question answering (QA) in relevant multimodal evidence. However, existing memory paradigms represent each memory item in raw text and image forms, so retrieval-based systems must pass the retrieved text or images to the generation LLMs/VLMs, resulting in high token consumption and storage pressure, making it unaffordable for resource-constrained applications. We propose Latent Memory, a latent-space memory paradigm that replaces each raw text or image evidence item with a single high-dimensional latent token produced by a small compressor LLM/VLM. Rather than retrieving raw evidence for generation, Latent Memory operates in a unified latent representation space: the query is embedded into this space to retrieve relevant latent tokens, and the retrieved latent tokens are directly prompted to a pretrained LLM or VLM for answer generation. To make each latent token simultaneously informative for reconstruction, retrieval, and generation, we train the compressor with reconstruction, contrastive, and distillation objectives in a unified end-to-end manner. Latent Memory is evaluated on seven text-only QA benchmarks (e.g., HotpotQA) and multimodal QA benchmarks, where it achieves competitive QA performance compared to advanced RAG baselines while consuming 3x to 10x fewer generator tokens. It can also deliver the strongest image-grounded QA performance on WebQA. Code is available at https://github.com/zz1358m/Latent-Memory-Master.