Bottleneck Tokens for Unified Multimodal Retrieval

作者: Siyu Sun, Jing Ren, Zhaohe Liao, Dongxiao Mao, Xiangyuan Ren, Yiyi Zhang, Haohua Zhao, Weixiong Lin, Jiang Shaohua, Liqing Zhang, Yuchao Zheng

分类: cs.LG, cs.AI

发布日期: 2026-04-13

💡 一句话要点

提出Bottleneck Tokens (BToks)用于统一多模态检索，解决信息聚合和token级别指导问题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 信息瓶颈 Bottleneck Tokens 生成式学习 语义压缩

📋 核心要点

现有方法依赖隐式池化进行多模态信息聚合，导致信息瓶颈和缺乏token级别的压缩指导。
引入Bottleneck Tokens (BToks)作为显式池化机制，并通过生成式信息压缩提供token级别的监督信号。
实验表明，该方法在MMEB-V2上取得了SOTA结果，尤其在语义理解任务上提升显著。

📝 摘要（中文）

为了使decoder-only多模态大语言模型(MLLMs)适应统一多模态检索，本文指出了两个结构性差距。一是现有方法依赖隐式池化，将标准词汇token（如）的隐藏状态过度用于序列级表示，而这种机制并非为信息聚合而设计。二是对比微调指定了嵌入应该匹配的内容，但没有提供关于如何将信息压缩到其中的token级别指导。为了解决这两个问题，本文提出了两个互补的组件。在架构上，引入了Bottleneck Tokens (BToks)，这是一小组可学习的token，用作固定容量的显式池化机制。在训练上，提出了生成式信息压缩：一个next-token预测目标，并结合一个Condensation Mask，该Mask切断了目标token到查询token的直接注意力路径。因此，所有预测信号都被迫通过BToks，将生成损失转换为密集的token级别语义压缩监督。在推理时，只需对输入和BToks进行单次前向传递，与传统的last-token池化相比，开销可以忽略不计。在MMEB-V2（78个数据集，3种模态，9个元任务）上，在可比的数据条件下，该方法在2B规模的方法中达到了最先进的水平，总体得分达到59.0（比VLM2Vec-V2高+3.6），在语义要求高的任务上取得了显著的提升（例如，在Video-QA上高+12.6）。

🔬 方法详解

问题定义：现有基于decoder-only MLLMs的多模态检索方法，主要依赖隐式池化（例如使用 token的隐藏状态）来聚合序列信息，这并非为信息聚合而设计，导致信息瓶颈。此外，对比学习虽然能指导嵌入匹配，但缺乏token级别的指导，无法有效压缩信息。

核心思路：本文的核心思路是引入显式的、可学习的Bottleneck Tokens (BToks)作为信息瓶颈，强制模型将所有相关信息压缩到这些token中。同时，通过生成式信息压缩，提供token级别的监督信号，指导模型如何有效地进行信息压缩。

技术框架：整体框架包括一个decoder-only MLLM，并在输入序列中加入一组可学习的BToks。训练阶段，使用next-token预测作为主要目标，并引入Condensation Mask，阻止目标token直接关注查询token，迫使信息必须通过BToks。推理阶段，只需要输入和BToks进行一次前向传播，提取BToks的表示用于检索。

关键创新：最重要的创新点在于引入了BToks作为显式的、可学习的信息瓶颈，并结合生成式信息压缩，实现了token级别的语义压缩监督。这与现有方法依赖隐式池化和缺乏token级别指导形成了鲜明对比。

关键设计：BToks的数量是一个关键参数，需要根据任务复杂度进行调整。Condensation Mask的设计确保了所有信息都必须通过BToks进行传递。损失函数主要由next-token预测损失构成，用于指导BToks学习有效的语义表示。

🖼️ 关键图片

📊 实验亮点

在MMEB-V2基准测试中，该方法在2B规模的模型中取得了state-of-the-art的结果，总体得分达到59.0，相比VLM2Vec-V2提升了3.6。尤其在语义要求较高的任务（如Video-QA）上，取得了显著的提升，达到了12.6。

🎯 应用场景

该研究成果可应用于各种多模态检索场景，例如图像/视频搜索、跨模态问答、多模态内容推荐等。通过更有效地聚合和压缩多模态信息，可以提升检索的准确性和效率，为用户提供更好的搜索体验。未来，该方法可以进一步扩展到更多模态和更复杂的检索任务中。

📄 摘要（原文）

Adapting decoder-only multimodal large language models (MLLMs) for unified multimodal retrieval faces two structural gaps. First, existing methods rely on implicit pooling, which overloads the hidden state of a standard vocabulary token (e.g., ) as the sequence-level representation, a mechanism never designed for information aggregation. Second, contrastive fine-tuning specifies what the embedding should match but provides no token-level guidance on how information should be compressed into it. We address both gaps with two complementary components. Architecturally, we introduce Bottleneck Tokens (BToks), a small set of learnable tokens that serve as a fixed-capacity explicit pooling mechanism. For training, we propose Generative Information Condensation: a next-token prediction objective coupled with a Condensation Mask that severs the direct attention path from target tokens to query tokens. All predictive signals are thereby forced through the BToks, converting the generative loss into dense, token-level supervision for semantic compression. At inference time, only the input and BToks are processed in a single forward pass with negligible overhead over conventional last-token pooling. On MMEB-V2 (78 datasets, 3 modalities, 9 meta-tasks), our approach achieves state-of-the-art among 2B-scale methods under comparable data conditions, attaining an Overall score of 59.0 (+3.6 over VLM2Vec-V2) with substantial gains on semantically demanding tasks (e.g., +12.6 on Video-QA).

Bottleneck Tokens for Unified Multimodal Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理