ReinPool: Reinforcement Learning Pooling Multi-Vector Embeddings for Retrieval System
作者: Sungguk Cha, DongWook Kim, Mintae Kim, Youngsub Han, Byoung-Ki Jeon, Sangyeob Lee
分类: cs.IR, cs.CL, cs.CV
发布日期: 2026-01-12
备注: 5 pages
💡 一句话要点
提出ReinPool,利用强化学习池化多向量嵌入,显著压缩索引并提升检索性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多向量嵌入 强化学习 文档检索 索引压缩 池化方法 视觉-语言模型 信息检索
📋 核心要点
- 多向量嵌入模型虽然表达能力强,但索引体积过大,严重限制了检索系统的可扩展性。
- ReinPool利用强化学习动态过滤和池化多向量嵌入,生成紧凑且检索优化的单向量表示。
- 实验表明,ReinPool在大幅压缩索引的同时,显著提升了检索性能,优于静态平均池化方法。
📝 摘要(中文)
多向量嵌入模型已成为文档检索的强大范例,它通过token级别的表示保留了细粒度的视觉和文本细节。然而,这种表达能力带来了巨大的代价:与单向量方法相比,存储每个token的嵌入导致索引大小增加了1000倍以上,严重限制了可扩展性。我们引入了ReinPool,一个强化学习框架,它学习动态地过滤和池化多向量嵌入,从而形成紧凑的、检索优化的表示。通过使用逆检索目标和基于NDCG的奖励进行训练,ReinPool识别并保留最具区分性的向量,而无需手动的重要性标注。在Vidore V2基准测试中,针对三种视觉-语言嵌入模型,ReinPool将多向量表示压缩了746-1249倍到单向量,同时恢复了完整多向量检索性能的76-81%。与静态平均池化基线相比,ReinPool实现了22-33%的绝对NDCG@3提升,表明学习到的选择显著优于启发式聚合。
🔬 方法详解
问题定义:论文旨在解决多向量嵌入模型在文档检索中索引体积过大的问题。现有方法,如简单平均池化,无法有效区分不同token的重要性,导致检索性能下降。因此,如何在压缩多向量表示的同时,尽可能保留关键信息,是本研究要解决的核心问题。
核心思路:论文的核心思路是利用强化学习,训练一个智能体来动态选择和池化多向量嵌入。通过奖励智能体选择对检索性能有益的向量,从而学习到一种自适应的池化策略。这种方法能够自动识别并保留最具区分性的向量,而无需人工标注。
技术框架:ReinPool框架主要包含以下几个模块:1) 多向量嵌入模块,用于生成文档的token级别嵌入;2) 强化学习智能体,负责选择和池化向量;3) 检索模块,用于评估池化后的表示的检索性能;4) 奖励函数,基于检索性能(NDCG)来指导智能体的学习。整个流程是:给定一个文档,首先生成多向量嵌入,然后智能体根据当前状态选择需要保留的向量,并将它们池化成一个单向量表示。最后,使用这个单向量表示进行检索,并根据检索结果计算奖励,用于更新智能体的策略。
关键创新:ReinPool的关键创新在于使用强化学习来动态选择和池化多向量嵌入。与传统的静态池化方法相比,ReinPool能够自适应地学习不同token的重要性,从而更好地保留关键信息。此外,ReinPool使用逆检索目标进行训练,直接优化检索性能,避免了间接优化带来的偏差。
关键设计:ReinPool使用Actor-Critic框架作为强化学习智能体的结构。Actor网络负责选择向量,Critic网络负责评估当前状态的价值。奖励函数基于NDCG@K计算,鼓励智能体选择能够提升检索性能的向量。为了提高训练效率,论文还采用了经验回放和目标网络等技术。
🖼️ 关键图片
📊 实验亮点
ReinPool在Vidore V2基准测试中,将多向量表示压缩了746-1249倍到单向量,同时恢复了完整多向量检索性能的76-81%。与静态平均池化基线相比,ReinPool实现了22-33%的绝对NDCG@3提升。这些结果表明,ReinPool在大幅压缩索引的同时,能够有效提升检索性能。
🎯 应用场景
ReinPool可应用于各种需要处理大规模文档检索的场景,例如搜索引擎、推荐系统、问答系统等。通过大幅压缩索引体积,ReinPool能够显著降低存储成本,提高检索效率,并支持更大规模的数据处理。该研究的成果对于推动多向量嵌入模型在实际应用中的普及具有重要意义。
📄 摘要(原文)
Multi-vector embedding models have emerged as a powerful paradigm for document retrieval, preserving fine-grained visual and textual details through token-level representations. However, this expressiveness comes at a staggering cost: storing embeddings for every token inflates index sizes by over $1000\times$ compared to single-vector approaches, severely limiting scalability. We introduce \textbf{ReinPool}, a reinforcement learning framework that learns to dynamically filter and pool multi-vector embeddings into compact, retrieval-optimized representations. By training with an inverse retrieval objective and NDCG-based rewards, ReinPool identifies and retains only the most discriminative vectors without requiring manual importance annotations. On the Vidore V2 benchmark across three vision-language embedding models, ReinPool compresses multi-vector representations by $746$--$1249\times$ into single vectors while recovering 76--81\% of full multi-vector retrieval performance. Compared to static mean pooling baselines, ReinPool achieves 22--33\% absolute NDCG@3 improvement, demonstrating that learned selection significantly outperforms heuristic aggregation.