MemReranker: Reasoning-Aware Reranking for Agent Memory Retrieval

📄 arXiv: 2605.06132v1 📥 PDF

作者: Chunyu Li, Jingyi Kang, Ding Chen, Mengyuan Zhang, Jiajun Shen, Bo Tang, Xuanhe Zhou, Feiyu Xiong, Zhiyu Li

分类: cs.CL

发布日期: 2026-05-07


💡 一句话要点

提出MemReranker重排序模型,通过多阶段知识蒸馏增强智能体记忆检索的推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 智能体记忆 重排序模型 知识蒸馏 语义检索 推理感知 对比学习

📋 核心要点

  1. 现有重排序模型仅依赖语义相似度,缺乏处理时序、因果及上下文消歧等复杂推理的能力,导致检索结果与实际需求脱节。
  2. 提出MemReranker模型家族,通过多阶段知识蒸馏技术,将大模型的推理能力迁移至轻量级模型,并引入针对记忆检索场景的专用训练数据。
  3. 实验证明MemReranker在保持极低推理延迟的同时,在记忆检索基准上性能显著超越同类模型,并能媲美GPT-4o-mini等大型模型。

📝 摘要(中文)

在智能体记忆系统中,重排序模型是连接用户查询与长期记忆的关键。现有“检索-重排序”范式多依赖语义相似度,缺乏推理能力,导致检索结果虽语义相关但缺乏关键信息。这引发了评分校准困难、复杂逻辑(如时序、因果)下排序退化以及对话上下文消歧能力不足等问题。本文提出了MemReranker(0.6B/4B),基于Qwen3-Reranker通过多阶段LLM知识蒸馏构建。该方法利用多教师成对比较生成校准软标签,结合BCE点对蒸馏与InfoNCE对比学习,并引入包含时序约束、因果推理及指代消解的专用数据集。实验表明,MemReranker-0.6B在记忆检索基准上显著优于BGE-Reranker,性能媲美GPT-4o-mini;4B版本MAP达0.737,在保持极低推理延迟的同时,性能与Gemini-3-Flash持平,并在金融与医疗领域展现出良好的泛化能力。

🔬 方法详解

问题定义:现有重排序模型在智能体记忆场景中面临三大痛点:相关性评分校准偏差导致阈值过滤失效;在处理时序约束、因果推理等复杂查询时排序质量下降;无法有效利用对话上下文进行语义消歧。

核心思路:通过多阶段知识蒸馏(Knowledge Distillation)将大语言模型的推理能力注入轻量级重排序模型,使模型从单纯的“语义匹配”转向“推理感知”的检索。

技术框架:基于Qwen3-Reranker架构,采用三阶段训练策略:首先利用多教师模型进行成对比较生成校准软标签;其次通过BCE点对蒸馏优化评分分布;最后利用InfoNCE对比学习增强模型对难样本的区分度。

关键创新:引入了专门针对记忆检索场景的训练数据集,涵盖了时序约束、因果推理和指代消解等复杂任务,弥补了通用重排序模型在智能体交互场景下的推理短板。

关键设计:采用多教师成对比较(Pairwise Comparison)生成高质量软标签以校准评分;结合BCE损失函数实现良好的分数分布;利用InfoNCE损失函数提升模型在细微差异样本上的判别能力,确保在垂直领域(如金融、医疗)的泛化性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MemReranker-0.6B在记忆检索基准上大幅超越BGE-Reranker,性能对标GPT-4o-mini;4B版本MAP达到0.737,性能与Gemini-3-Flash相当,且推理延迟仅为大型模型的10%-20%,在金融与医疗领域表现出极强的通用性。

🎯 应用场景

该技术适用于各类智能体(Agent)系统,特别是需要长期记忆支持的对话机器人、个人助理及垂直领域知识库检索系统。其高推理效率和强推理能力,使其在金融、医疗等对检索准确性要求极高且需处理复杂上下文的场景中具有显著的实际应用价值。

📄 摘要(原文)

In agent memory systems, the reranking model serves as the critical bridge connecting user queries with long-term memory. Most systems adopt the "retrieve-then-rerank" two-stage paradigm, but generic reranking models rely on semantic similarity matching and lack genuine reasoning capabilities, leading to a problem where recalled results are semantically highly relevant yet do not contain the key information needed to answer the question. This deficiency manifests in memory scenarios as three specific problems. First, relevance scores are miscalibrated, making threshold-based filtering difficult. Second, ranking degrades when facing temporal constraints, causal reasoning, and other complex queries. Third, the model cannot leverage dialogue context for semantic disambiguation. This report introduces MemReranker, a reranking model family (0.6B/4B) built on Qwen3-Reranker through multi-stage LLM knowledge distillation. Multi-teacher pairwise comparisons generate calibrated soft labels, BCE pointwise distillation establishes well-distributed scores, and InfoNCE contrastive learning enhances hard-sample discrimination. Training data combines general corpora with memory-specific multi-turn dialogue data covering temporal constraints, causal reasoning, and coreference resolution. On the memory retrieval benchmark, MemReranker-0.6B substantially outperforms BGE-Reranker and matches open-source 4B/8B models as well as GPT-4o-mini on key metrics. MemReranker-4B further achieves 0.737 MAP, with several metrics on par with Gemini-3-Flash, while maintaining inference latency at only 10--20\% of large models. On finance and healthcare vertical-domain benchmarks, the models preserve generalization capabilities on par with mainstream large-parameter rerankers.