Memory-T1: Reinforcement Learning for Temporal Reasoning in Multi-session Agents
作者: Yiming Du, Baojun Wang, Yifan Xiang, Zhaowei Wang, Wenyu Huang, Boyang Xue, Bin Liang, Xingshan Zeng, Fei Mi, Haoli Bai, Lifeng Shang, Jeff Z. Pan, Yuxin Jiang, Kam-Fai Wong
分类: cs.CL
发布日期: 2025-12-23
🔗 代码/项目: GITHUB
💡 一句话要点
Memory-T1:利用强化学习进行多轮对话Agent中的时序推理
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 时序推理 强化学习 多轮对话 对话Agent 长文本建模
📋 核心要点
- 现有长文本模型在处理长程多轮对话时,难以准确识别时序信息,导致推理性能下降。
- Memory-T1利用强化学习,学习时间感知的记忆选择策略,从对话历史中选择关键证据。
- 实验表明,Memory-T1在Time-Dialog基准上显著提升了性能,并在长文本中保持了鲁棒性。
📝 摘要(中文)
本文提出Memory-T1框架,旨在解决对话Agent在长程多轮对话中进行时序推理的难题。现有模型在处理冗长且包含噪声的对话历史时,难以准确识别时序相关信息,严重影响推理性能。Memory-T1采用强化学习(RL)方法学习时间感知的记忆选择策略。该框架使用由粗到精的策略,首先通过时间和相关性过滤器将对话历史修剪为候选集,然后由RL Agent选择精确的证据会话。RL训练由多级奖励函数指导,优化(i)答案准确性,(ii)证据基础,以及(iii)时间一致性。特别是,时间一致性奖励通过评估会话级别(时间邻近度)和话语级别(时间保真度)与查询时间范围的对齐情况,提供密集信号,使Agent能够解决细微的时间歧义。在Time-Dialog基准测试中,Memory-T1将7B模型的整体得分提高到67.0%,为开源模型建立了新的state-of-the-art性能,并且优于14B baseline模型10.2%。消融研究表明,时间一致性和证据基础奖励共同贡献了15.0%的性能提升。此外,Memory-T1在高达128k tokens的情况下保持了鲁棒性,而baseline模型则崩溃,证明了其在处理大量对话历史中的噪声方面的有效性。代码和数据集已公开发布。
🔬 方法详解
问题定义:论文旨在解决多轮对话Agent在长程对话中进行时序推理的问题。现有方法在处理冗长且噪声大的对话历史时,难以准确提取与时间相关的关键信息,导致推理性能显著下降。现有模型的痛点在于无法有效区分对话历史中重要的时间信息,从而影响了对问题的时间理解和答案的生成。
核心思路:论文的核心思路是利用强化学习(RL)训练一个时间感知的记忆选择策略。该策略能够从对话历史中选择与当前问题最相关的会话,从而减少噪声干扰,提高时序推理的准确性。通过学习选择策略,模型可以专注于关键的时间信息,避免被不相关的对话内容分散注意力。
技术框架:Memory-T1框架包含以下主要模块:1) 对话历史修剪:使用时间和相关性过滤器,将冗长的对话历史缩减为候选会话集合。2) RL Agent:该Agent负责从候选会话集合中选择最相关的证据会话。3) 奖励函数:多级奖励函数,包括答案准确性奖励、证据基础奖励和时间一致性奖励。时间一致性奖励在会话级别和话语级别评估与查询时间范围的对齐情况。整体流程是,首先对对话历史进行预处理,然后RL Agent根据当前状态选择会话,环境给出奖励,Agent根据奖励更新策略,最终选择出最优的证据会话。
关键创新:最重要的技术创新点在于引入了时间一致性奖励,该奖励在会话级别(时间邻近度)和话语级别(时间保真度)上评估选择的会话与查询时间范围的对齐情况。这种细粒度的时序评估能够提供更密集的反馈信号,帮助Agent学习更准确的时间感知能力。与现有方法相比,Memory-T1能够更有效地解决对话中的时间歧义,从而提高时序推理的准确性。
关键设计:时间一致性奖励是关键设计之一,它由会话级别和话语级别两部分组成。会话级别的时间邻近度评估选择的会话与查询时间范围的接近程度。话语级别的时间保真度评估选择的会话中话语的时间顺序是否与查询时间范围一致。奖励函数的设计需要平衡答案准确性、证据基础和时间一致性三个目标,以确保Agent能够学习到有效的记忆选择策略。具体的网络结构和参数设置在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
Memory-T1在Time-Dialog基准测试中取得了显著的性能提升,将7B模型的整体得分提高到67.0%,超越了14B baseline模型10.2%。消融研究表明,时间一致性和证据基础奖励共同贡献了15.0%的性能提升。此外,Memory-T1在处理高达128k tokens的长文本时保持了鲁棒性,而baseline模型则崩溃,证明了其在处理大量对话历史中的噪声方面的有效性。
🎯 应用场景
该研究成果可应用于各种需要进行时序推理的对话Agent,例如智能客服、虚拟助手和任务型对话系统。通过提高Agent在长程对话中理解和利用时间信息的能力,可以显著提升用户体验,并扩展Agent的应用范围。未来,该技术有望应用于更复杂的时序推理任务,例如事件预测和因果关系分析。
📄 摘要(原文)
Temporal reasoning over long, multi-session dialogues is a critical capability for conversational agents. However, existing works and our pilot study have shown that as dialogue histories grow in length and accumulate noise, current long-context models struggle to accurately identify temporally pertinent information, significantly impairing reasoning performance. To address this, we introduce Memory-T1, a framework that learns a time-aware memory selection policy using reinforcement learning (RL). It employs a coarse-to-fine strategy, first pruning the dialogue history into a candidate set using temporal and relevance filters, followed by an RL agent that selects the precise evidence sessions. The RL training is guided by a multi-level reward function optimizing (i) answer accuracy, (ii) evidence grounding, and (iii) temporal consistency. In particular, the temporal consistency reward provides a dense signal by evaluating alignment with the query time scope at both the session-level (chronological proximity) and the utterance-level (chronological fidelity), enabling the agent to resolve subtle chronological ambiguities. On the Time-Dialog benchmark, Memory-T1 boosts a 7B model to an overall score of 67.0\%, establishing a new state-of-the-art performance for open-source models and outperforming a 14B baseline by 10.2\%. Ablation studies show temporal consistency and evidence grounding rewards jointly contribute to a 15.0\% performance gain. Moreover, Memory-T1 maintains robustness up to 128k tokens, where baseline models collapse, proving effectiveness against noise in extensive dialogue histories. The code and datasets are publicly available at https://github.com/Elvin-Yiming-Du/Memory-T1/