Chronos: Temporal-Aware Conversational Agents with Structured Event Retrieval for Long-Term Memory
作者: Sahil Sen, Elias Lumer, Anmol Gulati, Vamse Kumar Subbiah
分类: cs.CL
发布日期: 2026-03-17
💡 一句话要点
Chronos:利用结构化事件检索和时间感知能力,增强对话Agent的长期记忆。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对话Agent 长期记忆 时间感知 事件检索 结构化记忆 多跳推理 动态提示
📋 核心要点
- 现有对话Agent的长期记忆系统难以处理时间相关的复杂推理,无法有效检索长期对话历史中的信息。
- Chronos通过构建结构化的事件日历和回合日历,并结合动态提示,实现时间感知的多跳推理。
- 实验表明,Chronos在LongMemEvalS基准上显著优于现有方法,最高提升达7.67%,证明了其有效性。
📝 摘要(中文)
大型语言模型(LLMs)的最新进展使得对话AI Agent能够进行跨越数周或数月的扩展多轮交互。然而,现有的记忆系统难以推理随时间演变的、具有时间依据的事实和偏好,并且缺乏有效的检索策略来处理长期对话历史中多跳、时间敏感的查询。我们提出了Chronos,一种新颖的时间感知记忆框架,它将原始对话分解为具有已解析日期时间范围和实体别名的主语-谓语-宾语事件元组,并将它们与保存完整对话上下文的回合日历一起索引在一个结构化的事件日历中。在查询时,Chronos应用动态提示来为每个问题生成定制的检索指导,指导Agent检索什么、如何跨时间范围进行过滤,以及如何通过在两个日历上的迭代工具调用循环来处理多跳推理。我们在LongMemEvalS基准上评估了Chronos,该基准包含500个问题,涵盖六个类别的对话历史任务。Chronos Low达到了92.60%的准确率,Chronos High达到了95.60%的准确率,创造了新的state-of-the-art,比之前最好的系统提高了7.67%。消融实验结果表明,事件日历贡献了58.9%的增益,而所有其他组件的改进幅度在15.5%到22.3%之间。值得注意的是,仅Chronos Low就超过了先前方法在其最强模型配置下的表现。
🔬 方法详解
问题定义:现有对话Agent的长期记忆系统在处理时间敏感的查询时存在困难。它们难以有效地检索和推理长期对话历史中随时间演变的事实和偏好,尤其是在需要多跳推理的场景下。现有的方法通常缺乏对时间信息的有效建模和利用,导致检索精度和推理能力不足。
核心思路:Chronos的核心思路是将对话历史分解为结构化的事件表示,并建立时间感知的索引。通过将对话分解为主语-谓语-宾语的事件元组,并解析其对应的时间范围,Chronos能够更精确地捕捉对话中的时间信息。此外,Chronos还利用动态提示来指导Agent进行检索,从而提高检索效率和准确性。
技术框架:Chronos的整体框架包括以下几个主要模块:1) 对话解析模块,将原始对话分解为事件元组,并解析实体别名和时间范围;2) 结构化索引模块,构建事件日历和回合日历,用于存储和索引事件信息;3) 动态提示模块,根据查询生成定制的检索指导,指导Agent进行检索;4) 检索和推理模块,利用事件日历和回合日历进行多跳推理,并生成最终答案。
关键创新:Chronos的关键创新在于其时间感知的结构化记忆表示和动态提示机制。与传统的记忆系统相比,Chronos能够更精确地捕捉和利用对话中的时间信息,从而提高检索精度和推理能力。动态提示机制能够根据查询动态调整检索策略,从而提高检索效率和准确性。
关键设计:Chronos的关键设计包括:1) 事件元组的定义和解析方法,确保能够准确地捕捉对话中的事件信息;2) 事件日历和回合日历的结构设计,确保能够高效地存储和索引事件信息;3) 动态提示的生成策略,确保能够根据查询生成有效的检索指导;4) 多跳推理的迭代工具调用循环,确保能够有效地处理复杂的时间敏感查询。
🖼️ 关键图片
📊 实验亮点
Chronos在LongMemEvalS基准测试中取得了显著的性能提升。Chronos Low达到了92.60%的准确率,Chronos High达到了95.60%的准确率,比之前最好的系统提高了7.67%。消融实验表明,事件日历是性能提升的关键因素,贡献了58.9%的增益。即使是Chronos Low,也超过了先前方法在其最强模型配置下的表现。
🎯 应用场景
Chronos可应用于各种需要长期记忆和时间推理的对话AI Agent,例如智能助手、客服机器人和虚拟导师。它可以帮助Agent更好地理解用户的需求和偏好,提供更个性化和相关的服务。此外,Chronos还可以用于分析和挖掘对话数据,从而更好地了解用户行为和趋势。
📄 摘要(原文)
Recent advances in Large Language Models (LLMs) have enabled conversational AI agents to engage in extended multi-turn interactions spanning weeks or months. However, existing memory systems struggle to reason over temporally grounded facts and preferences that evolve across months of interaction and lack effective retrieval strategies for multi-hop, time-sensitive queries over long dialogue histories. We introduce Chronos, a novel temporal-aware memory framework that decomposes raw dialogue into subject-verb-object event tuples with resolved datetime ranges and entity aliases, indexing them in a structured event calendar alongside a turn calendar that preserves full conversational context. At query time, Chronos applies dynamic prompting to generate tailored retrieval guidance for each question, directing the agent on what to retrieve, how to filter across time ranges, and how to approach multi-hop reasoning through an iterative tool-calling loop over both calendars. We evaluate Chronos with 8 LLMs, both open-source and closed-source, on the LongMemEvalS benchmark comprising 500 questions spanning six categories of dialogue history tasks. Chronos Low achieves 92.60% and Chronos High scores 95.60% accuracy, setting a new state of the art with an improvement of 7.67% over the best prior system. Ablation results reveal the events calendar accounts for a 58.9% gain on the baseline while all other components yield improvements between 15.5% and 22.3%. Notably, Chronos Low alone surpasses prior approaches evaluated under their strongest model configurations.