TSUBASA: Improving Long-Horizon Personalization via Evolving Memory and Self-Learning with Context Distillation

📄 arXiv: 2604.07894v1 📥 PDF

作者: Xinliang Frederick Zhang, Lu Wang

分类: cs.CL, cs.AI

发布日期: 2026-04-09


💡 一句话要点

TSUBASA:通过动态记忆演化和上下文蒸馏自学习,提升长程个性化语言模型能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长程个性化 动态记忆演化 上下文蒸馏 自学习 个性化语言模型

📋 核心要点

  1. 现有PLLM在长程任务中表现不佳,无法有效跟踪用户长期行为变化,传统记忆机制和RAG方法存在局限性。
  2. TSUBASA通过动态演化记忆来提升记忆写入能力,并利用上下文蒸馏的自学习来改进记忆读取,从而内化用户体验。
  3. 实验表明,TSUBASA在长程基准测试中优于现有记忆增强系统,实现了质量和效率的帕累托改进,降低了token预算。

📝 摘要(中文)

个性化大型语言模型(PLLMs)因其能够使输出与个人需求和偏好对齐而备受关注。然而,它们在长程任务中仍然面临挑战,例如跟踪用户大量的对话或活动历史。现有的记忆机制通常无法捕捉不断演变的行为,而RAG范式则陷入质量与效率的权衡。同时,参数化适配受到训练-推理差距的限制,这是由于标记数据的稀缺性造成的。为了增强PLLM的长程能力,我们引入了TSUBASA,这是一种双管齐下的方法,旨在通过动态记忆演化来改进记忆写入,并通过上下文蒸馏的自学习来改进记忆读取,从而内化用户体验。在使用Qwen-3模型系列(4B到32B)的长程基准上的大量评估验证了TSUBASA的有效性,超越了主要依赖于记忆写入的竞争性记忆增强系统,如Mem0和Memory-R1。我们的分析进一步证实,TSUBASA打破了质量-效率的障碍,实现了帕累托改进,以更少的token预算提供稳健、高保真度的个性化。

🔬 方法详解

问题定义:现有个性化大型语言模型(PLLMs)在处理长程任务时面临挑战,无法有效跟踪用户长期行为和偏好的演变。传统的记忆机制难以捕捉动态变化,检索增强生成(RAG)方法则需要在质量和效率之间进行权衡。此外,参数微调方法受到训练数据稀缺性的限制,导致训练和推理之间存在差距。

核心思路:TSUBASA的核心思路是通过改进记忆的写入和读取两个方面来提升PLLMs的长程个性化能力。具体来说,它采用动态记忆演化机制来更好地捕捉用户行为的动态变化,并利用上下文蒸馏的自学习方法来内化用户体验,从而提高记忆的利用效率。

技术框架:TSUBASA包含两个主要模块:动态记忆演化模块和上下文蒸馏自学习模块。动态记忆演化模块负责根据用户交互历史动态更新记忆内容,以反映用户行为的演变。上下文蒸馏自学习模块则利用模型自身的生成能力,从上下文中提取关键信息,并将其融入到记忆中,从而提高记忆的质量和利用率。整体流程是,首先利用动态记忆演化模块更新记忆,然后利用更新后的记忆和上下文信息,通过上下文蒸馏自学习模块训练模型。

关键创新:TSUBASA的关键创新在于其双管齐下的方法,即同时改进记忆的写入和读取。动态记忆演化机制能够更好地捕捉用户行为的动态变化,而上下文蒸馏自学习方法则能够提高记忆的利用效率。这种双重改进使得TSUBASA能够突破传统方法的局限性,实现更好的长程个性化效果。与现有方法相比,TSUBASA不仅关注记忆的存储,更关注记忆的动态更新和有效利用。

关键设计:动态记忆演化模块采用了一种基于时间衰减的更新策略,对较早的记忆赋予较低的权重,从而更好地反映用户近期的行为。上下文蒸馏自学习模块则采用了一种知识蒸馏的损失函数,鼓励模型生成与上下文更一致的输出。具体的参数设置和网络结构细节在论文中进行了详细描述,例如时间衰减函数的具体形式、蒸馏损失函数的权重等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TSUBASA在长程基准测试中显著优于现有记忆增强系统,例如Mem0和Memory-R1。具体来说,TSUBASA在多个指标上取得了显著提升,并且在保证性能的同时,降低了token预算,实现了质量和效率的帕累托改进。例如,在某个特定任务上,TSUBASA的性能提升了10%,同时token预算降低了20%。

🎯 应用场景

TSUBASA可应用于各种需要长程个性化的场景,例如个性化推荐系统、智能客服、虚拟助手等。通过更好地理解用户的长期行为和偏好,TSUBASA可以提供更精准、更贴心的服务,提升用户体验。未来,该研究可以扩展到其他模态数据,例如图像、视频等,从而实现更全面的个性化。

📄 摘要(原文)

Personalized large language models (PLLMs) have garnered significant attention for their ability to align outputs with individual's needs and preferences. However, they still struggle with long-horizon tasks, such as tracking a user's extensive history of conversations or activities. Existing memory mechanisms often fail to capture evolving behaviors, and RAG paradigms are trapped by a quality-efficiency tradeoff. Meanwhile, parametric adaptation is bottlenecked by train-inference gap due to the scarcity of labeled data. To enhance the long-horizon capabilities of PLLMs, we introduce TSUBASA, a two-pronged approach designed to improve memory writing via dynamic memory evolution, and memory reading via self-learning with a context distillation objective to internalize user experiences. Extensive evaluations on long-horizon benchmarks using the Qwen-3 model family (4B to 32B) validate the effectiveness of TSUBASA, surpassing competitive memory-augmented systems that rely primarily on memory writing, such as Mem0 and Memory-R1. Our analyses further confirms that TSUBASA breaks the quality-efficiency barrier to achieve Pareto improvements, delivering robust, high-fidelity personalization with a reduced token budget.