TSUBASA: Improving Long-Horizon Personalization via Evolving Memory and Self-Learning with Context Distillation

作者: Xinliang Frederick Zhang, Lu Wang

分类: cs.CL, cs.AI

发布日期: 2026-04-09

💡 一句话要点

TSUBASA：通过动态记忆演化和上下文蒸馏自学习，提升长程个性化语言模型能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长程个性化 动态记忆演化 上下文蒸馏 自学习 个性化语言模型

📋 核心要点

现有PLLM在长程任务中表现不佳，无法有效跟踪用户长期行为变化，传统记忆机制和RAG方法存在局限性。
TSUBASA通过动态演化记忆来提升记忆写入能力，并利用上下文蒸馏的自学习来改进记忆读取，从而内化用户体验。
实验表明，TSUBASA在长程基准测试中优于现有记忆增强系统，实现了质量和效率的帕累托改进，降低了token预算。

📝 摘要（中文）

个性化大型语言模型(PLLMs)因其能够使输出与个人需求和偏好对齐而备受关注。然而，它们在长程任务中仍然面临挑战，例如跟踪用户大量的对话或活动历史。现有的记忆机制通常无法捕捉不断演变的行为，而RAG范式则陷入质量与效率的权衡。同时，参数化适配受到训练-推理差距的限制，这是由于标记数据的稀缺性造成的。为了增强PLLM的长程能力，我们引入了TSUBASA，这是一种双管齐下的方法，旨在通过动态记忆演化来改进记忆写入，并通过上下文蒸馏的自学习来改进记忆读取，从而内化用户体验。在使用Qwen-3模型系列（4B到32B）的长程基准上的大量评估验证了TSUBASA的有效性，超越了主要依赖于记忆写入的竞争性记忆增强系统，如Mem0和Memory-R1。我们的分析进一步证实，TSUBASA打破了质量-效率的障碍，实现了帕累托改进，以更少的token预算提供稳健、高保真度的个性化。

🔬 方法详解

问题定义：现有个性化大型语言模型（PLLMs）在处理长程任务时面临挑战，无法有效跟踪用户长期行为和偏好的演变。传统的记忆机制难以捕捉动态变化，检索增强生成（RAG）方法则需要在质量和效率之间进行权衡。此外，参数微调方法受到训练数据稀缺性的限制，导致训练和推理之间存在差距。

核心思路：TSUBASA的核心思路是通过改进记忆的写入和读取两个方面来提升PLLMs的长程个性化能力。具体来说，它采用动态记忆演化机制来更好地捕捉用户行为的动态变化，并利用上下文蒸馏的自学习方法来内化用户体验，从而提高记忆的利用效率。

技术框架：TSUBASA包含两个主要模块：动态记忆演化模块和上下文蒸馏自学习模块。动态记忆演化模块负责根据用户交互历史动态更新记忆内容，以反映用户行为的演变。上下文蒸馏自学习模块则利用模型自身的生成能力，从上下文中提取关键信息，并将其融入到记忆中，从而提高记忆的质量和利用率。整体流程是，首先利用动态记忆演化模块更新记忆，然后利用更新后的记忆和上下文信息，通过上下文蒸馏自学习模块训练模型。

关键创新：TSUBASA的关键创新在于其双管齐下的方法，即同时改进记忆的写入和读取。动态记忆演化机制能够更好地捕捉用户行为的动态变化，而上下文蒸馏自学习方法则能够提高记忆的利用效率。这种双重改进使得TSUBASA能够突破传统方法的局限性，实现更好的长程个性化效果。与现有方法相比，TSUBASA不仅关注记忆的存储，更关注记忆的动态更新和有效利用。

关键设计：动态记忆演化模块采用了一种基于时间衰减的更新策略，对较早的记忆赋予较低的权重，从而更好地反映用户近期的行为。上下文蒸馏自学习模块则采用了一种知识蒸馏的损失函数，鼓励模型生成与上下文更一致的输出。具体的参数设置和网络结构细节在论文中进行了详细描述，例如时间衰减函数的具体形式、蒸馏损失函数的权重等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TSUBASA在长程基准测试中显著优于现有记忆增强系统，例如Mem0和Memory-R1。具体来说，TSUBASA在多个指标上取得了显著提升，并且在保证性能的同时，降低了token预算，实现了质量和效率的帕累托改进。例如，在某个特定任务上，TSUBASA的性能提升了10%，同时token预算降低了20%。

🎯 应用场景

TSUBASA可应用于各种需要长程个性化的场景，例如个性化推荐系统、智能客服、虚拟助手等。通过更好地理解用户的长期行为和偏好，TSUBASA可以提供更精准、更贴心的服务，提升用户体验。未来，该研究可以扩展到其他模态数据，例如图像、视频等，从而实现更全面的个性化。

📄 摘要（原文）

Personalized large language models (PLLMs) have garnered significant attention for their ability to align outputs with individual's needs and preferences. However, they still struggle with long-horizon tasks, such as tracking a user's extensive history of conversations or activities. Existing memory mechanisms often fail to capture evolving behaviors, and RAG paradigms are trapped by a quality-efficiency tradeoff. Meanwhile, parametric adaptation is bottlenecked by train-inference gap due to the scarcity of labeled data. To enhance the long-horizon capabilities of PLLMs, we introduce TSUBASA, a two-pronged approach designed to improve memory writing via dynamic memory evolution, and memory reading via self-learning with a context distillation objective to internalize user experiences. Extensive evaluations on long-horizon benchmarks using the Qwen-3 model family (4B to 32B) validate the effectiveness of TSUBASA, surpassing competitive memory-augmented systems that rely primarily on memory writing, such as Mem0 and Memory-R1. Our analyses further confirms that TSUBASA breaks the quality-efficiency barrier to achieve Pareto improvements, delivering robust, high-fidelity personalization with a reduced token budget.

TSUBASA: Improving Long-Horizon Personalization via Evolving Memory and Self-Learning with Context Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理