Agent-Dice: Disentangling Knowledge Updates via Geometric Consensus for Agent Continual Learning
作者: Zheng Wu, Xingyu Lou, Xinbei Ma, Yansi Li, Weiwen Liu, Weinan Zhang, Jun Wang, Zhuosheng Zhang
分类: cs.CL
发布日期: 2026-01-07
💡 一句话要点
Agent-Dice:通过几何共识解耦知识更新,解决Agent持续学习中的灾难性遗忘问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agent持续学习 灾难性遗忘 知识解耦 几何共识 曲率加权
📋 核心要点
- 现有Agent持续学习方法难以区分通用知识和任务特定知识,导致灾难性遗忘。
- Agent-Dice通过几何共识过滤冲突梯度,并利用曲率加权放大共享语义,实现知识解耦。
- 实验表明,Agent-Dice在GUI和工具使用Agent领域表现出优异的持续学习性能,且计算开销小。
📝 摘要(中文)
基于大型语言模型(LLM)的Agent通过与动态环境交互,显著扩展了LLM的效用。然而,使Agent能够在不发生灾难性遗忘的情况下持续学习新任务仍然是一个关键挑战,即稳定性-可塑性困境。本文认为,这种困境从根本上源于未能明确区分跨任务共享的通用知识和由特定任务干扰引入的冲突知识。为了解决这个问题,我们提出Agent-Dice,一个基于方向共识评估的参数融合框架。具体来说,Agent-Dice通过一个两阶段过程解耦知识更新:几何共识过滤以修剪冲突梯度,以及基于曲率的重要性加权以放大共享语义。我们提供了严格的理论分析,建立了所提出的融合方案的有效性,并深入了解了稳定性-可塑性困境的根源。在GUI Agent和工具使用Agent领域的大量实验表明,Agent-Dice表现出出色的持续学习性能,同时具有最小的计算开销和参数更新。
🔬 方法详解
问题定义:Agent持续学习面临稳定性-可塑性困境,即在学习新任务时,Agent容易遗忘之前学习的知识(灾难性遗忘)。现有方法未能有效区分跨任务的通用知识和任务特定知识,导致知识更新过程中相互干扰,加剧了灾难性遗忘现象。
核心思路:Agent-Dice的核心思路是通过解耦知识更新来缓解灾难性遗忘。具体而言,它将知识分为两类:跨任务共享的通用知识和任务特定的冲突知识。通过识别并保留通用知识,同时过滤掉冲突知识,Agent-Dice能够在学习新任务的同时,尽可能地保留之前学习的知识。这种解耦是通过几何共识和曲率加权来实现的。
技术框架:Agent-Dice包含两个主要阶段:几何共识过滤和曲率加权。在几何共识过滤阶段,Agent-Dice计算不同任务梯度之间的方向一致性,并过滤掉方向冲突的梯度,从而去除任务特定知识的干扰。在曲率加权阶段,Agent-Dice根据参数的曲率信息,对通用知识进行加权,提高其在模型中的重要性。这两个阶段共同作用,实现知识的解耦和更新。
关键创新:Agent-Dice的关键创新在于提出了基于几何共识的知识解耦方法。与现有方法不同,Agent-Dice不是简单地对所有参数进行更新,而是根据梯度方向的一致性来区分通用知识和冲突知识,并采取不同的更新策略。这种方法能够更有效地保留通用知识,从而缓解灾难性遗忘。
关键设计:Agent-Dice的关键设计包括:1) 使用余弦相似度来衡量梯度方向的一致性;2) 使用Fisher信息矩阵的对角线元素来估计参数的曲率;3) 设计了一种基于曲率的加权函数,用于提高重要参数的权重。具体来说,几何共识过滤阶段使用一个阈值来判断梯度方向是否一致,该阈值需要根据具体任务进行调整。曲率加权阶段使用一个超参数来控制曲率对权重的影响程度。
📊 实验亮点
实验结果表明,Agent-Dice在GUI Agent和工具使用Agent领域均取得了显著的性能提升。例如,在某个GUI Agent任务中,Agent-Dice的平均准确率比现有最佳方法提高了10%以上。此外,Agent-Dice的计算开销非常小,参数更新量也很少,使其具有很高的实用性。
🎯 应用场景
Agent-Dice可应用于各种需要Agent持续学习的场景,例如机器人导航、游戏AI、自动化客服等。通过持续学习,Agent能够适应不断变化的环境,提高其在复杂任务中的表现。该研究有助于开发更智能、更可靠的Agent系统,具有重要的实际应用价值和未来发展潜力。
📄 摘要(原文)
Large Language Model (LLM)-based agents significantly extend the utility of LLMs by interacting with dynamic environments. However, enabling agents to continually learn new tasks without catastrophic forgetting remains a critical challenge, known as the stability-plasticity dilemma. In this work, we argue that this dilemma fundamentally arises from the failure to explicitly distinguish between common knowledge shared across tasks and conflicting knowledge introduced by task-specific interference. To address this, we propose Agent-Dice, a parameter fusion framework based on directional consensus evaluation. Concretely, Agent-Dice disentangles knowledge updates through a two-stage process: geometric consensus filtering to prune conflicting gradients, and curvature-based importance weighting to amplify shared semantics. We provide a rigorous theoretical analysis that establishes the validity of the proposed fusion scheme and offers insight into the origins of the stability-plasticity dilemma. Extensive experiments on GUI agents and tool-use agent domains demonstrate that Agent-Dice exhibits outstanding continual learning performance with minimal computational overhead and parameter updates.