XSkill: Continual Learning from Experience and Skills in Multimodal Agents
作者: Guanyu Jiang, Zhaochen Su, Xiaoye Qu, Yi R. Fung
分类: cs.AI, cs.CL
发布日期: 2026-03-12 (更新: 2026-03-13)
💡 一句话要点
XSkill:多模态Agent中基于经验和技能的持续学习框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态Agent 持续学习 经验学习 技能学习 视觉引导 知识表示 知识检索 工具使用
📋 核心要点
- 多模态Agent在开放环境下的工具使用效率和编排灵活性不足,难以持续改进。
- XSkill通过双流框架,从经验和技能两个方面提取可重用的知识,并基于视觉信息进行知识的积累和检索。
- 在多个基准测试中,XSkill显著优于现有方法,并展现出良好的零样本泛化能力。
📝 摘要(中文)
多模态Agent现在可以使用各种工具来处理复杂的推理任务,但它们仍然存在工具使用效率低下和在开放环境中编排不灵活的问题。一个核心挑战是使这些Agent能够通过学习过去的轨迹来持续改进,而无需更新参数。我们确定了两种可重用的知识形式,它们对于实现这一目标至关重要:经验,为工具选择和决策提供简洁的行动级指导;技能,为规划和工具使用提供结构化的任务级指导。为此,我们提出了XSkill,一个双流框架,用于多模态Agent中基于经验和技能的持续学习。XSkill将知识提取和检索都建立在视觉观察的基础上。在积累过程中,XSkill通过视觉引导的总结和跨轨迹的批判,从多路径展开中提炼和巩固经验和技能。在推理过程中,它检索并将这些知识适应于当前的视觉环境,并将使用历史反馈到积累中,形成一个持续学习循环。在跨不同领域的五个基准上,使用四个骨干模型进行评估,XSkill始终且大幅度地优于仅使用工具和基于学习的基线。进一步的分析表明,这两个知识流在影响Agent的推理行为方面发挥着互补的作用,并显示出卓越的零样本泛化能力。
🔬 方法详解
问题定义:多模态Agent在开放世界中面临工具使用效率低和编排不灵活的问题。现有方法要么依赖于预训练模型,缺乏持续学习能力,要么难以有效地利用历史经验和技能知识,导致泛化能力受限。因此,如何让Agent在无需参数更新的情况下,通过学习过去的轨迹来持续改进,是本文要解决的核心问题。
核心思路:本文的核心思路是构建一个双流框架,分别从经验和技能两个维度提取和利用知识。经验提供行动级别的指导,帮助Agent选择合适的工具和做出决策;技能提供任务级别的指导,帮助Agent进行规划和工具使用。通过将知识提取和检索都建立在视觉观察的基础上,使得Agent能够更好地理解环境,并根据当前视觉上下文选择合适的知识。
技术框架:XSkill框架包含两个主要流程:知识积累和知识推理。在知识积累阶段,Agent通过多路径展开探索环境,并利用视觉引导的总结和跨轨迹的批判,从轨迹中提炼和巩固经验和技能。在知识推理阶段,Agent根据当前的视觉环境检索相关的经验和技能,并将其用于指导工具选择和决策。同时,Agent会将使用历史反馈到知识积累阶段,形成一个持续学习的闭环。
关键创新:XSkill的关键创新在于提出了一个双流框架,分别从经验和技能两个维度进行知识表示和利用。这种双流设计使得Agent能够同时利用行动级别的指导和任务级别的指导,从而更好地完成任务。此外,XSkill还利用视觉信息作为知识提取和检索的桥梁,使得Agent能够更好地理解环境,并根据当前视觉上下文选择合适的知识。
关键设计:XSkill框架中,经验和技能的表示形式未知,但强调了视觉信息的 grounding。知识积累阶段使用了视觉引导的总结和跨轨迹的批判,具体实现方式未知。知识检索阶段如何根据视觉环境选择合适的经验和技能,以及如何将使用历史反馈到知识积累阶段,具体细节也未知。
🖼️ 关键图片
📊 实验亮点
XSkill在五个基准测试中,使用四个骨干模型进行评估,结果表明XSkill始终且大幅度地优于仅使用工具和基于学习的基线方法。具体性能提升数据未知,但强调了XSkill在不同领域和模型上的泛化能力。此外,分析表明经验和技能这两个知识流在影响Agent的推理行为方面发挥着互补的作用,并显示出卓越的零样本泛化能力。
🎯 应用场景
XSkill框架具有广泛的应用前景,可以应用于机器人、游戏AI、智能助手等领域。例如,在机器人领域,XSkill可以帮助机器人更好地理解环境,并根据任务需求选择合适的工具和技能,从而完成复杂的任务。在游戏AI领域,XSkill可以帮助AI Agent更好地学习游戏策略,并根据游戏环境的变化做出相应的调整,从而提高游戏AI的智能水平。
📄 摘要(原文)
Multimodal agents can now tackle complex reasoning tasks with diverse tools, yet they still suffer from inefficient tool use and inflexible orchestration in open-ended settings. A central challenge is enabling such agents to continually improve without parameter updates by learning from past trajectories. We identify two complementary forms of reusable knowledge essential for this goal: experiences, providing concise action-level guidance for tool selection and decision making, and skills, providing structured task-level guidance for planning and tool use. To this end, we propose XSkill, a dual-stream framework for continual learning from experience and skills in multimodal agents. XSkill grounds both knowledge extraction and retrieval in visual observations. During accumulation, XSkill distills and consolidates experiences and skills from multi-path rollouts via visually grounded summarization and cross-rollout critique. During inference, it retrieves and adapts this knowledge to the current visual context and feeds usage history back into accumulation to form a continual learning loop. Evaluated on five benchmarks across diverse domains with four backbone models, XSkill consistently and substantially outperforms both tool-only and learning-based baselines. Further analysis reveals that the two knowledge streams play complementary roles in influencing the reasoning behaviors of agents and show superior zero-shot generalization.