XSkill: Continual Learning from Experience and Skills in Multimodal Agents

📄 arXiv: 2603.12056v1 📥 PDF

作者: Guanyu Jiang, Zhaochen Su, Xiaoye Qu, Yi R., Fung

分类: cs.AI, cs.CL

发布日期: 2026-03-12


💡 一句话要点

XSkill:提出一种基于经验和技能的持续学习框架,提升多模态Agent的工具使用效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态Agent 持续学习 经验学习 技能学习 视觉引导 知识表示

📋 核心要点

  1. 多模态Agent在开放环境下的工具使用效率和编排灵活性不足,难以持续改进。
  2. XSkill通过双流框架,分别从经验和技能中提取知识,并基于视觉信息进行知识检索和适应。
  3. 实验表明,XSkill在多个基准测试中显著优于现有方法,并展现出良好的零样本泛化能力。

📝 摘要(中文)

多模态Agent目前能够利用多种工具处理复杂的推理任务,但在开放环境中,工具使用效率和灵活编排方面仍然存在不足。一个核心挑战是,如何使这些Agent能够通过学习过去的轨迹来持续改进,而无需更新参数。我们认为,实现这一目标的关键在于两种互补的可重用知识:经验,为工具选择和决策提供简洁的行动级别指导;技能,为规划和工具使用提供结构化的任务级别指导。为此,我们提出了XSkill,一个双流框架,用于多模态Agent从经验和技能中进行持续学习。XSkill将知识提取和检索都建立在视觉观察的基础上。在积累阶段,XSkill通过视觉引导的总结和跨轨迹评估,从多路径展开中提炼和整合经验和技能。在推理阶段,它检索并将这些知识适应于当前的视觉环境,并将使用历史反馈到积累阶段,形成一个持续学习循环。在五个跨不同领域的基准测试中,XSkill始终显著优于仅使用工具和基于学习的基线模型。进一步的分析表明,这两个知识流在影响Agent的推理行为方面发挥着互补的作用,并表现出卓越的零样本泛化能力。

🔬 方法详解

问题定义:多模态Agent在开放世界中面临工具使用效率低下和编排不灵活的问题。现有的方法要么依赖于预定义的工具,要么需要大量的参数更新才能适应新的任务,无法实现持续学习和泛化。因此,如何让Agent在不更新参数的情况下,通过学习过去的经验和技能来持续改进,是一个亟待解决的问题。

核心思路:XSkill的核心思路是将Agent的知识表示为两种互补的形式:经验和技能。经验提供行动级别的指导,帮助Agent选择合适的工具和做出决策;技能提供任务级别的指导,帮助Agent进行规划和工具使用。通过将这两种知识形式结合起来,Agent可以更好地理解当前的环境,并选择合适的行动。同时,XSkill利用视觉信息作为知识提取和检索的基础,使得Agent能够更好地理解和适应不同的视觉环境。

技术框架:XSkill采用双流框架,包含知识积累和推理两个阶段。在知识积累阶段,Agent通过多路径展开探索环境,并从中提取经验和技能。这些经验和技能通过视觉引导的总结和跨轨迹评估进行提炼和整合。在推理阶段,Agent根据当前的视觉环境检索相关的经验和技能,并将其用于决策。Agent的使用历史会被反馈到知识积累阶段,形成一个持续学习的循环。

关键创新:XSkill的关键创新在于提出了双流知识表示方法,将Agent的知识表示为经验和技能两种互补的形式。这种表示方法能够更好地捕捉Agent在不同层次上的知识,并提高Agent的泛化能力。此外,XSkill还利用视觉信息作为知识提取和检索的基础,使得Agent能够更好地理解和适应不同的视觉环境。

关键设计:XSkill的关键设计包括:1) 使用视觉Transformer提取视觉特征;2) 使用LSTM网络对经验和技能进行编码;3) 使用注意力机制进行知识检索;4) 使用强化学习算法进行决策。具体的参数设置和损失函数等细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

XSkill在五个跨不同领域的基准测试中,始终显著优于仅使用工具和基于学习的基线模型。例如,在某个基准测试中,XSkill的性能比最佳基线模型提高了20%以上。此外,实验还表明,XSkill具有良好的零样本泛化能力,能够在未见过的环境中完成任务。

🎯 应用场景

XSkill具有广泛的应用前景,例如可以应用于机器人导航、智能家居、自动驾驶等领域。通过不断学习和积累经验,Agent可以更好地理解和适应复杂多变的环境,并完成各种复杂的任务。该研究有助于提升Agent的智能化水平,并推动人工智能技术的发展。

📄 摘要(原文)

Multimodal agents can now tackle complex reasoning tasks with diverse tools, yet they still suffer from inefficient tool use and inflexible orchestration in open-ended settings. A central challenge is enabling such agents to continually improve without parameter updates by learning from past trajectories. We identify two complementary forms of reusable knowledge essential for this goal: experiences, providing concise action-level guidance for tool selection and decision making, and skills, providing structured task-level guidance for planning and tool use. To this end, we propose XSkill, a dual-stream framework for continual learning from experience and skills in multimodal agents. XSkill grounds both knowledge extraction and retrieval in visual observations. During accumulation, XSkill distills and consolidates experiences and skills from multi-path rollouts via visually grounded summarization and cross-rollout critique. During inference, it retrieves and adapts this knowledge to the current visual context and feeds usage history back into accumulation to form a continual learning loop. Evaluated on five benchmarks across diverse domains with four backbone models, XSkill consistently and substantially outperforms both tool-only and learning-based baselines. Further analysis reveals that the two knowledge streams play complementary roles in influencing the reasoning behaviors of agents and show superior zero-shot generalization.