PolySkill: Learning Generalizable Skills Through Polymorphic Abstraction

📄 arXiv: 2510.15863v1 📥 PDF

作者: Simon Yu, Gang Li, Weiyan Shi, Peng Qi

分类: cs.CL, cs.AI

发布日期: 2025-10-17

备注: 29 pages, 6 figures, 8 tables


💡 一句话要点

PolySkill:通过多态抽象学习可泛化技能,提升Agent在开放Web环境中的持续学习能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 技能学习 多态抽象 大型语言模型 Agent 开放Web 持续学习 泛化能力

📋 核心要点

  1. 现有技能学习方法创建的技能过于专一,难以在不同网站间泛化,限制了Agent的持续学习能力。
  2. PolySkill通过多态抽象解耦技能的抽象目标和具体实现,从而学习更通用的技能。
  3. 实验表明,PolySkill提升了技能复用率和任务成功率,并减少了完成任务所需的步骤。

📝 摘要(中文)

大型语言模型(LLM)正超越静态应用,驱动Agent在与外部环境交互中持续学习。例如,Agent可以在浏览网页或使用新工具时学习可复用的技能。然而,现有的技能学习方法通常创建过于专用于单个网站的技能,导致泛化失败。我们提出了PolySkill,一种新的框架,使Agent能够学习可泛化和可组合的技能。其核心思想,受到软件工程中多态性的启发,是将技能的抽象目标(完成什么)与其具体实现(如何执行)解耦。实验表明,我们的方法(1)在已见过的网站上提高了1.7倍的技能复用率,(2)在Mind2Web上提高了高达9.4%的成功率,在未见过的网站上提高了13.9%的成功率,同时减少了20%以上的步骤。(3)在没有指定任务的自我探索设置中,我们的框架提高了所提出任务的质量,并使Agent能够学习跨不同网站通用的技能。通过使Agent能够识别和完善自己的目标,PolySkill增强了Agent学习更好课程的能力,从而获得比基线方法更具泛化性的技能。这项工作为构建能够在自适应环境中持续学习的Agent提供了一条切实可行的途径。我们的研究结果表明,将技能的目标与执行分离是开发能够在开放Web上持续学习和泛化的自主Agent的关键一步。

🔬 方法详解

问题定义:现有Agent技能学习方法存在过拟合特定网站的问题,导致技能难以泛化到新的、未见过的网站上。这限制了Agent在开放Web环境中持续学习和适应的能力,使其难以高效地完成跨站点的任务。现有方法缺乏对技能目标和实现的有效解耦,使得技能与特定网站的交互方式紧密耦合。

核心思路:PolySkill的核心思路是借鉴软件工程中的多态性概念,将技能的抽象目标(what)与其具体实现(how)分离。通过定义技能的抽象接口,Agent可以根据不同的环境(例如不同的网站)选择不同的具体实现。这种解耦使得技能更具通用性,可以更容易地适应新的环境。

技术框架:PolySkill框架包含以下主要模块:1) 技能抽象模块:负责定义技能的抽象目标,例如“搜索商品”、“添加购物车”等。这些目标是与具体网站无关的。2) 技能实现模块:包含多个针对不同网站的具体实现。例如,“搜索商品”在淘宝和京东上的实现方式可能不同。3) 技能选择模块:根据当前环境(网站)选择合适的技能实现。4) 技能执行模块:执行选定的技能实现。整个流程是:Agent首先确定需要完成的抽象目标,然后根据当前网站选择对应的技能实现,最后执行该实现。

关键创新:PolySkill最重要的技术创新点在于其多态抽象机制,它允许Agent学习与特定网站无关的通用技能。与现有方法相比,PolySkill不是直接学习特定网站上的操作序列,而是学习技能的抽象目标和不同网站上的具体实现之间的映射关系。这种方法使得Agent可以更容易地将学到的技能泛化到新的网站上。

关键设计:PolySkill的关键设计包括:1) 使用大型语言模型(LLM)来表示技能的抽象目标和具体实现。2) 设计了一种新的损失函数,鼓励Agent学习技能的抽象目标和具体实现之间的正确映射关系。3) 采用了一种基于自我探索的技能学习策略,允许Agent在没有指定任务的情况下自主发现和学习新的技能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PolySkill在Mind2Web数据集上取得了显著的性能提升。在已见过的网站上,技能复用率提高了1.7倍。在未见过的网站上,任务成功率提高了13.9%,同时步骤数减少了20%以上。这些结果表明,PolySkill能够有效地提高Agent的泛化能力和效率。

🎯 应用场景

PolySkill可应用于构建能够在开放Web环境中持续学习和适应的自主Agent。例如,可以用于开发智能购物助手,能够自动在不同电商网站上搜索商品、比较价格和下单。此外,还可以应用于自动化数据采集、智能客服等领域,提高Agent的效率和泛化能力。

📄 摘要(原文)

Large language models (LLMs) are moving beyond static uses and are now powering agents that learn continually during their interaction with external environments. For example, agents can learn reusable skills while navigating web pages or toggling new tools. However, existing methods for skill learning often create skills that are over-specialized to a single website and fail to generalize. We introduce PolySkill, a new framework that enables agents to learn generalizable and compositional skills. The core idea, inspired by polymorphism in software engineering, is to decouple a skill's abstract goal (what it accomplishes) and its concrete implementation (how it is executed). Experiments show that our method (1) improves skill reuse by 1.7x on seen websites and (2) boosts success rates by up to 9.4% on Mind2Web and 13.9% on unseen websites, while reducing steps by over 20%. (3) In self-exploration settings without specified tasks, our framework improves the quality of proposed tasks and enables agents to learn generalizable skills that work across different sites. By enabling the agent to identify and refine its own goals, the PolySkill enhances the agent's ability to learn a better curriculum, leading to the acquisition of more generalizable skills compared to baseline methods. This work provides a practical path toward building agents capable of continual learning in adaptive environments. Our findings show that separating a skill's goal from its execution is a crucial step toward developing autonomous agents that can learn and generalize across the open web continuously.