MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?
作者: Xinyu Che, Junqi Xiong, Yunfei Ge, Xinping Lei, Shihao Li, Hang Yan, Han Li, Yuanxing Zhang, Zhiqi Bai, Jinhua Hao, Ming Sun, Han Li, Jiaheng Liu
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-06-01
备注: 35 pages, 12 figures, 13 tables. Code: https://github.com/NJU-LINK/MMG2Skill
💡 一句话要点
MMG2Skill:将Web指南提炼为可自我进化的智能体技能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 技能学习 视觉-语言模型 长时程任务 闭环学习 轨迹反馈 智能体 Web指南 程序性知识
📋 核心要点
- 现有方法难以直接利用Web上多模态、异构、嘈杂且隐含人类执行者的程序性知识。
- MMG2Skill框架将Web指南编译为可编辑技能,并利用轨迹反馈持续改进智能体技能。
- 实验表明,MMG2Skill在多个VLM骨干网络上显著优于基线方法,提升高达25.3%。
📝 摘要(中文)
本文研究如何将Web上丰富的程序性知识转化为智能体可执行的技能,以解决长时程任务。作者将此问题形式化为guide-to-skill学习:将来自真实世界的指南转换为可执行的技能,并从智能体可观察到的轨迹中持续改进它们。为了评估现有智能体在此任务上的能力,作者提出了MMG2Skill-Bench,这是第一个为此问题设计的基准。此外,作者提出了MMG2Skill,一个闭环框架,它将指南编译成可编辑的技能,在执行期间以这些技能为条件来训练一个固定的视觉-语言模型(VLM)智能体,并从轨迹级别的根本原因反馈中修改技能,而无需使用基准分数。在GUI控制、开放式游戏和战略纸牌游戏中,MMG2Skill在六个VLM骨干网络上始终优于原始基线智能体,在骨干网络上的宏平均增益为+12.8到+25.3个百分点。消融研究表明,直接使用原始指南提示智能体会降低性能,而结构化技能构建和轨迹驱动的修订对于观察到的改进都是必要的。在成功可推断的任务中,基于分析器的提前停止进一步防止了后期性能回归,并在成功信号得到适当校准时节省了25%-53%的尝试。
🔬 方法详解
问题定义:论文旨在解决如何将互联网上大量面向人类的、异构的、多模态的指南知识转化为智能体可以理解和执行的技能的问题。现有方法难以处理这些指南中的噪声、异构性以及隐含的人类执行者假设,导致智能体无法直接利用这些知识来完成长时程任务。
核心思路:论文的核心思路是将指南转化为智能体可编辑的技能,并在执行过程中利用智能体的轨迹反馈来不断改进这些技能。通过闭环学习的方式,使智能体能够从失败的经验中学习,并逐步适应环境,最终掌握完成任务所需的技能。
技术框架:MMG2Skill框架包含三个主要模块:1) 技能编译:将原始指南转化为结构化的、可编辑的技能表示。2) 技能条件执行:利用视觉-语言模型(VLM)智能体,以编译后的技能为条件进行任务执行。3) 技能修订:根据智能体的执行轨迹和反馈,识别技能中的不足之处,并进行相应的修改和优化。
关键创新:该论文的关键创新在于提出了一个闭环的guide-to-skill学习框架,能够将Web上的指南知识转化为智能体可执行的技能,并利用轨迹反馈进行持续改进。与传统的模仿学习方法不同,该方法不需要人工标注的专家轨迹,而是通过智能体自身的探索和学习来提升技能。
关键设计:在技能编译阶段,论文可能采用自然语言处理技术来解析指南文本,并提取关键步骤和操作。在技能条件执行阶段,VLM智能体需要能够理解技能描述,并将其转化为具体的动作序列。在技能修订阶段,论文可能采用强化学习或监督学习方法,根据轨迹反馈来调整技能参数或修改技能结构。具体的损失函数和网络结构等细节未知。
🖼️ 关键图片
📊 实验亮点
MMG2Skill在GUI控制、开放式游戏和战略纸牌游戏中,在六个VLM骨干网络上始终优于原始基线智能体,宏平均增益为+12.8到+25.3个百分点。消融实验表明,直接使用原始指南提示智能体会降低性能,而结构化技能构建和轨迹驱动的修订对于观察到的改进都是必要的。在成功可推断的任务中,基于分析器的提前停止节省了25%-53%的尝试。
🎯 应用场景
该研究成果可应用于机器人流程自动化(RPA)、游戏AI、智能助手等领域。通过将互联网上的知识转化为智能体的技能,可以显著降低智能体的开发成本,并提高其在复杂环境中的适应性和泛化能力。未来,该技术有望赋能智能体自主学习和解决各种现实世界的问题。
📄 摘要(原文)
Abundant procedural knowledge on the Web holds great potential for helping agents solve long-horizon tasks. However, such knowledge is often multimodal, heterogeneous, noisy, and implicitly assumes human executors, making it difficult to use directly as the skills required by agents. To bridge the gap between human-oriented guides and agent-executable skills, we formalize this problem as guide-to-skill learning: converting in-the-wild guides into executable skills and continuously improving them from trajectories observable to the agent. To evaluate the capability of existing agents on this task, we introduce MMG2Skill-Bench, the first benchmark designed for this problem. We further propose MMG2Skill, a closed-loop framework that compiles guides into editable skills, conditions a fixed vision-language model (VLM) agent on these skills during execution, and revises the skills from trajectory-level root-cause feedback without using benchmark scores. Across GUI control, open-ended gameplay, and strategic card play with six VLM backbones, MMG2Skill consistently outperforms vanilla baseline agents in every model-domain setting, achieving macro-average gains of +12.8 to +25.3 percentage points across backbones. Ablation studies show that directly prompting agents with raw guides can degrade performance, while both structured skill construction and trajectory-driven revision are necessary for the observed improvements. On success-inferable tasks, analyzer-based early stopping further prevents late-stage performance regressions and saves 25%-53% of attempts when the success signal is properly calibrated.