Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO

📄 arXiv: 2604.27488v1 📥 PDF

作者: Yu Tian, Jiawei Chen, Lifan Zheng, Mingxiang Tao, Xinyi Zeng, Zhaoxia Yin, Hang Su, Xian Sun

分类: cs.CL

发布日期: 2026-04-30


💡 一句话要点

Skills-Coach:通过无训练GRPO实现LLM智能体技能的自进化优化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM智能体 技能优化 自进化学习 无训练学习 任务生成

📋 核心要点

  1. 现有LLM智能体的技能生态系统碎片化,限制了其在复杂任务中的应用。
  2. Skills-Coach通过多样化任务生成、轻量级优化等模块,实现技能提示和代码的自进化优化。
  3. Skill-X基准测试表明,Skills-Coach显著提升了LLM智能体在各类技能上的性能。

📝 摘要(中文)

本文提出Skills-Coach,一个新颖的自动化框架,旨在显著增强基于大型语言模型(LLM)的智能体中技能的自进化。针对当前技能生态系统的碎片化问题,Skills-Coach探索技能能力的边界,从而促进智能应用所需的全面能力覆盖。该框架包含四个核心模块:一个多样化任务生成模块,系统地为各种技能创建全面的测试套件;一个轻量级优化模块,专门用于优化技能提示及其相应的代码;一个比较执行模块,促进原始和优化技能的执行和评估;以及一个可追溯的评估模块,严格评估针对指定标准的性能。Skills-Coach通过其虚拟和真实模式提供灵活的执行选项。为了验证其有效性,我们引入了Skill-X,一个包含48个不同技能的综合基准数据集。实验结果表明,Skills-Coach在各种类别的技能能力方面实现了显著的性能改进,突出了其在推进更强大和适应性更强的基于LLM的智能体的发展方面的潜力。

🔬 方法详解

问题定义:当前基于LLM的智能体技能生态系统存在碎片化问题,各个技能之间缺乏有效的协同和优化,导致智能体在处理复杂任务时能力不足。现有方法通常依赖人工设计和调整技能,效率低下且难以扩展到新的技能领域。因此,如何自动地提升和优化LLM智能体的技能成为一个关键挑战。

核心思路:Skills-Coach的核心思路是通过一个自动化框架,模拟教练指导学生学习的过程,自动生成多样化的任务来测试技能,并利用轻量级的优化方法来改进技能提示和代码,最终通过比较执行和可追溯的评估来验证优化效果。这种自进化的方式能够有效地提升LLM智能体的技能水平,并解决技能生态系统的碎片化问题。

技术框架:Skills-Coach框架包含四个主要模块:1) 多样化任务生成模块:用于系统地生成各种技能的测试用例,确保技能覆盖的全面性。2) 轻量级优化模块:用于优化技能提示和代码,提高技能的执行效率和准确性。3) 比较执行模块:用于执行原始技能和优化后的技能,并进行性能比较。4) 可追溯的评估模块:用于严格评估技能的性能,并提供可追溯的评估报告。整个流程通过虚拟和真实模式提供灵活的执行选项。

关键创新:Skills-Coach的关键创新在于其无训练的技能优化方法,即GRPO(Training-Free GRPO)。与传统的需要大量训练数据的方法不同,Skills-Coach通过生成多样化的任务和轻量级的优化策略,能够在没有训练数据的情况下有效地提升技能性能。这种方法降低了技能优化的成本和难度,使其更容易应用于各种LLM智能体。

关键设计:多样化任务生成模块的设计需要考虑技能的多样性和复杂性,确保生成的任务能够充分测试技能的各个方面。轻量级优化模块可能采用基于规则的优化、基于搜索的优化或基于梯度优化的方法,具体选择取决于技能的特点和优化目标。可追溯的评估模块需要定义清晰的评估指标,并提供详细的评估报告,以便分析技能的优缺点。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Skills-Coach在Skill-X基准数据集上取得了显著的性能提升。具体而言,Skills-Coach在各种技能类别上都实现了性能改进,证明了其在提升LLM智能体技能方面的有效性。Skill-X包含48个技能,涵盖了广泛的任务类型,验证了Skills-Coach的通用性和适应性。

🎯 应用场景

Skills-Coach可应用于各种基于LLM的智能体,例如智能客服、自动化编程助手、机器人控制系统等。通过自动优化技能,可以显著提升这些智能体在复杂任务中的表现,提高工作效率和用户满意度。未来,该技术有望推动智能体在更多领域的应用,例如医疗诊断、金融分析等。

📄 摘要(原文)

We introduce Skills-Coach, a novel automated framework designed to significantly enhance the self-evolution of skills within Large Language Model (LLM)-based agents. Addressing the current fragmentation of the skill ecosystem, Skills-Coach explores the boundaries of skill capabilities, thereby facilitating the comprehensive competency coverage essential for intelligent applications. The framework comprises four core modules: a Diverse Task Generation Module that systematically creates a comprehensive test suite for various skills; a Lightweight Optimization Module dedicated to optimizing skill prompts and their corresponding code; a Comparative Execution Module facilitating the execution and evaluation of both original and optimized skills; and a Traceable Evaluation Module, which rigorously evaluates performance against specified criteria. Skills-Coach offers flexible execution options through its virtual and real modes. To validate its efficacy, we introduce Skill-X, a comprehensive benchmark dataset consisting of 48 diverse skills. Experimental results demonstrate that Skills-Coach achieves significant performance improvements in skill capability across a wide range of categories, highlighting its potential to advance the development of more robust and adaptable LLM-based agents.