Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO

作者: Yu Tian, Jiawei Chen, Lifan Zheng, Mingxiang Tao, Xinyi Zeng, Zhaoxia Yin, Hang Su, Xian Sun

分类: cs.CL

发布日期: 2026-04-30

💡 一句话要点

Skills-Coach：通过无训练GRPO实现LLM智能体技能的自进化优化

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM智能体 技能优化 自进化学习 无训练学习 任务生成

📋 核心要点

现有LLM智能体的技能生态系统碎片化，限制了其在复杂任务中的应用。
Skills-Coach通过多样化任务生成、轻量级优化等模块，实现技能提示和代码的自进化优化。
Skill-X基准测试表明，Skills-Coach显著提升了LLM智能体在各类技能上的性能。

📝 摘要（中文）

本文提出Skills-Coach，一个新颖的自动化框架，旨在显著增强基于大型语言模型（LLM）的智能体中技能的自进化。针对当前技能生态系统的碎片化问题，Skills-Coach探索技能能力的边界，从而促进智能应用所需的全面能力覆盖。该框架包含四个核心模块：一个多样化任务生成模块，系统地为各种技能创建全面的测试套件；一个轻量级优化模块，专门用于优化技能提示及其相应的代码；一个比较执行模块，促进原始和优化技能的执行和评估；以及一个可追溯的评估模块，严格评估针对指定标准的性能。Skills-Coach通过其虚拟和真实模式提供灵活的执行选项。为了验证其有效性，我们引入了Skill-X，一个包含48个不同技能的综合基准数据集。实验结果表明，Skills-Coach在各种类别的技能能力方面实现了显著的性能改进，突出了其在推进更强大和适应性更强的基于LLM的智能体的发展方面的潜力。

🔬 方法详解

问题定义：当前基于LLM的智能体技能生态系统存在碎片化问题，各个技能之间缺乏有效的协同和优化，导致智能体在处理复杂任务时能力不足。现有方法通常依赖人工设计和调整技能，效率低下且难以扩展到新的技能领域。因此，如何自动地提升和优化LLM智能体的技能成为一个关键挑战。

核心思路：Skills-Coach的核心思路是通过一个自动化框架，模拟教练指导学生学习的过程，自动生成多样化的任务来测试技能，并利用轻量级的优化方法来改进技能提示和代码，最终通过比较执行和可追溯的评估来验证优化效果。这种自进化的方式能够有效地提升LLM智能体的技能水平，并解决技能生态系统的碎片化问题。

技术框架：Skills-Coach框架包含四个主要模块：1) 多样化任务生成模块：用于系统地生成各种技能的测试用例，确保技能覆盖的全面性。2) 轻量级优化模块：用于优化技能提示和代码，提高技能的执行效率和准确性。3) 比较执行模块：用于执行原始技能和优化后的技能，并进行性能比较。4) 可追溯的评估模块：用于严格评估技能的性能，并提供可追溯的评估报告。整个流程通过虚拟和真实模式提供灵活的执行选项。

关键创新：Skills-Coach的关键创新在于其无训练的技能优化方法，即GRPO（Training-Free GRPO）。与传统的需要大量训练数据的方法不同，Skills-Coach通过生成多样化的任务和轻量级的优化策略，能够在没有训练数据的情况下有效地提升技能性能。这种方法降低了技能优化的成本和难度，使其更容易应用于各种LLM智能体。

关键设计：多样化任务生成模块的设计需要考虑技能的多样性和复杂性，确保生成的任务能够充分测试技能的各个方面。轻量级优化模块可能采用基于规则的优化、基于搜索的优化或基于梯度优化的方法，具体选择取决于技能的特点和优化目标。可追溯的评估模块需要定义清晰的评估指标，并提供详细的评估报告，以便分析技能的优缺点。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Skills-Coach在Skill-X基准数据集上取得了显著的性能提升。具体而言，Skills-Coach在各种技能类别上都实现了性能改进，证明了其在提升LLM智能体技能方面的有效性。Skill-X包含48个技能，涵盖了广泛的任务类型，验证了Skills-Coach的通用性和适应性。

🎯 应用场景

Skills-Coach可应用于各种基于LLM的智能体，例如智能客服、自动化编程助手、机器人控制系统等。通过自动优化技能，可以显著提升这些智能体在复杂任务中的表现，提高工作效率和用户满意度。未来，该技术有望推动智能体在更多领域的应用，例如医疗诊断、金融分析等。

📄 摘要（原文）

We introduce Skills-Coach, a novel automated framework designed to significantly enhance the self-evolution of skills within Large Language Model (LLM)-based agents. Addressing the current fragmentation of the skill ecosystem, Skills-Coach explores the boundaries of skill capabilities, thereby facilitating the comprehensive competency coverage essential for intelligent applications. The framework comprises four core modules: a Diverse Task Generation Module that systematically creates a comprehensive test suite for various skills; a Lightweight Optimization Module dedicated to optimizing skill prompts and their corresponding code; a Comparative Execution Module facilitating the execution and evaluation of both original and optimized skills; and a Traceable Evaluation Module, which rigorously evaluates performance against specified criteria. Skills-Coach offers flexible execution options through its virtual and real modes. To validate its efficacy, we introduce Skill-X, a comprehensive benchmark dataset consisting of 48 diverse skills. Experimental results demonstrate that Skills-Coach achieves significant performance improvements in skill capability across a wide range of categories, highlighting its potential to advance the development of more robust and adaptable LLM-based agents.

Skills-Coach: A Self-Evolving Skill Optimizer via Training-Free GRPO

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理