What Should a Skill Remember? Quality-Cost Trade-offs in Cost-Aware Skill Rewriting for Language Model Agents
作者: Qinghua Xing, Yinda Chen, Yaping Jin, Zhenhe Wu, Bohan Lin, Hang Zhou, Xinghao Chen, Hanting Chen, Zhiwei Xiong
分类: cs.CL
发布日期: 2026-06-08
🔗 代码/项目: GITHUB
💡 一句话要点
提出成本感知技能重写方法以优化语言模型代理的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 技能重写 语言模型 成本感知 信息保留 操作知识工程
📋 核心要点
- 现有技能重写方法往往忽视了成本与质量之间的权衡,导致代理性能下降。
- 本文提出了一种经济视角下的技能重写框架,使用信息保留策略优化技能结构。
- 实验表明,所提方法在多个任务上显著降低了成本,同时保持了验证器的质量。
📝 摘要(中文)
大型语言模型代理越来越依赖于技能,这些技能是可重用的程序性文档,编码了工作流程、工具使用、实现模式、验证检查和领域规则。技能重写通常被视为提示压缩,但较短的技能可能会通过移除稀疏的操作锚点而使代理变得更昂贵,这些锚点可以防止探索、调试和恢复。本文通过经济视角研究技能重写,提出了一种受控框架,分析技能结构,使用信息保留策略重写技能,并在固定任务指令、环境和验证器下评估重写效果。实验结果显示,不同策略在质量与成本之间存在明显的权衡,所提出的学习策略在主要评估中将总成本降低了7.0%,下游代理令牌成本降低了6.0%。
🔬 方法详解
问题定义:本文旨在解决现有技能重写方法在成本与质量之间的权衡问题。现有方法往往将技能重写视为简单的提示压缩,忽略了操作锚点的重要性,导致代理在执行任务时的性能下降。
核心思路:论文提出了一种新的技能重写框架,侧重于信息保留,确保在重写过程中尽可能保留原有技能的有效信息,从而降低成本而不牺牲质量。
技术框架:整体框架包括技能结构分析、信息保留重写策略和在固定任务指令、环境和验证器下的评估模块。首先对技能进行结构化分析,然后应用不同的重写策略,最后通过实验评估重写效果。
关键创新:最重要的创新点在于将技能设计视为一种成本感知的操作知识工程,而非简单的提示压缩。这一视角使得技能重写能够在不同任务中实现更好的适应性。
关键设计:在重写过程中,采用了API/代码锚定、工作流程保护和规则/公式锚定等策略,针对不同任务家族优化技能结构,确保在降低成本的同时保持验证器的质量。具体参数设置和损失函数设计在实验部分进行了详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果显示,所提出的学习策略在主要评估中将总成本降低了7.0%,下游代理令牌成本降低了6.0%。在跨模型转移中,相应的成本降低幅度平均达到14.7%和13.7%,同时保持了验证器的质量,展现了显著的性能提升。
🎯 应用场景
该研究的潜在应用领域包括智能助手、自动化工作流和复杂任务的执行等。通过优化技能重写,能够显著提高语言模型代理的效率和经济性,未来可能在各类智能系统中得到广泛应用。
📄 摘要(原文)
Large language model agents increasingly rely on skills: reusable procedural documents encoding workflows, tool use, implementation patterns, validation checks, and domain rules. Skill rewriting is often treated as prompt compression, but shorter skills can make agents more expensive by removing sparse operational anchors that prevent exploration, debugging, and recovery. We study skill rewriting through this economic lens. Our controlled framework profiles skill structure, rewrites skills using information-preservation strategies, and evaluates the rewrites under fixed task instructions, environments, and verifiers. Experiments on SkillsBench reveal distinct quality--cost trade-offs across strategies: API/code anchoring, workflow guarding, and rule/formula anchoring benefit different task families, with no universally dominant template. In the main held-out evaluation, the learned policy reduces total cost by 7.0\% and downstream agent-token cost by 6.0\%; in frozen cross-model transfer, the corresponding reductions average 14.7\% and 13.7\%, while verifier quality is preserved. These results position skill design as cost-aware operational knowledge engineering rather than prompt compression. Resources: \href{https://github.com/1Reminding/Skill_EE}{SkillEE}.