Skill Availability and Presentation Granularity in Large-Language-Model Agents: A Controlled SkillsBench Study
作者: Xiaonan Xu, Wenjing Wu
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-05-29
💡 一句话要点
研究技能文档粒度对大语言模型Agent任务成功率的影响,发现技能可用性是关键因素
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 Agent 技能学习 技能文档 呈现粒度
📋 核心要点
- 现有大语言模型Agent缺乏有效的技能学习和利用机制,限制了其在复杂任务中的表现。
- 本文通过控制技能文档的呈现粒度,研究其对Agent任务成功率的影响,旨在优化技能学习策略。
- 实验结果表明,技能的可用性对任务成功率有显著影响,而呈现粒度的影响较小且依赖于模型。
📝 摘要(中文)
本文研究了在推理时,技能文档的呈现粒度是否会影响大语言模型Agent的下游任务成功率。实验使用了固定的SkillsBench版本,一个由官方oracle runs验证的30任务领域平衡子集,两种支持推理的模型配置,六种技能条件,以及每个任务-条件-模型单元的五次试验。技能可用性是最清晰的经验信号。相对于没有技能,技能条件使GPT-5.5的任务平均通过率提高了26.7到36.0个百分点,DeepSeek V4-Flash提高了18.0到26.0个百分点。最终数据包含1,800行,每个模型900行。任务是推理单元。在30个任务上估计配对对比之前,每个任务-条件-模型单元内的五个试验被聚合。主要的呈现对比很小且不确定。低抽象指导与高抽象指导的差异对于GPT-5.5为+0.7个百分点,对于DeepSeek V4-Flash为-6.7个百分点,两个95% bootstrap置信区间都穿过零。在中等抽象指导中添加一个已完成的示例与没有示例的变体相比,差异为+0.7和+1.3个百分点。平均奖励鲁棒性检查保留了相同的实质性结论。在这个受控子集中,技能可用性与比没有技能更高的成功率相关,而测试的呈现粒度变化产生的影响很小、不确定且依赖于模型。
🔬 方法详解
问题定义:论文旨在研究如何有效地将技能知识传递给大型语言模型Agent,以提高其在下游任务中的表现。现有方法在技能呈现的粒度上缺乏系统性的研究,导致Agent难以充分利用技能知识,从而限制了其性能。
核心思路:论文的核心思路是通过控制技能文档的呈现粒度(例如抽象程度、是否包含示例),来研究不同粒度的技能知识对Agent任务成功率的影响。通过对比不同技能条件下的Agent表现,分析哪种呈现方式最有利于Agent学习和利用技能。
技术框架:该研究采用实验方法,使用SkillsBench数据集的一个子集,包含30个任务。实验中使用了两种大型语言模型(GPT-5.5和DeepSeek V4-Flash),并设置了六种不同的技能条件,包括无技能、不同抽象程度的技能指导以及是否包含示例。每个任务-条件-模型组合进行五次试验,最终收集了1800条数据。
关键创新:该研究的关键创新在于系统性地研究了技能文档呈现粒度对大型语言模型Agent性能的影响。通过控制技能的抽象程度和是否包含示例,揭示了技能可用性对任务成功率的重要性,并发现呈现粒度的影响较小且依赖于模型。
关键设计:实验中,技能条件的设计是关键。六种技能条件包括:无技能(No Skill)、高抽象指导(High-Abstraction Guidance)、低抽象指导(Low-Abstraction Guidance)、中等抽象指导(Medium-Abstraction Guidance)、中等抽象指导+一个示例(Medium-Abstraction Guidance + 1 Example)以及中等抽象指导+多个示例(Medium-Abstraction Guidance + Multiple Examples)。通过对比这些条件下的任务成功率,评估不同呈现粒度的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,技能可用性对任务成功率有显著影响。对于GPT-5.5,技能条件使任务平均通过率提高了26.7到36.0个百分点,对于DeepSeek V4-Flash,提高了18.0到26.0个百分点。然而,呈现粒度的影响较小且不确定,低抽象指导与高抽象指导的差异对于GPT-5.5为+0.7个百分点,对于DeepSeek V4-Flash为-6.7个百分点,且置信区间穿过零。
🎯 应用场景
该研究成果可应用于提升大语言模型Agent在各种复杂任务中的表现,例如智能客服、自动化流程、机器人控制等。通过优化技能文档的呈现方式,可以使Agent更有效地学习和利用技能知识,从而提高其任务完成效率和准确性。未来的研究可以进一步探索更有效的技能学习和利用机制,例如自适应技能粒度调整、技能组合等。
📄 摘要(原文)
Skill documents provide procedural knowledge to large-language-model agents at inference time. This article studies whether the presentation granularity of controlled skill knowledge changes downstream task success. The experiment uses a pinned SkillsBench version, a 30-task domain-balanced subset validated by official oracle runs, two reasoning-enabled model configurations, six skill conditions, and five trials per task-condition-model cell. Skill availability is the clearest empirical signal. Relative to no skill, skill conditions increase task-mean pass rate by 26.7 to 36.0 percentage points for GPT-5.5 and by 18.0 to 26.0 percentage points for DeepSeek V4-Flash. The final data contain 1,800 rows, with 900 rows for each model. The task is the inference unit. Five trials are aggregated within each task-condition-model cell before paired contrasts are estimated over 30 tasks. The primary presentation contrasts are smaller and uncertain. Low-abstraction guidance differs from high-abstraction guidance by +0.7 percentage points for GPT-5.5 and -6.7 percentage points for DeepSeek V4-Flash, with both 95% bootstrap confidence intervals crossing zero. Adding one worked example to medium-abstraction guidance differs from the no-example variant by +0.7 and +1.3 percentage points. Mean-reward robustness checks preserve the same substantive conclusion. In this controlled subset, skill availability is associated with higher success than no skill, while the tested presentation-granularity changes yield small, uncertain, and model-dependent effects.