Workflow-to-Skill: Skill Creation via Routing-Workflow-Semantics-Attachments Decomposition

📄 arXiv: 2606.06893v1 📥 PDF

作者: Yuyang Zhang, Xinyuan Han, Xudong Jiang, Run Wang

分类: cs.AI

发布日期: 2026-06-05

备注: 10 pages, 2 figures


💡 一句话要点

提出RWSA框架以自动化技能构建解决现有方法不足问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 技能构建 自动化 工作流 执行语义 多模态学习 智能代理 行为重放

📋 核心要点

  1. 现有方法在技能构建中面临高成本和低质量的问题,尤其是手动编写技能的复杂性和不一致性。
  2. 本文提出的RWSA框架通过将技能分解为工作流结构、执行语义和运行时附加信息,解决了技能构建中的碎片化和冗余问题。
  3. 实验结果显示,W2S框架在行为重放一致性上比传统方法提高了10.5%,验证了其有效性和实用性。

📝 摘要(中文)

随着大型语言模型代理越来越依赖技能来编码程序知识,高质量技能的手动编写成本高昂。本文研究了如何从异构交互证据中自动构建技能,包括演示、代理轨迹、工具痕迹和执行日志。我们认为,痕迹到技能的构建并非简单的摘要任务,因为痕迹往往是碎片化的、冗余的,并可能缺失稀有但关键的安全行为。为了解决这一问题,我们引入了RWSA,一种面向工作流的中间表示,能够将技能分解为工作流结构、执行语义和运行时附加信息,捕捉任务分解、控制流、验证、安全性、回滚和状态管理。基于RWSA,我们提出了W2S框架,能够对痕迹进行分段、诱导局部技能草稿、对齐共享结构、调和分支并压缩冗余,同时保留证据和置信度注释。实验结果表明,W2S在70个技能上的行为重放一致性比基于摘要和提示的基线提高了10.5%。

🔬 方法详解

问题定义:本文旨在解决从异构交互证据中自动构建技能的挑战,现有方法往往无法有效处理痕迹的碎片化和冗余性,导致技能质量不高。

核心思路:论文提出了RWSA框架,通过将技能分解为工作流结构、执行语义和运行时附加信息,来捕捉任务的复杂性和安全性要求,从而提高技能构建的质量和一致性。

技术框架:W2S框架的整体架构包括多个模块:首先对痕迹进行分段,然后诱导局部技能草稿,接着对齐共享结构,调和分支,最后压缩冗余,同时保留证据和置信度注释。

关键创新:最重要的技术创新在于RWSA的引入,它将技能构建视为一个多层次的过程,强调了工作流结构和执行语义的结合,与传统的简单摘要方法本质上不同。

关键设计:在设计中,W2S框架采用了特定的参数设置和损失函数,以确保在技能构建过程中能够有效地处理冗余和不一致性,同时保持高置信度的技能输出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,W2S框架在70个技能上的行为重放一致性比基于摘要和提示的基线提高了10.5%,显示出其在技能构建中的显著优势,强调了将痕迹视为可执行运行时规范的重要性。

🎯 应用场景

该研究的潜在应用领域包括机器人控制、自动化任务执行和智能助手等。通过提高技能构建的自动化程度,能够降低人力成本并提升系统的可靠性和安全性,未来可能在多种行业中发挥重要作用。

📄 摘要(原文)

Large language model agents increasingly rely on Skills to encode procedural knowledge, yet high-quality Skills remain costly to hand-write. This paper studies automatic Skill construction from heterogeneous interaction evidence, including demonstrations, agent trajectories, tool traces, and execution logs. We argue that trace-to-skill construction is not simple summarization tasks, because traces are fragmented, redundant, and may miss rare but safety-critical behaviors. To address this, we introduce RWSA, a workflow-oriented intermediate representation that decomposes Skills into Workflow structure, execution Semantics, and runtime Attachments, capturing task decomposition, control flow, verification, safety, rollback, and state management. Building on RWSA, we propose W2S, a framework that segments traces, induces local Skill drafts, aligns shared structures, reconciles branches, and compresses redundancy while preserving evidence and confidence annotations. Experiments on 70 Skills show that W2S improves behavioral replay consistency by 10.5% over summarization- and prompting-based baselines, highlighting the need to treat traces as executable runtime specifications rather than compressible text.