Automated Skill Decomposition Meets Expert Ontologies: Bridging the Granularity Gap with LLMs
作者: Le Ngoc Luyen, Marie-Hélène Abel
分类: cs.AI
发布日期: 2025-10-13
💡 一句话要点
提出基于LLM的技能自动分解框架,弥合技能粒度与专家知识体系之间的差距
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 技能分解 大型语言模型 知识本体 自动化 语义F1分数 层级感知F1分数 少量样本学习 提示工程
📋 核心要点
- 现有技能分解方法难以有效利用专家知识体系,导致分解结果与实际应用需求存在差距。
- 论文提出一种基于LLM的自动技能分解框架,通过本体对齐确保分解结果的准确性和结构合理性。
- 实验表明,少量样本提示策略能有效提升分解结果的稳定性和层级对齐效果,并具有良好的推理效率。
📝 摘要(中文)
本文研究了使用大型语言模型(LLM)进行自动技能分解,并提出了一个严格的、基于本体的评估框架。该框架标准化了从提示和生成到规范化和与本体节点对齐的流程。为了评估输出,我们引入了两个指标:一个使用基于嵌入的最佳匹配来评估内容准确性的语义F1分数,以及一个评估结构正确放置以评估粒度的层级感知F1分数。我们对ROME-ESCO-DecompSkill(一个精选的父节点子集)进行了实验,比较了两种提示策略:零样本和防泄露的少量样本(带有示例)。在不同的LLM中,零样本提供了一个强大的基线,而少量样本始终稳定短语和粒度,并提高层级感知对齐。延迟分析进一步表明,示例引导的提示具有竞争力,并且由于更符合模式的完成,有时比无引导的零样本更快。总之,该框架、基准和指标为开发符合本体的技能分解系统提供了可重现的基础。
🔬 方法详解
问题定义:论文旨在解决技能分解任务中,现有方法无法有效利用专家构建的知识体系(Ontology)的问题。现有的技能分解方法通常缺乏对技能粒度的精确控制,并且难以保证分解结果与预定义的技能本体结构一致,导致分解结果在实际应用中效果不佳。
核心思路:论文的核心思路是利用大型语言模型(LLM)强大的文本生成和理解能力,结合专家构建的技能本体,实现自动化的技能分解。通过精心设计的提示策略,引导LLM生成符合本体结构的技能分解结果,并使用特定的评估指标来衡量分解结果的质量。
技术框架:整体框架包含以下几个主要阶段:1) 提示(Prompting):设计合适的提示语,引导LLM进行技能分解。论文比较了零样本和少量样本两种提示策略。2) 生成(Generation):利用LLM生成技能分解结果。3) 规范化(Normalization):对LLM的输出进行规范化处理,例如去除冗余信息、统一格式等。4) 对齐(Alignment):将规范化后的技能分解结果与技能本体中的节点进行对齐。
关键创新:论文的关键创新在于:1) 提出了一个基于本体的技能分解评估框架,该框架包含语义F1分数和层级感知F1分数两种指标,能够全面评估分解结果的准确性和结构合理性。2) 提出了使用少量样本提示策略来稳定LLM的输出,并提高分解结果与技能本体的对齐程度。
关键设计:在少量样本提示策略中,论文采用了防泄露(leakage-safe)的设计,避免了在提示语中直接暴露测试集的信息。语义F1分数使用基于嵌入的最佳匹配来评估内容准确性,层级感知F1分数则考虑了分解结果在技能本体中的结构位置,对结构正确的放置给予奖励。延迟分析比较了不同提示策略下的推理速度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,零样本提示提供了一个强大的基线,而少量样本提示策略能够显著提高分解结果的稳定性和层级对齐效果。延迟分析显示,由于少量样本提示能引导LLM生成更符合模式的完成结果,其推理速度甚至可以优于零样本提示。在ROME-ESCO-DecompSkill数据集上验证了该框架的有效性。
🎯 应用场景
该研究成果可应用于职业技能培训、人才招聘、知识管理等领域。通过自动化的技能分解,可以更有效地分析和组织技能知识,为个性化学习路径规划、岗位匹配和知识库构建提供支持。未来,该技术有望进一步提升人力资源管理的效率和智能化水平。
📄 摘要(原文)
This paper investigates automated skill decomposition using Large Language Models (LLMs) and proposes a rigorous, ontology-grounded evaluation framework. Our framework standardizes the pipeline from prompting and generation to normalization and alignment with ontology nodes. To evaluate outputs, we introduce two metrics: a semantic F1-score that uses optimal embedding-based matching to assess content accuracy, and a hierarchy-aware F1-score that credits structurally correct placements to assess granularity. We conduct experiments on ROME-ESCO-DecompSkill, a curated subset of parents, comparing two prompting strategies: zero-shot and leakage-safe few-shot with exemplars. Across diverse LLMs, zero-shot offers a strong baseline, while few-shot consistently stabilizes phrasing and granularity and improves hierarchy-aware alignment. A latency analysis further shows that exemplar-guided prompts are competitive - and sometimes faster - than unguided zero-shot due to more schema-compliant completions. Together, the framework, benchmark, and metrics provide a reproducible foundation for developing ontology-faithful skill decomposition systems.