Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows

📄 arXiv: 2505.24189v2 📥 PDF

作者: Orlando Marquez Ayala, Patrice Bechard, Emily Chen, Maggie Baird, Jingfei Chen

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-05-30 (更新: 2025-07-16)

备注: 8 pages, 7 figures. Accepted to Workshop on Structured Knowledge for Large Language Models (SKnowLLM) at KDD 2025


💡 一句话要点

针对低代码工作流生成,证明微调小型语言模型在质量上优于提示大型语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 低代码工作流 小型语言模型 大型语言模型 微调 提示学习

📋 核心要点

  1. 现有方法依赖于大型语言模型,但其成本高昂且推理速度慢,限制了在资源受限场景下的应用。
  2. 论文提出通过微调小型语言模型来生成低代码工作流,旨在提高效率和降低成本,同时保持生成质量。
  3. 实验结果表明,在低代码工作流生成任务中,微调小型语言模型比提示大型语言模型平均提升了10%的质量。

📝 摘要(中文)

大型语言模型(LLM),如GPT-4o,可以通过合适的提示处理各种复杂任务。随着token成本的降低,为实际应用微调小型语言模型(SLM)的优势——更快的推理速度、更低的成本——可能不再明显。本文证明,对于需要结构化输出的特定领域任务,SLM仍然具有质量优势。我们比较了在生成JSON格式的低代码工作流任务上,微调SLM与提示LLM的效果。观察表明,虽然好的提示可以产生合理的结果,但微调平均可以将质量提高10%。我们还进行了系统的错误分析,以揭示模型的局限性。

🔬 方法详解

问题定义:论文旨在解决低代码工作流自动生成的问题,具体表现为生成符合JSON格式的结构化工作流描述。现有方法主要依赖于提示大型语言模型(LLM),但LLM存在推理速度慢、成本高等问题,限制了其在实际应用中的部署。此外,LLM在生成结构化输出时,容易出现格式错误或语义不一致等问题。

核心思路:论文的核心思路是利用小型语言模型(SLM)的效率优势,通过微调的方式使其适应低代码工作流生成任务。通过微调,SLM可以学习到特定领域的知识和结构化输出的模式,从而在保证生成质量的同时,降低推理成本和提高推理速度。

技术框架:整体流程包括数据集准备、模型选择、微调训练和评估测试四个阶段。首先,收集并整理低代码工作流数据,构建训练数据集。然后,选择合适的SLM作为基础模型。接着,使用准备好的数据集对SLM进行微调训练,使其适应低代码工作流生成任务。最后,使用测试数据集评估微调后的SLM的性能,并与提示LLM的方法进行比较。

关键创新:论文的关键创新在于证明了在特定领域任务中,微调SLM在质量上仍然优于提示LLM。这挑战了当前LLM主导的范式,为资源受限场景下的低代码工作流生成提供了一种更有效的解决方案。

关键设计:论文的关键设计包括选择合适的SLM架构(具体架构未知),设计合适的训练目标(例如,最大化生成JSON的准确率),以及采用有效的微调策略(例如,学习率调整、正则化等)。具体的参数设置和损失函数等细节在论文中可能没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在低代码工作流生成任务中,微调小型语言模型(SLM)的质量平均比提示大型语言模型(LLM)提高了10%。这一结果表明,在特定领域任务中,微调SLM仍然具有显著的优势,可以作为LLM的一种有效替代方案。

🎯 应用场景

该研究成果可应用于自动化软件开发、业务流程自动化等领域。通过自动生成低代码工作流,可以显著降低开发成本,提高开发效率,并赋能非专业人员参与软件开发。未来,该技术有望进一步扩展到其他领域,例如智能家居、工业自动化等,实现更广泛的自动化应用。

📄 摘要(原文)

Large Language Models (LLMs) such as GPT-4o can handle a wide range of complex tasks with the right prompt. As per token costs are reduced, the advantages of fine-tuning Small Language Models (SLMs) for real-world applications -- faster inference, lower costs -- may no longer be clear. In this work, we present evidence that, for domain-specific tasks that require structured outputs, SLMs still have a quality advantage. We compare fine-tuning an SLM against prompting LLMs on the task of generating low-code workflows in JSON form. We observe that while a good prompt can yield reasonable results, fine-tuning improves quality by 10% on average. We also perform systematic error analysis to reveal model limitations.