Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows

作者: Orlando Marquez Ayala, Patrice Bechard, Emily Chen, Maggie Baird, Jingfei Chen

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-05-30 (更新: 2025-07-16)

备注: 8 pages, 7 figures. Accepted to Workshop on Structured Knowledge for Large Language Models (SKnowLLM) at KDD 2025

💡 一句话要点

比较SLM微调与LLM提示在低代码工作流生成中的效果

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 大型语言模型 低代码工作流 微调 提示学习 结构化输出 错误分析

📋 核心要点

现有方法在生成结构化输出时，LLMs的提示效果与SLMs的微调效果尚不明确，尤其是在特定领域任务中。
论文提出通过比较微调SLMs与提示LLMs来生成低代码工作流，探讨两者在质量和效率上的差异。
实验结果表明，微调SLMs在生成质量上平均提升10%，同时进行的错误分析揭示了模型的局限性。

📝 摘要（中文）

大型语言模型（LLMs）如GPT-4o能够通过合适的提示处理多种复杂任务。随着每个token成本的降低，微调小型语言模型（SLMs）在实际应用中的优势可能不再明显。本文提供证据表明，对于需要结构化输出的领域特定任务，SLMs仍具有质量优势。我们比较了在生成JSON格式的低代码工作流任务中微调SLM与提示LLM的效果。结果显示，尽管良好的提示可以产生合理结果，但微调平均提高了10%的质量。此外，我们还进行了系统的错误分析，以揭示模型的局限性。

🔬 方法详解

问题定义：本文旨在解决在生成低代码工作流时，如何选择SLM微调与LLM提示的最佳策略。现有方法在特定领域任务中可能存在质量不足的问题。

核心思路：通过比较微调SLMs与提示LLMs的效果，探讨在生成结构化输出时，SLMs是否仍具有质量优势。设计上，强调微调SLMs在特定任务中的适应性和准确性。

技术框架：整体架构包括数据准备、模型训练与微调、提示设计、结果生成与评估。主要模块包括SLM微调模块和LLM提示模块，分别用于生成低代码工作流。

关键创新：本研究的创新点在于系统性地比较了SLMs与LLMs在特定任务中的表现，发现微调SLMs在质量上具有明显优势，尤其是在结构化输出方面。

关键设计：在微调过程中，采用了特定的损失函数和参数设置，以优化SLMs在生成任务中的表现。网络结构设计上，针对低代码工作流的特点进行了调整，以提高生成质量。

📊 实验亮点

实验结果显示，微调SLMs在生成低代码工作流的质量上平均提高了10%，相较于提示LLMs的效果，展现出更高的准确性和可靠性。此外，系统的错误分析揭示了模型在特定任务中的局限性，为后续研究提供了重要参考。

🎯 应用场景

该研究的潜在应用领域包括软件开发、自动化工作流生成和智能助手等。通过优化低代码工作流的生成过程，可以提高开发效率，降低人力成本，推动智能化应用的发展。未来，随着技术的进步，SLMs在更多领域的应用前景将更加广阔。

📄 摘要（原文）

Large Language Models (LLMs) such as GPT-4o can handle a wide range of complex tasks with the right prompt. As per token costs are reduced, the advantages of fine-tuning Small Language Models (SLMs) for real-world applications -- faster inference, lower costs -- may no longer be clear. In this work, we present evidence that, for domain-specific tasks that require structured outputs, SLMs still have a quality advantage. We compare fine-tuning an SLM against prompting LLMs on the task of generating low-code workflows in JSON form. We observe that while a good prompt can yield reasonable results, fine-tuning improves quality by 10% on average. We also perform systematic error analysis to reveal model limitations.

Fine-Tune an SLM or Prompt an LLM? The Case of Generating Low-Code Workflows

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册