Optimizing Small Language Models for NL2SQL via Chain-of-Thought Fine-Tuning
作者: Anshul Solanki, Sanchit Latawa, Koushik Chakraborty, Navneet Kamboj
分类: cs.AI
发布日期: 2026-03-24
备注: 9 pages , 3 fifures
💡 一句话要点
通过思维链微调优化小型语言模型,提升NL2SQL任务性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: NL2SQL 小型语言模型 思维链 微调 数据民主化
📋 核心要点
- 大型语言模型在NL2SQL任务中表现出色,但推理成本高昂,限制了其在企业中的大规模应用。
- 通过在NL2SQL任务上微调小型语言模型,并结合思维链(CoT)推理,提升其性能。
- 实验表明,微调和CoT推理能显著提高小型模型的NL2SQL准确率,使其更具成本效益。
📝 摘要(中文)
将自然语言转换为SQL(NL2SQL)仍然是企业数据民主化的关键瓶颈。尽管Gemini 2.5等大型语言模型(LLM)展示了令人印象深刻的零样本能力,但其高昂的推理成本限制了大规模部署。本文探讨了在NL2SQL任务上微调大型和小型语言模型的有效性。研究揭示了一种违反直觉的缩放现象:在标准数据集上微调大型模型(Gemini 2.5 Flash/Lite)几乎没有收益,通常会导致复杂查询的过拟合。相反,小型模型(Qwen)表现出显著的提升。微调将小型模型基线从36%提高到45%,进一步使用显式思维链(CoT)推理丰富数据集后,准确率飙升至54.5%。虽然这仍然低于Gemini 2.5等大型模型的准确率,但它确实实现了显著降低成本、缩短推理时间和满足业务关键性能准确性阈值的业务目标。本文证明,迁移推理模式使计算效率更高的小型模型能够接近生产级性能。
🔬 方法详解
问题定义:论文旨在解决NL2SQL任务中大型语言模型推理成本过高的问题,探索如何利用小型语言模型在保证一定性能的前提下,降低部署成本和延迟。现有方法主要依赖大型模型,虽然精度高,但计算资源消耗大,难以大规模应用。
核心思路:论文的核心思路是通过微调小型语言模型,并结合思维链(Chain-of-Thought, CoT)推理,使小型模型能够学习到大型模型的推理能力,从而在保证一定准确率的前提下,显著降低计算成本。这样设计的目的是为了在精度和效率之间找到一个平衡点,使得NL2SQL技术能够更广泛地应用于实际场景。
技术框架:论文的技术框架主要包括以下几个阶段:1) 选择合适的小型语言模型作为基础模型;2) 在标准的NL2SQL数据集上对小型模型进行微调;3) 使用思维链(CoT)推理数据增强数据集,进一步微调模型;4) 评估微调后模型在NL2SQL任务上的性能,并与大型模型进行对比。
关键创新:论文的关键创新在于发现了在NL2SQL任务中,小型模型通过微调和CoT推理可以获得显著的性能提升,而大型模型微调收益甚微。这与通常认为的模型越大效果越好的认知有所不同。这种反直觉的发现为NL2SQL任务提供了一种更具成本效益的解决方案。
关键设计:论文的关键设计包括:1) 选择Qwen作为小型语言模型;2) 使用标准的NL2SQL数据集(具体数据集名称未知)进行微调;3) 通过人工或自动的方式生成CoT推理数据,并将其添加到训练数据中;4) 使用交叉熵损失函数进行模型训练;5) 采用Exact Match (EM) 准确率作为评估指标。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过微调和思维链(CoT)推理,小型语言模型Qwen在NL2SQL任务上的准确率从36%提升至54.5%。虽然该准确率仍低于大型模型Gemini 2.5,但其推理成本显著降低,实现了在性能和成本之间的有效平衡。这一结果验证了小型模型在特定任务上通过优化可以接近甚至满足生产级性能需求。
🎯 应用场景
该研究成果可广泛应用于企业级数据分析平台,降低NL2SQL服务的部署成本,加速数据民主化进程。通过优化小型语言模型,企业可以在资源有限的环境下构建高效的智能数据查询系统,提升数据分析效率,并为用户提供更便捷的数据访问方式。未来,该方法有望扩展到其他自然语言处理任务,推动AI技术在各行业的应用。
📄 摘要(原文)
Translating Natural Language to SQL (NL2SQL) remains a critical bottleneck for democratization of data in enterprises. Although Large Language Models (LLMs) like Gemini 2.5 and other LLMs have demonstrated impressive zero-shot capabilities, their high inference costs limit deployment at scale. This paper explores the efficacy of fine-tuning both large and small language models on NL2SQL tasks. Our research reveals a counter-intuitive scaling phenomenon. Fine-tuning large models (Gemini 2.5 Flash/Lite) on standard datasets yields negligible returns, often leading to overfitting on complex queries. Conversely, small models (Qwen) show significant gains. Fine-tuning improved the small model baseline from 36% to 45%, and further enriching the dataset with explicit Chain-of-Thought (CoT) reasoning surged accuracy to 54.5%(Fig 2). While this is still lower than the accuracy of large models like Gemini 2.5 , it does serve the business goal of significant cost reduction, latency in inference time and also meeting the business critical performance accuracy threshold.This paper demonstrates that transferring reasoning patterns enables compute-efficient smaller models to approach production-grade performance.