Evaluating Retrieval-Augmented Generation Variants for Natural Language-Based SQL and API Call Generation
作者: Michael Marketsmüller, Simon Martin, Tim Schlippe
分类: cs.SE, cs.AI, cs.CL
发布日期: 2026-02-06
备注: preprint of conference submission
💡 一句话要点
评估检索增强生成变体在自然语言到SQL和API调用生成中的应用
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 检索增强生成 自然语言接口 SQL生成 API调用生成 大型语言模型 企业系统 CoRAG
📋 核心要点
- 现有方法在领域特定企业环境中,联合处理检索和修改任务时,大型语言模型的有效性有待提高。
- 论文核心思想是评估三种RAG变体(标准RAG、Self-RAG和CoRAG)在SQL和API调用生成任务中的性能。
- 实验结果表明,RAG至关重要,CoRAG在混合文档设置中表现出最强的鲁棒性,尤其在SQL生成方面。
📝 摘要(中文)
企业系统日益需要将用户请求转换为结构化操作(如SQL查询和REST API调用)的自然语言接口。大型语言模型(LLM)在代码生成方面展现潜力,但其在特定企业环境中的有效性仍有待探索,尤其是在必须联合处理检索和修改任务时。本文全面评估了三种检索增强生成(RAG)变体——标准RAG、Self-RAG和CoRAG——在SQL查询生成、REST API调用生成以及需要动态任务分类的组合任务中的表现。以SAP Transactional Banking为实际企业用例,构建了一个涵盖两种模态的新测试数据集,并在数据库、API和混合文档上下文中评估了18种实验配置。结果表明RAG至关重要:没有检索,所有任务的精确匹配准确率为0%,而检索显著提高了执行准确率(高达79.30%)和组件匹配准确率(高达78.86%)。CoRAG在混合文档设置中表现出最强的鲁棒性,在组合任务中取得了显著的改进(精确匹配准确率10.29%,而标准RAG为7.45%),这主要得益于其卓越的SQL生成性能(15.32% vs. 11.56%)。研究结果表明,检索策略设计是生产级自然语言接口的关键决定因素,迭代查询分解优于top-k检索和二元相关性过滤。
🔬 方法详解
问题定义:论文旨在解决企业系统中自然语言接口将用户请求转换为SQL查询和REST API调用的问题。现有方法在处理领域特定知识和需要同时进行检索和修改的任务时存在不足,尤其是在文档异构的情况下,如何有效地利用检索到的信息是一个挑战。
核心思路:论文的核心思路是通过评估不同的RAG变体,探索哪种检索策略最适合处理SQL和API调用生成任务,特别是在混合文档环境下。通过比较标准RAG、Self-RAG和CoRAG的性能,确定最有效的检索增强方法。
技术框架:整体框架包括三个主要阶段:检索阶段,根据用户请求检索相关的文档或知识片段;生成阶段,利用检索到的信息,结合大型语言模型生成SQL查询或API调用;评估阶段,评估生成的代码的准确性和执行效果。CoRAG在此框架中引入了迭代查询分解,以更好地适应文档异构性。
关键创新:最重要的技术创新点是CoRAG在混合文档环境下的应用,它通过迭代查询分解,能够更有效地利用异构文档中的信息,从而提高SQL和API调用生成的准确性。与传统的top-k检索和二元相关性过滤相比,CoRAG能够更好地处理文档之间的复杂关系。
关键设计:论文的关键设计包括:1) 构建了一个包含SQL和API调用两种模态的新测试数据集,以模拟真实的SAP Transactional Banking场景;2) 评估了18种实验配置,涵盖数据库、API和混合文档上下文;3) 采用了精确匹配准确率、执行准确率和组件匹配准确率等指标来评估不同RAG变体的性能。
📊 实验亮点
实验结果表明,RAG对于SQL和API调用生成至关重要,没有检索的情况下,精确匹配准确率为0%。CoRAG在混合文档设置中表现最佳,在组合任务中,CoRAG的精确匹配准确率为10.29%,显著优于标准RAG的7.45%。CoRAG在SQL生成方面也表现出更优的性能(15.32% vs. 11.56%)。
🎯 应用场景
该研究成果可应用于企业级自然语言接口的开发,例如智能客服、自动化数据分析和API调用。通过将自然语言请求转换为结构化操作,可以提高工作效率,降低技术门槛,并为用户提供更便捷的交互体验。未来,该研究可以扩展到其他领域,如医疗、金融等,实现更广泛的应用。
📄 摘要(原文)
Enterprise systems increasingly require natural language interfaces that can translate user requests into structured operations such as SQL queries and REST API calls. While large language models (LLMs) show promise for code generation [Chen et al., 2021; Huynh and Lin, 2025], their effectiveness in domain-specific enterprise contexts remains underexplored, particularly when both retrieval and modification tasks must be handled jointly. This paper presents a comprehensive evaluation of three retrieval-augmented generation (RAG) variants [Lewis et al., 2021] -- standard RAG, Self-RAG [Asai et al., 2024], and CoRAG [Wang et al., 2025] -- across SQL query generation, REST API call generation, and a combined task requiring dynamic task classification. Using SAP Transactional Banking as a realistic enterprise use case, we construct a novel test dataset covering both modalities and evaluate 18 experimental configurations under database-only, API-only, and hybrid documentation contexts. Results demonstrate that RAG is essential: Without retrieval, exact match accuracy is 0% across all tasks, whereas retrieval yields substantial gains in execution accuracy (up to 79.30%) and component match accuracy (up to 78.86%). Critically, CoRAG proves most robust in hybrid documentation settings, achieving statistically significant improvements in the combined task (10.29% exact match vs. 7.45% for standard RAG), driven primarily by superior SQL generation performance (15.32% vs. 11.56%). Our findings establish retrieval-policy design as a key determinant of production-grade natural language interfaces, showing that iterative query decomposition outperforms both top-k retrieval and binary relevance filtering under documentation heterogeneity.