AV-SQL: Decomposing Complex Text-to-SQL Queries with Agentic Views
作者: Minh Tam Pham, Trinh Pham, Tong Chen, Hongzhi Yin, Quoc Viet Hung Nguyen, Thanh Tam Nguyen
分类: cs.DB, cs.AI, cs.ET, cs.HC, cs.IR
发布日期: 2026-04-08
🔗 代码/项目: GITHUB
💡 一句话要点
AV-SQL:利用Agentic Views分解复杂Text-to-SQL查询,提升执行准确率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Text-to-SQL 大型语言模型 数据库查询 Agentic Views 多代理系统 查询分解 自然语言处理
📋 核心要点
- 现有Text-to-SQL方法在处理复杂查询时面临挑战,尤其是在大型数据库模式和需要多步推理的场景下,容易超出上下文窗口并产生错误。
- AV-SQL通过引入agentic views的概念,将复杂的Text-to-SQL任务分解为多个专门的LLM代理流水线,从而简化查询过程。
- 实验结果表明,AV-SQL在Spider 2.0基准测试中取得了显著的性能提升,优于现有方法,并在其他标准数据集上保持了竞争力。
📝 摘要(中文)
Text-to-SQL旨在将自然语言查询转化为可执行的SQL语句,使用户无需手动编写SQL即可访问结构化数据。尽管大型语言模型(LLMs)取得了快速进展,但现有方法在实际场景中的复杂查询中仍然面临挑战,这些场景中数据库模式庞大,问题需要对多个相互关联的表进行多步骤推理。在这种情况下,提供完整的模式通常会超出上下文窗口,而一次性生成常常由于语法错误和不正确的模式链接而产生不可执行的SQL。为了应对这些挑战,我们引入了AV-SQL,一个将复杂Text-to-SQL分解为专门的LLM代理流水线的框架。AV-SQL的核心是agentic views的概念:代理生成的公共表表达式(CTEs),它封装了中间查询逻辑并从大型模式中过滤相关的模式元素。AV-SQL分三个阶段运行:(1)重写代理压缩和澄清输入查询;(2)视图生成代理处理模式块以生成agentic views;(3)规划器、生成器和修订器代理协同将这些视图组合成最终的SQL查询。大量实验表明,AV-SQL在具有挑战性的Spider 2.0基准测试中实现了70.38%的执行准确率,优于最先进的基线,同时在标准数据集上保持竞争力,在Spider上达到85.59%,在BIRD上达到72.16%,在KaggleDBQA上达到63.78%。我们的源代码可在https://github.com/pminhtam/AV-SQL上找到。
🔬 方法详解
问题定义:论文旨在解决复杂Text-to-SQL查询中,现有方法由于数据库模式过大、查询逻辑复杂导致的性能瓶颈问题。现有方法难以处理长上下文,容易产生语法错误和模式链接错误,导致SQL语句不可执行。
核心思路:论文的核心思路是将复杂的Text-to-SQL任务分解为多个子任务,并由专门的LLM代理负责处理。通过引入agentic views(代理生成的公共表表达式),将中间查询逻辑封装起来,并过滤掉不相关的模式元素,从而简化后续的查询过程。这种分解和过滤的方法可以有效降低单个代理的复杂性,提高整体的准确率。
技术框架:AV-SQL框架包含三个主要阶段:1) 重写代理:压缩和澄清输入查询,减少噪声和冗余信息。2) 视图生成代理:处理模式块,生成agentic views,每个view封装一部分中间查询逻辑。3) 规划器、生成器和修订器代理:协同工作,将生成的views组合成最终的SQL查询,并进行语法和语义上的修正。
关键创新:AV-SQL的关键创新在于agentic views的概念和多代理协同的框架。Agentic views允许将复杂的查询逻辑分解为更小的、可管理的单元,并过滤掉不相关的模式信息,从而降低了单个代理的复杂性。多代理协同框架则通过分工合作,提高了整体的查询准确率和效率。
关键设计:论文中关键的设计包括:如何将数据库模式划分为合适的块,以便视图生成代理处理;如何设计视图生成代理的prompt,使其能够生成有效的agentic views;以及如何设计规划器、生成器和修订器代理之间的协同机制,确保最终生成的SQL查询的正确性和可执行性。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
AV-SQL在Spider 2.0基准测试中取得了70.38%的执行准确率,显著优于现有的Text-to-SQL方法。同时,在Spider、BIRD和KaggleDBQA等标准数据集上,AV-SQL也取得了具有竞争力的结果,分别达到85.59%、72.16%和63.78%的执行准确率。这些实验结果表明,AV-SQL在处理复杂Text-to-SQL查询方面具有显著的优势。
🎯 应用场景
AV-SQL具有广泛的应用前景,可以应用于各种需要将自然语言查询转换为SQL语句的场景,例如智能客服、数据分析平台和商业智能系统。该研究可以降低非专业用户访问结构化数据的门槛,提高数据分析的效率,并促进数据驱动的决策。
📄 摘要(原文)
Text-to-SQL is the task of translating natural language queries into executable SQL for a given database, enabling non-expert users to access structured data without writing SQL manually. Despite rapid advances driven by large language models (LLMs), existing approaches still struggle with complex queries in real-world settings, where database schemas are large and questions require multi-step reasoning over many interrelated tables. In such cases, providing the full schema often exceeds the context window, while one-shot generation frequently produces non-executable SQL due to syntax errors and incorrect schema linking. To address these challenges, we introduce AV-SQL, a framework that decomposes complex Text-to-SQL into a pipeline of specialized LLM agents. Central to AV-SQL is the concept of agentic views: agent-generated Common Table Expressions (CTEs) that encapsulate intermediate query logic and filter relevant schema elements from large schemas. AV-SQL operates in three stages: (1) a rewriter agent compresses and clarifies the input query; (2) a view generator agent processes schema chunks to produce agentic views; and (3) a planner, generator, and revisor agent collaboratively compose these views into the final SQL query. Extensive experiments show that AV-SQL achieves 70.38% execution accuracy on the challenging Spider 2.0 benchmark, outperforming state-of-the-art baselines, while remaining competitive on standard datasets with 85.59% on Spider, 72.16% on BIRD and 63.78% on KaggleDBQA. Our source code is available at https://github.com/pminhtam/AV-SQL.