Learning Metadata-Agnostic Representations for Text-to-SQL In-Context Example Selection

作者: Chuhong Mai, Ro-ee Tal, Thahir Mohamed

分类: cs.CL

发布日期: 2024-10-17

备注: Accepted to NeurIPS 2024 Table Representation Learning workshop

💡 一句话要点

提出MARLO，用于文本到SQL的上下文学习示例选择，提升泛化能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到SQL 上下文学习 元数据无关 表示学习 查询结构

📋 核心要点

现有文本到SQL的上下文学习方法依赖于通用嵌入，难以捕捉任务特定信息，导致示例选择次优。
MARLO通过对自然语言问题和SQL查询进行对齐表示学习，利用查询结构建模查询意图，避免过度依赖数据库元数据。
实验表明，MARLO在Spider基准测试中优于通用嵌入模型和其他元数据掩码方法，提高了执行准确率并降低了推理延迟。

📝 摘要（中文）

本文提出了一种用于文本到SQL上下文学习(ICL)的元数据无关表示学习方法MARLO。ICL是一种强大的范式，大型语言模型(LLM)可以通过添加到提示中的任务演示获益。然而，选择最佳演示并非易事，特别是对于输入和输出分布不同的复杂或多模态任务。我们假设形成输入的特定任务表示是关键。MARLO使用查询结构来建模查询意图，而不过度索引底层数据库元数据（即问题或查询中引用的数据库的表、列或特定于领域的实体）。这使得MARLO能够选择在结构和语义上与任务相关的示例，而不是与特定领域或问题措辞虚假相关的示例。在基于问题相似性检索示例时，MARLO在Spider基准测试中表现出优于通用嵌入模型的性能（平均执行准确率提高+2.9个百分点）。它也优于下一个最佳的元数据信息掩码方法，平均执行准确率提高+0.8个百分点，同时显著降低了推理延迟。

🔬 方法详解

问题定义：现有文本到SQL的上下文学习方法在选择示例时，容易受到数据库元数据（如表名、列名）的影响，导致选择的示例与目标问题在结构和语义上不相关。现有方法要么依赖于通用嵌入，无法捕捉任务特定信息，要么简单地掩盖元数据，但效果有限且会增加推理延迟。因此，需要一种能够学习元数据无关的、任务特定表示的方法，以提高示例选择的准确性和效率。

核心思路：MARLO的核心思路是学习一种共享的嵌入空间，在该空间中，自然语言问题和SQL查询的表示能够对齐。为了实现这一点，MARLO利用SQL查询的结构来建模查询意图，同时避免过度依赖数据库元数据。通过这种方式，MARLO能够选择在结构和语义上与任务相关的示例，而不是仅仅因为共享某些元数据而相关的示例。

技术框架：MARLO的技术框架主要包括以下几个步骤：1) 使用预训练的语言模型（如BERT）对自然语言问题和SQL查询进行编码；2) 利用SQL查询的抽象语法树（AST）来提取查询结构信息；3) 将问题和查询的编码表示与查询结构信息相结合，得到最终的表示；4) 使用对比学习的目标函数，训练模型，使得相似的问题和查询在嵌入空间中距离更近，不相似的问题和查询距离更远。

关键创新：MARLO的关键创新在于其元数据无关的表示学习方法。与现有方法不同，MARLO不是简单地掩盖元数据，而是通过学习查询结构来建模查询意图，从而避免了对特定数据库元数据的过度依赖。这种方法使得MARLO能够更好地泛化到不同的数据库和领域。

关键设计：MARLO的关键设计包括：1) 使用SQL查询的AST来提取查询结构信息，例如选择的列、使用的聚合函数等；2) 使用对比学习的目标函数，鼓励相似的问题和查询具有相似的表示；3) 使用负采样技术，提高训练效率；4) 通过实验调整超参数，例如学习率、批大小等，以获得最佳性能。

🖼️ 关键图片

📊 实验亮点

在Spider基准测试中，MARLO的执行准确率比通用嵌入模型平均提高了2.9个百分点，比下一个最佳的元数据掩码方法平均提高了0.8个百分点。同时，MARLO还显著降低了推理延迟，使其更适合实际应用。

🎯 应用场景

MARLO可应用于各种需要文本到SQL转换的场景，例如智能助手、数据库查询接口、数据分析平台等。通过提高示例选择的准确性，MARLO可以显著提升文本到SQL模型的性能，降低人工干预的需求，并促进更广泛的数据库应用。

📄 摘要（原文）

In-context learning (ICL) is a powerful paradigm where large language models (LLMs) benefit from task demonstrations added to the prompt. Yet, selecting optimal demonstrations is not trivial, especially for complex or multi-modal tasks where input and output distributions differ. We hypothesize that forming task-specific representations of the input is key. In this paper, we propose a method to align representations of natural language questions and those of SQL queries in a shared embedding space. Our technique, dubbed MARLO - Metadata-Agnostic Representation Learning for Text-tO-SQL - uses query structure to model querying intent without over-indexing on underlying database metadata (i.e. tables, columns, or domain-specific entities of a database referenced in the question or query). This allows MARLO to select examples that are structurally and semantically relevant for the task rather than examples that are spuriously related to a certain domain or question phrasing. When used to retrieve examples based on question similarity, MARLO shows superior performance compared to generic embedding models (on average +2.9\%pt. in execution accuracy) on the Spider benchmark. It also outperforms the next best method that masks metadata information by +0.8\%pt. in execution accuracy on average, while imposing a significantly lower inference latency.

Learning Metadata-Agnostic Representations for Text-to-SQL In-Context Example Selection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理