PRACTIQ: A Practical Conversational Text-to-SQL dataset with Ambiguous and Unanswerable Queries
作者: Mingwen Dong, Nischal Ashok Kumar, Yiqun Hu, Anuj Chauhan, Chung-Wei Hang, Shuaichen Chang, Lin Pan, Wuwei Lan, Henghui Zhu, Jiarong Jiang, Patrick Ng, Zhiguo Wang
分类: cs.CL, cs.AI
发布日期: 2024-10-14 (更新: 2026-01-23)
💡 一句话要点
PRACTIQ:构建包含歧义和无法回答问题的实用对话式文本到SQL数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Text-to-SQL 对话系统 数据集构建 歧义问题 不可回答问题 大型语言模型 自然语言处理
📋 核心要点
- 现有Text-to-SQL数据集主要关注意图明确且可回答的用户问题,忽略了真实场景中常见的歧义和不可回答问题。
- PRACTIQ数据集通过模拟真实用户对话,引入了歧义和不可回答问题,更贴近实际应用场景。
- 实验表明,现有基于LLM的Text-to-SQL系统在处理PRACTIQ数据集中的歧义和不可回答问题时表现不佳。
📝 摘要(中文)
本文构建了一个实用的对话式文本到SQL数据集PRACTIQ,其中包含受真实用户问题启发的歧义和无法回答的问题。通过研究现有的文本到SQL数据集,我们首先确定了四类歧义问题和四类无法回答的问题。然后,我们生成了包含四个轮次的对话:初始用户问题、寻求澄清的助手回复、用户的澄清以及助手澄清后的SQL回复,并附带执行结果的自然语言解释。对于某些歧义查询,我们还直接生成有用的SQL回复,这些回复考虑了歧义的多个方面,而不是请求用户澄清。为了评估系统在歧义、无法回答和可回答问题上的性能,我们使用各种大型语言模型(LLM)实现了基于LLM的基线。我们的方法包括两个步骤:问题类别分类和澄清SQL预测。实验表明,最先进的系统难以有效地处理歧义和无法回答的问题。我们将发布数据生成和实验的代码在GitHub上。
🔬 方法详解
问题定义:论文旨在解决现有Text-to-SQL数据集缺乏对歧义和不可回答问题支持的问题。现有方法主要关注明确且可回答的问题,忽略了真实用户提问中常见的歧义性和数据缺失导致的问题,导致模型在实际应用中表现不佳。
核心思路:论文的核心思路是构建一个更贴近真实用户场景的Text-to-SQL数据集,即PRACTIQ,其中包含歧义和不可回答的问题。通过引入这些更复杂的问题类型,可以更好地评估和提升模型在实际应用中的鲁棒性和泛化能力。
技术框架:PRACTIQ数据集的构建流程包括:1) 定义歧义和不可回答问题的类型;2) 基于现有数据集,生成包含四轮对话的样本,包括初始问题、澄清请求、用户澄清和最终SQL查询;3) 对于部分歧义问题,直接生成考虑多方面歧义的SQL查询。评估方法包括问题类型分类和SQL预测两个步骤,并使用大型语言模型作为基线模型。
关键创新:PRACTIQ数据集的关键创新在于其对歧义和不可回答问题的显式建模和引入。与以往数据集只关注可直接回答的问题不同,PRACTIQ更关注真实用户场景,并尝试模拟用户澄清的过程,从而更全面地评估Text-to-SQL系统的性能。
关键设计:PRACTIQ数据集定义了四类歧义问题和四类不可回答问题。对话轮次的设计模拟了用户与助手之间的交互,其中助手负责识别歧义并请求澄清。评估指标包括问题类型分类的准确率和SQL查询预测的准确率。具体参数设置和损失函数等细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是最先进的基于LLM的Text-to-SQL系统在PRACTIQ数据集上处理歧义和不可回答问题时也面临挑战。这表明现有系统在处理真实用户查询方面仍有很大的提升空间,PRACTIQ数据集为未来的研究提供了一个有价值的基准。
🎯 应用场景
PRACTIQ数据集可用于训练和评估Text-to-SQL系统,使其更好地处理真实用户场景中的歧义和不可回答问题。该数据集的应用有助于提升智能助手、数据库查询系统等应用的实用性和用户体验,使其能够更准确地理解用户意图并提供有用的信息。
📄 摘要(原文)
Previous text-to-SQL datasets and systems have primarily focused on user questions with clear intentions that can be answered. However, real user questions can often be ambiguous with multiple interpretations or unanswerable due to a lack of relevant data. In this work, we construct a practical conversational text-to-SQL dataset called PRACTIQ, consisting of ambiguous and unanswerable questions inspired by real-world user questions. We first identified four categories of ambiguous questions and four categories of unanswerable questions by studying existing text-to-SQL datasets. Then, we generate conversations with four turns: the initial user question, an assistant response seeking clarification, the user's clarification, and the assistant's clarified SQL response with the natural language explanation of the execution results. For some ambiguous queries, we also directly generate helpful SQL responses, that consider multiple aspects of ambiguity, instead of requesting user clarification. To benchmark the performance on ambiguous, unanswerable, and answerable questions, we implemented large language model (LLM)-based baselines using various LLMs. Our approach involves two steps: question category classification and clarification SQL prediction. Our experiments reveal that state-of-the-art systems struggle to handle ambiguous and unanswerable questions effectively. We will release our code for data generation and experiments on GitHub.