StatBot.Swiss: Bilingual Open Data Exploration in Natural Language
作者: Farhad Nooralahzadeh, Yi Zhang, Ellery Smith, Sabine Maennel, Cyril Matthey-Doret, Raphaël de Fondville, Kurt Stockinger
分类: cs.CL
发布日期: 2024-06-05 (更新: 2024-06-06)
备注: This work is accepted at ACL Findings 2024
💡 一句话要点
发布StatBot.Swiss双语数据集,评估LLM在Text-to-SQL任务中的泛化能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Text-to-SQL 双语数据集 大型语言模型 自然语言处理 德语 泛化能力 上下文学习
📋 核心要点
- 现有Text-to-SQL系统主要评估LLM在英语数据集上的性能,忽略了其他语言的挑战。
- 论文提出了StatBot.Swiss双语数据集,包含英语和德语的自然语言/SQL对,用于评估LLM的泛化能力。
- 实验结果表明,当前LLM在StatBot.Swiss数据集上生成SQL查询时,泛化能力不足。
📝 摘要(中文)
大型语言模型(LLM)在Text-to-SQL系统中的改进潜力主要在单语英语数据集上进行评估。然而,LLM在其他语言上的性能仍然很大程度上未被探索。在这项工作中,我们发布了StatBot.Swiss数据集,这是第一个用于评估基于真实世界应用的Text-to-SQL系统的双语基准。StatBot.Swiss数据集包含455个自然语言/SQL对,涵盖35个大型数据库,英语和德语的复杂度各不相同。我们使用上下文学习方法评估了最先进的LLM(如GPT-3.5-Turbo和mixtral-8x7b-instruct)在Text-to-SQL翻译任务中的性能。我们的实验分析表明,当前的LLM在生成SQL查询时,难以在我们新的双语数据集上很好地泛化。
🔬 方法详解
问题定义:论文旨在解决Text-to-SQL任务中,现有方法在非英语语境下的泛化能力不足的问题。现有方法主要在英语数据集上进行评估,无法有效衡量LLM在其他语言环境下的性能。这限制了Text-to-SQL技术在多语言环境中的应用。
核心思路:论文的核心思路是构建一个双语(英语和德语)的Text-to-SQL数据集,用于更全面地评估LLM在不同语言环境下的泛化能力。通过在该数据集上评估现有LLM的性能,可以揭示其在处理非英语查询时的局限性,并为未来的研究提供方向。
技术框架:论文主要关注数据集的构建和现有LLM的评估。数据集构建方面,收集了35个大型数据库,并为每个数据库构建了对应的自然语言/SQL对,涵盖英语和德语。评估方面,采用了上下文学习的方法,使用GPT-3.5-Turbo和mixtral-8x7b-instruct等LLM在StatBot.Swiss数据集上进行Text-to-SQL翻译任务。
关键创新:论文的关键创新在于构建了StatBot.Swiss双语数据集,这是第一个用于评估Text-to-SQL系统在真实世界应用中的双语基准。与现有数据集相比,StatBot.Swiss数据集包含了英语和德语两种语言,并且涵盖了多个大型数据库,更贴近实际应用场景。
关键设计:数据集包含455个自然语言/SQL对,涵盖35个大型数据库,英语和德语的复杂度各不相同。评估过程中,采用了上下文学习的方法,即在输入中提供一些示例,以帮助LLM更好地理解任务。具体参数设置和损失函数等技术细节未在摘要中提及。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了现有LLM(如GPT-3.5-Turbo和mixtral-8x7b-instruct)在StatBot.Swiss数据集上的性能表现不佳,表明这些模型在处理非英语Text-to-SQL任务时存在泛化能力不足的问题。具体的性能数据和提升幅度未在摘要中给出,但实验结果突出了双语数据集在评估LLM性能方面的重要性。
🎯 应用场景
该研究成果可应用于多语言智能问答系统、跨语言数据分析、以及国际化商业智能等领域。通过提升LLM在非英语环境下的Text-to-SQL能力,可以更好地支持全球用户的数据查询需求,促进数据驱动决策的普及。未来,该数据集可以作为评估和改进多语言Text-to-SQL系统的标准基准。
📄 摘要(原文)
The potential for improvements brought by Large Language Models (LLMs) in Text-to-SQL systems is mostly assessed on monolingual English datasets. However, LLMs' performance for other languages remains vastly unexplored. In this work, we release the StatBot.Swiss dataset, the first bilingual benchmark for evaluating Text-to-SQL systems based on real-world applications. The StatBot.Swiss dataset contains 455 natural language/SQL-pairs over 35 big databases with varying level of complexity for both English and German. We evaluate the performance of state-of-the-art LLMs such as GPT-3.5-Turbo and mixtral-8x7b-instruct for the Text-to-SQL translation task using an in-context learning approach. Our experimental analysis illustrates that current LLMs struggle to generalize well in generating SQL queries on our novel bilingual dataset.