BIRD-INTERACT: Re-imagining Text-to-SQL Evaluation for Large Language Models via Lens of Dynamic Interactions
作者: Nan Huo, Xiaohan Xu, Jinyang Li, Per Jacobsson, Shipei Lin, Bowen Qin, Binyuan Hui, Xiaolong Li, Ge Qu, Shuzheng Si, Linheng Han, Edward Alexander, Xintong Zhu, Rui Qin, Ruihan Yu, Yiyao Jin, Feige Zhou, Weihao Zhong, Yun Chen, Hongyu Liu, Chenhao Ma, Fatma Ozcan, Yannis Papakonstantinou, Reynold Cheng
分类: cs.AI
发布日期: 2025-10-06 (更新: 2025-10-08)
备注: 47 pages, 26 figures, 11 tables. Submitted to arXiv; based on work from The BIRD Team and Google Cloud. Dataset and code available at https://bird-interact.github.io
💡 一句话要点
BIRD-INTERACT:通过动态交互视角重新定义大语言模型Text-to-SQL的评测标准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Text-to-SQL 大型语言模型 多轮交互 数据库助手 评估基准
📋 核心要点
- 现有Text-to-SQL多轮交互benchmark不足,无法真实反映生产级数据库助手面临的挑战,如处理模糊查询和执行错误。
- BIRD-INTERACT构建了全面的交互环境,包含知识库、元数据和用户模拟器,支持模型自主澄清、检索知识和错误恢复。
- 实验表明,BIRD-INTERACT具有挑战性,GPT-5在c-Interact和a-Interact中的任务完成率分别为8.67%和17.00%,突显有效交互的重要性。
📝 摘要(中文)
大型语言模型(LLMs)在单轮Text-to-SQL任务中表现出色,但实际数据库应用主要需要多轮交互来处理模糊查询、执行错误和不断变化的用户需求。现有的多轮基准测试未能充分反映生产级数据库助手面临的挑战,它们要么将对话历史视为静态上下文,要么将评估限制为只读操作。我们引入了BIRD-INTERACT,该基准通过以下方式恢复了这种真实性:(1)一个全面的交互环境,将每个数据库与分层知识库、元数据文件和函数驱动的用户模拟器相结合,使模型能够在没有人为监督的情况下征求澄清、检索知识和从错误中恢复;(2)两种评估设置,包括预定义的对话协议(c-Interact)和开放式代理设置(a-Interact),模型自主决定何时查询用户模拟器或探索环境;(3)一个具有挑战性的任务套件,涵盖了业务智能和运营用例的完整CRUD范围,并由可执行的测试用例保护。每个任务都包含需要动态交互的模糊和后续子任务。该套件包括BIRD-INTERACT-FULL(600个任务,最多11,796次交互)用于全面性能评估,以及BIRD-INTERACT-LITE(300个任务,数据库简化)用于详细的行为分析和快速方法开发。我们的实验结果突出了BIRD-INTERACT的难度:GPT-5在c-Interact中仅完成8.67%的任务,在a-Interact中完成17.00%的任务。通过记忆移植和交互测试时缩放进行的分析验证了有效交互对于复杂、动态Text-to-SQL任务的重要性。
🔬 方法详解
问题定义:现有的Text-to-SQL评估基准在多轮交互场景下存在不足,无法模拟真实世界数据库应用中存在的模糊查询、执行错误以及用户需求演变等问题。这些基准通常将对话历史视为静态上下文,或者仅限于只读操作,缺乏对CRUD(创建、读取、更新、删除)全范围操作的支持,难以评估模型在复杂业务场景下的实用性。
核心思路:BIRD-INTERACT的核心思路是构建一个更贴近真实应用场景的Text-to-SQL评估环境,通过引入动态交互机制,使模型能够主动与环境交互,获取所需信息,并从错误中恢复。这种设计旨在评估模型在处理复杂、动态Text-to-SQL任务时的能力,并促进相关研究的发展。
技术框架:BIRD-INTERACT包含以下主要组成部分:1) 数据库及其分层知识库和元数据文件;2) 函数驱动的用户模拟器,用于模拟真实用户的交互行为;3) 两种评估设置:预定义的对话协议(c-Interact)和开放式代理设置(a-Interact),其中a-Interact允许模型自主决定何时与用户模拟器交互或探索环境;4) 包含CRUD全范围操作的任务套件,每个任务都包含需要动态交互的模糊和后续子任务。
关键创新:BIRD-INTERACT的关键创新在于其动态交互机制和全面的任务设计。它不仅提供了更真实的评估环境,还允许模型自主地与环境交互,从而更好地评估模型在处理复杂、动态Text-to-SQL任务时的能力。此外,BIRD-INTERACT的任务套件涵盖了CRUD全范围操作,并由可执行的测试用例保护,确保了评估的可靠性和有效性。
关键设计:BIRD-INTERACT的关键设计包括:1) 分层知识库的设计,用于存储数据库的结构和语义信息;2) 函数驱动的用户模拟器的设计,用于模拟真实用户的交互行为;3) 两种评估设置的设计,分别用于评估模型在不同交互模式下的性能;4) 任务套件的设计,涵盖了CRUD全范围操作,并由可执行的测试用例保护。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BIRD-INTERACT对现有模型提出了巨大挑战。GPT-5在c-Interact中仅完成8.67%的任务,在a-Interact中完成17.00%的任务。通过记忆移植和交互测试时缩放进行的分析验证了有效交互对于复杂、动态Text-to-SQL任务的重要性。这些结果突显了BIRD-INTERACT作为评估和改进Text-to-SQL模型的重要价值。
🎯 应用场景
BIRD-INTERACT可用于评估和改进大型语言模型在数据库助手、智能客服、业务智能等领域的应用。通过更真实的交互环境和全面的任务设计,该基准能够推动Text-to-SQL技术的发展,提高数据库应用的智能化水平,并为企业提供更高效的数据分析和决策支持。
📄 摘要(原文)
Large language models (LLMs) have demonstrated remarkable performance on single-turn text-to-SQL tasks, but real-world database applications predominantly require multi-turn interactions to handle ambiguous queries, execution errors, and evolving user requirements. Existing multi-turn benchmarks fall short by treating conversation histories as static context or limiting evaluation to read-only operations, failing to reflect production-grade database assistant challenges. We introduce BIRD-INTERACT, a benchmark that restores this realism through: (1) a comprehensive interaction environment coupling each database with a hierarchical knowledge base, metadata files, and a function-driven user simulator, enabling models to solicit clarifications, retrieve knowledge, and recover from errors without human supervision; (2) two evaluation settings consisting of a pre-defined conversational protocol (c-Interact) and an open-ended agentic setting (a-Interact) where models autonomously decide when to query the user simulator or explore the environment; (3) a challenging task suite covering the full CRUD spectrum for business-intelligence and operational use cases, guarded by executable test cases. Each task features ambiguous and follow-up sub-tasks requiring dynamic interaction. The suite comprises BIRD-INTERACT-FULL (600 tasks, up to 11,796 interactions) for comprehensive performance assessment, and BIRD-INTERACT-LITE (300 tasks with simplified databases) for detailed behavioral analysis and rapid method development. Our empirical results highlight BIRD-INTERACT's difficulty: GPT-5 completes only 8.67% of tasks in c-Interact and 17.00% in a-Interact. Analysis via memory grafting and Interaction Test-time Scaling validates the importance of effective interaction for complex, dynamic text-to-SQL tasks.