IndicDB -- Benchmarking Multilingual Text-to-SQL Capabilities in Indian Languages

📄 arXiv: 2604.13686v1 📥 PDF

作者: Aviral Dawar, Roshan Karanth, Vikram Goyal, Dhruv Kumar

分类: cs.CL, cs.AI, cs.DB

发布日期: 2026-04-15

备注: Under Review


💡 一句话要点

提出IndicDB,用于评估印度语言多语言Text-to-SQL能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Text-to-SQL 多语言 印度语言 语义解析 基准数据集

📋 核心要点

  1. 现有Text-to-SQL基准侧重西方环境,忽略了非西方语言和复杂数据模式,限制了模型在实际场景中的应用。
  2. IndicDB通过构建包含复杂关系模式的印度语言数据集,并采用三代理框架保证数据质量,填补了这一空白。
  3. 实验结果表明,现有模型在印度语言上的性能显著下降,揭示了“Indic差距”,突显了该基准的价值。

📝 摘要(中文)

大型语言模型(LLMs)在Text-to-SQL任务上取得了显著进展,但现有基准主要集中于西方环境和简化的模式,忽略了现实世界中非西方应用的需求。本文提出了IndicDB,一个多语言Text-to-SQL基准,用于评估跨多种印度语言的跨语言语义解析能力。关系模式来源于开放数据平台,包括国家数据和分析平台(NDAP)和印度数据门户(IDP),确保了现实的行政数据复杂性。IndicDB包含20个数据库,共237个表。为了将非规范化的政府数据转换为丰富的关系结构,我们采用了一个迭代的三代理框架(架构师、审计员、精炼器),以确保结构严谨性和高关系密度(每个数据库11.85个表;连接深度高达6)。我们的pipeline是值感知的、难度校准的和连接强制的,生成了15,617个跨英语、印地语和五种印度语言的任务。我们评估了最先进模型(DeepSeek v3.2、MiniMax 2.7、LLaMA 3.3、Qwen3)在七种语言变体中的跨语言语义解析性能。结果表明,从英语到印度语言的性能下降了9.00%,揭示了一个由更难的模式链接、增加的结构歧义和有限的外部知识驱动的“Indic差距”。IndicDB作为一个严谨的多语言Text-to-SQL基准。

🔬 方法详解

问题定义:现有Text-to-SQL基准数据集主要集中在英语和西方文化背景下,缺乏对非西方语言(特别是印度语言)和复杂数据模式的覆盖。这导致模型在处理真实世界中印度语言的Text-to-SQL任务时性能下降,难以满足实际应用需求。现有方法在处理复杂关系模式和跨语言语义理解方面存在不足。

核心思路:本文的核心思路是构建一个高质量、多语言的Text-to-SQL基准数据集,即IndicDB,该数据集包含来自印度开放数据平台的真实行政数据,并覆盖多种印度语言。通过精心设计的pipeline,将非规范化的政府数据转换为具有复杂关系结构的数据,从而挑战模型在复杂模式链接和跨语言语义理解方面的能力。

技术框架:IndicDB的构建流程主要包括以下几个阶段:1) 数据收集:从印度国家数据和分析平台(NDAP)和印度数据门户(IDP)等开放数据平台收集数据。2) 模式转换:采用一个迭代的三代理框架(Architect, Auditor, Refiner)将非规范化的政府数据转换为具有丰富关系结构的数据。Architect负责设计关系模式,Auditor负责评估模式的质量,Refiner负责根据Auditor的反馈改进模式。3) 数据生成:采用值感知、难度校准和连接强制的pipeline生成Text-to-SQL任务。

关键创新:IndicDB的关键创新在于:1) 数据来源的真实性和复杂性:使用来自印度开放数据平台的真实行政数据,包含复杂的模式关系。2) 多语言支持:覆盖英语、印地语和五种其他印度语言。3) 三代理框架:采用迭代的三代理框架保证数据质量和关系密度。4) 难度校准:生成的Text-to-SQL任务经过难度校准,能够有效评估模型的性能。

关键设计:三代理框架是关键设计之一,通过迭代优化关系模式,确保了数据质量和关系密度。值感知的数据生成方法能够生成更贴近实际应用场景的Text-to-SQL任务。难度校准机制能够根据任务的难度调整生成策略,从而生成更具挑战性的任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有最先进模型在IndicDB上,从英语到印度语言的性能下降了9.00%,揭示了“Indic差距”。这表明现有模型在处理印度语言的Text-to-SQL任务时面临挑战,突显了IndicDB作为评估和改进模型在非西方语言环境下性能的重要价值。

🎯 应用场景

IndicDB可用于评估和提升Text-to-SQL模型在印度语言环境下的性能,推动智能政务、金融分析、教育等领域的发展。该数据集能够促进跨语言语义理解的研究,并为开发更智能、更本地化的AI应用提供支持,具有广阔的应用前景。

📄 摘要(原文)

While Large Language Models (LLMs) have significantly advanced Text-to-SQL performance, existing benchmarks predominantly focus on Western contexts and simplified schemas, leaving a gap in real-world, non-Western applications. We present IndicDB, a multilingual Text-to-SQL benchmark for evaluating cross-lingual semantic parsing across diverse Indic languages. The relational schemas are sourced from open-data platforms, including the National Data and Analytics Platform (NDAP) and the India Data Portal (IDP), ensuring realistic administrative data complexity. IndicDB comprises 20 databases across 237 tables. To convert denormalized government data into rich relational structures, we employ an iterative three-agent framework (Architect, Auditor, Refiner) to ensure structural rigor and high relational density (11.85 tables per database; join depths up to six). Our pipeline is value-aware, difficulty-calibrated, and join-enforced, generating 15,617 tasks across English, Hindi, and five Indic languages. We evaluate cross-lingual semantic parsing performance of state-of-the-art models (DeepSeek v3.2, MiniMax 2.7, LLaMA 3.3, Qwen3) across seven linguistic variants. Results show a 9.00% performance drop from English to Indic languages, revealing an "Indic Gap" driven by harder schema linking, increased structural ambiguity, and limited external knowledge. IndicDB serves as a rigorous benchmark for multilingual Text-to-SQL. Code and data: https://anonymous.4open.science/r/multilingualText2Sql-Indic--DDCC/