Fact-Consistency Evaluation of Text-to-SQL Generation for Business Intelligence Using Exaone 3.5

📄 arXiv: 2505.00060v1 📥 PDF

作者: Jeho Choi

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-04-30

备注: 6 pages, 1 table


💡 一句话要点

提出基于Exaone 3.5的文本到SQL生成事实一致性评估框架,用于商业智能领域。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到SQL 商业智能 事实一致性 大语言模型 Exaone 3.5

📋 核心要点

  1. 现有文本到SQL生成模型在商业智能领域应用受限,主要挑战在于语义幻觉、结构性错误以及缺乏领域相关的评估标准。
  2. 论文提出一个事实一致性评估框架,利用Exaone 3.5评估LLM生成SQL的语义准确性,并构建了LG电子内部销售数据的领域基准。
  3. 实验表明Exaone 3.5在简单聚合任务表现良好,但在复杂算术推理和分组排序任务中性能显著下降,存在语义错误和无响应问题。

📝 摘要(中文)

大型语言模型(LLMs)在通过文本到SQL生成实现结构化数据查询的自然语言接口方面展现了潜力。然而,由于语义幻觉、结构性错误以及缺乏特定领域的评估框架,它们在实际商业智能(BI)环境中的应用仍然有限。本研究提出了一个事实一致性评估框架,用于评估LLM生成的SQL输出的语义准确性,该框架使用Exaone 3.5——一个针对企业任务优化的指令调整型双语LLM。我们构建了一个特定领域的基准,包含来自LG电子内部BigQuery环境中实际销售数据的219个自然语言业务问题,涵盖五个SQL复杂程度。每个问题都配有一个黄金标准的SQL查询和一个经过验证的真实答案。我们使用答案准确率、执行成功率、语义错误率和无响应率来评估模型性能。实验结果表明,虽然Exaone 3.5在简单的聚合任务上表现良好(L1级别准确率为93%),但在算术推理(H1级别准确率为4%)和分组排序任务(H4级别准确率为31%)中表现出显著下降,语义错误和无响应集中在复杂情况下。定性错误分析进一步识别了常见的失败类型,如误用的算术逻辑、不完整的过滤和不正确的分组操作。我们的发现强调了LLM在业务关键环境中的当前局限性,并强调了对事实一致性验证层和混合推理方法的需求。这项工作贡献了一个可复现的基准和评估方法,用于推进可靠的自然语言接口到结构化企业数据系统。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在商业智能(BI)领域中,通过文本到SQL生成进行结构化数据查询时,存在的语义准确性问题。现有方法缺乏针对BI领域的有效评估框架,且LLMs容易产生语义幻觉和结构性错误,导致查询结果不准确,无法满足实际业务需求。

核心思路:论文的核心思路是构建一个特定领域的、可复现的事实一致性评估框架,用于系统性地评估LLMs生成的SQL查询的语义准确性。通过设计包含不同复杂程度的业务问题,并与黄金标准SQL查询和验证过的真实答案进行对比,从而量化LLMs的性能表现和识别潜在的错误类型。

技术框架:该评估框架主要包含以下几个阶段:1) 构建领域特定基准:基于LG电子内部BigQuery环境中的实际销售数据,构建包含219个自然语言业务问题的数据集,涵盖五个SQL复杂程度。2) SQL生成:使用Exaone 3.5模型,根据自然语言问题生成SQL查询。3) 执行与验证:执行生成的SQL查询,并将结果与预先验证的真实答案进行比较。4) 性能评估:使用答案准确率、执行成功率、语义错误率和无响应率等指标评估模型性能。5) 错误分析:对模型生成的错误SQL查询进行定性分析,识别常见的错误类型。

关键创新:该论文的关键创新在于提出了一个针对商业智能领域的、可复现的事实一致性评估框架。该框架不仅提供了一个领域特定的基准数据集,还定义了一套完整的评估指标和方法,可以系统性地评估LLMs在文本到SQL生成任务中的语义准确性。此外,该研究还通过定性错误分析,深入了解了LLMs在处理复杂业务问题时存在的局限性。

关键设计:在基准数据集构建方面,论文精心设计了五个SQL复杂程度级别,从简单的聚合查询到复杂的算术推理和分组排序查询,以全面评估LLMs的性能。在评估指标方面,除了常用的答案准确率和执行成功率外,还引入了语义错误率和无响应率,以更全面地反映LLMs的性能表现。此外,论文还对模型生成的错误SQL查询进行了定性分析,识别了常见的错误类型,为后续的模型改进提供了指导。

📊 实验亮点

实验结果表明,Exaone 3.5在简单聚合任务(L1)上达到了93%的准确率,但在算术推理(H1)和分组排序任务(H4)中准确率分别降至4%和31%。语义错误和无响应主要集中在复杂查询中,表明当前LLM在处理复杂商业智能任务时存在局限性。该研究揭示了LLM在事实一致性方面的不足,为后续研究提供了重要参考。

🎯 应用场景

该研究成果可应用于构建更可靠的自然语言商业智能系统,提升数据分析效率,降低用户使用门槛。通过事实一致性评估,可以有效识别和纠正LLM生成的错误SQL查询,保障数据分析结果的准确性,从而支持更明智的商业决策。未来,该方法可推广至其他领域,促进自然语言交互在数据分析领域的广泛应用。

📄 摘要(原文)

Large Language Models (LLMs) have shown promise in enabling natural language interfaces for structured data querying through text-to-SQL generation. However, their application in real-world Business Intelligence (BI) contexts remains limited due to semantic hallucinations, structural errors, and a lack of domain-specific evaluation frameworks. In this study, we propose a Fact-Consistency Evaluation Framework for assessing the semantic accuracy of LLM-generated SQL outputs using Exaone 3.5--an instruction-tuned, bilingual LLM optimized for enterprise tasks. We construct a domain-specific benchmark comprising 219 natural language business questions across five SQL complexity levels, derived from actual sales data in LG Electronics' internal BigQuery environment. Each question is paired with a gold-standard SQL query and a validated ground-truth answer. We evaluate model performance using answer accuracy, execution success rate, semantic error rate, and non-response rate. Experimental results show that while Exaone 3.5 performs well on simple aggregation tasks (93% accuracy in L1), it exhibits substantial degradation in arithmetic reasoning (4% accuracy in H1) and grouped ranking tasks (31% in H4), with semantic errors and non-responses concentrated in complex cases. Qualitative error analysis further identifies common failure types such as misapplied arithmetic logic, incomplete filtering, and incorrect grouping operations. Our findings highlight the current limitations of LLMs in business-critical environments and underscore the need for fact-consistency validation layers and hybrid reasoning approaches. This work contributes a reproducible benchmark and evaluation methodology for advancing reliable natural language interfaces to structured enterprise data systems.