Can Language Models Analyze Data? Evaluating Large Language Models for Question Answering over Datasets

📄 arXiv: 2605.10419v1 📥 PDF

作者: Andreas Xenofontos, Pavlos Fafalios

分类: cs.CL, cs.AI

发布日期: 2026-05-11

备注: Accepted for publication in CARMA 2026 proceedings


💡 一句话要点

评估大语言模型在数据集问答任务中的效能:直接推理与SQL生成的对比研究

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数据分析 Text-to-SQL 提示工程 模型评估 计算成本 结构化数据

📋 核心要点

  1. 核心问题:评估大语言模型在处理结构化数据时的能力边界,特别是直接数据分析与SQL生成两种范式在不同规模模型下的表现差异。
  2. 方法要点:通过对比实验,系统分析了不同模型规模、提示策略对数据集问答准确性的影响,明确了模型在处理复杂查询时的性能瓶颈。
  3. 实验效果:研究证实了大型模型在数据分析任务中的显著优势,并指出了小型模型在低成本部署场景下的性能局限与改进空间。

📝 摘要(中文)

本文深入探讨了大语言模型(LLMs)在处理数据集问答任务中的有效性。研究重点考察了两种应用场景:一是直接将数据集文件作为输入进行问答;二是基于关系型数据库模式生成SQL查询以回答问题。此外,本文还评估了不同提示工程(Prompting)策略对模型性能的影响。实验涵盖了当前最先进的大型模型以及资源消耗更低、成本更优的小型语言模型。通过在两个包含不同难度问题的基准数据集上进行测试,研究结果展示了大型LLMs的强大性能,同时也揭示了小型模型在复杂数据分析任务中的局限性。这些发现为理解LLMs在数据分析领域的应用潜力及其边界提供了重要参考。

🔬 方法详解

问题定义:论文旨在解决大语言模型在数据分析任务中的可靠性问题。现有方法在处理大规模数据集时,往往面临上下文窗口限制、推理逻辑错误以及对复杂数据库模式理解不足的挑战。

核心思路:通过对比“直接推理(Direct QA)”与“SQL生成(Text-to-SQL)”两种范式,探究模型在不同数据交互方式下的表现。研究假设模型规模与提示策略是决定数据分析准确性的关键变量。

技术框架:研究构建了双路径评估框架:路径一直接将数据集(如CSV/JSON)作为Prompt输入;路径二仅提供数据库Schema,要求模型生成SQL语句。实验涵盖了从参数量巨大的闭源模型到轻量级开源模型,并引入了多种提示工程技术进行基准测试。

关键创新:该研究不仅关注模型性能,还引入了计算成本与资源消耗的维度,为企业在实际应用中选择模型提供了量化参考,揭示了模型规模与数据分析任务复杂度之间的非线性关系。

关键设计:实验设计了包含不同难度等级的问题集,通过控制变量法评估了零样本(Zero-shot)与少样本(Few-shot)提示策略,并对模型生成的SQL语法正确性及查询结果的准确性进行了严格的定量分析。

📊 实验亮点

实验结果表明,参数规模较大的模型在处理复杂逻辑查询时表现出显著的鲁棒性,而小型模型在直接分析数据集时极易出现幻觉或推理中断。研究量化了不同模型在SQL生成任务中的准确率差异,明确了在资源受限环境下,通过优化提示策略(如Few-shot)可部分弥补小型模型在复杂推理上的性能短板。

🎯 应用场景

该研究成果可直接应用于企业级商业智能(BI)系统、自动化数据报表生成以及智能数据分析助手。通过明确不同规模模型的适用边界,企业能够根据预算和精度需求,在云端大模型与本地轻量化模型之间做出最优技术选型,从而降低数据分析的门槛与成本。

📄 摘要(原文)

This paper investigates the effectiveness of large language models (LLMs) in answering questions over datasets. We examine their performance in two scenarios: (a) directly answering questions given a dataset file as input, and (b) generating SQL queries to answer questions given the schema of a relational database. We also evaluate the impact of different prompting strategies on model performance. The study includes both state-of-the-art LLMs and smaller language models that require fewer resources and operate at lower computational and financial cost. Experiments are conducted on two datasets containing questions of varying difficulty. The results demonstrate the strong performance of large LLMs, while highlighting the limitations of smaller, more cost-efficient models. These findings contribute to a better understanding of how LLMs can be utilized in data analytics tasks and their associated limitations.