Benchmark Dataset Generation and Evaluation for Excel Formula Repair with LLMs

作者: Ananya Singha, Harshita Sahijwani, Walt Williams, Emmanuel Aboah Boateng, Nick Hausman, Miguel Di Luca, Keegan Choudhury, Chaya Binet, Vu Le, Tianwei Chen, Oryan Rokeah Chen, Sulaiman Vesal, Sadid Hasan

分类: cs.SE, cs.AI

发布日期: 2025-08-14

备注: Accepted at the KDD workshop on Evaluation and Trustworthiness of Agentic and Generative AI Models

💡 一句话要点

提出Excel公式修复基准数据集生成与评估方法，提升LLM在公式错误纠正中的应用

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Excel公式修复 大型语言模型 基准数据集 数据生成 LLM-as-a-Judge

📋 核心要点

Excel公式错误修复面临缺乏高质量、全面的训练和评估数据集的挑战，阻碍了LLM在该领域的应用。
论文提出一种新颖的数据生成流程，利用少量种子样本，通过LLM提示和验证，合成高质量的Excel公式修复数据集。
实验结果表明，该数据集质量高，并通过手动标注和错误分析验证，为评估LLM在Excel公式修复中的性能提供了有效基准。

📝 摘要（中文）

Excel作为一种广泛使用的工具，对新手用户而言，其复杂性导致运行时错误是一个显著挑战。大型语言模型(LLMs)在解释公式错误方面展现出潜力，但自动纠正这些语义运行时错误仍是一个未决问题。本文通过引入一种新颖的方法来构建专门用于Excel公式修复的基准数据集，从而填补了高质量、全面数据集的严重缺乏。我们提出了一个数据生成流程，该流程利用来自在线论坛的一小部分精选种子样本来合成扩展数据集。我们的流程集成了LLM的少样本提示，并采用强大的“LLM-as-a-Judge”验证框架，结合基于执行的检查，以确保生成数据的正确性和语义保真度。此过程生成了一个包含618个高质量样本的基准数据集，涵盖了常见的运行时错误。此外，我们提出了一种上下文感知的Excel公式修复基线技术，该技术利用LLM来利用错误的公式和相关的电子表格上下文。我们使用基于执行的指标，在我们新生成的基准上评估了各种LLM（GPT-4o、GPT-4.1、Phi-3、Mistral）的性能。我们的分析通过手动注释证明了数据集的质量，并提供了对错误和函数分布的见解。所提出的生成方法具有高度可扩展性，可以很容易地适应于为其他低资源编程语言中类似的code repair任务创建评估基准。

🔬 方法详解

问题定义：论文旨在解决Excel公式中常见的运行时错误，这些错误往往是由于逻辑错误或对函数的不正确理解造成的。现有方法缺乏高质量、全面的数据集来训练和评估LLM在自动修复这些错误方面的能力，导致该领域的研究进展缓慢。

核心思路：论文的核心思路是利用LLM本身来生成和验证Excel公式修复的数据集。通过少量人工标注的种子样本，结合LLM的少样本提示能力，可以高效地合成大量高质量的训练数据。同时，利用“LLM-as-a-Judge”框架和基于执行的检查，可以确保生成数据的正确性和语义一致性。

技术框架：整体流程包括以下几个主要阶段：1) 种子样本收集：从在线论坛等渠道收集少量人工标注的Excel公式错误和修复示例。2) 数据生成：利用LLM的少样本提示能力，基于种子样本生成新的公式错误和修复示例。3) 数据验证：使用“LLM-as-a-Judge”框架，让LLM评估生成数据的正确性和语义一致性。同时，进行基于执行的检查，确保修复后的公式能够正确执行并产生预期的结果。4) 数据集构建：将通过验证的数据添加到最终的数据集中。

关键创新：最重要的技术创新点在于利用LLM本身来生成和验证Excel公式修复的数据集。这种方法可以有效地解决数据稀缺的问题，并且可以确保生成数据的质量。此外，“LLM-as-a-Judge”框架和基于执行的检查也为数据验证提供了有效的手段。与现有方法相比，该方法更加高效、可扩展，并且可以生成更高质量的数据集。

关键设计：在数据生成阶段，使用了少样本提示技术，即向LLM提供少量种子样本作为示例，然后让LLM生成新的示例。在数据验证阶段，“LLM-as-a-Judge”框架使用了多个LLM来评估生成数据的正确性和语义一致性，并采用了投票机制来确定最终的验证结果。基于执行的检查使用了Excel的内置函数来执行公式，并比较执行结果与预期结果是否一致。

🖼️ 关键图片

📊 实验亮点

论文生成了一个包含618个高质量样本的Excel公式修复基准数据集，并通过手动标注验证了数据集的质量。实验结果表明，GPT-4o、GPT-4.1、Phi-3、Mistral等LLM在该数据集上表现出一定的公式修复能力，但仍有提升空间。该数据集为后续研究提供了有效的评估基准。

🎯 应用场景

该研究成果可应用于智能办公软件、在线教育平台等领域，帮助用户自动修复Excel公式错误，提高工作效率和学习体验。未来，该方法可扩展到其他低资源编程语言的代码修复任务，具有广泛的应用前景。

📄 摘要（原文）

Excel is a pervasive yet often complex tool, particularly for novice users, where runtime errors arising from logical mistakes or misinterpretations of functions pose a significant challenge. While large language models (LLMs) offer promising assistance by explaining formula errors, the automated correction of these semantic runtime errors remains an open problem. A primary challenge to advancing models for such scenarios is the severe lack of high-quality, comprehensive datasets for training and rigorous evaluation. This paper addresses this gap by introducing a novel approach for constructing a benchmark dataset specifically designed for Excel formula repair. We propose a data generation pipeline, which leverages a small set of curated seed samples from online forums to synthetically expand the dataset. Our pipeline integrates few-shot prompting with LLMs and employs a robust \textit{LLM-as-a-Judge} validation framework, combined with execution-based checks to ensure the correctness and semantic fidelity of the generated data. This process produced a benchmark dataset of 618 high-quality samples, covering common runtime errors. Furthermore, we propose a context-aware baseline technique for Excel formula repair that utilizes LLMs to leverage both the faulty formula, and relevant spreadsheet context. We evaluate the performance of various LLMs (GPT-4o, GPT-4.1, Phi-3, Mistral) on our newly generated benchmark using execution-based metrics. Our analysis demonstrates the dataset's quality through manual annotation and provides insights into error and function distributions. The proposed generation methodology is highly scalable and can be readily adapted to create evaluation benchmarks for similar code repair tasks in other low-resource programming languages.

Benchmark Dataset Generation and Evaluation for Excel Formula Repair with LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理