SODBench: A Large Language Model Approach to Documenting Spreadsheet Operations

📄 arXiv: 2510.19864v1 📥 PDF

作者: Amila Indika, Igor Molybog

分类: cs.SE, cs.CL, cs.LG

发布日期: 2025-10-22

备注: 14 pages, 5 figures, 4 tables


💡 一句话要点

SODBench:利用大语言模型自动生成电子表格操作的自然语言文档

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 电子表格操作文档 大型语言模型 自然语言生成 基准数据集 自动化 知识管理 SODBench

📋 核心要点

  1. 现有电子表格缺乏系统文档记录方法,阻碍自动化、协作和知识转移,导致机构知识流失。
  2. 提出电子表格操作文档(SOD)任务,利用大语言模型将电子表格操作代码转换为自然语言解释。
  3. 构建包含111个代码片段的SODBench基准,评估多个LLM在生成电子表格文档方面的性能,验证了可行性。

📝 摘要(中文)

大量知识工作者在商业、会计和金融领域使用电子表格。然而,缺乏系统的电子表格文档记录方法阻碍了自动化、协作和知识转移,这可能会导致关键机构知识的丢失。本文介绍了一种名为电子表格操作文档(SOD)的人工智能任务,该任务涉及从电子表格操作中生成人类可读的解释。许多先前的研究已经利用大型语言模型(LLM)来生成电子表格操作代码;然而,将该代码翻译成自然语言以用于SOD是一个较少被探索的领域。为了解决这个问题,我们提出了一个包含111个电子表格操作代码片段的基准,每个代码片段都配有相应的自然语言摘要。我们使用BLEU、GLEU、ROUGE-L和METEOR指标评估了五个LLM,即GPT-4o、GPT-4o-mini、LLaMA-3.3-70B、Mixtral-8x7B和Gemma2-9B。我们的研究结果表明,LLM可以生成准确的电子表格文档,使得SOD成为增强电子表格的可重复性、可维护性和协作工作流程的可行先决步骤,尽管仍存在一些需要解决的挑战。

🔬 方法详解

问题定义:论文旨在解决电子表格操作缺乏有效文档的问题。现有方法要么依赖手动记录,效率低下且容易出错,要么缺乏将代码转换为自然语言描述的能力,导致难以理解和维护。这阻碍了电子表格的自动化、协作和知识转移,并可能导致关键机构知识的丢失。

核心思路:论文的核心思路是利用大型语言模型(LLMs)的自然语言生成能力,自动将电子表格操作的代码片段转换为人类可读的自然语言描述。通过这种方式,可以显著提高电子表格的可理解性、可维护性和可重复性,并促进团队协作和知识共享。

技术框架:该研究主要包含两个部分:一是构建SODBench基准数据集,包含111个电子表格操作代码片段及其对应的自然语言摘要;二是使用SODBench评估多个LLM在SOD任务上的性能。评估流程包括将电子表格操作代码输入LLM,生成自然语言描述,然后使用BLEU、GLEU、ROUGE-L和METEOR等指标评估生成描述的质量。

关键创新:该研究的关键创新在于提出了电子表格操作文档(SOD)这一新的人工智能任务,并构建了相应的基准数据集SODBench。此外,该研究还探索了利用LLM自动生成电子表格文档的可能性,为解决电子表格文档不足的问题提供了一种新的思路。

关键设计:SODBench数据集包含111个电子表格操作代码片段,涵盖了常见的电子表格操作,例如公式计算、数据筛选、数据透视等。每个代码片段都配有高质量的人工标注的自然语言摘要。评估指标包括BLEU、GLEU、ROUGE-L和METEOR,用于衡量生成描述的准确性和流畅性。研究中评估了多个LLM,包括GPT-4o、GPT-4o-mini、LLaMA-3.3-70B、Mixtral-8x7B和Gemma2-9B,并比较了它们在SOD任务上的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,大型语言模型在生成电子表格操作文档方面具有潜力。尽管所有模型都表现出一定的能力,但GPT-4o在BLEU、GLEU、ROUGE-L和METEOR等指标上均优于其他模型。例如,GPT-4o在BLEU上的得分显著高于其他模型,表明其生成的文档在准确性和流畅性方面更胜一筹。这些结果验证了SOD任务的可行性,并为未来的研究提供了基准。

🎯 应用场景

该研究成果可应用于各种需要使用电子表格的场景,例如财务分析、数据报告、项目管理等。通过自动生成电子表格操作的自然语言文档,可以提高工作效率、减少错误、促进团队协作,并降低知识流失的风险。未来,该技术还可以集成到电子表格软件中,为用户提供更加智能化的文档生成功能。

📄 摘要(原文)

Numerous knowledge workers utilize spreadsheets in business, accounting, and finance. However, a lack of systematic documentation methods for spreadsheets hinders automation, collaboration, and knowledge transfer, which risks the loss of crucial institutional knowledge. This paper introduces Spreadsheet Operations Documentation (SOD), an AI task that involves generating human-readable explanations from spreadsheet operations. Many previous studies have utilized Large Language Models (LLMs) for generating spreadsheet manipulation code; however, translating that code into natural language for SOD is a less-explored area. To address this, we present a benchmark of 111 spreadsheet manipulation code snippets, each paired with a corresponding natural language summary. We evaluate five LLMs, GPT-4o, GPT-4o-mini, LLaMA-3.3-70B, Mixtral-8x7B, and Gemma2-9B, using BLEU, GLEU, ROUGE-L, and METEOR metrics. Our findings suggest that LLMs can generate accurate spreadsheet documentation, making SOD a feasible prerequisite step toward enhancing reproducibility, maintainability, and collaborative workflows in spreadsheets, although there are challenges that need to be addressed.