Spreadsheet-RL: Advancing Large Language Model Agents on Realistic Spreadsheet Tasks via Reinforcement Learning
作者: Banghao Chi, Yining Xie, Mingyuan Wu, Jingcheng Yang, Jize Jiang, Zhaoheng Li, Shengyi Qian, Minjia Zhang, Klara Nahrstedt, Rui Hou, Xiangjun Fan, Hanchao Yu
分类: cs.AI
发布日期: 2026-05-21
备注: Mingyuan served as the project lead. Banghao, Yining, and Mingyuan contributed equally to this work, with more junior authors listed before senior authors. All data and code releases are maintained by the corresponding authors at UIUC and are not affiliated with Meta
💡 一句话要点
提出Spreadsheet-RL,通过强化学习提升大语言模型在真实电子表格任务中的性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 电子表格自动化 强化学习 大语言模型 AI Agent Microsoft Excel
📋 核心要点
- 现有电子表格Agent依赖于通用LLM的提示,难以处理真实场景中复杂的多步骤工作流程。
- Spreadsheet-RL通过强化学习微调,在真实的Excel环境中训练专门的Agent,提升其处理复杂电子表格任务的能力。
- 实验表明,Spreadsheet-RL显著提升了Agent在通用和特定领域电子表格任务上的性能,验证了其泛化能力。
📝 摘要(中文)
电子表格系统(如Microsoft Excel、Google Sheets)在现代以数据为中心的工作流程中起着核心作用。随着AI Agent在自动化复杂任务(如控制计算机和生成演示文稿)方面的能力日益增强,构建AI驱动的电子表格Agent已成为一个有前景的研究方向。现有的大多数电子表格Agent依赖于通用LLM上的专门提示;虽然这种设计在简单的电子表格操作上具有潜力,但它难以管理真实应用程序中典型的复杂、多步骤工作流程。我们介绍了Spreadsheet-RL,这是一个强化学习(RL)微调框架,旨在在真实的Microsoft Excel环境中训练专门的电子表格Agent。Spreadsheet-RL具有一个自动化的pipeline,用于从在线论坛中可扩展地收集配对的起始-目标电子表格,以及金融和供应链管理等领域的特定领域评估任务,我们将其编译成新的Domain-Spreadsheet基准数据集。它还包括一个为多轮RL设计的Spreadsheet Gym环境:Spreadsheet Gym通过Python沙箱公开了广泛的Excel功能,以及一个精细的harness,其中包含全面的工具集和精心设计的工具路由规则,用于电子表格任务。通过全面的实验,我们表明Spreadsheet-RL大大提高了AI Agent在通用和特定领域电子表格任务上的性能:它将Qwen3-4B-Thinking-2507在SpreadsheetBench上的Pass@1从12.0%提高到23.4%,并将Pass@1在我们策划的Domain-Spreadsheet数据集上从8.4%提高到17.2%。这些结果突出了Spreadsheet-RL在电子表格自动化中的强大泛化潜力和实际应用潜力,并广泛地展示了其在推进基于LLM的与日常工作中数据接口交互方面的希望。
🔬 方法详解
问题定义:现有电子表格Agent主要依赖于对通用大语言模型(LLM)的提示工程,这种方法在处理简单的电子表格操作时可能有效,但在面对真实世界中复杂、多步骤的电子表格工作流程时,其性能会显著下降。痛点在于缺乏一个能够有效学习和执行复杂电子表格操作的专用Agent。
核心思路:论文的核心思路是利用强化学习(RL)来微调LLM,使其能够更好地适应电子表格任务。通过构建一个模拟真实Excel环境的强化学习环境,Agent可以在该环境中学习如何使用各种Excel工具来完成给定的任务。这种方法允许Agent通过试错学习,从而掌握复杂的操作序列。
技术框架:Spreadsheet-RL框架包含三个主要组成部分:1) 自动化的数据集构建pipeline,用于从在线论坛收集配对的起始-目标电子表格数据;2) Spreadsheet Gym环境,这是一个基于Python沙箱的Excel模拟环境,提供了丰富的Excel功能和工具;3) 强化学习训练模块,用于训练LLM Agent,使其能够在Spreadsheet Gym环境中执行电子表格任务。整体流程是:从数据集中采样起始电子表格和目标电子表格,Agent在Spreadsheet Gym环境中执行操作,根据执行结果获得奖励,并使用强化学习算法更新Agent的策略。
关键创新:该论文的关键创新在于将强化学习应用于电子表格Agent的训练。与传统的基于提示工程的方法相比,Spreadsheet-RL能够让Agent通过与环境的交互学习,从而更好地适应复杂的工作流程。此外,Spreadsheet Gym环境的构建也是一个重要的创新,它提供了一个安全、可控的平台,用于训练和评估电子表格Agent。
关键设计:Spreadsheet Gym环境的关键设计包括:1) 提供全面的Excel工具集,包括公式、函数、格式化等;2) 设计精细的工具路由规则,以确保Agent能够有效地使用这些工具;3) 使用Python沙箱来隔离Agent的执行环境,以防止潜在的安全问题。强化学习训练的关键设计包括:1) 定义合适的奖励函数,以鼓励Agent完成任务;2) 选择合适的强化学习算法,如Q-learning或Policy Gradient;3) 调整超参数,以优化训练效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Spreadsheet-RL显著提升了AI Agent在电子表格任务上的性能。在SpreadsheetBench数据集上,Qwen3-4B-Thinking-2507模型的Pass@1指标从12.0%提高到23.4%,提升幅度接近一倍。在Domain-Spreadsheet数据集上,Pass@1指标从8.4%提高到17.2%。这些结果表明,Spreadsheet-RL具有很强的泛化能力和实际应用潜力。
🎯 应用场景
Spreadsheet-RL具有广泛的应用前景,可用于自动化财务分析、供应链管理、数据处理等领域。它可以帮助用户更高效地处理电子表格任务,减少人工操作的错误,并提高工作效率。未来,该技术有望应用于更复杂的办公自动化场景,例如自动生成报告、数据可视化等。
📄 摘要(原文)
Spreadsheet systems (e.g., Microsoft Excel, Google Sheets) play a central role in modern data-centric workflows. As AI agents grow increasingly capable of automating complex tasks, such as controlling computers and generating presentations, building an AI-driven spreadsheet agent has emerged as a promising research direction. Most existing spreadsheet agents rely on specialized prompting over general-purpose LLMs; while this design has potentials on simple spreadsheet operations, it struggles to manage the complex, multi-step workflows typical of real-world applications. We introduce Spreadsheet-RL, a reinforcement learning (RL) fine-tuning framework designed to train specialized spreadsheet agents within a realistic Microsoft Excel environment. Spreadsheet-RL features an automated pipeline for scalable collection of paired start-goal spreadsheets from online forums, as well as domain-specific evaluation tasks in areas such as finance and supply chain management, which we compile into the new Domain-Spreadsheet benchmark dataset. It also includes a Spreadsheet Gym environment designed for multi-turn RL: Spreadsheet Gym exposes extensive Excel functionality through a Python sandbox, along with a refined harness that incorporates a comprehensive tool set and carefully designed tool-routing rules for spreadsheet tasks. Through comprehensive experiments, we show that Spreadsheet-RL substantially enhances AI agent's performance on both general and domain-specific spreadsheet tasks: it improves Qwen3-4B-Thinking-2507's Pass@1 on SpreadsheetBench from 12.0% to 23.4%, and raises Pass@1 from 8.4% to 17.2% on our curated Domain-Spreadsheet dataset. These results highlight Spreadsheet-RL's strong potential for generalization and real-world adoption in spreadsheet automation, and broadly, its promise for advancing LLM-based interactions with data interfaces in everyday work.