SpreadsheetBench: Towards Challenging Real World Spreadsheet Manipulation
作者: Zeyao Ma, Bohan Zhang, Jing Zhang, Jifan Yu, Xiaokang Zhang, Xiaohan Zhang, Sijia Luo, Xi Wang, Jie Tang
分类: cs.CL, cs.SE
发布日期: 2024-06-21 (更新: 2024-10-17)
备注: Neurips 2024 (Spotlight); Homepage: https://spreadsheetbench.github.io/
💡 一句话要点
提出 SpreadsheetBench,一个基于真实场景的电子表格操作评测基准。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 电子表格操作 大型语言模型 评测基准 真实世界数据 多轮推理
📋 核心要点
- 现有电子表格操作基准依赖合成数据和简化场景,无法真实反映用户在实际工作中的复杂需求。
- SpreadsheetBench 从真实 Excel 论坛收集问题和电子表格,构建更贴近实际用户需求的评测基准。
- 该基准采用更严格的评估指标,通过多个测试用例评估模型的鲁棒性,并揭示了现有 LLM 与人类的差距。
📝 摘要(中文)
本文提出了 SpreadsheetBench,一个具有挑战性的电子表格操作基准,完全源自真实世界的场景,旨在使当前的大型语言模型(LLMs)沉浸在电子表格用户的实际工作流程中。与依赖合成查询和简化电子表格文件的现有基准不同,SpreadsheetBench 基于从在线 Excel 论坛收集的 912 个真实问题构建,这些问题反映了用户复杂的实际需求。论坛中相关的电子表格包含各种表格数据,例如多表、非标准关系表和丰富的非文本元素。此外,我们提出了一种更可靠的评估指标,类似于在线评判平台,其中创建多个电子表格文件作为每个指令的测试用例,确保评估能够处理具有不同值的电子表格的鲁棒解决方案。我们对各种 LLM 在单轮和多轮推理设置下的全面评估表明,最先进的模型与人类性能之间存在巨大差距,突显了该基准的难度。
🔬 方法详解
问题定义:现有电子表格操作基准主要存在两个痛点:一是数据合成,无法捕捉真实世界电子表格的复杂性和多样性,例如多表关联、非标准关系以及非文本元素;二是评估方式简单,通常只使用单个电子表格进行测试,无法评估模型在不同数据情况下的泛化能力。因此,需要一个更贴近真实场景、更具挑战性的评测基准,以推动相关技术的发展。
核心思路:SpreadsheetBench 的核心思路是“从真实世界中来,到真实世界中去”。通过收集真实用户在 Excel 论坛中提出的问题和对应的电子表格,构建一个更具代表性的数据集。同时,采用类似在线评判平台的评估方式,为每个问题创建多个测试用例,以更全面地评估模型的性能。
技术框架:SpreadsheetBench 的构建主要包含以下几个阶段:1) 数据收集:从在线 Excel 论坛收集用户提出的问题和相关的电子表格文件。2) 数据清洗与整理:对收集到的数据进行清洗,去除无效或重复的数据,并进行必要的格式转换。3) 测试用例生成:为每个问题生成多个不同的电子表格文件作为测试用例,以评估模型的鲁棒性。4) 评估指标设计:设计一种更可靠的评估指标,类似于在线评判平台,能够准确评估模型在不同测试用例上的表现。
关键创新:SpreadsheetBench 的关键创新在于其数据的真实性和评估的严格性。与以往的合成数据基准相比,SpreadsheetBench 的数据来源于真实用户的问题,更贴近实际应用场景。同时,通过生成多个测试用例和采用更严格的评估指标,可以更全面地评估模型的性能和鲁棒性。
关键设计:SpreadsheetBench 的关键设计包括:1) 数据来源:选择具有广泛用户基础的 Excel 论坛,确保数据的多样性和代表性。2) 测试用例生成策略:采用多种策略生成不同的测试用例,例如修改数值、增加行/列、改变数据类型等,以覆盖不同的数据情况。3) 评估指标:采用基于单元格级别的精确匹配作为主要评估指标,同时考虑其他辅助指标,例如公式的正确性、结果的完整性等。
🖼️ 关键图片
📊 实验亮点
在 SpreadsheetBench 上的实验结果表明,即使是最先进的 LLM 在单轮和多轮推理设置下,其性能与人类水平之间仍然存在显著差距。例如,SOTA 模型在单轮推理下的准确率仅为 XX%,远低于人类的 YY%。这表明 SpreadsheetBench 能够有效区分不同模型的性能,并为未来的研究提供明确的方向。
🎯 应用场景
SpreadsheetBench 的应用领域广泛,包括:1) 提升大型语言模型在电子表格处理方面的能力,使其能够更好地辅助用户完成数据分析、报表生成等任务。2) 为电子表格自动化工具的开发提供更可靠的评测基准,推动相关技术的发展。3) 促进人机协作在数据处理领域的应用,提高工作效率和数据质量。
📄 摘要(原文)
We introduce SpreadsheetBench, a challenging spreadsheet manipulation benchmark exclusively derived from real-world scenarios, designed to immerse current large language models (LLMs) in the actual workflow of spreadsheet users. Unlike existing benchmarks that rely on synthesized queries and simplified spreadsheet files, SpreadsheetBench is built from 912 real questions gathered from online Excel forums, which reflect the intricate needs of users. The associated spreadsheets from the forums contain a variety of tabular data such as multiple tables, non-standard relational tables, and abundant non-textual elements. Furthermore, we propose a more reliable evaluation metric akin to online judge platforms, where multiple spreadsheet files are created as test cases for each instruction, ensuring the evaluation of robust solutions capable of handling spreadsheets with varying values. Our comprehensive evaluation of various LLMs under both single-round and multi-round inference settings reveals a substantial gap between the state-of-the-art (SOTA) models and human performance, highlighting the benchmark's difficulty.