Towards Robust Real-World Spreadsheet Understanding with Multi-Agent Multi-Format Reasoning
作者: Houxing Ren, Mingjie Zhan, Zimu Lu, Ke Wang, Yunqiao Yang, Haotian Hou, Hongsheng Li
分类: cs.CL
发布日期: 2026-04-14
备注: Accepted to ACL 2026 (main conference)
🔗 代码/项目: GITHUB
💡 一句话要点
提出SpreadsheetAgent,通过多模态多Agent推理实现鲁棒的真实世界电子表格理解。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 电子表格理解 多Agent系统 多模态推理 大型语言模型 结构化数据 表格解析 知识图谱
📋 核心要点
- 现有方法将电子表格视为纯文本,忽略布局和视觉信息,且无法处理大规模电子表格。
- SpreadsheetAgent通过多模态信息融合和多Agent协作,分阶段读取和推理电子表格。
- 实验表明,SpreadsheetAgent在电子表格理解任务上优于现有基线模型,提升了性能。
📝 摘要(中文)
电子表格在企业报告、审计和科学数据管理等实际应用中至关重要。然而,现有基于大型语言模型的方法通常将表格视为纯文本,忽略了关键的布局线索和视觉语义。此外,真实的电子表格通常规模庞大,超出了LLM可以有效处理的输入长度。为了解决这些挑战,我们提出了SpreadsheetAgent,这是一个两阶段多Agent框架,用于电子表格理解,它采用逐步读取和推理的范例。SpreadsheetAgent不是一次性加载整个电子表格,而是通过多种模态(包括代码执行结果、图像和LaTeX表格)逐步解释局部区域。该方法首先构建结构草图和行/列摘要,然后在解决阶段对该中间表示执行任务驱动的推理。为了进一步提高可靠性,我们设计了一个验证模块,通过有针对性的检查来验证提取的结构,减少错误传播,并确保下游推理的可信输入。在两个电子表格数据集上的大量实验证明了我们方法的有效性。使用GPT-OSS-120B,SpreadsheetAgent在Spreadsheet Bench上实现了38.16%的性能,比ChatGPT Agent基线(35.27%)高出2.89个百分点。这些结果突出了SpreadsheetAgent在推进实际应用中鲁棒且可扩展的电子表格理解方面的潜力。
🔬 方法详解
问题定义:现有方法在处理真实世界电子表格时,主要面临两个痛点:一是忽略了电子表格的布局和视觉语义信息,将其视为纯文本处理;二是无法有效处理大规模电子表格,因为其内容超出了大型语言模型的输入长度限制。这导致现有方法在理解电子表格内容和执行相关任务时表现不佳。
核心思路:SpreadsheetAgent的核心思路是将电子表格理解任务分解为多个步骤,并利用多Agent协作的方式逐步完成。它不是一次性加载整个电子表格,而是通过逐步读取和推理局部区域,并结合多种模态的信息(代码执行结果、图像、LaTeX表格)来理解电子表格的内容。这种分而治之的方法可以有效处理大规模电子表格,并充分利用电子表格的布局和视觉信息。
技术框架:SpreadsheetAgent采用两阶段框架:首先是结构化草图构建阶段,该阶段利用多个Agent逐步解析电子表格,提取结构信息,并生成行/列摘要;然后是解决阶段,该阶段基于结构化草图和行/列摘要,执行任务驱动的推理。此外,还包含一个验证模块,用于验证提取的结构,减少错误传播。
关键创新:SpreadsheetAgent的关键创新在于其多模态多Agent的推理框架。它将电子表格理解任务分解为多个子任务,并分配给不同的Agent执行,每个Agent负责处理特定模态的信息。这种多Agent协作的方式可以充分利用各种信息源,提高电子表格理解的准确性和鲁棒性。
关键设计:验证模块通过有针对性的检查来验证提取的结构,例如检查单元格类型、数据格式等。具体实现细节和参数设置在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
SpreadsheetAgent在Spreadsheet Bench数据集上取得了显著的性能提升。使用GPT-OSS-120B作为基础模型,SpreadsheetAgent达到了38.16%的准确率,相比于ChatGPT Agent基线(35.27%)提升了2.89个百分点。这表明SpreadsheetAgent在真实世界电子表格理解方面具有显著的优势。
🎯 应用场景
SpreadsheetAgent可应用于企业报告生成、财务审计、科学数据管理等领域。通过更准确地理解电子表格内容,可以提高数据分析的效率和准确性,辅助决策制定,并减少人工错误。未来,该技术有望进一步应用于自动化报表生成、智能数据分析等场景。
📄 摘要(原文)
Spreadsheets are central to real-world applications such as enterprise reporting, auditing, and scientific data management. Despite their ubiquity, existing large language model based approaches typically treat tables as plain text, overlooking critical layout cues and visual semantics. Moreover, real-world spreadsheets are often massive in scale, exceeding the input length that LLMs can efficiently process. To address these challenges, we propose SpreadsheetAgent, a two-stage multi-agent framework for spreadsheet understanding that adopts a step-by-step reading and reasoning paradigm. Instead of loading the entire spreadsheet at once, SpreadsheetAgent incrementally interprets localized regions through multiple modalities, including code execution results, images, and LaTeX tables. The method first constructs a structural sketch and row/column summaries, and then performs task-driven reasoning over this intermediate representation in the Solving Stage. To further enhance reliability, we design a verification module that validates extracted structures via targeted inspections, reducing error propagation and ensuring trustworthy inputs for downstream reasoning. Extensive experiments on two spreadsheet datasets demonstrate the effectiveness of our approach. With GPT-OSS-120B, SpreadsheetAgent achieves 38.16% on Spreadsheet Bench, outperforming the ChatGPT Agent baseline (35.27%) by 2.89 absolute points. These results highlight the potential of SpreadsheetAgent to advance robust and scalable spreadsheet understanding in real-world applications. Code is available at https://github.com/renhouxing/SpreadsheetAgent.git.