From Rows to Reasoning: A Retrieval-Augmented Multimodal Framework for Spreadsheet Understanding

作者: Anmol Gulati, Sahil Sen, Waqar Sarguroh, Kevin Paul

分类: cs.CL

发布日期: 2026-01-13

💡 一句话要点

提出FRTR框架，通过检索增强多模态方法提升电子表格理解能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 电子表格理解 多模态学习 检索增强生成 大型语言模型 混合检索

📋 核心要点

现有电子表格推理方法在处理大型、多模态的企业级电子表格时，面临可扩展性和真实用户交互模拟的挑战。
FRTR框架通过将电子表格分解为细粒度嵌入，并结合混合检索和多模态信息，实现了更有效的推理。
实验表明，FRTR在FRTR-Bench和SpreadsheetLLM基准测试中显著优于现有方法，并降低了token使用量。

📝 摘要（中文）

大型语言模型(LLMs)难以处理包含数千行数字、多个链接工作表以及嵌入式视觉内容（如图表和收据）的大型企业电子表格。现有的电子表格推理方法通常依赖于单表压缩或全文编码，限制了可扩展性，并且未能反映真实用户与复杂多模态工作簿的交互方式。本文提出了FRTR-Bench，这是第一个用于多模态电子表格推理的大规模基准，包含30个企业级Excel工作簿，涵盖近四百万个单元格和50多个嵌入图像。为了应对这些挑战，本文提出了一种先进的多模态检索增强生成框架FRTR，该框架将Excel工作簿分解为细粒度的行、列和块嵌入，采用具有倒数秩融合(RRF)的混合词汇-密集检索，并集成多模态嵌入以推理数字和视觉信息。在FRTR-Bench上，使用Claude Sonnet 4.5测试FRTR，实现了74%的答案准确率，与之前仅达到24%的最先进方法相比，有了显著的提高。在SpreadsheetLLM基准测试中，FRTR使用GPT-5实现了87%的准确率，同时比上下文压缩方法减少了大约50%的token使用量。

🔬 方法详解

问题定义：论文旨在解决大型企业级电子表格理解的难题，特别是当电子表格包含大量数据行、多个关联工作表以及嵌入的视觉内容时。现有方法，如单表压缩或全文编码，无法有效处理这种复杂性，导致可扩展性差，并且不能很好地模拟用户与电子表格的交互方式。

核心思路：论文的核心思路是采用检索增强生成（Retrieval-Augmented Generation, RAG）框架，将电子表格分解为更小的、可管理的单元（行、列、块），并利用混合检索方法找到与问题相关的单元，然后结合多模态信息进行推理。这种方法模仿了人类用户在处理大型电子表格时，通常会选择性地查看和分析相关部分的行为。

技术框架：FRTR框架包含以下主要模块：1) 嵌入模块：将Excel工作簿分解为行、列和块，并生成相应的嵌入向量。这些嵌入向量既包含文本信息，也包含数值信息和视觉信息（如果存在）。2) 检索模块：使用混合检索方法（词汇检索和密集向量检索）结合倒数秩融合（Reciprocal Rank Fusion, RRF）来检索与问题相关的单元。3) 推理模块：将检索到的单元和问题一起输入到大型语言模型（LLM）中，由LLM进行推理并生成答案。

关键创新：FRTR的关键创新在于其多模态检索增强方法，它能够同时处理电子表格中的数值、文本和视觉信息。此外，FRTR采用混合检索和RRF，能够更准确地找到与问题相关的单元。另一个创新点是FRTR-Bench，这是一个新的大规模多模态电子表格推理基准。

关键设计：在嵌入模块中，论文可能使用了预训练的语言模型（如BERT或其变体）来生成文本嵌入，并使用一些方法（例如简单的数值编码或更复杂的图神经网络）来生成数值和视觉嵌入。在检索模块中，词汇检索可能使用TF-IDF或BM25等方法，而密集向量检索可能使用余弦相似度。RRF用于将两种检索结果进行融合。在推理模块中，选择合适的LLM（如GPT-3/4或Claude）至关重要，并且可能需要进行微调以适应电子表格推理任务。

🖼️ 关键图片

📊 实验亮点

FRTR在FRTR-Bench基准测试中，使用Claude Sonnet 4.5实现了74%的答案准确率，显著优于之前最先进方法的24%。在SpreadsheetLLM基准测试中，FRTR使用GPT-5实现了87%的准确率，同时比上下文压缩方法减少了大约50%的token使用量。这些结果表明，FRTR在电子表格理解方面具有显著的性能优势。

🎯 应用场景

该研究成果可应用于企业数据分析、财务报表解读、自动化报告生成等领域。通过提升电子表格理解能力，可以帮助用户更高效地从大量数据中提取关键信息，辅助决策，并减少人工错误。未来，该技术有望集成到办公软件和数据分析平台中，实现更智能化的数据处理和分析。

📄 摘要（原文）

Large Language Models (LLMs) struggle to reason over large-scale enterprise spreadsheets containing thousands of numeric rows, multiple linked sheets, and embedded visual content such as charts and receipts. Prior state-of-the-art spreadsheet reasoning approaches typically rely on single-sheet compression or full-context encoding, which limits scalability and fails to reflect how real users interact with complex, multimodal workbooks. We introduce FRTR-Bench, the first large-scale benchmark for multimodal spreadsheet reasoning, comprising 30 enterprise-grade Excel workbooks spanning nearly four million cells and more than 50 embedded images. To address these challenges, we present From Rows to Reasoning (FRTR), an advanced, multimodal retrieval-augmented generation framework that decomposes Excel workbooks into granular row, column, and block embeddings, employs hybrid lexical-dense retrieval with Reciprocal Rank Fusion (RRF), and integrates multimodal embeddings to reason over both numerical and visual information. We tested FRTR on six LLMs, achieving 74% answer accuracy on FRTR-Bench with Claude Sonnet 4.5, a substantial improvement over prior state-of-the-art approaches that reached only 24%. On the SpreadsheetLLM benchmark, FRTR achieved 87% accuracy with GPT-5 while reducing token usage by roughly 50% compared to context-compression methods.

From Rows to Reasoning: A Retrieval-Augmented Multimodal Framework for Spreadsheet Understanding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理