TableVision: A Large-Scale Benchmark for Spatially Grounded Reasoning over Complex Hierarchical Tables

📄 arXiv: 2604.03660 📥 PDF

作者: Xiaoyu Chen, Lu Dai, Hanqing Wang, Zhuoyu Li, Wenbin Dai, Yanzong Zheng, Zhenggang Xia, Junyong Lin, Hui Xiong

分类: cs.AI

发布日期: 2026-04-07


💡 一句话要点

TableVision:一个大规模表格基准,用于复杂分层表格上的空间推理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格理解 空间推理 多模态学习 大型语言模型 基准数据集

📋 核心要点

  1. 现有MLLM在处理复杂分层表格时,由于感知离散视觉区域数量过多,导致“感知过载”,空间注意力难以保持。
  2. 提出TableVision基准,通过渲染技术将逻辑推导与像素级空间真值耦合,显式地提供空间约束。
  3. 实验表明,显式空间约束能显著提升MLLM的推理潜力,提出的两阶段解耦框架在测试集上提升12.3%准确率。

📝 摘要(中文)

结构化表格在金融、医疗、科研等专业领域中对于传递高密度信息至关重要。尽管多模态大型语言模型(MLLM)取得了进展,但在处理具有分层布局的复杂表格时,推理性能仍然有限。本文通过定量分析,指出了一个关键的感知瓶颈。研究发现,随着任务复杂性的增加,涉及的离散视觉区域的数量不成比例地增加。这种处理密度导致内部的“感知过载”,使得MLLM难以在隐式生成过程中保持准确的空间注意力。为了解决这个瓶颈,我们引入了TableVision,这是一个大规模的、轨迹感知的基准,专为空间推理而设计。TableVision将表格任务分为三个认知级别(感知、推理和分析),涵盖13个子类别。通过使用基于渲染的确定性 grounding 流程,该数据集将多步逻辑推导与像素级的空间真值显式地耦合起来,包含6,799个高保真推理轨迹。实证结果和诊断性探测表明,显式的空间约束显著地恢复了MLLM的推理潜力。此外,我们的两阶段解耦框架在测试集上实现了12.3%的整体准确率提升。TableVision 为文档理解中感知和逻辑之间的协同作用提供了一个严格的测试平台和一个新的视角。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在处理复杂分层表格时,由于“感知过载”而导致的推理性能瓶颈问题。现有方法难以有效处理表格中大量离散视觉区域,导致空间注意力不准确,推理能力受限。

核心思路:论文的核心思路是通过显式地提供空间约束来缓解MLLM的感知瓶颈。具体而言,通过构建一个大规模的、轨迹感知的基准数据集TableVision,将多步逻辑推导与像素级的空间真值耦合,从而使模型能够更好地理解和利用表格的空间结构信息。

技术框架:TableVision数据集构建流程主要包含以下几个阶段:1) 定义表格任务:将表格任务分为感知、推理和分析三个认知级别,涵盖13个子类别。2) 生成表格数据:使用基于渲染的确定性 grounding 流程生成高保真表格图像。3) 构建推理轨迹:将多步逻辑推导与像素级的空间真值显式地耦合起来,形成推理轨迹。此外,论文还提出了一个两阶段解耦框架,用于提升模型在TableVision上的性能。

关键创新:论文的关键创新在于:1) 提出了TableVision基准,这是一个大规模的、轨迹感知的表格数据集,显式地提供了空间约束。2) 通过定量分析,指出了MLLM在处理复杂表格时存在的感知瓶颈。3) 提出了一个两阶段解耦框架,能够有效提升模型在TableVision上的性能。与现有方法相比,TableVision更加注重表格的空间结构信息,能够更好地评估和提升模型的空间推理能力。

关键设计:TableVision数据集包含6,799个高保真推理轨迹,涵盖13个子类别,并分为感知、推理和分析三个认知级别。数据集使用基于渲染的确定性 grounding 流程生成表格图像,保证了数据质量。两阶段解耦框架的具体细节未在摘要中详细描述,需要参考论文全文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,显式的空间约束能够显著恢复MLLM的推理潜力。提出的两阶段解耦框架在TableVision测试集上实现了12.3%的整体准确率提升,证明了该方法在解决复杂表格推理问题上的有效性。这些结果表明,TableVision为评估和提升模型的空间推理能力提供了一个有价值的平台。

🎯 应用场景

TableVision的研究成果可应用于金融报告分析、医疗数据挖掘、科学文献理解等领域。通过提升模型对复杂表格的空间推理能力,可以帮助用户更高效地从表格中提取信息、进行决策分析,并促进相关领域的智能化发展。未来,该研究有望推动文档理解、信息抽取等领域的技术进步。

📄 摘要(原文)

Structured tables are essential for conveying high-density information in professional domains such as finance, healthcare, and scientific research. Despite the progress in Multimodal Large Language Models (MLLMs), reasoning performance remains limited for complex tables with hierarchical layouts. In this paper, we identify a critical Perception Bottleneck through quantitative analysis. We find that as task complexity scales, the number of involved discrete visual regions increases disproportionately. This processing density leads to an internal "Perceptual Overload," where MLLMs struggle to maintain accurate spatial attention during implicit generation. To address this bottleneck, we introduce TableVision, a large-scale, trajectory-aware benchmark designed for spatially grounded reasoning. TableVision stratifies tabular tasks into three cognitive levels (Perception, Reasoning, and Analysis) across 13 sub-categories. By utilizing a rendering-based deterministic grounding pipeline, the dataset explicitly couples multi-step logical deductions with pixel-perfect spatial ground truths, comprising 6,799 high-fidelity reasoning trajectories. Our empirical results, supported by diagnostic probing, demonstrate that explicit spatial constraints significantly recover the reasoning potential of MLLMs. Furthermore, our two-stage decoupled framework achieves a robust 12.3% overall accuracy improvement on the test set. TableVision provides a rigorous testbed and a fresh perspective on the synergy between perception and logic in document understanding.