TableVista: Benchmarking Multimodal Table Reasoning under Visual and Structural Complexity
作者: Zheyuan Yang, Liqiang Shang, Junjie Chen, Xun Yang, Chenglong Xu, Bo Yuan, Chenyuan Jiao, Yaoru Sun, Yilun Zhao
分类: cs.CL, cs.CV
发布日期: 2026-05-07
备注: ACL 2026 Findings
💡 一句话要点
提出TableVista基准测试,揭示多模态大模型在复杂视觉与结构化表格推理中的性能瓶颈
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态推理 表格理解 基准测试 视觉鲁棒性 文档智能 大模型评估
📋 核心要点
- 现有模型在处理复杂视觉布局与结构化表格推理时,往往难以保持推理的一致性,表现出明显的性能退化。
- 论文构建了TableVista基准,通过多风格渲染流水线生成3万个样本,系统性地评估模型在视觉与结构复杂性下的鲁棒性。
- 实验表明,当前主流多模态模型在面对复杂结构布局和纯视觉输入时存在显著短板,为未来模型架构优化提供了关键方向。
📝 摘要(中文)
本文介绍了TableVista,这是一个旨在评估基础模型在视觉和结构复杂性下进行多模态表格推理能力的综合基准。TableVista包含3,000个高质量表格推理问题,通过多风格渲染和转换流水线,将每个实例扩展为10种不同的视觉变体,涵盖了多样的场景风格、鲁棒性扰动和纯视觉配置,最终形成30,000个多模态样本以进行多维度评估。通过对29个主流开源及闭源基础模型的广泛评估,研究发现尽管模型在不同渲染风格下表现相对稳定,但在复杂结构布局和纯视觉设置下性能显著下降。这表明当前模型在处理结构复杂性与视觉呈现相结合的任务时,难以保持推理的一致性。这些发现揭示了当前多模态能力的重大差距,为开发更稳健、可靠的表格理解模型提供了重要见解。
🔬 方法详解
问题定义:当前多模态大模型在处理表格数据时,往往依赖于文本序列化或简单的视觉编码,缺乏对复杂视觉布局与结构化信息深度融合的评估,导致模型在真实场景中面对多样化表格呈现时鲁棒性不足。
核心思路:通过构建一个大规模、多维度的基准测试集,引入多风格渲染与转换流水线,将表格数据转化为多种视觉变体,从而解耦并量化模型在不同视觉风格、结构复杂度和纯视觉输入下的推理能力。
技术框架:该框架包含三个核心阶段:首先是高质量表格推理问题的构建;其次是多风格渲染引擎,通过变换字体、颜色、边框及布局,生成10种视觉变体;最后是多维度评估模块,对29个模型进行定量与定性分析,重点考察模型在结构复杂性与视觉呈现干扰下的表现。
关键创新:创新性地提出了“视觉变体扩展”策略,不仅测试了模型的推理准确性,还通过鲁棒性扰动和纯视觉配置,揭示了模型在视觉特征提取与结构逻辑理解之间的耦合缺陷。
关键设计:采用了包含3,000个原始实例的基准,通过自动化流水线扩展至30,000个样本,确保了评估的统计显著性;设计了涵盖视觉风格、结构布局、纯视觉推理等多个维度的评估指标,以精细化定位模型性能瓶颈。
🖼️ 关键图片
📊 实验亮点
研究对29个主流模型进行了全面评测,发现模型在不同渲染风格下表现相对稳定,但在复杂结构布局和纯视觉输入下性能出现显著退化。实验数据量化了模型在处理视觉与结构耦合任务时的能力边界,为多模态大模型在复杂表格理解任务上的性能提升提供了明确的基准参考与优化方向。
🎯 应用场景
该研究成果可广泛应用于金融报表分析、科研文档自动化处理、企业级数据挖掘及智能办公助手等领域。通过提升模型对复杂视觉表格的理解能力,能够显著增强多模态系统在处理非结构化文档时的准确性与鲁棒性,推动文档智能处理技术的落地应用。
📄 摘要(原文)
We introduce TableVista, a comprehensive benchmark for evaluating foundation models in multimodal table reasoning under visual and structural complexity. TableVista consists of 3,000 high-quality table reasoning problems, where each instance is expanded into 10 distinct visual variants through our multi-style rendering and transformation pipeline. This process encompasses diverse scenario styles, robustness perturbations, and vision-only configurations, culminating in 30,000 multimodal samples for a multi-dimensional evaluation. We conduct an extensive evaluation of 29 state-of-the-art open-source and proprietary foundation models on TableVista. Through comprehensive quantitative and qualitative analysis, we find that while evaluated models remain largely stable across diverse rendering styles, they exhibit pronounced performance degradation on complex structural layouts and vision-only settings, revealing that current models struggle to maintain reasoning consistency when structural complexity combines with visually integrated presentations. These findings highlight critical gaps in current multimodal capabilities, providing insights for advancing more robust and reliable table understanding models.