TABVERSE: Benchmarking Cross-Format Table Understanding in LLMs and VLMs
作者: Momina Ahsan, Sarfraz Ahmad, Ming Shan Hee, Roy Ka-Wei Lee, Preslav Nakov
分类: cs.AI, cs.CL, cs.IR
发布日期: 2026-06-08
备注: 24 pages, 18 tables, 16 figures, Submitted to ARR May 2026
💡 一句话要点
提出TABVERSE以解决表格理解中的表示问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格理解 多模态评估 大型语言模型 视觉语言模型 结构化数据
📋 核心要点
- 现有方法在表格理解任务中未能有效隔离内容与格式的影响,导致评估结果的不确定性。
- 论文提出TABVERSE基准,通过对齐不同格式的表格内容,系统评估表格表示对理解能力的影响。
- 实验结果显示,结构化文本的表现普遍优于渲染图像,且不同任务和格式间的表现差异显著。
📝 摘要(中文)
大型语言模型(LLMs)和视觉语言模型(VLMs)在表格推理任务中的评估日益增多,但表格表示的作用仍未得到充分探索。现有评估往往让内容、格式、布局和模态共同变化,难以单独隔离表示效果。为此,本文提出了TABVERSE,一个控制的多模态表格基准,能够在多个结构格式和渲染图像中对齐相同的表格内容,并附有问题类别和难度标签。这一设计使得在固定表格内容的情况下,能够系统地评估表示效果。我们在三个任务上评估了LLMs和VLMs:问答(QA)、结构理解能力(SUC)和结构重建(SR)。结果表明,表示选择对表格理解有显著影响。
🔬 方法详解
问题定义:本文旨在解决表格理解任务中,现有评估方法未能有效隔离表格内容与格式的影响,导致对模型性能的评估不够准确。
核心思路:TABVERSE基准通过对齐相同表格内容在不同结构格式(如HTML、Markdown、LaTeX)和渲染图像中的表现,提供了一个控制的环境来评估表格表示的效果。
技术框架:TABVERSE的整体架构包括三个主要模块:表格内容对齐模块、问题生成模块和评估模块。表格内容对齐模块确保不同格式的表格内容一致,问题生成模块根据内容生成不同类别和难度的问题,评估模块则用于分析模型在不同任务上的表现。
关键创新:TABVERSE的主要创新在于其对表格内容的控制和多格式对齐,使得研究者能够清晰地识别出表格表示对理解能力的影响,这在以往的研究中是缺乏的。
关键设计:在设计TABVERSE时,采用了多种表格格式的标准化处理,确保在不同格式下的内容一致性。同时,问题生成时考虑了问题的类别和难度,以便更全面地评估模型的理解能力。实验中使用的评估指标包括问答准确率、结构理解能力评分和结构重建的成功率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,模型在结构化文本上的表现普遍优于渲染图像,尤其在问答和结构理解任务中,表现差异显著。HTML格式在多种任务中表现最为稳健,而LaTeX重建任务则显示出较大的挑战。这些结果强调了表格表示在可靠评估中的关键作用。
🎯 应用场景
TABVERSE的研究成果可广泛应用于信息检索、数据分析和自然语言处理等领域,尤其是在需要处理和理解表格数据的场景中。通过提高模型对表格的理解能力,可以增强自动化数据处理系统的智能化水平,推动相关技术的发展与应用。
📄 摘要(原文)
Large Language Models (LLMs) and Vision-Language Models (VLMs) are increasingly evaluated on table reasoning tasks, but the role of table representation remains under-explored. In practice, the same table content may appear in different structural formats, such as HTML, Markdown, and LaTeX, or as rendered images. However, existing evaluations often let content, format, layout, and modality vary together, making it difficult to isolate representation effects. We introduce TABVERSE, a controlled multimodal table benchmark that aligns the same table content across multiple structural formats and rendered images, with question category and difficulty tags. This design enables systematic evaluation of representation effects while holding table content fixed. We evaluate LLMs and VLMs across three tasks: Question Answering (QA), Structural Understanding Capability (SUC), and Structure Reconstruction (SR). Our results show that representation choice substantially affects table understanding. Models generally perform better with structured text than with rendered images, but the size of this gap depends on the task, model, and format. HTML is often the most robust text format, while row-sensitive structural tasks and syntactically usable LaTeX reconstruction remain challenging. These findings show that table representation is a key factor in reliable table evaluation.