Encoded but Not Routed: Explaining the Table-Chart Gap in Scientific Claim Verification

📄 arXiv: 2606.01679v1 📥 PDF

作者: Sunisth Kumar, Xanh Ho, Tim Schopf, Andre Greiner-Petter, Florian Boudin, Akiko Aizawa

分类: cs.CL

发布日期: 2026-06-01


💡 一句话要点

揭示科学声明验证中表格-图表差距:信息编码但未有效路由

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 科学声明验证 表格-图表差距 信息路由 注意力分析

📋 核心要点

  1. 现有视觉语言模型在科学声明验证中,处理图表证据时性能显著低于表格证据,存在“表格-图表差距”。
  2. 该研究通过分层线性探测和注意力分析,探究模型是否能从图表中提取信息并有效利用。
  3. 实验结果表明,图表信息虽被编码,但未能有效路由至预测层,揭示了信息路由是性能瓶颈。

📝 摘要(中文)

多模态大型语言模型越来越多地被用于辅助科学同行评审,其中一个核心要求是验证论文中的声明是否得到证据的支持。先前的工作表明,当证据是表格时,模型在此任务上的表现明显优于证据是相同底层数据的图表。这就提出了一个问题:模型是未能从图表中提取信息,还是提取了信息但未能将其用于形成预测?我们通过对三个开放权重的视觉语言模型进行分层线性探测和注意力分析,研究了表格和图表证据(代表相同的底层数据)上的这个问题。我们发现了支持后者的持续证据。图表信息被编码在模型的中间表示中,但没有到达预测位置,而表格则不存在这种差距,并且在所有测试条件下都成立。注意力分析进一步表明,这种断开连接在不同的模型家族中采取了两种架构上不同的形式。这些发现将表格-图表差距重新定义为编码的视觉信息在预测时如何路由的失败,而不是编码本身的失败。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型在科学声明验证任务中,对于相同底层数据的图表和表格证据,表现出显著性能差异的问题,即“表格-图表差距”。现有方法未能有效利用图表信息,导致验证准确率下降。

核心思路:论文的核心思路是,通过深入分析模型的中间层表示和注意力机制,探究模型是否能够从图表中提取信息,以及提取的信息是否能够有效地传递到预测层。如果信息能够被提取但未能有效利用,则说明问题出在信息路由环节,而非信息编码环节。

技术框架:论文采用分层线性探测和注意力分析两种技术手段。首先,使用分层线性探测来评估模型在不同层对图表和表格信息的编码能力。然后,使用注意力分析来追踪信息在模型中的传递路径,特别是关注信息是否能够从编码层传递到预测层。研究对象是三个开源视觉语言模型,并使用相同的底层数据生成表格和图表作为输入。

关键创新:论文的关键创新在于,它将“表格-图表差距”重新定义为信息路由的失败,而不是信息编码的失败。通过实验证明,模型能够从图表中提取信息,但这些信息未能有效地传递到预测层。这一发现为改进视觉语言模型在处理图表信息方面的能力提供了新的思路。

关键设计:论文的关键设计包括:1) 使用分层线性探测来量化不同层对信息的编码能力;2) 使用注意力分析来追踪信息的传递路径;3) 选择具有代表性的开源视觉语言模型进行实验;4) 使用相同的底层数据生成表格和图表,以确保实验的公平性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,视觉语言模型能够将图表信息编码到中间层表示中,但这些信息未能有效传递到预测层。注意力分析揭示了信息路由失败的具体形式,并且这种现象在不同的模型家族中都存在。这些发现表明,优化信息路由是解决“表格-图表差距”的关键。

🎯 应用场景

该研究成果可应用于改进多模态大型语言模型在科学文档理解、数据可视化分析等领域的性能。通过优化信息路由机制,可以提升模型对图表等复杂视觉信息的利用效率,从而提高科学声明验证、报告生成等任务的准确性和可靠性。此外,该研究也为开发更有效的图表理解算法提供了新的思路。

📄 摘要(原文)

Multimodal LLMs are increasingly used to assist scientific peer review, where a core requirement is verifying whether claims in a paper are supported by its evidence. Prior work has shown that models perform substantially better at this task when the evidence is a table than when it is a chart of the same underlying data. This raises the question of whether models fail to extract information from charts, or do they extract it but fail to use it when forming their prediction? We study this question through layer-wise linear probing and attention analysis on three open-weight VLMs over table and chart evidence, representing the same underlying data. We find consistent evidence for the latter. Chart information is encoded in the models' intermediate representations but does not reach the prediction position, a gap that is absent for tables and holds across all conditions tested. Attention analysis further reveals that this disconnect takes two architecturally distinct forms across model families. These findings reframe the table-chart gap as a failure of how encoded visual information is routed at prediction time, rather than a failure of encoding itself.