An Empirical Investigation of Robustness in Large Language Models under Tabular Distortions

作者: Avik Dutta, Harshit Nigam, Hosein Hasanbeig, Arjun Radhakrishna, Sumit Gulwani

分类: cs.AI

发布日期: 2026-01-08

备注: 4 pages, 1 figure, 1 table

💡 一句话要点

研究表明大语言模型在表格数据存在扭曲时缺乏鲁棒性，需显式提示才能部分纠正。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 表格数据 鲁棒性 数据扭曲 表格问答 错误纠正 提示学习

📋 核心要点

现有大语言模型在处理表格数据时，对于表格中存在的细微语义或结构扭曲缺乏有效的检测和纠正能力。
该研究通过实验发现，只有在提供明确的先验知识提示后，大语言模型才能部分地调整推理策略，从而纠正一些数据扭曲。
实验结果表明，即使是最先进的模型（如 GPT-5.2）在表格数据存在扭曲的情况下，准确率也会显著下降至少 22%。

📝 摘要（中文）

本文研究了当表格数据受到语义和结构扭曲时，大语言模型（LLM）的性能表现。研究结果表明，LLM 缺乏检测和纠正表格表示中细微扭曲的内在能力。只有通过系统提示提供明确的先验知识时，模型才能部分调整其推理策略并纠正一些扭曲，但并非一致或完全。为了研究这种现象，我们引入了一个小型、专家策划的数据集，该数据集专门评估 LLM 在表格问答（TQA）任务中的表现，这些任务需要在分析之前进行额外的错误纠正步骤。结果揭示了 LLM 在扭曲下摄取和解释表格信息的系统性差异，即使是 GPT-5.2 等 SoTA 模型，其准确率也下降了至少 22%。这些发现为未来的研究提出了重要问题，特别是关于模型何时以及如何自主决定重新对齐表格输入，类似于人类行为，而无需依赖显式提示或表格数据预处理。

🔬 方法详解

问题定义：论文旨在研究大语言模型在处理包含语义和结构扭曲的表格数据时的鲁棒性问题。现有方法通常假设输入数据是干净且准确的，忽略了现实世界中表格数据可能存在的各种错误和不一致性。这些错误会导致大语言模型在表格问答任务中表现不佳。

核心思路：论文的核心思路是系统性地引入表格数据的扭曲，并观察大语言模型在不同扭曲程度下的表现。通过分析模型的错误类型和纠正能力，揭示模型在处理不完美表格数据时的局限性。同时，探索通过显式提示来引导模型纠正错误的可能性。

技术框架：该研究主要通过实验来评估大语言模型的鲁棒性。首先，构建了一个小型、专家策划的表格问答数据集，该数据集中的表格数据包含各种语义和结构扭曲。然后，使用不同的提示策略（包括不提示和显式提示）来指导大语言模型完成表格问答任务。最后，分析模型的准确率和错误类型，评估其在不同扭曲程度下的鲁棒性。

关键创新：该研究的关键创新在于系统性地研究了大语言模型在处理扭曲表格数据时的鲁棒性问题，并揭示了模型在缺乏显式提示的情况下难以有效纠正表格错误的局限性。此外，该研究还提出了一个专家策划的表格问答数据集，专门用于评估模型在扭曲数据下的表现。

关键设计：该研究的关键设计包括：1) 精心设计的表格数据扭曲方式，涵盖语义和结构两个方面；2) 明确的提示策略，用于引导模型纠正表格错误；3) 详细的错误分析，用于揭示模型在不同扭曲程度下的表现差异。具体扭曲方式和提示策略的细节在论文中未详细说明，属于未知信息。

📊 实验亮点

实验结果表明，即使是 GPT-5.2 等最先进的大语言模型，在表格数据存在扭曲的情况下，准确率也会显著下降至少 22%。通过提供显式提示，模型可以部分纠正一些扭曲，但并非完全或一致。这表明现有大语言模型在处理不完美表格数据时存在明显的局限性，需要进一步的研究和改进。

🎯 应用场景

该研究成果可应用于提升大语言模型在实际应用场景中处理表格数据的能力，例如金融分析、医疗诊断和客户服务等领域。通过提高模型对表格数据扭曲的鲁棒性，可以减少人工干预，提高自动化处理效率，并降低错误率。未来的研究可以探索更有效的表格数据预处理和模型训练方法，以进一步提升模型的鲁棒性。

📄 摘要（原文）

We investigate how large language models (LLMs) fail when tabular data in an otherwise canonical representation is subjected to semantic and structural distortions. Our findings reveal that LLMs lack an inherent ability to detect and correct subtle distortions in table representations. Only when provided with an explicit prior, via a system prompt, do models partially adjust their reasoning strategies and correct some distortions, though not consistently or completely. To study this phenomenon, we introduce a small, expert-curated dataset that explicitly evaluates LLMs on table question answering (TQA) tasks requiring an additional error-correction step prior to analysis. Our results reveal systematic differences in how LLMs ingest and interpret tabular information under distortion, with even SoTA models such as GPT-5.2 model exhibiting a drop of minimum 22% accuracy under distortion. These findings raise important questions for future research, particularly regarding when and how models should autonomously decide to realign tabular inputs, analogous to human behavior, without relying on explicit prompts or tabular data pre-processing.

An Empirical Investigation of Robustness in Large Language Models under Tabular Distortions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册