FollowTable: A Benchmark for Instruction-Following Table Retrieval

📄 arXiv: 2605.00400v1 📥 PDF

作者: Rihui Jin, Yuchen Lu, Ting Zhang, Jun Wang, Kuicai Dong, Zhaocheng Du, Dongping Liu, Gang Wang, Yong Liu, Guilin Qi

分类: cs.IR, cs.CL

发布日期: 2026-05-01

备注: SIGIR 2026 Accepted

DOI: 10.1145/3805712.3809658


💡 一句话要点

提出FollowTable基准,用于评估模型在指令约束下的表格检索能力,填补了现有方法对细粒度指令理解的不足。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格检索 指令跟随 基准数据集 自然语言处理 LLM Agent

📋 核心要点

  1. 现有表格检索主要依赖主题相似性,忽略了指令约束,无法满足LLM agent对结构化数据日益增长的指令驱动访问需求。
  2. 论文形式化了指令跟随表格检索(IFTR)任务,要求模型同时满足主题相关性和细粒度指令约束,更贴近实际应用场景。
  3. 构建了大规模基准数据集FollowTable,并提出了指令响应性得分(Instruction Responsiveness Score)指标,用于系统评估模型对指令的遵循程度。

📝 摘要(中文)

表格检索(TR)传统上被定义为一种ad-hoc检索问题,相关性主要由主题语义相似性决定。随着基于LLM的agentic系统日益普及,访问结构化数据越来越多地受到指令驱动,相关性取决于显式的内容和模式约束,而不仅仅是主题相似性。因此,我们形式化了指令跟随表格检索(IFTR),这是一个新的任务,要求模型共同满足主题相关性和细粒度的指令约束。我们确定了IFTR中的两个核心挑战:(i)对内容范围的敏感性,例如包含和排除约束,以及(ii)对模式基础要求的感知,包括列语义和表示粒度——这些能力在现有的检索器中很大程度上缺失。为了支持系统评估,我们引入了FollowTable,这是第一个用于IFTR的大规模基准,通过分类驱动的标注流程构建。我们进一步提出了一种新的指标,称为指令响应性得分,以评估相对于仅主题基线,检索排名是否始终适应用户指令。我们的结果表明,现有的检索模型难以遵循表格数据上的细粒度指令。特别是,它们表现出对表面语义线索的系统性偏差,并且在处理模式基础约束方面仍然有限,突出了未来改进的巨大空间。

🔬 方法详解

问题定义:现有表格检索方法主要关注主题语义相似性,忽略了用户指令中的细粒度约束,例如包含、排除特定内容,以及对表格schema的理解。这导致检索结果无法准确满足用户基于指令的需求,尤其是在LLM agent需要访问结构化数据时,问题更加突出。

核心思路:论文的核心思路是将表格检索问题转化为一个指令跟随问题,即模型需要根据用户指令,在满足主题相关性的前提下,尽可能地满足指令中的各种约束条件。这需要模型具备对内容范围的敏感性以及对schema的感知能力。

技术框架:论文主要贡献在于构建了大规模基准数据集FollowTable,并提出了相应的评估指标。数据集构建采用分类驱动的标注流程,保证了数据的多样性和质量。评估指标方面,提出了指令响应性得分(Instruction Responsiveness Score),用于衡量模型检索排名对用户指令的适应程度。

关键创新:论文的关键创新在于形式化了指令跟随表格检索(IFTR)任务,并构建了相应的基准数据集和评估指标。这使得研究者可以系统地评估模型在指令约束下的表格检索能力,并推动相关技术的发展。与现有方法相比,IFTR更关注用户指令的细粒度约束,更贴近实际应用场景。

关键设计:FollowTable数据集的构建采用了taxonomy-driven annotation pipeline,保证了数据的多样性和覆盖度。指令响应性得分(Instruction Responsiveness Score)的计算方式未知,但其核心思想是衡量模型在加入指令后,检索结果排序相对于仅考虑主题相关性的基线的变化程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有检索模型在FollowTable数据集上表现不佳,尤其是在处理schema-grounded约束方面存在明显不足。模型容易受到表面语义线索的干扰,难以准确理解和执行细粒度指令。这表明现有方法在指令跟随表格检索方面仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于智能助手、问答系统、数据分析等领域。例如,用户可以通过自然语言指令,精确地从海量表格数据中检索所需信息,提高信息获取效率。未来,该技术有望推动LLM agent在结构化数据处理方面的应用,实现更智能、更高效的人机交互。

📄 摘要(原文)

Table Retrieval (TR) has traditionally been formulated as an ad-hoc retrieval problem, where relevance is primarily determined by topical semantic similarity. With the growing adoption of LLM-based agentic systems, access to structured data is increasingly instruction-driven, where relevance is conditional on explicit content and schema constraints rather than topical similarity alone. We therefore formalize Instruction-Following Table Retrieval (IFTR), a new task that requires models to jointly satisfy topical relevance and fine-grained instruction constraints. We identify two core challenges in IFTR: (i) sensitivity to content scope, such as inclusion and exclusion constraints, and (ii) awareness of schema-grounded requirements, including column semantics and representation granularity--capabilities largely absent in existing retrievers. To support systematic evaluation, we introduce FollowTable, the first large-scale benchmark for IFTR, constructed via a taxonomy-driven annotation pipeline. We further propose a new metric, termed the Instruction Responsiveness Score, to evaluate whether retrieval rankings consistently adapt to user instructions relative to a topic-only baseline. Our results indicate that existing retrieval models struggle to follow fine-grained instructions over tabular data. In particular, they exhibit systematic biases toward surface-level semantic cues and remain limited in handling schema-grounded constraints, highlighting substantial room for future improvements.