FollowTable: A Benchmark for Instruction-Following Table Retrieval

作者: Rihui Jin, Yuchen Lu, Ting Zhang, Jun Wang, Kuicai Dong, Zhaocheng Du, Dongping Liu, Gang Wang, Yong Liu, Guilin Qi

分类: cs.IR, cs.CL

发布日期: 2026-05-01

备注: SIGIR 2026 Accepted

DOI: 10.1145/3805712.3809658

💡 一句话要点

提出FollowTable基准，用于评估模型在指令约束下的表格检索能力，填补了现有方法对细粒度指令理解的不足。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 表格检索 指令跟随 基准数据集 自然语言处理 LLM Agent

📋 核心要点

现有表格检索主要依赖主题相似性，忽略了指令约束，无法满足LLM agent对结构化数据日益增长的指令驱动访问需求。
论文形式化了指令跟随表格检索(IFTR)任务，要求模型同时满足主题相关性和细粒度指令约束，更贴近实际应用场景。
构建了大规模基准数据集FollowTable，并提出了指令响应性得分(Instruction Responsiveness Score)指标，用于系统评估模型对指令的遵循程度。

📝 摘要（中文）

表格检索(TR)传统上被定义为一种ad-hoc检索问题，相关性主要由主题语义相似性决定。随着基于LLM的agentic系统日益普及，访问结构化数据越来越多地受到指令驱动，相关性取决于显式的内容和模式约束，而不仅仅是主题相似性。因此，我们形式化了指令跟随表格检索(IFTR)，这是一个新的任务，要求模型共同满足主题相关性和细粒度的指令约束。我们确定了IFTR中的两个核心挑战：(i)对内容范围的敏感性，例如包含和排除约束，以及(ii)对模式基础要求的感知，包括列语义和表示粒度——这些能力在现有的检索器中很大程度上缺失。为了支持系统评估，我们引入了FollowTable，这是第一个用于IFTR的大规模基准，通过分类驱动的标注流程构建。我们进一步提出了一种新的指标，称为指令响应性得分，以评估相对于仅主题基线，检索排名是否始终适应用户指令。我们的结果表明，现有的检索模型难以遵循表格数据上的细粒度指令。特别是，它们表现出对表面语义线索的系统性偏差，并且在处理模式基础约束方面仍然有限，突出了未来改进的巨大空间。

🔬 方法详解

问题定义：现有表格检索方法主要关注主题语义相似性，忽略了用户指令中的细粒度约束，例如包含、排除特定内容，以及对表格schema的理解。这导致检索结果无法准确满足用户基于指令的需求，尤其是在LLM agent需要访问结构化数据时，问题更加突出。

核心思路：论文的核心思路是将表格检索问题转化为一个指令跟随问题，即模型需要根据用户指令，在满足主题相关性的前提下，尽可能地满足指令中的各种约束条件。这需要模型具备对内容范围的敏感性以及对schema的感知能力。

技术框架：论文主要贡献在于构建了大规模基准数据集FollowTable，并提出了相应的评估指标。数据集构建采用分类驱动的标注流程，保证了数据的多样性和质量。评估指标方面，提出了指令响应性得分(Instruction Responsiveness Score)，用于衡量模型检索排名对用户指令的适应程度。

关键创新：论文的关键创新在于形式化了指令跟随表格检索(IFTR)任务，并构建了相应的基准数据集和评估指标。这使得研究者可以系统地评估模型在指令约束下的表格检索能力，并推动相关技术的发展。与现有方法相比，IFTR更关注用户指令的细粒度约束，更贴近实际应用场景。

关键设计：FollowTable数据集的构建采用了taxonomy-driven annotation pipeline，保证了数据的多样性和覆盖度。指令响应性得分(Instruction Responsiveness Score)的计算方式未知，但其核心思想是衡量模型在加入指令后，检索结果排序相对于仅考虑主题相关性的基线的变化程度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有检索模型在FollowTable数据集上表现不佳，尤其是在处理schema-grounded约束方面存在明显不足。模型容易受到表面语义线索的干扰，难以准确理解和执行细粒度指令。这表明现有方法在指令跟随表格检索方面仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于智能助手、问答系统、数据分析等领域。例如，用户可以通过自然语言指令，精确地从海量表格数据中检索所需信息，提高信息获取效率。未来，该技术有望推动LLM agent在结构化数据处理方面的应用，实现更智能、更高效的人机交互。

📄 摘要（原文）

Table Retrieval (TR) has traditionally been formulated as an ad-hoc retrieval problem, where relevance is primarily determined by topical semantic similarity. With the growing adoption of LLM-based agentic systems, access to structured data is increasingly instruction-driven, where relevance is conditional on explicit content and schema constraints rather than topical similarity alone. We therefore formalize Instruction-Following Table Retrieval (IFTR), a new task that requires models to jointly satisfy topical relevance and fine-grained instruction constraints. We identify two core challenges in IFTR: (i) sensitivity to content scope, such as inclusion and exclusion constraints, and (ii) awareness of schema-grounded requirements, including column semantics and representation granularity--capabilities largely absent in existing retrievers. To support systematic evaluation, we introduce FollowTable, the first large-scale benchmark for IFTR, constructed via a taxonomy-driven annotation pipeline. We further propose a new metric, termed the Instruction Responsiveness Score, to evaluate whether retrieval rankings consistently adapt to user instructions relative to a topic-only baseline. Our results indicate that existing retrieval models struggle to follow fine-grained instructions over tabular data. In particular, they exhibit systematic biases toward surface-level semantic cues and remain limited in handling schema-grounded constraints, highlighting substantial room for future improvements.

FollowTable: A Benchmark for Instruction-Following Table Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理