OpenTable-R1: A Reinforcement Learning Augmented Tool Agent for Open-Domain Table Question Answering

作者: Zipeng Qiu

分类: cs.CL

发布日期: 2025-07-02

🔗 代码/项目: GITHUB

💡 一句话要点

提出OpenTable-R1，利用强化学习增强工具型Agent解决开放域表格问答问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放域表格问答 工具型Agent 强化学习 大型语言模型 端到端学习

📋 核心要点

传统开放域表格问答依赖静态表格检索和闭域问答的两阶段流程，存在信息割裂和效率问题。
OpenTable-R1将工具调用（BM25+搜索和SQL执行）嵌入LLM，实现端到端检索、推理和执行。
通过监督学习冷启动和Async GRPO强化学习微调，显著提升了模型在复杂表格问答上的准确率。

📝 摘要（中文）

本文提出了一种端到端的Agent框架OpenTable-R1，用于解决开放域表格问答问题。该框架将多轮工具调用（使用基于BM25+的搜索API和SQLite SQL执行器）直接嵌入到大型语言模型中。为了进一步适配一个紧凑的40亿参数模型，本文引入了一个两阶段微调过程：首先在简单问题上进行监督冷启动，然后在较难的问题上使用带有LoRA适配器和rollout buffer的Async GRPO强化学习。这种统一的方法使模型能够联合检索、推理和执行查询，从而将零样本性能从个位数大幅提高到在held-out测试集上超过0.86的精确匹配率。实验结果表明，将结构化工具调用与有针对性的强化学习微调相结合，对于可扩展、准确的表格问答是有效的。

🔬 方法详解

问题定义：开放域表格问答任务旨在根据自然语言问题，从海量表格数据中检索信息并给出答案。现有方法通常采用两阶段流程，即先使用信息检索技术筛选相关表格，再利用闭域问答模型在选定表格中寻找答案。这种方法的痛点在于，表格检索和问答是分离的，无法进行端到端的优化，且容易受到检索结果质量的影响。

核心思路：OpenTable-R1的核心思路是将表格检索和问答整合到一个端到端的Agent框架中。通过将BM25+搜索API和SQLite SQL执行器等工具嵌入到大型语言模型中，模型可以直接调用这些工具来检索相关表格并执行SQL查询，从而实现联合检索、推理和执行。这种方法能够充分利用语言模型的推理能力，并根据中间结果动态调整检索策略。

技术框架：OpenTable-R1的整体框架包含以下几个主要模块：1) 大型语言模型（LLM）：作为Agent的核心，负责接收问题、规划工具调用、执行查询和生成答案。2) BM25+搜索API：用于从海量表格数据中检索相关表格。3) SQLite SQL执行器：用于在选定的表格上执行SQL查询。4) 强化学习模块：用于优化Agent的工具调用策略。模型首先接收自然语言问题，然后LLM根据问题生成工具调用指令，例如使用BM25+搜索API检索相关表格。检索结果返回给LLM，LLM再根据检索结果生成SQL查询指令，并使用SQLite SQL执行器执行查询。最终，LLM根据查询结果生成答案。

关键创新：OpenTable-R1最重要的技术创新点在于将工具调用直接嵌入到大型语言模型中，并使用强化学习来优化工具调用策略。与传统的两阶段方法相比，OpenTable-R1能够实现端到端的优化，并根据中间结果动态调整检索策略。此外，使用Async GRPO强化学习算法，可以更有效地训练Agent，并提高其在复杂表格问答上的准确率。

关键设计：OpenTable-R1的关键设计包括：1) 使用紧凑的40亿参数模型，以提高效率和可扩展性。2) 采用两阶段微调过程，首先在简单问题上进行监督冷启动，然后在较难的问题上使用Async GRPO强化学习。3) 使用LoRA适配器来减少强化学习的计算成本。4) 使用rollout buffer来提高强化学习的样本效率。5) Async GRPO强化学习使用reward shaping来引导Agent学习有效的工具调用策略。

🖼️ 关键图片

📊 实验亮点

OpenTable-R1在held-out测试集上取得了显著的性能提升，精确匹配率从零样本的个位数提升到超过0.86。这表明将结构化工具调用与有针对性的强化学习微调相结合，对于可扩展、准确的表格问答是有效的。该结果远超传统方法，证明了端到端Agent框架的优越性。

🎯 应用场景

OpenTable-R1在智能客服、数据分析、知识图谱构建等领域具有广泛的应用前景。它可以帮助用户快速准确地从海量表格数据中获取所需信息，提高工作效率。此外，该研究为构建更智能、更强大的Agent系统提供了新的思路和方法。

📄 摘要（原文）

Open-domain table question answering traditionally relies on a two-stage pipeline: static table retrieval followed by a closed-domain answer. In contrast, we propose an end-to-end agentic framework that embeds multi-turn tool calls-using a BM25+-based search API and a SQLite SQL executor-directly into a large language model. To further adapt a compact 4B-parameter model, we introduce a two-stage fine-tuning process: supervised cold-start on easy questions, then Async GRPO reinforcement learning on harder cases with LoRA adapters and a rollout buffer. This unified approach enables the model to jointly retrieve, reason, and execute queries, yielding a dramatic accuracy improvement from single-digit zero-shot performance to over 0.86 exact match on a held-out test set. Our results underscore the effectiveness of integrating structured tool calls with targeted RL fine-tuning for scalable, accurate table QA. The code is available at https://github.com/TabibitoQZP/OpenTableR1.

OpenTable-R1: A Reinforcement Learning Augmented Tool Agent for Open-Domain Table Question Answering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理