OpenTable-R1: A Reinforcement Learning Augmented Tool Agent for Open-Domain Table Question Answering
作者: Zipeng Qiu
分类: cs.CL
发布日期: 2025-07-02
🔗 代码/项目: GITHUB
💡 一句话要点
提出OpenTable-R1,利用强化学习增强工具型Agent解决开放域表格问答问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放域表格问答 工具型Agent 强化学习 大型语言模型 端到端学习
📋 核心要点
- 传统开放域表格问答依赖静态表格检索和闭域问答的两阶段流程,存在信息割裂和效率问题。
- OpenTable-R1将工具调用(BM25+搜索和SQL执行)嵌入LLM,实现端到端检索、推理和执行。
- 通过监督学习冷启动和Async GRPO强化学习微调,显著提升了模型在复杂表格问答上的准确率。
📝 摘要(中文)
本文提出了一种端到端的Agent框架OpenTable-R1,用于解决开放域表格问答问题。该框架将多轮工具调用(使用基于BM25+的搜索API和SQLite SQL执行器)直接嵌入到大型语言模型中。为了进一步适配一个紧凑的40亿参数模型,本文引入了一个两阶段微调过程:首先在简单问题上进行监督冷启动,然后在较难的问题上使用带有LoRA适配器和rollout buffer的Async GRPO强化学习。这种统一的方法使模型能够联合检索、推理和执行查询,从而将零样本性能从个位数大幅提高到在held-out测试集上超过0.86的精确匹配率。实验结果表明,将结构化工具调用与有针对性的强化学习微调相结合,对于可扩展、准确的表格问答是有效的。
🔬 方法详解
问题定义:开放域表格问答任务旨在根据自然语言问题,从海量表格数据中检索信息并给出答案。现有方法通常采用两阶段流程,即先使用信息检索技术筛选相关表格,再利用闭域问答模型在选定表格中寻找答案。这种方法的痛点在于,表格检索和问答是分离的,无法进行端到端的优化,且容易受到检索结果质量的影响。
核心思路:OpenTable-R1的核心思路是将表格检索和问答整合到一个端到端的Agent框架中。通过将BM25+搜索API和SQLite SQL执行器等工具嵌入到大型语言模型中,模型可以直接调用这些工具来检索相关表格并执行SQL查询,从而实现联合检索、推理和执行。这种方法能够充分利用语言模型的推理能力,并根据中间结果动态调整检索策略。
技术框架:OpenTable-R1的整体框架包含以下几个主要模块:1) 大型语言模型(LLM):作为Agent的核心,负责接收问题、规划工具调用、执行查询和生成答案。2) BM25+搜索API:用于从海量表格数据中检索相关表格。3) SQLite SQL执行器:用于在选定的表格上执行SQL查询。4) 强化学习模块:用于优化Agent的工具调用策略。模型首先接收自然语言问题,然后LLM根据问题生成工具调用指令,例如使用BM25+搜索API检索相关表格。检索结果返回给LLM,LLM再根据检索结果生成SQL查询指令,并使用SQLite SQL执行器执行查询。最终,LLM根据查询结果生成答案。
关键创新:OpenTable-R1最重要的技术创新点在于将工具调用直接嵌入到大型语言模型中,并使用强化学习来优化工具调用策略。与传统的两阶段方法相比,OpenTable-R1能够实现端到端的优化,并根据中间结果动态调整检索策略。此外,使用Async GRPO强化学习算法,可以更有效地训练Agent,并提高其在复杂表格问答上的准确率。
关键设计:OpenTable-R1的关键设计包括:1) 使用紧凑的40亿参数模型,以提高效率和可扩展性。2) 采用两阶段微调过程,首先在简单问题上进行监督冷启动,然后在较难的问题上使用Async GRPO强化学习。3) 使用LoRA适配器来减少强化学习的计算成本。4) 使用rollout buffer来提高强化学习的样本效率。5) Async GRPO强化学习使用reward shaping来引导Agent学习有效的工具调用策略。
🖼️ 关键图片
📊 实验亮点
OpenTable-R1在held-out测试集上取得了显著的性能提升,精确匹配率从零样本的个位数提升到超过0.86。这表明将结构化工具调用与有针对性的强化学习微调相结合,对于可扩展、准确的表格问答是有效的。该结果远超传统方法,证明了端到端Agent框架的优越性。
🎯 应用场景
OpenTable-R1在智能客服、数据分析、知识图谱构建等领域具有广泛的应用前景。它可以帮助用户快速准确地从海量表格数据中获取所需信息,提高工作效率。此外,该研究为构建更智能、更强大的Agent系统提供了新的思路和方法。
📄 摘要(原文)
Open-domain table question answering traditionally relies on a two-stage pipeline: static table retrieval followed by a closed-domain answer. In contrast, we propose an end-to-end agentic framework that embeds multi-turn tool calls-using a BM25+-based search API and a SQLite SQL executor-directly into a large language model. To further adapt a compact 4B-parameter model, we introduce a two-stage fine-tuning process: supervised cold-start on easy questions, then Async GRPO reinforcement learning on harder cases with LoRA adapters and a rollout buffer. This unified approach enables the model to jointly retrieve, reason, and execute queries, yielding a dramatic accuracy improvement from single-digit zero-shot performance to over 0.86 exact match on a held-out test set. Our results underscore the effectiveness of integrating structured tool calls with targeted RL fine-tuning for scalable, accurate table QA. The code is available at https://github.com/TabibitoQZP/OpenTableR1.