Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA
作者: Fengyu Li, Junhao Zhu, Kaishi Song, Lu Chen, Zhongming Yao, Tianyi Li, Christian S. Jensen
分类: cs.DB, cs.CL
发布日期: 2026-02-26
💡 一句话要点
提出Operation-R1,单步生成数据准备流水线,提升表格问答效率并降低成本。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格问答 单步流水线生成 强化学习 轻量级LLM 自监督学习 数据准备 数据转换
📋 核心要点
- 现有表格问答方法依赖多步LLM调用生成数据处理流水线,导致高延迟和计算成本。
- Operation-R1通过强化学习训练轻量级LLM,单步生成高质量数据准备流水线,降低计算开销。
- 实验表明,Operation-R1在精度上显著优于多步方法,同时实现了表格压缩和成本降低。
📝 摘要(中文)
本文提出Operation-R1,这是一个新颖的框架,它通过一种带有可验证奖励的强化学习变体来训练轻量级LLM(例如Qwen-4B/1.7B),从而以单步推理的方式为表格问答(TQA)生成高质量的数据准备流水线。为了训练这样的LLM,我们首先引入了一种自监督奖励机制,以自动获得用于LLM训练的细粒度、流水线级别的监督信号。我们还提出了方差感知分组重采样,以减轻训练不稳定性。为了进一步提高流水线生成的鲁棒性,我们开发了两种互补机制:操作合并,通过多候选共识来过滤掉虚假操作;以及自适应回滚,提供运行时保护,防止数据转换中的信息丢失。在两个基准数据集上的实验表明,在相同的LLM骨干网络下,Operation-R1比多步准备基线平均绝对精度提高了9.55和6.08个百分点,同时实现了79%的表格压缩和2.2倍的货币成本降低。
🔬 方法详解
问题定义:表格问答(TQA)旨在根据结构化表格回答自然语言问题。现有的operator-centric解决方案通常采用多步方式生成表格操作流水线,需要多次调用大型语言模型(LLM),导致推理延迟高、计算成本昂贵,难以满足实际应用的需求。
核心思路:Operation-R1的核心思路是将多步数据准备流水线的生成过程简化为单步生成,从而显著降低延迟和计算成本。通过训练轻量级LLM,使其能够直接预测完整的数据准备流水线,避免了中间步骤的迭代和多次LLM调用。
技术框架:Operation-R1框架主要包含以下几个关键模块:1) 轻量级LLM:使用如Qwen-4B/1.7B等轻量级LLM作为流水线生成器。2) 自监督奖励机制:自动生成细粒度的流水线级别监督信号,用于LLM的训练。3) 方差感知分组重采样:缓解训练过程中的不稳定性。4) 操作合并:通过多候选共识过滤掉不必要的操作。5) 自适应回滚:在运行时防止数据转换过程中的信息丢失。
关键创新:Operation-R1的关键创新在于将多步流水线生成问题转化为单步生成问题,并设计了一套有效的训练和优化机制,包括自监督奖励、方差感知重采样、操作合并和自适应回滚。与传统的多步方法相比,Operation-R1在保证甚至提升精度的同时,显著降低了计算成本和延迟。
关键设计:自监督奖励机制是基于流水线执行结果的正确性来设计的,奖励函数会考虑最终答案的准确性以及中间数据转换的有效性。方差感知分组重采样根据不同流水线的方差进行采样,以平衡训练数据。操作合并通过生成多个候选流水线,并根据它们的一致性来过滤掉不必要的操作。自适应回滚则是在数据转换过程中,如果发现信息丢失,则回滚到之前的状态。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Operation-R1在两个基准数据集上,相对于多步准备基线,平均绝对精度分别提高了9.55和6.08个百分点。同时,Operation-R1实现了79%的表格压缩,并将货币成本降低了2.2倍。这些结果表明,Operation-R1在精度、效率和成本方面都具有显著优势。
🎯 应用场景
Operation-R1可应用于各种需要从结构化数据中提取信息的场景,例如智能客服、金融分析、医疗诊断等。该方法能够显著提高表格问答系统的效率和降低成本,使其更易于部署和应用。未来,该技术有望扩展到更复杂的数据处理任务中,例如数据清洗、数据集成等。
📄 摘要(原文)
Table Question Answering (TQA) aims to answer natural language questions over structured tables. Large Language Models (LLMs) enable promising solutions to this problem, with operator-centric solutions that generate table manipulation pipelines in a multi-step manner offering state-of-the-art performance. However, these solutions rely on multiple LLM calls, resulting in prohibitive latencies and computational costs. We propose Operation-R1, the first framework that trains lightweight LLMs (e.g., Qwen-4B/1.7B) via a novel variant of reinforcement learning with verifiable rewards to produce high-quality data-preparation pipelines for TQA in a single inference step. To train such an LLM, we first introduce a self-supervised rewarding mechanism to automatically obtain fine-grained pipeline-wise supervision signals for LLM training. We also propose variance-aware group resampling to mitigate training instability. To further enhance robustness of pipeline generation, we develop two complementary mechanisms: operation merge, which filters spurious operations through multi-candidate consensus, and adaptive rollback, which offers runtime protection against information loss in data transformation. Experiments on two benchmark datasets show that, with the same LLM backbone, Operation-R1 achieves average absolute accuracy gains of 9.55 and 6.08 percentage points over multi-step preparation baselines, with 79\% table compression and a 2.2$\times$ reduction in monetary cost.