Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA

作者: Fengyu Li, Junhao Zhu, Kaishi Song, Lu Chen, Zhongming Yao, Tianyi Li, Christian S. Jensen

分类: cs.DB, cs.CL

发布日期: 2026-02-26

💡 一句话要点

提出Operation-R1，单步生成数据准备流水线，提升表格问答效率并降低成本。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 表格问答 单步流水线生成 强化学习 轻量级LLM 自监督学习 数据准备 数据转换

📋 核心要点

现有表格问答方法依赖多步LLM调用生成数据处理流水线，导致高延迟和计算成本。
Operation-R1通过强化学习训练轻量级LLM，单步生成高质量数据准备流水线，降低计算开销。
实验表明，Operation-R1在精度上显著优于多步方法，同时实现了表格压缩和成本降低。

📝 摘要（中文）

本文提出Operation-R1，这是一个新颖的框架，它通过一种带有可验证奖励的强化学习变体来训练轻量级LLM（例如Qwen-4B/1.7B），从而以单步推理的方式为表格问答（TQA）生成高质量的数据准备流水线。为了训练这样的LLM，我们首先引入了一种自监督奖励机制，以自动获得用于LLM训练的细粒度、流水线级别的监督信号。我们还提出了方差感知分组重采样，以减轻训练不稳定性。为了进一步提高流水线生成的鲁棒性，我们开发了两种互补机制：操作合并，通过多候选共识来过滤掉虚假操作；以及自适应回滚，提供运行时保护，防止数据转换中的信息丢失。在两个基准数据集上的实验表明，在相同的LLM骨干网络下，Operation-R1比多步准备基线平均绝对精度提高了9.55和6.08个百分点，同时实现了79%的表格压缩和2.2倍的货币成本降低。

🔬 方法详解

问题定义：表格问答（TQA）旨在根据结构化表格回答自然语言问题。现有的operator-centric解决方案通常采用多步方式生成表格操作流水线，需要多次调用大型语言模型（LLM），导致推理延迟高、计算成本昂贵，难以满足实际应用的需求。

核心思路：Operation-R1的核心思路是将多步数据准备流水线的生成过程简化为单步生成，从而显著降低延迟和计算成本。通过训练轻量级LLM，使其能够直接预测完整的数据准备流水线，避免了中间步骤的迭代和多次LLM调用。

技术框架：Operation-R1框架主要包含以下几个关键模块：1) 轻量级LLM：使用如Qwen-4B/1.7B等轻量级LLM作为流水线生成器。2) 自监督奖励机制：自动生成细粒度的流水线级别监督信号，用于LLM的训练。3) 方差感知分组重采样：缓解训练过程中的不稳定性。4) 操作合并：通过多候选共识过滤掉不必要的操作。5) 自适应回滚：在运行时防止数据转换过程中的信息丢失。

关键创新：Operation-R1的关键创新在于将多步流水线生成问题转化为单步生成问题，并设计了一套有效的训练和优化机制，包括自监督奖励、方差感知重采样、操作合并和自适应回滚。与传统的多步方法相比，Operation-R1在保证甚至提升精度的同时，显著降低了计算成本和延迟。

关键设计：自监督奖励机制是基于流水线执行结果的正确性来设计的，奖励函数会考虑最终答案的准确性以及中间数据转换的有效性。方差感知分组重采样根据不同流水线的方差进行采样，以平衡训练数据。操作合并通过生成多个候选流水线，并根据它们的一致性来过滤掉不必要的操作。自适应回滚则是在数据转换过程中，如果发现信息丢失，则回滚到之前的状态。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Operation-R1在两个基准数据集上，相对于多步准备基线，平均绝对精度分别提高了9.55和6.08个百分点。同时，Operation-R1实现了79%的表格压缩，并将货币成本降低了2.2倍。这些结果表明，Operation-R1在精度、效率和成本方面都具有显著优势。

🎯 应用场景

Operation-R1可应用于各种需要从结构化数据中提取信息的场景，例如智能客服、金融分析、医疗诊断等。该方法能够显著提高表格问答系统的效率和降低成本，使其更易于部署和应用。未来，该技术有望扩展到更复杂的数据处理任务中，例如数据清洗、数据集成等。

📄 摘要（原文）

Table Question Answering (TQA) aims to answer natural language questions over structured tables. Large Language Models (LLMs) enable promising solutions to this problem, with operator-centric solutions that generate table manipulation pipelines in a multi-step manner offering state-of-the-art performance. However, these solutions rely on multiple LLM calls, resulting in prohibitive latencies and computational costs. We propose Operation-R1, the first framework that trains lightweight LLMs (e.g., Qwen-4B/1.7B) via a novel variant of reinforcement learning with verifiable rewards to produce high-quality data-preparation pipelines for TQA in a single inference step. To train such an LLM, we first introduce a self-supervised rewarding mechanism to automatically obtain fine-grained pipeline-wise supervision signals for LLM training. We also propose variance-aware group resampling to mitigate training instability. To further enhance robustness of pipeline generation, we develop two complementary mechanisms: operation merge, which filters spurious operations through multi-candidate consensus, and adaptive rollback, which offers runtime protection against information loss in data transformation. Experiments on two benchmark datasets show that, with the same LLM backbone, Operation-R1 achieves average absolute accuracy gains of 9.55 and 6.08 percentage points over multi-step preparation baselines, with 79\% table compression and a 2.2$\times$ reduction in monetary cost.

Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理