Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA

作者: Fengyu Li, Junhao Zhu, Kaishi Song, Lu Chen, Zhongming Yao, Tianyi Li, Christian S. Jensen

分类: cs.DB, cs.CL

发布日期: 2026-02-28

💡 一句话要点

提出Operation-R1框架，用单步LLM生成数据准备流水线解决表格问答问题。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 表格问答 数据准备 单步生成 强化学习 轻量级LLM 自监督学习 流水线优化

📋 核心要点

表格问答中，多步数据准备流水线方案延迟高、成本大。
Operation-R1通过强化学习训练轻量级LLM，单步生成高质量数据准备流水线。
实验表明，Operation-R1在精度、压缩率和成本方面均优于多步方案。

📝 摘要（中文）

本文提出Operation-R1，这是一个新颖的框架，它通过一种带有可验证奖励的强化学习变体来训练轻量级LLM（例如Qwen-4B/1.7B），从而以单步推理的方式为表格问答（TQA）生成高质量的数据准备流水线。为了训练这样的LLM，我们首先引入了一种自监督奖励机制，以自动获得用于LLM训练的细粒度、流水线级别的监督信号。我们还提出了方差感知分组重采样，以减轻训练不稳定性。为了进一步增强流水线生成的鲁棒性，我们开发了两种互补机制：操作合并，通过多候选共识来过滤虚假操作；以及自适应回滚，提供运行时保护以防止数据转换中的信息丢失。在两个基准数据集上的实验表明，在相同的LLM骨干网络下，Operation-R1的平均绝对精度比多步准备基线提高了9.55和6.08个百分点，同时实现了79%的表格压缩和2.2倍的成本降低。

🔬 方法详解

问题定义：表格问答（TQA）旨在根据结构化表格回答自然语言问题。现有的基于LLM的多步数据准备流水线方法虽然性能优异，但需要多次调用LLM，导致推理延迟高、计算成本大，难以实际应用。

核心思路：Operation-R1的核心思路是训练一个轻量级的LLM，使其能够一步到位地生成完整且高质量的数据准备流水线。通过将多步操作压缩为单步，显著降低推理时间和计算成本。

技术框架：Operation-R1框架主要包含以下几个关键模块：1) 轻量级LLM：使用Qwen-4B/1.7B等轻量级LLM作为骨干网络。2) 自监督奖励机制：自动生成细粒度的流水线级别监督信号，用于LLM的训练。3) 方差感知分组重采样：缓解训练过程中的不稳定性。4) 操作合并：通过多候选共识过滤掉不必要的操作。5) 自适应回滚：在运行时检测并纠正数据转换中的信息丢失。

关键创新：Operation-R1的关键创新在于将多步数据准备过程转化为单步生成，并设计了一套有效的训练和优化机制，包括自监督奖励、方差感知重采样、操作合并和自适应回滚。与传统的多步方法相比，Operation-R1在保证甚至提升性能的同时，显著降低了推理时间和计算成本。

关键设计：自监督奖励机制是关键设计之一，它无需人工标注，即可为LLM提供有效的训练信号。方差感知分组重采样通过对不同方差的样本进行差异化处理，提高了训练的稳定性。操作合并通过多个候选流水线的共识来过滤掉不必要的操作，进一步提升了流水线的质量。自适应回滚则是在运行时检测并纠正数据转换中的信息丢失，保证了流水线的鲁棒性。

🖼️ 关键图片

📊 实验亮点

Operation-R1在两个基准数据集上取得了显著的性能提升。在相同的LLM骨干网络下，Operation-R1的平均绝对精度比多步准备基线提高了9.55和6.08个百分点，同时实现了79%的表格压缩和2.2倍的成本降低。这些结果表明，Operation-R1在精度、效率和成本方面均优于现有的多步方法。

🎯 应用场景

Operation-R1可应用于各种需要表格问答的场景，例如智能客服、数据分析、金融风控等。通过降低数据准备的延迟和成本，可以加速这些应用的部署和普及，并提升用户体验。未来，该技术还可以扩展到其他类型的数据处理任务中。

📄 摘要（原文）

Table Question Answering (TQA) aims to answer natural language questions over structured tables. Large Language Models (LLMs) enable promising solutions to this problem, with operator-centric solutions that generate table manipulation pipelines in a multi-step manner offering state-of-the-art performance. However, these solutions rely on multiple LLM calls, resulting in prohibitive latencies and computational costs.We propose Operation-R1, the first framework that trains lightweight LLMs (e.g., Qwen-4B/1.7B) via a novel variant of reinforcement learning with verifiable rewards to produce high-quality data-preparation pipelines for TQA in a single inference step. To train such an LLM, we first introduce a self-supervised rewarding mechanism to automatically obtain fine-grained pipeline-wise supervision signals for LLM training. We also propose variance-aware group resampling to mitigate training instability. To further enhance robustness of pipeline generation, we develop two complementary mechanisms: operation merge, which filters spurious operations through multi-candidate consensus, and adaptive rollback, which offers runtime protection against information loss in data transformation. Experiments on two benchmark datasets show that, with the same LLM backbone, Operation-R1 achieves average absolute accuracy gains of 9.55 and 6.08 percentage points over multi-step preparation baselines, with 79\% table compression and a 2.2$\times$ reduction in monetary cost.

Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理