Replacing Multi-Step Assembly of Data Preparation Pipelines with One-Step LLM Pipeline Generation for Table QA
作者: Fengyu Li, Junhao Zhu, Kaishi Song, Lu Chen, Zhongming Yao, Tianyi Li, Christian S. Jensen
分类: cs.DB, cs.CL
发布日期: 2026-02-28
💡 一句话要点
提出Operation-R1框架,用单步LLM生成数据准备流水线解决表格问答问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格问答 数据准备 单步生成 强化学习 轻量级LLM 自监督学习 流水线优化
📋 核心要点
- 表格问答中,多步数据准备流水线方案延迟高、成本大。
- Operation-R1通过强化学习训练轻量级LLM,单步生成高质量数据准备流水线。
- 实验表明,Operation-R1在精度、压缩率和成本方面均优于多步方案。
📝 摘要(中文)
本文提出Operation-R1,这是一个新颖的框架,它通过一种带有可验证奖励的强化学习变体来训练轻量级LLM(例如Qwen-4B/1.7B),从而以单步推理的方式为表格问答(TQA)生成高质量的数据准备流水线。为了训练这样的LLM,我们首先引入了一种自监督奖励机制,以自动获得用于LLM训练的细粒度、流水线级别的监督信号。我们还提出了方差感知分组重采样,以减轻训练不稳定性。为了进一步增强流水线生成的鲁棒性,我们开发了两种互补机制:操作合并,通过多候选共识来过滤虚假操作;以及自适应回滚,提供运行时保护以防止数据转换中的信息丢失。在两个基准数据集上的实验表明,在相同的LLM骨干网络下,Operation-R1的平均绝对精度比多步准备基线提高了9.55和6.08个百分点,同时实现了79%的表格压缩和2.2倍的成本降低。
🔬 方法详解
问题定义:表格问答(TQA)旨在根据结构化表格回答自然语言问题。现有的基于LLM的多步数据准备流水线方法虽然性能优异,但需要多次调用LLM,导致推理延迟高、计算成本大,难以实际应用。
核心思路:Operation-R1的核心思路是训练一个轻量级的LLM,使其能够一步到位地生成完整且高质量的数据准备流水线。通过将多步操作压缩为单步,显著降低推理时间和计算成本。
技术框架:Operation-R1框架主要包含以下几个关键模块:1) 轻量级LLM:使用Qwen-4B/1.7B等轻量级LLM作为骨干网络。2) 自监督奖励机制:自动生成细粒度的流水线级别监督信号,用于LLM的训练。3) 方差感知分组重采样:缓解训练过程中的不稳定性。4) 操作合并:通过多候选共识过滤掉不必要的操作。5) 自适应回滚:在运行时检测并纠正数据转换中的信息丢失。
关键创新:Operation-R1的关键创新在于将多步数据准备过程转化为单步生成,并设计了一套有效的训练和优化机制,包括自监督奖励、方差感知重采样、操作合并和自适应回滚。与传统的多步方法相比,Operation-R1在保证甚至提升性能的同时,显著降低了推理时间和计算成本。
关键设计:自监督奖励机制是关键设计之一,它无需人工标注,即可为LLM提供有效的训练信号。方差感知分组重采样通过对不同方差的样本进行差异化处理,提高了训练的稳定性。操作合并通过多个候选流水线的共识来过滤掉不必要的操作,进一步提升了流水线的质量。自适应回滚则是在运行时检测并纠正数据转换中的信息丢失,保证了流水线的鲁棒性。
🖼️ 关键图片
📊 实验亮点
Operation-R1在两个基准数据集上取得了显著的性能提升。在相同的LLM骨干网络下,Operation-R1的平均绝对精度比多步准备基线提高了9.55和6.08个百分点,同时实现了79%的表格压缩和2.2倍的成本降低。这些结果表明,Operation-R1在精度、效率和成本方面均优于现有的多步方法。
🎯 应用场景
Operation-R1可应用于各种需要表格问答的场景,例如智能客服、数据分析、金融风控等。通过降低数据准备的延迟和成本,可以加速这些应用的部署和普及,并提升用户体验。未来,该技术还可以扩展到其他类型的数据处理任务中。
📄 摘要(原文)
Table Question Answering (TQA) aims to answer natural language questions over structured tables. Large Language Models (LLMs) enable promising solutions to this problem, with operator-centric solutions that generate table manipulation pipelines in a multi-step manner offering state-of-the-art performance. However, these solutions rely on multiple LLM calls, resulting in prohibitive latencies and computational costs.We propose Operation-R1, the first framework that trains lightweight LLMs (e.g., Qwen-4B/1.7B) via a novel variant of reinforcement learning with verifiable rewards to produce high-quality data-preparation pipelines for TQA in a single inference step. To train such an LLM, we first introduce a self-supervised rewarding mechanism to automatically obtain fine-grained pipeline-wise supervision signals for LLM training. We also propose variance-aware group resampling to mitigate training instability. To further enhance robustness of pipeline generation, we develop two complementary mechanisms: operation merge, which filters spurious operations through multi-candidate consensus, and adaptive rollback, which offers runtime protection against information loss in data transformation. Experiments on two benchmark datasets show that, with the same LLM backbone, Operation-R1 achieves average absolute accuracy gains of 9.55 and 6.08 percentage points over multi-step preparation baselines, with 79\% table compression and a 2.2$\times$ reduction in monetary cost.