LIFT: Last-Mile Fine-Tuning for Table Explicitation

📄 arXiv: 2605.13424v1 📥 PDF

作者: Divij Khaitan, Ashish Tiwari

分类: cs.LG, cs.CL

发布日期: 2026-05-13

备注: 9 pages, 1 figure, 3 tables


💡 一句话要点

提出LIFT:一种针对表格补全的末端微调方法,提升小模型的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 表格抽取 末端微调 小模型微调 数据增强 树编辑距离

📋 核心要点

  1. 现有端到端微调方法在表格抽取任务中,当训练数据有限时,性能提升受限且对输入格式敏感。
  2. LIFT流程利用大模型生成初始表格,再用微调的小模型修复错误,实现高效且鲁棒的表格补全。
  3. 实验表明,LIFT在少量数据下超越端到端微调,且对输入格式变化更鲁棒,提升高达0.144 TEDS。

📝 摘要(中文)

本文提出了一种名为末端微调(Last-Mile Fine-Tuning),或称LIFT的流程。该流程首先利用预训练的大型语言模型从非结构化的剪贴板文本中提取初始表格,然后使用微调的小型语言模型(参数量为1B-24B的SLM)修复提取表格中的错误。在包含来自三个数据集的2596个表格的基准测试中,LIFT在基于树编辑距离的相似度(TEDS)指标上与端到端SLM微调相匹配或超过,同时仅需要1000个训练样本——在此情况下,LIFT的性能比端到端微调高出0.144 TEDS点。我们将此方法称为末端微调,并表明它对输入格式的可变性更具鲁棒性。与自调试和端到端微调方法的比较表明,当训练数据有限或需要在不牺牲准确性的前提下寻求对输入变化的鲁棒性时,末端微调提供了一个有吸引力的选择。

🔬 方法详解

问题定义:论文旨在解决表格抽取任务中,当训练数据量较少时,直接对小型语言模型进行端到端微调效果不佳的问题。现有的端到端微调方法在数据量不足的情况下,容易过拟合,并且对输入格式的变化非常敏感,导致泛化能力较差。

核心思路:论文的核心思路是将表格抽取任务分解为两个阶段:首先利用预训练的大型语言模型(LLM)的强大生成能力,从非结构化文本中提取出一个初始的表格;然后,使用一个微调过的小型语言模型(SLM)对这个初始表格进行修正和完善,从而提高最终表格的质量。这种两阶段的方法可以有效利用LLM的先验知识,并在少量数据下实现更好的性能。

技术框架:LIFT的整体流程如下: 1. 初始表格生成:使用预训练的LLM(例如,GPT-3)从给定的非结构化文本中抽取初始表格。LLM被prompt生成表格的结构和内容。 2. 表格修复:使用微调的SLM(例如,T5-base)对初始表格进行修复。SLM以初始表格为输入,输出修正后的表格。 3. 训练:SLM的训练目标是最小化修正后的表格与真实表格之间的差异。论文使用树编辑距离(Tree Edit Distance, TEDS)作为评价指标,并以此指导SLM的微调。

关键创新:LIFT的关键创新在于其两阶段的“末端微调”策略。与直接对SLM进行端到端微调相比,LIFT能够更好地利用LLM的知识,并且在数据量较少的情况下表现出更强的泛化能力。此外,LIFT对输入格式的变化也更加鲁棒,因为它将格式解析的任务交给了LLM,而SLM只需要关注表格内容的修正。

关键设计: * TEDS损失函数:论文使用TEDS作为SLM的训练目标,TEDS能够准确衡量两个表格之间的结构和内容差异。 * 数据增强:为了进一步提高SLM的鲁棒性,论文可能采用了数据增强技术,例如随机改变输入文本的格式。 * 模型选择:论文选择了参数量在1B-24B之间的SLM,这是一个在性能和计算成本之间取得平衡的选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LIFT在少量训练数据(1000个样本)下,在TEDS指标上超越了端到端微调方法,提升高达0.144 TEDS点。此外,LIFT对输入格式的变化表现出更强的鲁棒性。在包含2596个表格的基准测试中,LIFT与端到端SLM微调相匹配或超过,证明了其在表格抽取任务中的有效性。

🎯 应用场景

LIFT方法可应用于各种需要从非结构化文本中提取表格数据的场景,例如:金融报告分析、医学文献挖掘、法律文档处理等。该方法尤其适用于数据量有限或输入格式多样的场景,能够有效提高表格抽取的准确性和鲁棒性,降低人工标注成本,提升自动化处理效率。未来,LIFT有望集成到智能文档处理系统中,实现更高效的信息提取和知识发现。

📄 摘要(原文)

We propose last-mile fine-tuning, or Lift, a pipeline in which a pre-trained large language model extracts an initial table from unstructured clipboard text, and a fine-tuned small language model (1B-24B parameters SLM) repairs errors in the extracted table. On a benchmark of 2,596 tables from three datasets, Lift matches or exceeds end-to-end SLM fine-tuning on tree-edit-distance-based similarity (TEDS) metric while requiring as little as 1,000 training examples - where it outperforms end-to-end fine-tuning by up to 0.144 TEDS points. We term this approach last-mile fine-tuning and show it also more robust to input format variability. Comparisons with self-debug and end-to-end fine-tuning approaches show that last-mile fine-tuning provides an attractive option when training data is limited or when robustness to input variation is sought without compromising on accuracy.