An Empirical Study of Validating Synthetic Data for Formula Generation

作者: Usneek Singh, José Cambronero, Sumit Gulwani, Aditya Kanade, Anirudh Khatry, Vu Le, Mukul Singh, Gust Verbruggen

分类: cs.CL, cs.AI

发布日期: 2024-07-15 (更新: 2025-07-11)

备注: Accepted at Findings of NAACL

💡 一句话要点

通过验证合成数据提升公式生成模型性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 公式生成 合成数据 数据验证 大型语言模型 微调

📋 核心要点

电子表格公式资源匮乏，限制了大型语言模型在公式生成任务中的性能和微调效果。
论文提出通过验证合成数据来提升公式生成模型的性能，核心在于使用代理目标评估合成标注的准确性。
实验结果表明，验证后的合成数据能够提升模型在公式生成任务上的性能，并提高模型解决复杂问题的能力。

📝 摘要（中文）

大型语言模型（LLMs）可用于辅助电子表格公式编写，但相关资源稀缺，影响了预训练模型的基础性能和微调能力。给定公式语料库，可以使用另一模型生成合成自然语言描述以进行微调。然而，验证LLM生成的自然语言是否准确至关重要，以确保其对微调有益。本文通过使用代理目标评估合成标注的准确性，提供了验证这些合成训练样本影响的经验结果。实验表明，验证提升了四种模型（2个开源和2个闭源）在原始数据上的性能。有趣的是，验证倾向于删除更具挑战性的示例，但它增加了模型在经过验证的数据微调后能够解决的问题的复杂性。

🔬 方法详解

问题定义：论文旨在解决电子表格公式生成任务中，由于训练数据（公式及其自然语言描述）稀缺，导致大型语言模型性能受限的问题。现有方法直接使用未经验证的合成数据进行微调，可能引入噪声，降低模型性能。

核心思路：论文的核心思路是验证合成数据，即评估由语言模型生成的自然语言描述与对应公式的准确性。通过过滤掉不准确的合成数据，提高训练数据的质量，从而提升公式生成模型的性能。

技术框架：整体流程包括：1) 使用大型语言模型生成公式的合成自然语言描述；2) 使用代理目标（surrogate objectives）验证合成数据的准确性；3) 使用验证后的高质量合成数据微调公式生成模型。代理目标用于评估合成自然语言描述与对应公式的一致性，例如，可以使用一个模型将自然语言描述转换回公式，并与原始公式进行比较。

关键创新：论文的关键创新在于提出了使用代理目标验证合成数据的方法，从而有效提升了训练数据的质量。与直接使用未经验证的合成数据相比，该方法能够显著提高公式生成模型的性能。

关键设计：论文中，代理目标的选择至关重要。具体实现细节未知，但可能包括：1) 使用预训练的序列到序列模型，将自然语言描述转换为公式，并计算转换后的公式与原始公式之间的相似度（例如，编辑距离）；2) 使用预训练的语言模型，计算自然语言描述的困惑度（perplexity），困惑度越高，表示描述的质量越差。论文未明确指出具体使用的参数设置、损失函数或网络结构，这部分信息未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过验证合成数据，四种模型（包括开源和闭源模型）在公式生成任务上的性能均得到了提升。尽管验证过程倾向于删除更具挑战性的示例，但经过验证的数据微调后的模型能够解决更复杂的问题。具体的性能提升数据未知。

🎯 应用场景

该研究成果可应用于各种需要生成结构化数据的场景，例如代码生成、数据库查询生成等。通过验证合成数据，可以有效提升模型的性能和可靠性，降低人工标注成本，加速相关技术的落地应用。未来，该方法有望推广到更多自然语言处理任务中。

📄 摘要（原文）

Large language models (LLMs) can be leveraged to help with writing formulas in spreadsheets, but resources on these formulas are scarce, impacting both the base performance of pre-trained models and limiting the ability to fine-tune them. Given a corpus of formulas, we can use a(nother) model to generate synthetic natural language utterances for fine-tuning. However, it is important to validate whether the NL generated by the LLM is indeed accurate to be beneficial for fine-tuning. In this paper, we provide empirical results on the impact of validating these synthetic training examples with surrogate objectives that evaluate the accuracy of the synthetic annotations. We demonstrate that validation improves performance over raw data across four models (2 open and 2 closed weight). Interestingly, we show that although validation tends to prune more challenging examples, it increases the complexity of problems that models can solve after being fine-tuned on validated data.

An Empirical Study of Validating Synthetic Data for Formula Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理