Does Training on Synthetic Data Make Models Less Robust?

📄 arXiv: 2502.07164v2 📥 PDF

作者: Lingze Zhang, Ellie Pavlick

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-02-11 (更新: 2025-03-16)


💡 一句话要点

研究表明,使用合成数据训练LLM并不会加剧其在NLI任务中的固有盲点。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 合成数据 自然语言推理 鲁棒性 启发式方法

📋 核心要点

  1. 大型语言模型在训练时越来越多地依赖合成数据,但这种做法可能强化模型固有的偏见和盲点。
  2. 本文通过在NLI任务上进行实验,研究了使用合成数据微调LLM是否会加剧其在特定启发式策略上的弱点。
  3. 实验结果表明,使用合成数据微调LLM并没有显著加剧其在HANS数据集上的表现,与最初的假设相反。

📝 摘要(中文)

本文研究了使用合成数据训练大型语言模型(LLM)是否会降低模型的鲁棒性。通常,这些合成数据是由与被训练的LLM相同或相似的LLM生成的。这引发了一个问题,即合成数据是否会通过强化LLM已经编码的启发式方法来加剧某些“盲点”。本文使用Llama-2-7B-hf模型在自然语言推理(NLI)任务上进行了模拟实验。使用MultiNLI作为通用任务,HANS(一个旨在衡量NLI特定启发式策略的评估集)作为“盲点”任务。目标是确定通用任务和盲点任务之间的性能差异是否会显现。结果表明,合成数据并没有以预期的方式强化盲点。具体来说,虽然使用合成数据进行微调不一定会减少启发式方法的使用,但也不会像假设的那样使其变得更糟。

🔬 方法详解

问题定义:论文旨在研究使用合成数据训练大型语言模型(LLM)是否会加剧模型在特定任务上的“盲点”,即模型依赖于启发式方法而非真正理解语言。现有方法过度依赖合成数据,可能导致模型强化已有的偏见,降低模型的鲁棒性。

核心思路:核心思路是通过模拟实验,比较使用合成数据微调的LLM在通用NLI任务(MultiNLI)和专门设计的“盲点”任务(HANS)上的表现差异。如果合成数据加剧了盲点,那么模型在HANS上的表现应该相对更差。

技术框架:整体框架包括以下步骤:1) 使用Llama-2-7B-hf模型作为基础模型;2) 使用MultiNLI数据集进行预训练;3) 使用LLM生成合成数据;4) 使用合成数据对预训练模型进行微调;5) 在MultiNLI和HANS数据集上评估微调后的模型性能;6) 分析模型在两个数据集上的表现差异,以判断合成数据是否加剧了盲点。

关键创新:关键创新在于通过对比通用任务和特定“盲点”任务的性能,来评估合成数据对模型鲁棒性的影响。这种方法能够更直接地衡量合成数据是否强化了模型固有的偏见。

关键设计:论文使用了Llama-2-7B-hf模型,这是一个开源的大型语言模型。MultiNLI数据集用于通用NLI任务,HANS数据集用于评估模型对特定启发式策略的依赖程度。实验中,通过比较微调前后模型在两个数据集上的准确率,以及分析模型预测错误的模式,来判断合成数据的影响。具体的参数设置和损失函数等细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,使用合成数据微调Llama-2-7B-hf模型并没有显著加剧其在HANS数据集上的表现,与最初的假设相反。虽然微调不一定会减少启发式方法的使用,但也没有使其变得更糟。这表明合成数据可能并没有像人们担心的那样强化模型的盲点。

🎯 应用场景

该研究结果对于理解合成数据在LLM训练中的作用具有重要意义。它可以帮助研究人员和开发者更好地利用合成数据,同时避免潜在的负面影响,例如强化模型固有的偏见。该研究对于开发更鲁棒、更可靠的自然语言处理系统具有潜在价值。

📄 摘要(原文)

An increasingly common practice is to train large language models (LLMs) using synthetic data. Often this synthetic data is produced by the same or similar LLMs as those it is being used to train. This raises the question of whether the synthetic data might in fact exacerbate certain "blindspots" by reinforcing heuristics that the LLM already encodes. In this paper, we conduct simulated experiments on the natural language inference (NLI) task with Llama-2-7B-hf models. We use MultiNLI as the general task and HANS, a targeted evaluation set designed to measure the presence of specific heuristic strategies for NLI, as our "blindspot" task. Our goal is to determine whether performance disparities between the general and blind spot tasks emerge. Our results indicate that synthetic data does not reinforce blindspots in the way we expected. Specifically, we see that, while fine-tuning with synthetic data doesn't necessarily reduce the use of the heuristic, it also does not make it worse as we hypothesized.