How much do LLMs learn from negative examples?

📄 arXiv: 2503.14391v1 📥 PDF

作者: Shadi Hamdan, Deniz Yuret

分类: cs.CL

发布日期: 2025-03-18

备注: 8 pages, 6 figures


💡 一句话要点

研究表明负样本训练能显著提升LLM在问答任务中的准确性和减少幻觉

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 负样本学习 监督微调 似然比模型 问答系统 幻觉减少 Near-misses 模型训练

📋 核心要点

  1. 现有LLM训练主要依赖正样本,忽略了负样本在提升模型性能方面的潜力。
  2. 论文提出使用似然比(Likra)模型,通过精确控制负样本的影响和数量来研究其作用。
  3. 实验表明,负样本训练能显著提升模型在问答任务中的准确性,并减少幻觉。

📝 摘要(中文)

大型语言模型(LLM)经历三个阶段的训练:无监督预训练、监督微调(SFT)以及从人类反馈中学习(RLHF/DPO)。值得注意的是,模型在最后阶段接触到负样本——对查询的不正确、被拒绝或次优的响应。本文深入研究了负样本在LLM训练中的作用,在多项选择问答基准上使用似然比(Likra)模型来精确管理负样本的影响和数量。研究结果揭示了三个关键见解:(1)在训练的关键阶段,使用负样本的Likra相比仅使用正样本的SFT,每个训练样本的改进幅度明显更大,导致Likra的学习曲线出现急剧跳跃,而SFT的改进则平滑渐进;(2)看似合理但不正确的负样本(near-misses)影响更大;(3)使用正样本训练未能显著降低看似合理但不正确答案的可能性,而使用负样本训练能更准确地识别它们。这些结果表明,负样本在提高LLM的准确性和减少幻觉方面可能发挥重要作用。

🔬 方法详解

问题定义:现有LLM训练方法主要依赖于正样本,而忽略了负样本(例如,错误答案、被拒绝的回复)在模型学习过程中的作用。现有方法难以有效利用负样本来提升模型的辨别能力,尤其是在区分看似合理但错误的答案方面存在不足。这导致模型在实际应用中容易产生幻觉,即给出看似合理但实际上错误的回答。

核心思路:本文的核心思路是通过引入和精确控制负样本,来提升LLM对错误答案的辨别能力。通过比较使用正样本和负样本训练的模型性能,揭示负样本在提高模型准确性和减少幻觉方面的作用。特别关注那些“near-misses”,即看似合理但不正确的负样本,因为它们对模型的挑战更大。

技术框架:论文使用似然比(Likra)模型作为实验框架。Likra模型允许研究者精确控制正样本和负样本对模型训练的影响。实验在多项选择问答基准上进行,通过比较不同训练策略(仅正样本的SFT与包含负样本的Likra)的学习曲线和性能指标,来评估负样本的作用。

关键创新:该研究的关键创新在于强调了负样本在LLM训练中的重要性,并提供了一种利用Likra模型来精确管理负样本影响的方法。与传统的SFT方法相比,Likra模型能够更有效地利用负样本来提升模型的辨别能力,尤其是在区分“near-misses”方面。

关键设计:实验中,研究者精心设计了负样本的选择策略,包括选择看似合理但不正确的答案作为负样本。通过调整Likra模型的参数,可以控制正样本和负样本对模型训练的相对影响。此外,研究者还分析了不同类型的负样本(例如,随机错误答案与“near-misses”)对模型性能的影响,从而揭示了不同负样本的价值。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,在训练的关键阶段,使用负样本的Likra模型相比仅使用正样本的SFT,每个训练样本的改进幅度明显更大。Likra的学习曲线出现急剧跳跃,而SFT的改进则平滑渐进。此外,研究还发现,看似合理但不正确的负样本(near-misses)对模型的训练影响更大,并且使用负样本训练能更准确地识别这些错误答案。

🎯 应用场景

该研究成果可应用于提升各种LLM在问答、对话等任务中的性能。通过引入负样本训练,可以提高模型的准确性,减少幻觉,从而增强用户体验。此外,该方法还可以用于构建更可靠的AI助手、智能客服等应用,并提升模型在医疗、法律等领域的专业能力。

📄 摘要(原文)

Large language models (LLMs) undergo a three-phase training process: unsupervised pre-training, supervised fine-tuning (SFT), and learning from human feedback (RLHF/DPO). Notably, it is during the final phase that these models are exposed to negative examples -- incorrect, rejected, or suboptimal responses to queries. This paper delves into the role of negative examples in the training of LLMs, using a likelihood-ratio (Likra) model on multiple-choice question answering benchmarks to precisely manage the influence and the volume of negative examples. Our findings reveal three key insights: (1) During a critical phase in training, Likra with negative examples demonstrates a significantly larger improvement per training example compared to SFT using only positive examples. This leads to a sharp jump in the learning curve for Likra unlike the smooth and gradual improvement of SFT; (2) negative examples that are plausible but incorrect (near-misses) exert a greater influence; and (3) while training with positive examples fails to significantly decrease the likelihood of plausible but incorrect answers, training with negative examples more accurately identifies them. These results indicate a potentially significant role for negative examples in improving accuracy and reducing hallucinations for LLMs.