How much do LLMs learn from negative examples?

作者: Shadi Hamdan, Deniz Yuret

分类: cs.CL

发布日期: 2025-03-18

备注: 8 pages, 6 figures

💡 一句话要点

研究表明负样本训练能显著提升LLM在问答任务中的准确性和减少幻觉

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 负样本学习 监督微调 似然比模型 问答系统 幻觉减少 Near-misses 模型训练

📋 核心要点

现有LLM训练主要依赖正样本，忽略了负样本在提升模型性能方面的潜力。
论文提出使用似然比（Likra）模型，通过精确控制负样本的影响和数量来研究其作用。
实验表明，负样本训练能显著提升模型在问答任务中的准确性，并减少幻觉。

📝 摘要（中文）

大型语言模型（LLM）经历三个阶段的训练：无监督预训练、监督微调（SFT）以及从人类反馈中学习（RLHF/DPO）。值得注意的是，模型在最后阶段接触到负样本——对查询的不正确、被拒绝或次优的响应。本文深入研究了负样本在LLM训练中的作用，在多项选择问答基准上使用似然比（Likra）模型来精确管理负样本的影响和数量。研究结果揭示了三个关键见解：（1）在训练的关键阶段，使用负样本的Likra相比仅使用正样本的SFT，每个训练样本的改进幅度明显更大，导致Likra的学习曲线出现急剧跳跃，而SFT的改进则平滑渐进；（2）看似合理但不正确的负样本（near-misses）影响更大；（3）使用正样本训练未能显著降低看似合理但不正确答案的可能性，而使用负样本训练能更准确地识别它们。这些结果表明，负样本在提高LLM的准确性和减少幻觉方面可能发挥重要作用。

🔬 方法详解

问题定义：现有LLM训练方法主要依赖于正样本，而忽略了负样本（例如，错误答案、被拒绝的回复）在模型学习过程中的作用。现有方法难以有效利用负样本来提升模型的辨别能力，尤其是在区分看似合理但错误的答案方面存在不足。这导致模型在实际应用中容易产生幻觉，即给出看似合理但实际上错误的回答。

核心思路：本文的核心思路是通过引入和精确控制负样本，来提升LLM对错误答案的辨别能力。通过比较使用正样本和负样本训练的模型性能，揭示负样本在提高模型准确性和减少幻觉方面的作用。特别关注那些“near-misses”，即看似合理但不正确的负样本，因为它们对模型的挑战更大。

技术框架：论文使用似然比（Likra）模型作为实验框架。Likra模型允许研究者精确控制正样本和负样本对模型训练的影响。实验在多项选择问答基准上进行，通过比较不同训练策略（仅正样本的SFT与包含负样本的Likra）的学习曲线和性能指标，来评估负样本的作用。

关键创新：该研究的关键创新在于强调了负样本在LLM训练中的重要性，并提供了一种利用Likra模型来精确管理负样本影响的方法。与传统的SFT方法相比，Likra模型能够更有效地利用负样本来提升模型的辨别能力，尤其是在区分“near-misses”方面。

关键设计：实验中，研究者精心设计了负样本的选择策略，包括选择看似合理但不正确的答案作为负样本。通过调整Likra模型的参数，可以控制正样本和负样本对模型训练的相对影响。此外，研究者还分析了不同类型的负样本（例如，随机错误答案与“near-misses”）对模型性能的影响，从而揭示了不同负样本的价值。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在训练的关键阶段，使用负样本的Likra模型相比仅使用正样本的SFT，每个训练样本的改进幅度明显更大。Likra的学习曲线出现急剧跳跃，而SFT的改进则平滑渐进。此外，研究还发现，看似合理但不正确的负样本（near-misses）对模型的训练影响更大，并且使用负样本训练能更准确地识别这些错误答案。

🎯 应用场景

该研究成果可应用于提升各种LLM在问答、对话等任务中的性能。通过引入负样本训练，可以提高模型的准确性，减少幻觉，从而增强用户体验。此外，该方法还可以用于构建更可靠的AI助手、智能客服等应用，并提升模型在医疗、法律等领域的专业能力。

📄 摘要（原文）

Large language models (LLMs) undergo a three-phase training process: unsupervised pre-training, supervised fine-tuning (SFT), and learning from human feedback (RLHF/DPO). Notably, it is during the final phase that these models are exposed to negative examples -- incorrect, rejected, or suboptimal responses to queries. This paper delves into the role of negative examples in the training of LLMs, using a likelihood-ratio (Likra) model on multiple-choice question answering benchmarks to precisely manage the influence and the volume of negative examples. Our findings reveal three key insights: (1) During a critical phase in training, Likra with negative examples demonstrates a significantly larger improvement per training example compared to SFT using only positive examples. This leads to a sharp jump in the learning curve for Likra unlike the smooth and gradual improvement of SFT; (2) negative examples that are plausible but incorrect (near-misses) exert a greater influence; and (3) while training with positive examples fails to significantly decrease the likelihood of plausible but incorrect answers, training with negative examples more accurately identifies them. These results indicate a potentially significant role for negative examples in improving accuracy and reducing hallucinations for LLMs.

How much do LLMs learn from negative examples?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理