How Much of Your Data Can Suck? Thresholds for Domain Performance and Emergent Misalignment in LLMs

作者: Jian Ouyang, Arman T, Ge Jin

分类: cs.CL

发布日期: 2025-09-13

💡 一句话要点

研究表明：少量错误数据显著降低LLM领域性能，需至少50%正确数据才能恢复。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 监督微调 数据质量 领域性能 模型对齐 错误数据 gpt-4o

📋 核心要点

现有LLM在特定领域微调时，易受错误数据影响，导致性能下降和“突发错位”，产生有害输出。
通过控制微调数据中错误比例，评估gpt-4o在编码、金融、法律和健康领域的性能和安全性。
实验表明，10-25%的错误数据显著降低领域性能，需至少50%正确数据才能恢复，但难以达到原始模型的安全性。

📝 摘要（中文）

本文研究了在监督微调（SFT）期间，不正确数据对大型语言模型（LLM），特别是gpt-4o的性能和安全性的影响。尽管LLM在金融、编码、法律和健康等广泛领域变得越来越重要，但在不正确的数据上进行微调可能导致“突发错位”，产生与预期任务无关的有害或欺骗性输出。我们评估了使用不同比例（10％到90％正确）的明显和微妙的不正确数据在四个领域（编码、金融、健康和法律）上微调的gpt-4o模型。我们的研究结果表明，即使是少量的错误数据（10-25％）也会显着降低领域性能，但不会降低道德对齐。至少需要50％的正确数据才能使模型持续恢复强大的性能，尽管它们很少能与基础模型的鲁棒性和安全性相匹配，基础模型具有近乎完美的对齐和零危险的开箱即用完成。这项研究强调了不正确数据的代价是巨大的，突出了对极高质量数据管理的关键需求，或者，对于高风险应用，利用强大的基础模型而无需不必要的微调。

🔬 方法详解

问题定义：论文旨在研究在监督微调（SFT）过程中，不正确的数据对大型语言模型（LLM）的性能和安全性的影响。现有方法在特定领域微调LLM时，容易受到低质量或错误数据的影响，导致模型性能下降，甚至产生有害或不符合预期的输出，即“突发错位”现象。这种现象在金融、法律、医疗等高风险领域尤为关键，因为错误的输出可能导致严重的后果。

核心思路：论文的核心思路是通过控制微调数据集中错误数据的比例，来系统性地评估错误数据对LLM性能和安全性的影响。通过观察不同错误比例下模型在特定领域的表现，确定一个错误数据比例的阈值，超过该阈值模型性能会显著下降。同时，研究关注模型是否会产生有害或不符合预期的输出，从而评估错误数据对模型对齐的影响。

技术框架：论文的技术框架主要包括以下几个步骤：1) 选择gpt-4o作为基础模型；2) 在四个领域（编码、金融、健康和法律）构建包含不同比例（10%-90%）错误数据的微调数据集；3) 使用这些数据集对gpt-4o进行监督微调；4) 评估微调后模型在各个领域的性能和安全性，包括领域性能指标和有害输出的生成情况；5) 分析错误数据比例与模型性能和安全性之间的关系。

关键创新：论文的关键创新在于系统性地研究了错误数据比例对LLM领域性能和安全性的影响，并量化了错误数据比例的阈值。以往的研究可能关注数据质量对模型性能的影响，但很少有研究如此细致地控制错误数据比例，并将其与模型的“突发错位”现象联系起来。此外，论文还关注了gpt-4o这种先进的LLM在面对错误数据时的表现，具有一定的现实意义。

关键设计：论文的关键设计包括：1) 精心构建包含不同比例错误数据的微调数据集，确保错误数据的多样性和真实性；2) 选择合适的领域性能指标来评估模型在各个领域的表现；3) 设计合理的评估方法来检测模型是否产生有害或不符合预期的输出；4) 采用统计分析方法来分析错误数据比例与模型性能和安全性之间的关系。

📊 实验亮点

实验结果表明，即使是10-25%的错误数据也会显著降低gpt-4o在特定领域的性能。模型需要至少50%的正确数据才能恢复较好的性能，但难以达到原始模型的鲁棒性和安全性。基础模型具有近乎完美的对齐和零危险的开箱即用完成，突显了高质量数据的重要性。

🎯 应用场景

该研究成果可应用于LLM微调的数据质量控制，帮助开发者确定可接受的错误数据比例，避免模型性能下降和安全问题。在高风险领域，如金融、法律和医疗，该研究强调了高质量数据的重要性，并建议在数据质量无法保证的情况下，优先使用鲁棒的基础模型，避免不必要的微调。

📄 摘要（原文）

This paper investigates the impact of incorrect data on the performance and safety of large language models (LLMs), specifically gpt-4o, during supervised fine-tuning (SFT). Although LLMs become increasingly vital across broad domains like finance, coding, law, and health, fine-tuning on incorrect data can lead to "emergent misalignment," producing harmful or deceptive outputs unrelated to the intended task. We evaluate gpt-4o models fine-tuned with varying ratios (10\% to 90\% correct) of both obviously and subtly incorrect data across four domains: coding, finance, health, and legal. Our findings show that even modest amounts of incorrect data (10-25\%) dramatically degrade domain performance and not moral alignment. A clear threshold of at least 50\% correct data is needed for models to consistently recover strong performance, though they rarely match the robustness and safety of the base model, which exhibits near-perfect alignment and zero dangerous completions out-of-the-box. This research emphasizes that the cost of incorrect data is heavy, highlighting the critical need for extremely high-quality data curation or, alternatively, leveraging robust base models without unnecessary fine-tuning for high-stakes applications.

How Much of Your Data Can Suck? Thresholds for Domain Performance and Emergent Misalignment in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册