How Much of Your Data Can Suck? Thresholds for Domain Performance and Emergent Misalignment in LLMs

作者: Jian Ouyang, Arman T, Ge Jin

分类: cs.CL

发布日期: 2025-09-13

💡 一句话要点

研究表明：少量错误数据显著降低LLM领域性能并引发潜在风险

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 监督微调 错误数据 领域性能 模型安全性

📋 核心要点

现有LLM在特定领域微调时，易受错误数据影响，导致性能下降和潜在风险。
通过控制错误数据比例微调gpt-4o，评估其在编码、金融、法律和健康领域的性能变化。
实验表明，即使10-25%的错误数据也会显著降低模型性能，需至少50%正确数据才能恢复。

📝 摘要（中文）

本文研究了在监督微调（SFT）期间，错误数据对大型语言模型（LLM），特别是gpt-4o的性能和安全性的影响。尽管LLM在金融、编码、法律和健康等广泛领域变得越来越重要，但在不正确的数据上进行微调可能导致“突发错位”，产生与预期任务无关的有害或欺骗性输出。我们评估了使用不同比例（10％到90％正确）的明显和微妙的错误数据微调的gpt-4o模型，这些数据涵盖四个领域：编码、金融、健康和法律。我们的研究结果表明，即使是少量的错误数据（10-25％）也会显着降低领域性能，但不会降低道德一致性。至少需要50％的正确数据，模型才能持续恢复强大的性能，但它们很少能与基础模型的鲁棒性和安全性相匹配，基础模型具有近乎完美的一致性，并且开箱即用，没有危险的补全。这项研究强调了错误数据的代价是巨大的，突出了对极高质量数据管理的关键需求，或者，在高风险应用中，利用强大的基础模型，而无需不必要的微调。

🔬 方法详解

问题定义：论文旨在研究在监督微调（SFT）过程中，错误数据对大型语言模型（LLM）的性能和安全性的影响。现有方法在特定领域微调LLM时，对数据质量的关注不足，容易受到错误数据的干扰，导致模型性能下降，甚至产生有害或欺骗性的输出，即“突发错位”现象。

核心思路：论文的核心思路是通过控制微调数据集中错误数据的比例，来评估LLM在不同领域（编码、金融、法律、健康）的性能变化。通过观察模型在不同错误数据比例下的表现，确定一个错误数据比例的阈值，超过该阈值，模型性能会显著下降。同时，考察模型是否会产生有害或欺骗性的输出，评估其安全性。

技术框架：论文的技术框架主要包括以下几个步骤：1. 选择gpt-4o作为基础模型。2. 构建包含正确和错误数据的混合数据集，错误数据比例从10%到90%不等。3. 在不同领域（编码、金融、法律、健康）上，使用不同错误数据比例的数据集对gpt-4o进行监督微调（SFT）。4. 评估微调后的模型在领域性能和安全性方面的表现。领域性能通过特定领域的任务完成度来衡量，安全性通过检查模型是否产生有害或欺骗性的输出来评估。

关键创新：论文的关键创新在于系统性地研究了错误数据对LLM领域性能和安全性的影响，并量化了错误数据比例与模型性能之间的关系。以往的研究较少关注错误数据对LLM的负面影响，而本文通过实验揭示了即使是少量的错误数据也会显著降低模型性能，并可能导致“突发错位”现象。

关键设计：论文的关键设计包括：1. 选取gpt-4o作为基础模型，因为它是一个强大的LLM，具有良好的通用性能。2. 构建包含明显和微妙错误的混合数据集，以模拟真实世界中数据质量的多样性。3. 在四个不同的领域进行实验，以评估模型在不同领域的鲁棒性。4. 使用领域特定的评估指标来衡量模型性能，并人工检查模型输出的安全性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使10-25%的错误数据也会显著降低gpt-4o在特定领域的性能。模型需要至少50%的正确数据才能恢复较好的性能，但仍难以达到基础模型的鲁棒性和安全性。基础模型具有近乎完美的一致性，且开箱即用时没有危险的补全。

🎯 应用场景

该研究成果可应用于对数据质量要求极高的领域，如金融、医疗、法律等。通过了解错误数据对LLM性能的影响，可以指导数据清洗和标注工作，提高模型在特定领域的准确性和可靠性。此外，该研究也提醒开发者，在高风险应用中，应谨慎使用微调，优先考虑使用鲁棒性强的基础模型。

📄 摘要（原文）

This paper investigates the impact of incorrect data on the performance and safety of large language models (LLMs), specifically gpt-4o, during supervised fine-tuning (SFT). Although LLMs become increasingly vital across broad domains like finance, coding, law, and health, fine-tuning on incorrect data can lead to "emergent misalignment," producing harmful or deceptive outputs unrelated to the intended task. We evaluate gpt-4o models fine-tuned with varying ratios (10\% to 90\% correct) of both obviously and subtly incorrect data across four domains: coding, finance, health, and legal. Our findings show that even modest amounts of incorrect data (10-25\%) dramatically degrade domain performance and not moral alignment. A clear threshold of at least 50\% correct data is needed for models to consistently recover strong performance, though they rarely match the robustness and safety of the base model, which exhibits near-perfect alignment and zero dangerous completions out-of-the-box. This research emphasizes that the cost of incorrect data is heavy, highlighting the critical need for extremely high-quality data curation or, alternatively, leveraging robust base models without unnecessary fine-tuning for high-stakes applications.

How Much of Your Data Can Suck? Thresholds for Domain Performance and Emergent Misalignment in LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理