Assessing Robustness to Spurious Correlations in Post-Training Language Models

作者: Julia Shuieh, Prasann Singhal, Apaar Shanker, John Heyer, George Pu, Samuel Denton

分类: cs.CL, cs.AI

发布日期: 2025-05-09

备注: ICLR '25 Workshop on Spurious Correlation and Shortcut Learning

💡 一句话要点

评估后训练语言模型对虚假相关性的鲁棒性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 虚假相关性 鲁棒性 后训练 监督微调 偏好优化 泛化能力

📋 核心要点

大型语言模型微调易受训练数据中虚假相关性的影响，导致泛化能力下降。
论文系统评估了SFT、DPO和KTO三种后训练算法在不同虚假相关条件下的鲁棒性。
实验表明，DPO/KTO在数学推理中更鲁棒，而SFT在上下文密集型任务中表现更好。

📝 摘要（中文）

监督微调和基于偏好的微调技术已成为将大型语言模型（LLM）与用户意图和正确性标准对齐的热门方法。然而，真实世界的训练数据通常表现出虚假相关性——源于偏差、数据集伪影或其他“捷径”特征——这会损害模型的性能或泛化能力。在本文中，我们系统地评估了三种后训练算法——监督微调（SFT）、直接偏好优化（DPO）和KTO（Kahneman-Tversky优化）——跨越各种合成任务和虚假条件。我们的任务涵盖数学推理、约束指令遵循和文档基础问答。我们改变了虚假相关性的程度（10% vs. 90%），并研究了两种形式的伪影：“特征模糊性”和“分布狭窄性”。我们的结果表明，模型通常（但并非总是）在高虚假性下性能下降。基于偏好的方法（DPO/KTO）可以在数学推理任务中表现出相对的鲁棒性。相比之下，SFT在复杂的、上下文密集的任务中保持更强的性能。这些发现表明，没有一种后训练策略在所有场景中都普遍优于其他策略；最佳选择取决于目标任务的类型和虚假相关性的性质。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在后训练阶段，由于训练数据中存在的虚假相关性（spurious correlations）而导致的模型泛化能力下降问题。现有的微调方法，如SFT，DPO等，在面对包含偏差、数据集伪影或“捷径”特征的数据时，容易学习到这些虚假相关性，从而在真实场景中表现不佳。

核心思路：论文的核心思路是通过系统性地评估不同的后训练算法（SFT, DPO, KTO）在不同类型的任务和不同程度的虚假相关性下的表现，来揭示各种算法的优缺点。通过对比分析，找出在特定任务和特定类型的虚假相关性下，哪种算法能够更好地抵抗这些虚假相关性的影响，从而提高模型的鲁棒性和泛化能力。

技术框架：论文的整体框架包括以下几个关键部分：1) 构建包含不同程度虚假相关性的合成数据集，涵盖数学推理、约束指令遵循和文档基础问答等任务。2) 使用SFT、DPO和KTO三种后训练算法对LLM进行微调。3) 在测试集上评估模型的性能，并分析不同算法在不同虚假相关性条件下的表现。4) 对比分析实验结果，总结各种算法的优缺点，并给出在不同场景下的算法选择建议。

关键创新：论文的关键创新在于其系统性的评估方法，它不仅考虑了不同类型的任务，还考虑了不同程度和不同类型的虚假相关性（特征模糊性和分布狭窄性）。这种全面的评估方法能够更准确地揭示各种后训练算法的鲁棒性，并为实际应用提供更可靠的指导。此外，论文还对比了SFT和基于偏好的方法（DPO/KTO）在不同任务上的表现差异，揭示了它们各自的优势和劣势。

关键设计：论文的关键设计包括：1) 合成数据集的设计，需要确保包含不同程度和不同类型的虚假相关性，并且能够覆盖各种类型的任务。2) 实验参数的设置，例如学习率、训练轮数等，需要进行仔细的调整，以确保模型能够充分学习。3) 评估指标的选择，需要能够准确地反映模型的性能和鲁棒性。4) 虚假相关性的程度控制，通过调整数据集中虚假特征的比例（10% vs. 90%）来控制虚假相关性的强度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在高虚假相关性下，模型性能通常会下降，但并非总是如此。基于偏好的方法（DPO/KTO）在数学推理任务中表现出相对的鲁棒性，而SFT在复杂的、上下文密集的任务中保持更强的性能。例如，在某些数学推理任务中，DPO相比SFT性能提升了X%（具体数值未知），而在上下文密集型任务中，SFT的性能优于DPO Y%（具体数值未知）。

🎯 应用场景

该研究成果可应用于提升大型语言模型在各种实际场景中的可靠性和泛化能力，尤其是在数据存在偏差或噪声的情况下。例如，在医疗诊断、金融风控等领域，模型需要能够抵抗数据中的虚假相关性，避免做出错误的决策。此外，该研究还可以为后训练算法的选择提供指导，帮助开发者根据具体任务和数据特点选择最合适的算法。

📄 摘要（原文）

Supervised and preference-based fine-tuning techniques have become popular for aligning large language models (LLMs) with user intent and correctness criteria. However, real-world training data often exhibits spurious correlations -- arising from biases, dataset artifacts, or other "shortcut" features -- that can compromise a model's performance or generalization. In this paper, we systematically evaluate three post-training algorithms -- Supervised Fine-Tuning (SFT), Direct Preference Optimization (DPO), and KTO (Kahneman-Tversky Optimization) -- across a diverse set of synthetic tasks and spuriousness conditions. Our tasks span mathematical reasoning, constrained instruction-following, and document-grounded question answering. We vary the degree of spurious correlation (10% vs. 90%) and investigate two forms of artifacts: "Feature Ambiguity" and "Distributional Narrowness." Our results show that the models often but not always degrade under higher spuriousness. The preference-based methods (DPO/KTO) can demonstrate relative robustness in mathematical reasoning tasks. By contrast, SFT maintains stronger performance in complex, context-intensive tasks. These findings highlight that no single post-training strategy universally outperforms in all scenarios; the best choice depends on the type of target task and the nature of spurious correlations.

Assessing Robustness to Spurious Correlations in Post-Training Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理