Do Generalisation Results Generalise?

📄 arXiv: 2512.07832v1 📥 PDF

作者: Matteo Boglioni, Andrea Sgobbi, Gabriel Tavernini, Francesco Rita, Marius Mosbach, Tiago Pimentel

分类: cs.CL, cs.LG

发布日期: 2025-12-08


💡 一句话要点

研究表明大语言模型泛化能力评估结果在不同OOD数据集上不具备一致性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 分布外泛化 OOD泛化 模型评估 偏相关性

📋 核心要点

  1. 现有工作评估LLM泛化能力时,通常只使用单一OOD数据集,无法全面反映模型在真实部署环境中的性能。
  2. 该研究通过在微调过程中,使用多个OOD测试集评估模型性能,并分析它们之间的相关性,以探究泛化结果的一致性。
  3. 实验结果表明,不同OOD测试集上的泛化性能相关性不明显,且依赖于具体的模型选择,揭示了泛化评估的复杂性。

📝 摘要(中文)

大型语言模型(LLM)的分布外(OOD)泛化能力对其部署至关重要。然而,先前评估LLM泛化性能的工作通常只关注单个OOD数据集。这种方法可能无法精确评估模型的能力,因为模型部署后遇到的数据分布偏移更加多样。本文研究了OOD泛化结果是否具有普遍性。更具体地说,我们评估了一个模型在微调过程中在多个OOD测试集上的性能;然后,我们评估这些测试集之间性能的偏相关性,回归掉领域内性能。这使我们能够评估在控制领域内性能后,泛化性能的相关性如何。通过分析OLMo2和OPT,我们观察到泛化结果没有总体趋势:任意两个OOD测试集之间存在正相关还是负相关,很大程度上取决于所分析的具体模型选择。

🔬 方法详解

问题定义:现有评估LLM的OOD泛化能力的方法,通常只依赖于单个OOD数据集。这种做法的痛点在于,真实世界的数据分布偏移是多种多样的,单一数据集的评估结果可能无法代表模型在实际部署中的泛化能力。因此,需要一种更全面的评估方法,能够考察模型在不同OOD数据集上的表现,并分析这些表现之间是否存在一致性。

核心思路:该论文的核心思路是,通过在模型微调过程中,同时在多个OOD测试集上评估模型性能,然后计算这些性能指标之间的偏相关性。具体来说,先回归掉领域内(in-domain)性能的影响,再分析剩余的OOD性能之间的相关性。这样可以更准确地评估模型在不同OOD数据集上的泛化能力是否具有一致性。

技术框架:该研究的技术框架主要包含以下几个步骤: 1. 选择一个预训练语言模型(例如OLMo2或OPT)。 2. 定义一个领域内数据集和一个或多个OOD数据集。 3. 对预训练模型在领域内数据集上进行微调。 4. 在微调的每个阶段,同时在所有OOD数据集上评估模型性能。 5. 计算OOD数据集之间性能的偏相关性,控制领域内性能的影响。 6. 分析偏相关性结果,判断不同OOD数据集上的泛化性能是否具有一致性。

关键创新:该论文的关键创新在于,它提出了一种更全面的OOD泛化能力评估方法,通过同时考察多个OOD数据集,并分析它们之间的相关性,从而更准确地评估模型的泛化能力。与以往只关注单个OOD数据集的方法相比,该方法能够更好地反映模型在真实世界中的泛化表现。

关键设计:该研究的关键设计包括: 1. 使用偏相关性来分析OOD数据集之间的性能关系,从而消除领域内性能的影响。 2. 在模型微调的每个阶段都进行OOD评估,从而观察泛化性能随微调过程的变化。 3. 选择多个不同的OOD数据集,以覆盖更广泛的数据分布偏移类型。 4. 分析了OLMo2和OPT两个不同的模型,以验证结论的普遍性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同OOD测试集上的泛化性能相关性并不显著,且依赖于具体的模型选择。这意味着,在一个OOD数据集上表现良好的模型,在另一个OOD数据集上可能表现不佳。该研究强调了使用多个OOD数据集进行泛化能力评估的重要性。

🎯 应用场景

该研究成果可应用于大语言模型的可靠性评估和选择。通过更全面地评估模型的OOD泛化能力,可以帮助开发者选择更适合特定应用场景的模型,并提高模型在实际部署中的稳定性和可靠性。此外,该研究也为未来研究如何提高LLM的泛化能力提供了新的思路。

📄 摘要(原文)

A large language model's (LLM's) out-of-distribution (OOD) generalisation ability is crucial to its deployment. Previous work assessing LLMs' generalisation performance, however, typically focuses on a single out-of-distribution dataset. This approach may fail to precisely evaluate the capabilities of the model, as the data shifts encountered once a model is deployed are much more diverse. In this work, we investigate whether OOD generalisation results generalise. More specifically, we evaluate a model's performance across multiple OOD testsets throughout a finetuning run; we then evaluate the partial correlation of performances across these testsets, regressing out in-domain performance. This allows us to assess how correlated are generalisation performances once in-domain performance is controlled for. Analysing OLMo2 and OPT, we observe no overarching trend in generalisation results: the existence of a positive or negative correlation between any two OOD testsets depends strongly on the specific choice of model analysed.