Do Generalisation Results Generalise?

作者: Matteo Boglioni, Andrea Sgobbi, Gabriel Tavernini, Francesco Rita, Marius Mosbach, Tiago Pimentel

分类: cs.CL, cs.LG

发布日期: 2025-12-08

💡 一句话要点

研究表明大语言模型泛化能力评估结果在不同OOD数据集上不具备一致性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 分布外泛化 OOD泛化 模型评估 偏相关性

📋 核心要点

现有工作评估LLM泛化能力时，通常只使用单一OOD数据集，无法全面反映模型在真实部署环境中的性能。
该研究通过在微调过程中，使用多个OOD测试集评估模型性能，并分析它们之间的相关性，以探究泛化结果的一致性。
实验结果表明，不同OOD测试集上的泛化性能相关性不明显，且依赖于具体的模型选择，揭示了泛化评估的复杂性。

📝 摘要（中文）

大型语言模型(LLM)的分布外(OOD)泛化能力对其部署至关重要。然而，先前评估LLM泛化性能的工作通常只关注单个OOD数据集。这种方法可能无法精确评估模型的能力，因为模型部署后遇到的数据分布偏移更加多样。本文研究了OOD泛化结果是否具有普遍性。更具体地说，我们评估了一个模型在微调过程中在多个OOD测试集上的性能；然后，我们评估这些测试集之间性能的偏相关性，回归掉领域内性能。这使我们能够评估在控制领域内性能后，泛化性能的相关性如何。通过分析OLMo2和OPT，我们观察到泛化结果没有总体趋势：任意两个OOD测试集之间存在正相关还是负相关，很大程度上取决于所分析的具体模型选择。

🔬 方法详解

问题定义：现有评估LLM的OOD泛化能力的方法，通常只依赖于单个OOD数据集。这种做法的痛点在于，真实世界的数据分布偏移是多种多样的，单一数据集的评估结果可能无法代表模型在实际部署中的泛化能力。因此，需要一种更全面的评估方法，能够考察模型在不同OOD数据集上的表现，并分析这些表现之间是否存在一致性。

核心思路：该论文的核心思路是，通过在模型微调过程中，同时在多个OOD测试集上评估模型性能，然后计算这些性能指标之间的偏相关性。具体来说，先回归掉领域内（in-domain）性能的影响，再分析剩余的OOD性能之间的相关性。这样可以更准确地评估模型在不同OOD数据集上的泛化能力是否具有一致性。

技术框架：该研究的技术框架主要包含以下几个步骤： 1. 选择一个预训练语言模型（例如OLMo2或OPT）。 2. 定义一个领域内数据集和一个或多个OOD数据集。 3. 对预训练模型在领域内数据集上进行微调。 4. 在微调的每个阶段，同时在所有OOD数据集上评估模型性能。 5. 计算OOD数据集之间性能的偏相关性，控制领域内性能的影响。 6. 分析偏相关性结果，判断不同OOD数据集上的泛化性能是否具有一致性。

关键创新：该论文的关键创新在于，它提出了一种更全面的OOD泛化能力评估方法，通过同时考察多个OOD数据集，并分析它们之间的相关性，从而更准确地评估模型的泛化能力。与以往只关注单个OOD数据集的方法相比，该方法能够更好地反映模型在真实世界中的泛化表现。

关键设计：该研究的关键设计包括： 1. 使用偏相关性来分析OOD数据集之间的性能关系，从而消除领域内性能的影响。 2. 在模型微调的每个阶段都进行OOD评估，从而观察泛化性能随微调过程的变化。 3. 选择多个不同的OOD数据集，以覆盖更广泛的数据分布偏移类型。 4. 分析了OLMo2和OPT两个不同的模型，以验证结论的普遍性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，不同OOD测试集上的泛化性能相关性并不显著，且依赖于具体的模型选择。这意味着，在一个OOD数据集上表现良好的模型，在另一个OOD数据集上可能表现不佳。该研究强调了使用多个OOD数据集进行泛化能力评估的重要性。

🎯 应用场景

该研究成果可应用于大语言模型的可靠性评估和选择。通过更全面地评估模型的OOD泛化能力，可以帮助开发者选择更适合特定应用场景的模型，并提高模型在实际部署中的稳定性和可靠性。此外，该研究也为未来研究如何提高LLM的泛化能力提供了新的思路。

📄 摘要（原文）

A large language model's (LLM's) out-of-distribution (OOD) generalisation ability is crucial to its deployment. Previous work assessing LLMs' generalisation performance, however, typically focuses on a single out-of-distribution dataset. This approach may fail to precisely evaluate the capabilities of the model, as the data shifts encountered once a model is deployed are much more diverse. In this work, we investigate whether OOD generalisation results generalise. More specifically, we evaluate a model's performance across multiple OOD testsets throughout a finetuning run; we then evaluate the partial correlation of performances across these testsets, regressing out in-domain performance. This allows us to assess how correlated are generalisation performances once in-domain performance is controlled for. Analysing OLMo2 and OPT, we observe no overarching trend in generalisation results: the existence of a positive or negative correlation between any two OOD testsets depends strongly on the specific choice of model analysed.

Do Generalisation Results Generalise?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理