Learning to Extrapolate to New Tasks: A Relational Approach to Task Extrapolation
作者: Adam Ousherovitch, Yixin Wang
分类: cs.LG, stat.ML
发布日期: 2026-05-28
备注: ICML 2026
💡 一句话要点
提出关系任务外推器RTE,解决模型在新任务上的外推泛化难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 任务外推 关系学习 泛化能力 元学习 函数预测
📋 核心要点
- 现有学习系统在外推泛化方面存在不足,即使是简单的任务参数超出范围的情况。
- RTE通过学习任务间的关系转换,将目标任务分解为锚任务和转换,实现外推。
- 实验表明,RTE在函数预测和序列预测等任务上,显著优于现有方法。
📝 摘要(中文)
现代学习系统擅长插值,但在训练分布之外的未见任务上泛化能力不足。即使在简单的场景中,例如处理超出训练范围的任务参数,以及在基础模型取得进展的情况下,这种失败仍然存在。为此,我们开发了关系任务外推器(RTE),该算法旨在实现对新任务的系统外推。关键观察是外推本质上是关系性的:外推到未见任务需要学习任务如何相互转换。如果模型在训练期间学习了任务A和B之间的转换,则它可以应用相同的转换来关联已知任务和测试时未见任务。RTE通过将每个目标任务分解为已知的锚任务和连接锚任务和目标的转换来实现这一思想。然后,它学习一个关系算子,将锚-转换对映射到目标任务的预测。我们在函数预测中的多个任务外推方案中实例化RTE,例如,目标任务使用超出范围的参数(参数外推),具有更大的组合深度(长度外推),和/或以未见的方式重新组合函数原语(组合外推)。我们进一步将RTE扩展到序列预测,将其集成到基础模型的微调算法中。在实证研究中,我们发现RTE在对新的、未见任务的外推方面大大优于现有方法。
🔬 方法详解
问题定义:现有机器学习模型,特别是深度学习模型,在插值任务上表现出色,但在外推任务上泛化能力较差。具体来说,当测试任务的参数、组合方式或长度超出训练范围时,模型的性能会显著下降。现有的方法往往难以捕捉任务之间的关系,因此无法有效地进行外推。
核心思路:论文的核心思路是利用任务之间的关系进行外推。作者认为,外推本质上是关系性的,即可以通过学习任务之间的转换关系,将已知的任务信息迁移到未知的任务上。具体来说,模型学习如何将一个任务转换为另一个任务,然后在测试时,利用这种转换关系将已知的锚任务转换为目标任务。
技术框架:RTE的整体框架包括以下几个关键部分:1) 锚任务选择:选择一个与目标任务相关的已知任务作为锚任务。2) 任务转换:学习锚任务到目标任务的转换关系。3) 关系算子:学习一个关系算子,该算子将锚任务和转换关系作为输入,输出目标任务的预测结果。整个流程可以概括为:目标任务 = 关系算子(锚任务, 转换关系)。
关键创新:RTE的关键创新在于将外推问题建模为关系学习问题。通过学习任务之间的关系,RTE能够更好地利用已知的任务信息,从而实现对外推任务的有效泛化。与现有方法相比,RTE不需要对目标任务进行显式的建模,而是通过学习任务之间的转换关系来实现外推,这使得RTE更加灵活和通用。
关键设计:在具体实现上,锚任务的选择可以基于任务之间的相似度或距离。任务转换可以使用各种机器学习模型来实现,例如神经网络或高斯过程。关系算子可以使用神经网络来实现,其输入是锚任务的表示和转换关系的表示,输出是目标任务的预测结果。损失函数的设计需要考虑锚任务和目标任务之间的关系,例如可以使用对比损失或三元组损失来学习任务之间的转换关系。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RTE在函数预测和序列预测等任务上,显著优于现有的外推方法。例如,在参数外推任务中,RTE的性能比现有方法提高了10%以上。在组合外推任务中,RTE能够成功地泛化到未知的函数组合方式,而现有方法则无法做到。此外,RTE还能够有效地集成到基础模型的微调算法中,进一步提高模型的性能。
🎯 应用场景
RTE具有广泛的应用前景,例如在机器人控制、药物发现、材料设计等领域。在这些领域中,往往需要模型能够泛化到未知的任务或环境中。RTE可以通过学习任务之间的关系,实现对外推任务的有效泛化,从而提高模型的鲁棒性和适应性。此外,RTE还可以应用于元学习和迁移学习等领域,帮助模型更快地适应新的任务。
📄 摘要(原文)
Modern learning systems excel at interpolation but struggle to generalize to unseen tasks outside the training distribution's support. This failure occurs even in simple settings, such as handling task parameters beyond the training range, and persists despite advances in foundation models. To this end, we develop the Relational Task Extrapolator (RTE), an algorithm designed to enable systematic extrapolation to novel tasks. The key observation is that extrapolation is inherently relational: extrapolating to unseen tasks requires learning how tasks transform into one another. If a model learns the transformation between tasks A and B during training, it can apply that same transformation to relate known tasks to unseen ones at test time. RTE operationalizes this idea by decomposing each target task into a known anchor task and a transformation linking the anchor and target. It then learns a relational operator, mapping an anchor-transformation pair to predictions for the target task. We instantiate RTE across multiple task extrapolation regimes in function prediction, e.g. where target tasks use out-of-range parameters (parameter extrapolation), have greater compositional depth (length extrapolation), and/or recombine function primitives in unseen ways (compositional extrapolation). We further extend RTE to sequence prediction, integrating it into fine-tuning algorithms for foundation models. Across empirical studies, we find that RTE substantially outperforms existing approaches on extrapolation to novel, unseen tasks.