On Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Length

作者: Sunghwan Kim, Junhee Cho, Beong-woo Kwak, Taeyoon Kwon, Liang Wang, Nan Yang, Xingxing Zhang, Furu Wei, Jinyoung Yeo

分类: cs.AI, cs.LG

发布日期: 2026-05-04

备注: Accepted to ICML 2026

💡 一句话要点

研究长程任务中LLM训练，揭示任务长度对训练稳定性和泛化性的影响

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 长程任务 任务长度 训练稳定性 泛化能力

📋 核心要点

现有研究对LLM在长程任务中的训练动态理解不足，尤其缺乏对任务长度影响的系统性分析。
该研究通过构建受控任务，着重考察任务长度对LLM训练稳定性和泛化能力的影响。
实验表明，增加任务长度会导致训练不稳定，而缩短任务长度能提升训练效果和泛化能力。

📝 摘要（中文）

大型语言模型(LLM)作为交互式智能体，通过与环境的扩展序列交互来解决任务，展现出巨大潜力。然而，以往工作主要集中在系统级优化或算法改进上，对任务长度在塑造训练动态中的作用仍然缺乏深入理解。本文通过受控的任务构建，对任务长度进行了系统的实证研究。具体而言，我们构建了受控任务，其中智能体面临相同的决策规则和推理结构，但完成任务所需的动作序列长度不同。结果表明，仅增加任务长度就会构成训练瓶颈，导致由探索困难和信用分配挑战引起的严重训练不稳定。我们证明了缩短任务长度是解决此限制的关键原则，可以稳定训练并在长程任务中获得更好的性能。此外，我们发现缩短任务长度与跨任务长度的更强泛化能力相关：在缩短的任务长度下训练的模型在推理时能更有效地泛化到更长的任务长度变体，我们称之为任务长度泛化。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在长程任务训练中遇到的困难，特别是当任务所需的动作序列长度增加时，训练过程变得不稳定，难以有效学习。现有方法主要集中在系统优化和算法改进上，忽略了任务长度本身对训练动态的影响。这种忽略导致模型在长程任务中表现不佳，泛化能力受限。

核心思路：论文的核心思路是研究任务长度对LLM训练的影响，并提出缩短任务长度作为一种稳定训练和提升泛化能力的方法。通过控制任务的决策规则和推理结构，只改变动作序列的长度，从而隔离任务长度的影响。研究发现，缩短任务长度可以缓解探索困难和信用分配挑战，从而稳定训练过程。

技术框架：该研究采用受控任务构建方法，创建了一系列任务，这些任务具有相同的决策规则和推理结构，但完成任务所需的动作序列长度不同。LLM作为智能体与这些任务环境交互，通过强化学习或模仿学习进行训练。研究人员监控训练过程中的各项指标，如奖励、损失等，以评估任务长度对训练动态的影响。

关键创新：该研究的关键创新在于揭示了任务长度是影响LLM在长程任务中训练的关键因素，并提出了缩短任务长度作为一种有效的解决方案。此外，研究还发现了任务长度泛化现象，即在缩短的任务长度下训练的模型能够更好地泛化到更长的任务长度变体。

关键设计：论文设计了一系列受控任务，通过改变任务的horizon length来控制任务的长度。具体的任务类型和环境细节在论文中没有详细描述，属于未知信息。损失函数和网络结构的选择取决于具体的LLM架构和训练方法，论文中没有明确指定。

🖼️ 关键图片

📊 实验亮点

实验结果表明，增加任务长度会导致训练不稳定，而缩短任务长度可以显著提高训练的稳定性和性能。更重要的是，在缩短的任务长度下训练的模型能够更好地泛化到更长的任务长度变体，展现出更强的泛化能力。具体的性能提升数据和对比基线在论文中没有明确给出，属于未知信息。

🎯 应用场景

该研究成果可应用于各种需要LLM作为智能体与环境交互的长程任务，例如机器人控制、游戏AI、对话系统等。通过缩短训练任务的长度，可以显著提高LLM的训练效率和性能，降低训练成本。此外，任务长度泛化能力有助于模型在不同复杂度的任务中保持良好的表现，提升模型的鲁棒性和适应性。

📄 摘要（原文）

Large language models (LLMs) have shown promise as interactive agents that solve tasks through extended sequences of environment interactions. While prior work has primarily focused on system-level optimizations or algorithmic improvements, the role of task horizon length in shaping training dynamics remains poorly understood. In this work, we present a systematic empirical study that examines horizon length through controlled task constructions. Specifically, we construct controlled tasks in which agents face identical decision rules and reasoning structures, but differ only in the length of action sequences required for successful completion. Our results reveal that increasing horizon length alone constitutes a training bottleneck, inducing severe training instability driven by exploration difficulties and credit assignment challenges. We demonstrate that horizon reduction is a key principle to address this limitation, stabilizing training and achieving better performance in long-horizon tasks. Moreover, we find that horizon reduction is related to stronger generalization across horizon lengths: models trained under reduced horizons generalize more effectively to longer-horizon variants at inference time, a phenomenon we refer to as horizon generalization.

On Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Length

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理