Long-Context Aware Upcycling: A New Frontier for Hybrid LLM Scaling

📄 arXiv: 2604.24715v1 📥 PDF

作者: Parsa Ashrafi Fashi, Utkarsh Saxena, Mehdi Rezagholizadeh, Aref Jafari, Akash Haridas, Mingyu Yang, Vansh Bhatia, Guihong Li, Vikram Appia, Emad Barsoum

分类: cs.CL, cs.LG

发布日期: 2026-04-27


💡 一句话要点

HyLo:通过混合架构和长上下文训练,将预训练Transformer LLM升级为长文本模型。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 长文本建模 混合架构 模型升级 线性序列模型 蒸馏训练

📋 核心要点

  1. 现有混合序列模型通常从头开始预训练,无法有效利用已有的Transformer检查点,造成资源浪费。
  2. HyLo通过架构适配、高效模块和蒸馏训练,将预训练Transformer模型转化为混合架构,提升长文本处理能力。
  3. 实验表明,HyLo在保持短文本性能的同时,显著提升了长文本处理能力,并在多个长文本基准测试中超越现有方法。

📝 摘要(中文)

本文提出了一种名为HyLo的方案,旨在将预训练的Transformer LLM升级为混合架构,从而在保持短上下文质量的同时,提升长上下文处理能力。HyLo是一种长上下文升级方法,它结合了架构适配、高效Transformer模块、多头潜在注意力(MLA)和线性模块(Mamba2或Gated DeltaNet),以及分阶段的长上下文训练和教师引导的蒸馏,以实现稳定的优化。HyLo通过高效的后训练将可用上下文长度扩展高达32倍,并将KV缓存内存减少超过90%,从而在vLLM推理栈中实现高达200万token的预填充和解码,而可比的Llama基线在超过64K上下文时会耗尽内存。在1B和3B规模的设置(基于Llama和Qwen的变体)中,HyLo始终如一地提供强大的短上下文和长上下文性能,并且在RULER等长上下文评估中显著优于最先进的升级混合基线。值得注意的是,在相似的规模下,仅在10B token上训练的HyLo-Qwen-1.7B在GSM8K、Lm-Harness常识推理和RULER-64K上显著优于JetNemotron(在400B token上训练)。

🔬 方法详解

问题定义:现有混合序列模型虽然在效率上有所提升,但通常需要从头开始训练,无法充分利用已有的、经过大规模数据训练的Transformer模型。这导致了时间和计算资源的浪费,并且可能无法达到与大型Transformer模型相当的性能。因此,需要一种方法能够将预训练的Transformer模型转化为混合架构,从而继承其在短上下文上的优势,并扩展其长上下文处理能力。

核心思路:HyLo的核心思路是通过“升级”现有的预训练Transformer模型,而不是从头开始训练新的混合模型。具体来说,它通过引入线性序列建模(Linear Sequence Modeling, LSM)模块来增强Transformer模型处理长序列的能力,同时保留Transformer模型在短序列上的优势。这种方法避免了从头训练的需要,并能够利用已有的预训练权重。

技术框架:HyLo的整体框架包括以下几个主要步骤:1) 架构适配:将Transformer模型的部分层替换为混合层,这些混合层包含Transformer模块、多头潜在注意力(MLA)和线性模块(Mamba2或Gated DeltaNet)。2) 分阶段长上下文训练:使用逐步增加的上下文长度对模型进行训练,以提高模型处理长序列的能力。3) 教师引导蒸馏:使用原始的Transformer模型作为教师模型,指导混合模型的训练,以保持短上下文性能。

关键创新:HyLo的关键创新在于其“升级”的思路和混合架构的设计。通过将预训练的Transformer模型转化为混合架构,HyLo能够同时获得Transformer模型在短上下文上的优势和线性序列模型在长上下文上的效率。此外,分阶段长上下文训练和教师引导蒸馏进一步提高了模型的性能和稳定性。

关键设计:HyLo的关键设计包括:1) 混合层:混合层结合了Transformer模块、多头潜在注意力(MLA)和线性模块(Mamba2或Gated DeltaNet),以实现高效的长上下文处理。2) 分阶段长上下文训练:训练过程中逐步增加上下文长度,以避免模型在训练初期遇到过长的序列。3) 教师引导蒸馏:使用原始的Transformer模型作为教师模型,通过最小化混合模型和教师模型的输出差异,来保持短上下文性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HyLo在1B和3B规模的模型上进行了实验,结果表明,HyLo在保持短上下文性能的同时,显著提升了长上下文处理能力。例如,HyLo-Qwen-1.7B在仅使用10B token训练的情况下,在GSM8K、Lm-Harness常识推理和RULER-64K等基准测试中,超越了使用400B token训练的JetNemotron。此外,HyLo能够将KV缓存内存减少超过90%,从而实现高达200万token的预填充和解码。

🎯 应用场景

HyLo具有广泛的应用前景,包括长文本生成、文档摘要、代码生成、对话系统等。通过提升模型处理长上下文的能力,HyLo可以更好地理解和生成复杂的文本,从而提高各种自然语言处理任务的性能。此外,HyLo还可以降低模型推理的计算成本,使其更易于部署在资源受限的环境中。

📄 摘要(原文)

Hybrid sequence models that combine efficient Transformer components with linear sequence modeling blocks are a promising alternative to pure Transformers, but most are still pretrained from scratch and therefore fail to reuse existing Transformer checkpoints. We study upcycling as a practical path to convert pretrained Transformer LLMs into hybrid architectures while preserving short-context quality and improving long-context capability. We call our solution \emph{HyLo} (HYbrid LOng-context): a long-context upcycling recipe that combines architectural adaptation with efficient Transformer blocks, Multi-Head Latent Attention (MLA), and linear blocks (Mamba2 or Gated DeltaNet), together with staged long-context training and teacher-guided distillation for stable optimization. HyLo extends usable context length by up to $32\times$ through efficient post-training and reduces KV-cache memory by more than $90\%$, enabling up to 2M-token prefill and decoding in our \texttt{vLLM} inference stack, while comparable Llama baselines run out of memory beyond 64K context. Across 1B- and 3B-scale settings (Llama- and Qwen-based variants), HyLo delivers consistently strong short- and long-context performance and significantly outperforms state-of-the-art upcycled hybrid baselines on long-context evaluations such as RULER. Notably, at similar scale, HyLo-Qwen-1.7B trained on only 10B tokens significantly outperforms JetNemotron (trained on 400B tokens) on GSM8K, Lm-Harness common sense reasoning and RULER-64K.