xGen-small Technical Report

📄 arXiv: 2505.06496v1 📥 PDF

作者: Erik Nijkamp, Bo Pang, Egor Pakhomov, Akash Gokul, Jin Qu, Silvio Savarese, Yingbo Zhou, Caiming Xiong

分类: cs.CL, cs.AI

发布日期: 2025-05-10


💡 一句话要点

xGen-small:面向长文本应用的4B/9B Transformer解码器模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 长文本建模 Transformer解码器 预训练语言模型 监督微调 强化学习 数学推理 代码生成

📋 核心要点

  1. 现有模型在处理长文本时面临效率和性能的挑战,尤其是在数学和编码等领域。
  2. xGen-small通过领域平衡的数据、多阶段预训练和针对性后训练,优化了长文本处理能力。
  3. 实验表明,xGen-small在数学、编码和长文本基准测试中表现出色,验证了其有效性。

📝 摘要(中文)

本文介绍了xGen-small,一个包含40亿和90亿参数的Transformer解码器模型家族,专门为长上下文应用进行了优化。该模型采用垂直整合的流程,包括领域平衡和频率感知的数据整理;通过质量退火和长度扩展到128k tokens的多阶段预训练;以及通过监督微调、偏好学习和在线强化学习进行有针对性的后训练。xGen-small在各种任务中表现出色,尤其是在数学和编码领域,同时在长上下文基准测试中表现突出。

🔬 方法详解

问题定义:现有的大语言模型在处理长文本时,往往面临计算资源消耗大、信息利用率低等问题。尤其是在需要长程依赖的数学和编码任务中,模型的性能会显著下降。因此,如何高效地训练和部署能够处理长文本的大语言模型是一个重要的研究问题。

核心思路:xGen-small的核心思路是通过精心设计的数据处理流程和训练策略,提升模型在长文本上的性能。具体来说,包括领域平衡的数据选择、频率感知的采样、多阶段预训练以及针对性的后训练。这种垂直整合的pipeline旨在让模型更好地理解和利用长文本中的信息。

技术框架:xGen-small的训练流程主要分为三个阶段:预训练、监督微调和强化学习。预训练阶段采用多阶段策略,首先使用较短的序列长度进行训练,然后逐步扩展到128k tokens。监督微调阶段使用标注数据进行训练,以提升模型在特定任务上的性能。最后,使用偏好学习和在线强化学习进一步优化模型的生成质量。

关键创新:xGen-small的关键创新在于其垂直整合的训练pipeline,该pipeline结合了多种技术来提升模型在长文本上的性能。例如,频率感知的数据采样可以更好地平衡不同token的出现频率,从而提升模型的泛化能力。此外,多阶段预训练和针对性的后训练可以更好地利用数据,提升模型的性能。

关键设计:在预训练阶段,xGen-small采用了质量退火策略,即在训练初期使用较高质量的数据,然后逐步降低数据质量。这种策略可以帮助模型更快地学习到有用的信息。此外,模型还使用了长度扩展技术,即逐步增加序列长度,从而提升模型处理长文本的能力。在后训练阶段,模型使用了监督微调、偏好学习和在线强化学习等技术,以进一步优化模型的性能。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

xGen-small在长上下文基准测试中表现出色,证明了其在处理长文本方面的优势。尤其是在数学和编码领域,xGen-small取得了显著的性能提升。具体的数据指标和与其他模型的对比结果(具体数值未知)将在论文中详细展示,以进一步验证xGen-small的有效性。

🎯 应用场景

xGen-small在数学、编码、文档处理、信息检索等领域具有广泛的应用前景。它可以用于自动代码生成、数学问题求解、长文本摘要、知识库问答等任务。该研究的成果有助于提升人工智能在处理复杂长文本任务中的能力,并为未来的长文本模型研究提供借鉴。

📄 摘要(原文)

We introduce xGen-small, a family of 4B and 9B Transformer decoder models optimized for long-context applications. Our vertically integrated pipeline unites domain-balanced, frequency-aware data curation; multi-stage pre-training with quality annealing and length extension to 128k tokens; and targeted post-training via supervised fine-tuning, preference learning, and online reinforcement learning. xGen-small delivers strong performance across various tasks, especially in math and coding domains, while excelling at long context benchmarks.