HRM-Text: Efficient Pretraining Beyond Scaling

作者: Guan Wang, Changling Liu, Chenyu Wang, Cai Zhou, Yuhao Sun, Yifei Wu, Shuai Zhen, Luca Scimeca, Yasin Abbasi Yadkori

分类: cs.CL

发布日期: 2026-05-20

💡 一句话要点

提出HRM-Text，通过层级循环模型和任务驱动预训练，显著降低大语言模型的预训练成本。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 高效预训练 层级循环模型 指令学习 低成本训练

📋 核心要点

现有大语言模型预训练依赖海量数据和算力，成本高昂，阻碍了研究的普及。
HRM-Text采用层级循环模型，解耦计算过程，并结合任务驱动的预训练目标，提升效率。
实验表明，HRM-Text仅用少量数据和算力，即可达到与更大规模模型相当的性能。

📝 摘要（中文）

当前大型语言模型的预训练范式依赖于海量的计算资源和互联网规模的原始文本，这为基础研究设置了巨大的障碍。受生物系统多时间尺度处理（如额顶环的功能组织）高效学习的启发，我们引入了HRM-Text，它用层级循环模型（HRM）取代了标准Transformer，将计算解耦为慢速演化的策略层和快速演化的执行层。为了稳定这种用于语言建模的深度循环，我们引入了MagicNorm和warmup深度信用分配。此外，我们没有采用标准的原始文本预训练，而是完全使用指令-响应对，采用任务完成目标和PrefixLM掩码进行训练。作为一个高效预训练的实证存在证明，一个拥有10亿参数的HRM-Text模型，仅使用400亿个唯一token和1500美元的预算从头开始训练，在MMLU上达到了60.7%，在ARC-C上达到了81.9%，在DROP上达到了82.2%，在GSM8K上达到了84.5%，在MATH上达到了56.2%。尽管使用的训练token数量大约比标准基线少100-900倍，估计的计算量少96-432倍，但HRM-Text的性能与2-7B参数的开放模型相比具有竞争力。这些结果表明，共同设计架构和目标可以从根本上降低计算-性能比，使更广泛的研究社区能够从头开始进行预训练。

🔬 方法详解

问题定义：现有的大型语言模型预训练方法需要消耗大量的计算资源和数据，这使得只有少数机构能够进行相关的研究。这种高昂的成本限制了研究的范围，阻碍了创新。因此，如何降低预训练的成本，使得更多的研究者能够参与到大语言模型的研究中来，是一个重要的挑战。

核心思路：本文的核心思路是借鉴生物系统的多时间尺度处理机制，设计一种新的模型架构和预训练目标，以提高预训练的效率。具体来说，作者提出了层级循环模型（HRM），将计算解耦为慢速演化的策略层和快速演化的执行层，从而模拟生物神经系统的分层处理方式。同时，作者采用任务完成目标和PrefixLM掩码进行训练，使得模型能够更好地学习指令和响应之间的关系。

技术框架：HRM-Text模型的核心是层级循环模型（HRM）。HRM由慢速演化的策略层和快速演化的执行层组成。策略层负责学习长期依赖关系和全局信息，而执行层负责处理局部信息和生成输出。为了稳定深度循环，作者引入了MagicNorm和warmup深度信用分配。预训练过程采用指令-响应对，使用任务完成目标和PrefixLM掩码。

关键创新：本文的关键创新在于提出了层级循环模型（HRM），并将其应用于语言建模。与传统的Transformer模型相比，HRM能够更好地处理长期依赖关系，并且具有更高的计算效率。此外，作者还提出了MagicNorm和warmup深度信用分配，以稳定深度循环的训练。

关键设计：MagicNorm是一种新的归一化方法，旨在稳定深度循环神经网络的训练。Warmup深度信用分配是一种训练策略，通过逐渐增加学习率来避免梯度消失或爆炸的问题。PrefixLM掩码是一种特殊的掩码策略，用于训练模型生成给定前缀的文本。

🖼️ 关键图片

📊 实验亮点

HRM-Text模型仅使用400亿个唯一token和1500美元的预算从头开始训练，在MMLU上达到了60.7%，在ARC-C上达到了81.9%，在DROP上达到了82.2%，在GSM8K上达到了84.5%，在MATH上达到了56.2%。与使用更多数据和算力的传统模型相比，HRM-Text在多个benchmark上表现出竞争优势。

🎯 应用场景

HRM-Text的潜在应用领域包括自然语言处理、机器翻译、文本生成等。该研究的实际价值在于降低了大型语言模型的预训练成本，使得更多的研究者能够参与到相关研究中来。未来，HRM-Text可以被用于构建更加高效和可扩展的语言模型，从而推动人工智能技术的发展。

📄 摘要（原文）

The current pretraining paradigm for large language models relies on massive compute and internet-scale raw text, creating a significant barrier to foundational research. In contrast, biological systems demonstrate highly sample-efficient learning through multi-timescale processing, such as the functional organization of the frontoparietal loop. Taking this as inspiration, we introduce HRM-Text, which replaces standard Transformers with a Hierarchical Recurrent Model (HRM) that decouples computation into slow-evolving strategic and fast-evolving execution layers. To stabilize this deep recurrence for language modeling, we introduce MagicNorm and warmup deep credit assignment. Furthermore, instead of standard raw-text pretraining, we train exclusively on instruction-response pairs using a task-completion objective and PrefixLM masking. Serving as an empirical existence proof of efficient pretraining, a 1B-parameter HRM-Text model trained from scratch on only 40 billion unique tokens and $1,500 budget achieves 60.7% on MMLU, 81.9% on ARC-C, 82.2% on DROP, 84.5% on GSM8K, and 56.2% on MATH. Despite utilizing roughly 100-900x fewer training tokens and 96-432x less estimated compute than standard baselines, HRM-Text performs competitively with 2-7B parameter open models. These results demonstrate that co-designing architectures and objectives can radically reduce the compute-to-performance ratio, making pretraining from scratch accessible to the broader research community.

HRM-Text: Efficient Pretraining Beyond Scaling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理