Motif 2 12.7B technical report

作者: Junghwan Lim, Sungmin Lee, Dongseok Kim, Taehyun Kim, Eunhwan Park, Jeesoo Lee, Jeongdoo Lee, Junhyeok Lee, Wai Ting Cheung, Dahye Choi, Jaeheui Her, Jaeyeon Huh, Hanbin Jung, Changjin Kang, Beomgyu Kim, Minjae Kim, Taewhan Kim, Youngrok Kim, Hyukjin Kweon, Haesol Lee, Kungyu Lee, Dongpin Oh, Yeongjae Park, Bokki Ryu, Dongjoo Weon

分类: cs.CL, cs.AI

发布日期: 2025-11-07

💡 一句话要点

Motif-2-12.7B：结合架构创新与系统优化，提升大语言模型效率前沿。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 效率优化 分组差分注意力 指令泛化 课程学习

📋 核心要点

现有大语言模型在计算资源受限的情况下，难以兼顾模型规模、训练效率和泛化能力。
Motif-2-12.7B通过引入分组差分注意力（GDA）机制，有效分离信号和噪声，提升表征效率。
该模型在5.5万亿tokens上预训练，并采用三阶段微调，在多种基准测试中表现出竞争力。

📝 摘要（中文）

本文介绍了Motif-2-12.7B，一种新的开源权重基础模型，通过结合架构创新和系统级优化，推动了大型语言模型的效率前沿。Motif-2-12.7B旨在在有限的计算预算下实现可扩展的语言理解和强大的指令泛化能力，它在Motif-2.6B的基础上集成了分组差分注意力（GDA），通过解耦信号和噪声控制注意力路径来提高表征效率。该模型在包含语言、数学、科学和编程等不同领域的5.5万亿个tokens上进行预训练，使用课程驱动的数据调度器逐步改变数据组成比例。训练系统利用MuonClip优化器以及定制的高性能内核，包括融合的PolyNorm激活和并行Muon算法，从而在大型分布式环境中显著提高吞吐量和内存效率。后训练采用三阶段监督微调流程，逐步增强通用指令遵循、组合理解和语言精确度。Motif-2-12.7B在各种基准测试中表现出竞争优势，表明周到的架构扩展和优化的训练设计可以匹敌更大模型的能力。

🔬 方法详解

问题定义：现有的大型语言模型通常需要大量的计算资源进行训练和部署，这限制了它们在资源受限环境中的应用。同时，如何在有限的计算预算下，提升模型的语言理解和指令泛化能力是一个关键挑战。现有方法可能在模型效率、训练速度或泛化能力方面存在不足。

核心思路：Motif-2-12.7B的核心思路是通过架构创新和系统级优化，在有限的计算资源下实现高性能。具体而言，引入分组差分注意力（GDA）机制来提高表征效率，并采用定制的高性能内核和优化器来加速训练过程。通过课程学习和三阶段微调，提升模型的泛化能力和指令遵循能力。

技术框架：Motif-2-12.7B的整体框架包括预训练和后训练两个阶段。预训练阶段使用包含语言、数学、科学和编程等不同领域的5.5万亿个tokens进行训练，并采用课程驱动的数据调度器。后训练阶段采用三阶段监督微调流程，依次增强通用指令遵循、组合理解和语言精确度。训练系统使用MuonClip优化器和定制的高性能内核。

关键创新：最重要的技术创新点是分组差分注意力（GDA）机制。GDA通过解耦信号和噪声控制注意力路径，提高了表征效率。与传统的注意力机制相比，GDA能够更有效地提取关键信息，并抑制噪声干扰，从而提升模型的性能。此外，定制的高性能内核（如融合的PolyNorm激活和并行Muon算法）也显著提高了训练效率。

关键设计：在预训练阶段，数据调度器根据课程学习策略，逐步调整不同领域数据的比例。在后训练阶段，三阶段微调分别针对通用指令遵循、组合理解和语言精确度进行优化。MuonClip优化器和定制的高性能内核在保证训练稳定性的同时，提高了训练速度和内存效率。具体的参数设置和损失函数选择未知。

🖼️ 关键图片

📊 实验亮点

Motif-2-12.7B在各种基准测试中表现出与更大模型相媲美的性能，证明了架构创新和优化训练设计的重要性。具体性能数据未知，但摘要强调了其在通用指令遵循、组合理解和语言精确度方面的提升。该模型在有限计算资源下的高效性能是其主要亮点。

🎯 应用场景

Motif-2-12.7B具有广泛的应用前景，包括但不限于：智能助手、机器翻译、文本摘要、代码生成、教育辅导等。该模型可以在资源受限的环境中部署，为移动设备、嵌入式系统等提供强大的语言理解和生成能力。此外，该模型的研究成果可以为未来大语言模型的设计和训练提供有益的参考。

📄 摘要（原文）

We introduce Motif-2-12.7B, a new open-weight foundation model that pushes the efficiency frontier of large language models by combining architectural innovation with system-level optimization. Designed for scalable language understanding and robust instruction generalization under constrained compute budgets, Motif-2-12.7B builds upon Motif-2.6B with the integration of Grouped Differential Attention (GDA), which improves representational efficiency by disentangling signal and noise-control attention pathways. The model is pre-trained on 5.5 trillion tokens spanning diverse linguistic, mathematical, scientific, and programming domains using a curriculum-driven data scheduler that gradually changes the data composition ratio. The training system leverages the MuonClip optimizer alongside custom high-performance kernels, including fused PolyNorm activations and the Parallel Muon algorithm, yielding significant throughput and memory efficiency gains in large-scale distributed environments. Post-training employs a three-stage supervised fine-tuning pipeline that successively enhances general instruction adherence, compositional understanding, and linguistic precision. Motif-2-12.7B demonstrates competitive performance across diverse benchmarks, showing that thoughtful architectural scaling and optimized training design can rival the capabilities of much larger models.

Motif 2 12.7B technical report

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理