MiniMax-01: Scaling Foundation Models with Lightning Attention
作者: MiniMax, Aonian Li, Bangwei Gong, Bo Yang, Boji Shan, Chang Liu, Cheng Zhu, Chunhao Zhang, Congchao Guo, Da Chen, Dong Li, Enwei Jiao, Gengxin Li, Guojun Zhang, Haohai Sun, Houze Dong, Jiadai Zhu, Jiaqi Zhuang, Jiayuan Song, Jin Zhu, Jingtao Han, Jingyang Li, Junbin Xie, Junhao Xu, Junjie Yan, Kaishun Zhang, Kecheng Xiao, Kexi Kang, Le Han, Leyang Wang, Lianfei Yu, Liheng Feng, Lin Zheng, Linbo Chai, Long Xing, Meizhi Ju, Mingyuan Chi, Mozhi Zhang, Peikai Huang, Pengcheng Niu, Pengfei Li, Pengyu Zhao, Qi Yang, Qidi Xu, Qiexiang Wang, Qin Wang, Qiuhui Li, Ruitao Leng, Shengmin Shi, Shuqi Yu, Sichen Li, Songquan Zhu, Tao Huang, Tianrun Liang, Weigao Sun, Weixuan Sun, Weiyu Cheng, Wenkai Li, Xiangjun Song, Xiao Su, Xiaodong Han, Xinjie Zhang, Xinzhu Hou, Xu Min, Xun Zou, Xuyang Shen, Yan Gong, Yingjie Zhu, Yipeng Zhou, Yiran Zhong, Yongyi Hu, Yuanxiang Fan, Yue Yu, Yufeng Yang, Yuhao Li, Yunan Huang, Yunji Li, Yunpeng Huang, Yunzhi Xu, Yuxin Mao, Zehan Li, Zekang Li, Zewei Tao, Zewen Ying, Zhaoyang Cong, Zhen Qin, Zhenhua Fan, Zhihang Yu, Zhuo Jiang, Zijia Wu
分类: cs.CL, cs.CV
发布日期: 2025-01-14
备注: A technical report from MiniMax. The authors are listed in alphabetical order. We open-sourced our MiniMax-01 at https://github.com/MiniMax-AI
💡 一句话要点
MiniMax-01系列模型:通过闪电注意力机制扩展基础模型,实现百万级上下文处理。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本处理 闪电注意力机制 混合专家模型 MoE 上下文窗口扩展 高效训练 大模型
📋 核心要点
- 现有大型语言模型在处理超长上下文时面临计算效率和内存瓶颈,限制了其在需要长程依赖的任务中的应用。
- MiniMax-01系列模型通过引入闪电注意力机制和混合专家系统,并优化并行策略,实现了对超长上下文的高效处理。
- 实验结果表明,MiniMax-01系列模型在长文本处理任务中性能与SOTA模型相当,且上下文窗口长度提升了20-32倍。
📝 摘要(中文)
本文介绍了MiniMax-01系列模型,包括MiniMax-Text-01和MiniMax-VL-01,它们在处理长上下文方面表现出色,可与顶级模型相媲美。核心在于闪电注意力机制及其高效扩展性。为了最大化计算能力,模型集成了混合专家(MoE)结构,包含32个专家,总参数量为4560亿,每个token激活459亿参数。论文还开发了优化的并行策略和高效的计算-通信重叠技术,用于MoE和闪电注意力机制。这种方法使得在数百万token的上下文中,对具有数千亿参数的模型进行高效训练和推理成为可能。MiniMax-Text-01的上下文窗口在训练期间可达100万token,推理期间可扩展到400万token,且成本可承受。视觉语言模型MiniMax-VL-01通过使用5120亿视觉语言token进行持续训练而构建。在标准和内部基准测试上的实验表明,我们的模型在提供20-32倍更长上下文窗口的同时,性能与GPT-4o和Claude-3.5-Sonnet等最先进的模型相匹配。MiniMax-01已公开发布。
🔬 方法详解
问题定义:现有的大型语言模型在处理长文本时,计算复杂度呈平方级增长,导致训练和推理成本过高,难以有效利用长程依赖关系。此外,扩展上下文窗口通常会导致性能下降。因此,如何高效地处理超长上下文,同时保持或提升模型性能,是一个关键问题。
核心思路:MiniMax-01的核心在于闪电注意力机制和混合专家(MoE)架构的结合。闪电注意力旨在降低计算复杂度,使其能够处理更长的上下文。MoE架构通过激活部分专家网络,在不显著增加计算负担的情况下,提升模型容量和性能。
技术框架:MiniMax-01系列模型包括文本模型MiniMax-Text-01和视觉语言模型MiniMax-VL-01。它们都基于Transformer架构,并集成了闪电注意力机制和MoE结构。MiniMax-Text-01主要用于文本处理任务,而MiniMax-VL-01则通过额外的视觉语言数据进行训练,以支持多模态任务。整体流程包括数据预处理、模型训练、评估和推理。
关键创新:最重要的创新点在于闪电注意力机制,它通过某种方式(论文中未详细说明具体实现)降低了注意力计算的复杂度,从而能够处理更长的上下文。此外,优化的并行策略和计算-通信重叠技术,使得MoE架构能够高效地训练和推理。
关键设计:MiniMax-01模型采用了32个专家的MoE架构,总参数量为4560亿,每个token激活459亿参数。MiniMax-Text-01的上下文窗口在训练期间可达100万token,推理期间可扩展到400万token。具体闪电注意力机制的参数设置、损失函数和网络结构等细节,论文中未详细描述。
🖼️ 关键图片
📊 实验亮点
MiniMax-01系列模型在标准和内部基准测试中,性能与GPT-4o和Claude-3.5-Sonnet等最先进的模型相匹配,同时提供了20-32倍更长的上下文窗口。MiniMax-Text-01的上下文窗口在训练期间可达100万token,推理期间可扩展到400万token,且成本可承受。这些结果表明,该模型在处理长文本方面具有显著优势。
🎯 应用场景
MiniMax-01系列模型在需要处理长文本的领域具有广泛的应用前景,例如长篇小说创作、法律文档分析、金融报告解读、科研论文总结等。更长的上下文窗口能够提升模型对复杂逻辑和长程依赖的理解能力,从而提高生成质量和分析准确性。该研究为构建更强大的通用人工智能模型奠定了基础。
📄 摘要(原文)
We introduce MiniMax-01 series, including MiniMax-Text-01 and MiniMax-VL-01, which are comparable to top-tier models while offering superior capabilities in processing longer contexts. The core lies in lightning attention and its efficient scaling. To maximize computational capacity, we integrate it with Mixture of Experts (MoE), creating a model with 32 experts and 456 billion total parameters, of which 45.9 billion are activated for each token. We develop an optimized parallel strategy and highly efficient computation-communication overlap techniques for MoE and lightning attention. This approach enables us to conduct efficient training and inference on models with hundreds of billions of parameters across contexts spanning millions of tokens. The context window of MiniMax-Text-01 can reach up to 1 million tokens during training and extrapolate to 4 million tokens during inference at an affordable cost. Our vision-language model, MiniMax-VL-01 is built through continued training with 512 billion vision-language tokens. Experiments on both standard and in-house benchmarks show that our models match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering 20-32 times longer context window. We publicly release MiniMax-01 at https://github.com/MiniMax-AI.