JoyAI-LLM Flash: Advancing Mid-Scale LLMs with Token Efficiency

📄 arXiv: 2604.03044 📥 PDF

作者: Aichen Cai, Anmeng Zhang, Anyu Li, Bo Zhang, Bohua Cai, Chang Li, Changjian Jiang, Changkai Lu, Chao Xue, Chaocai Liang, Cheng Zhang, Dongkai Liu, Fei Wang, Guoqiang Huang, Haijian Ke, Han Lin, Hao Wang, Ji Miao, Jiacheng Zhang, Jialong Shi, Jifeng Zhu, Jingjing Qian, Junhui Luo, Junwu Xiong, Lam So, Liang Huang, Ming Ke, Mingyang Li, Panfeng Shi, Peng Hao, Qi Wang, Qian Lai, Qiaoqiao Yuan, Qingyu Yin, Qiong Cao, Qixiang Wang, Rongcheng Bian, Rongduo Han, Shaoqiang Zheng, Shi Hu, Shi Suo, Shijie Ren, Shijin Zhang, Shiying Fan, Shuai Xie, Tianyi Zhang, Wei Liu, Wentao Tan, Xianghan Meng, Xiaodong He, Xing Pan, Xiran Wang, Xuyang Peng, Ya Zhang, Yang Liu, Yangyang Duan, Yanxu Chen, Yicheng Gong, Yidan Huang, Yifei Liu, Yinhao Bai, Yongqiang Liu, Yuesong Zhang, Yuqi Zhang, Zerui Xie, Zhenfang Wang, Zhennan Shen, Zheyuan Liu, Zhuwei Zeng

分类: cs.CL, cs.AI

发布日期: 2026-04-06


💡 一句话要点

JoyAI-LLM Flash:通过Token效率提升中等规模LLM性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 混合专家模型 Token效率 强化学习 FiberPO 量化感知训练

📋 核心要点

  1. 现有中小规模语言模型在性能和效率上存在瓶颈,难以在有限的计算资源下实现高性能。
  2. JoyAI-LLM Flash通过MoE架构、FiberPO强化学习算法和联合训练-推理协同设计,提升Token效率和模型稀疏性。
  3. 实验结果表明,JoyAI-LLM Flash在保持性能的同时,显著提高了推理吞吐量,并开源模型权重。

📝 摘要(中文)

本文介绍了JoyAI-LLM Flash,一个高效的混合专家模型(MoE),旨在重新定义参数量小于500亿的模型在性能和Token效率之间的权衡。JoyAI-LLM Flash在包含20万亿Token的海量语料库上进行预训练,并通过严格的后训练流程进行优化,包括监督微调(SFT)、直接偏好优化(DPO)以及跨多样化环境的大规模强化学习(RL)。为了提高Token效率,JoyAI-LLM Flash策略性地平衡了“思考”和“非思考”认知模式,并引入了FiberPO,一种受纤维化理论启发的RL算法,将信任域维护分解为全局和局部组件,为LLM策略优化提供统一的多尺度稳定性控制。为了增强架构稀疏性,该模型包含480亿总参数,但在每次前向传播中仅激活27亿参数,实现了比同等规模的领先模型更高的稀疏性。为了进一步提高推理吞吐量,我们采用了联合训练-推理协同设计,其中包含密集的多Token预测(MTP)和量化感知训练(QAT)。我们发布了JoyAI-LLM-48B-A3B Base及其后训练变体的检查点在Hugging Face上,以支持开源社区。

🔬 方法详解

问题定义:论文旨在解决中等规模(sub-50B)语言模型在性能和Token效率之间的trade-off问题。现有方法通常难以在有限的计算资源下,同时实现强大的性能和高效的推理速度,尤其是在处理长序列时,计算成本会显著增加。

核心思路:论文的核心思路是通过引入混合专家模型(MoE)结构,并结合创新的强化学习算法FiberPO,以及联合训练-推理协同设计,来提升模型的Token效率和推理吞吐量。MoE结构允许模型在每次前向传播时只激活部分参数,从而降低计算成本。FiberPO算法则用于稳定和高效地优化模型策略。

技术框架:JoyAI-LLM Flash的整体框架包括预训练、监督微调(SFT)、直接偏好优化(DPO)和强化学习(RL)四个主要阶段。预训练阶段使用大规模语料库训练模型的基础能力。SFT和DPO阶段用于对齐模型与人类偏好。RL阶段则使用FiberPO算法进一步优化模型策略。此外,模型还采用了联合训练-推理协同设计,包括多Token预测(MTP)和量化感知训练(QAT),以提高推理效率。

关键创新:论文的关键创新点包括:1) 引入FiberPO算法,该算法基于纤维化理论,将信任域维护分解为全局和局部组件,从而实现更稳定和高效的强化学习;2) 采用MoE架构,并在前向传播中仅激活部分参数,从而提高Token效率;3) 采用联合训练-推理协同设计,通过MTP和QAT来优化推理性能。

关键设计:在MoE架构中,模型包含480亿总参数,但在每次前向传播中仅激活27亿参数,实现了较高的稀疏性。FiberPO算法的关键在于其全局和局部信任域的分解,这允许模型在探索新策略时保持稳定性。MTP通过同时预测多个Token来提高训练效率,QAT则通过在训练过程中模拟量化操作来提高量化模型的精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

JoyAI-LLM Flash在保持与同等规模模型相当的性能的同时,显著提高了Token效率和推理吞吐量。模型包含480亿总参数,但在每次前向传播中仅激活27亿参数,实现了较高的稀疏性。此外,FiberPO算法的引入也显著提高了强化学习的稳定性和效率。具体性能数据将在后续实验中给出(未知)。

🎯 应用场景

JoyAI-LLM Flash可应用于各种需要高性能和高效率的自然语言处理任务,例如智能客服、文本摘要、机器翻译、代码生成等。其高Token效率和推理吞吐量使其特别适合在资源受限的环境中部署,例如移动设备或边缘计算设备。该研究的开源发布也有助于推动中等规模语言模型的发展和应用。

📄 摘要(原文)

We introduce JoyAI-LLM Flash, an efficient Mixture-of-Experts (MoE) language model designed to redefine the trade-off between strong performance and token efficiency in the sub-50B parameter regime. JoyAI-LLM Flash is pretrained on a massive corpus of 20 trillion tokens and further optimized through a rigorous post-training pipeline, including supervised fine-tuning (SFT), Direct Preference Optimization (DPO), and large-scale reinforcement learning (RL) across diverse environments. To improve token efficiency, JoyAI-LLM Flash strategically balances \emph{thinking} and \emph{non-thinking} cognitive modes and introduces FiberPO, a novel RL algorithm inspired by fibration theory that decomposes trust-region maintenance into global and local components, providing unified multi-scale stability control for LLM policy optimization. To enhance architectural sparsity, the model comprises 48B total parameters while activating only 2.7B parameters per forward pass, achieving a substantially higher sparsity ratio than contemporary industry leading models of comparable scale. To further improve inference throughput, we adopt a joint training-inference co-design that incorporates dense Multi-Token Prediction (MTP) and Quantization-Aware Training (QAT). We release the checkpoints for both JoyAI-LLM-48B-A3B Base and its post-trained variants on Hugging Face to support the open-source community.