Qwen2.5 Technical Report
作者: Qwen, :, An Yang, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, Bowen Yu, Chengyuan Li, Dayiheng Liu, Fei Huang, Haoran Wei, Huan Lin, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Yang, Jiaxi Yang, Jingren Zhou, Junyang Lin, Kai Dang, Keming Lu, Keqin Bao, Kexin Yang, Le Yu, Mei Li, Mingfeng Xue, Pei Zhang, Qin Zhu, Rui Men, Runji Lin, Tianhao Li, Tianyi Tang, Tingyu Xia, Xingzhang Ren, Xuancheng Ren, Yang Fan, Yang Su, Yichang Zhang, Yu Wan, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zihan Qiu
分类: cs.CL
发布日期: 2024-12-19 (更新: 2025-01-03)
💡 一句话要点
Qwen2.5:通过扩展数据和优化训练,显著提升大语言模型性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 预训练 后训练 监督微调 强化学习 长文本生成 结构化数据分析 指令遵循
📋 核心要点
- 现有大语言模型在常识、专业知识和推理能力方面仍有提升空间,尤其是在长文本处理和结构化数据分析方面。
- Qwen2.5通过大幅增加高质量预训练数据规模,并结合精细的监督微调和多阶段强化学习,提升模型性能。
- Qwen2.5在多个基准测试中表现出顶尖性能,尤其是在开放权重模型中,其72B版本可与更大规模的Llama-3-405B-Instruct竞争。
📝 摘要(中文)
本报告介绍了Qwen2.5,一个旨在满足多样化需求的大语言模型(LLM)系列。与之前的迭代相比,Qwen2.5在预训练和后训练阶段都得到了显著改进。在预训练方面,高质量预训练数据集从之前的7万亿tokens扩展到18万亿tokens,为常识、专业知识和推理能力奠定了坚实的基础。在后训练方面,我们实施了超过100万个样本的复杂监督微调以及多阶段强化学习。后训练技术增强了人类偏好,并显著改善了长文本生成、结构化数据分析和指令遵循。为了有效地处理各种不同的用例,我们提供了各种尺寸的Qwen2.5 LLM系列。开放权重产品包括基础模型和指令调优模型,并提供量化版本。此外,对于托管解决方案,专有模型目前包括两种混合专家(MoE)变体:Qwen2.5-Turbo和Qwen2.5-Plus,均可从阿里云Model Studio获得。Qwen2.5在评估语言理解、推理、数学、编码、人类偏好对齐等各种基准测试中表现出顶级的性能。具体而言,开放权重旗舰模型Qwen2.5-72B-Instruct优于许多开放和专有模型,并表现出与最先进的开放权重模型Llama-3-405B-Instruct(大约大5倍)具有竞争力的性能。Qwen2.5-Turbo和Qwen2.5-Plus在提供卓越的成本效益的同时,性能可与GPT-4o-mini和GPT-4o相媲美。此外,作为基础,Qwen2.5模型在训练Qwen2.5-Math、Qwen2.5-Coder、QwQ和多模态模型等专用模型方面发挥了重要作用。
🔬 方法详解
问题定义:现有大语言模型在知识储备、推理能力、长文本生成和结构化数据分析等方面仍存在不足,需要更大的数据规模和更有效的训练方法来提升性能。此外,如何更好地对齐人类偏好,提升模型在实际应用中的可用性也是一个重要问题。
核心思路:Qwen2.5的核心思路是通过扩展高质量预训练数据规模,并结合精细的监督微调和多阶段强化学习,全面提升模型的各项能力。增加数据规模可以提升模型的知识储备和推理能力,监督微调可以提升模型对指令的理解和执行能力,强化学习可以更好地对齐人类偏好。
技术框架:Qwen2.5的训练分为预训练和后训练两个阶段。预训练阶段使用高达18万亿tokens的高质量数据集,为模型提供丰富的知识和上下文信息。后训练阶段包括监督微调和多阶段强化学习。监督微调使用超过100万个样本,提升模型对指令的理解和执行能力。多阶段强化学习则用于对齐人类偏好,提升模型在实际应用中的可用性。
关键创新:Qwen2.5的关键创新在于其大规模高质量的预训练数据集和精细的后训练策略。18万亿tokens的预训练数据规模远超之前的版本,为模型提供了更强的知识储备和推理能力。后训练阶段的监督微调和多阶段强化学习则有效地提升了模型对指令的理解和执行能力,并更好地对齐了人类偏好。
关键设计:Qwen2.5系列模型提供了多种尺寸,包括开放权重模型和专有模型。开放权重模型包括基础模型和指令调优模型,并提供量化版本。专有模型包括Qwen2.5-Turbo和Qwen2.5-Plus两种混合专家(MoE)变体。具体参数设置、损失函数和网络结构等技术细节在报告中未详细公开,属于专有信息。
🖼️ 关键图片
📊 实验亮点
Qwen2.5-72B-Instruct在多个基准测试中表现出顶尖性能,优于许多开放和专有模型,并与规模更大的Llama-3-405B-Instruct具有竞争力的性能。Qwen2.5-Turbo和Qwen2.5-Plus在提供卓越的成本效益的同时,性能可与GPT-4o-mini和GPT-4o相媲美。这些结果表明Qwen2.5在性能和效率方面都取得了显著的进步。
🎯 应用场景
Qwen2.5可广泛应用于自然语言处理的各个领域,包括但不限于智能客服、文本生成、机器翻译、代码生成、数据分析等。其强大的语言理解和生成能力使其能够胜任各种复杂的任务,为各行业提供更智能、更高效的解决方案。此外,Qwen2.5还可以作为基础模型,用于训练各种专用模型,满足特定领域的需求。
📄 摘要(原文)
In this report, we introduce Qwen2.5, a comprehensive series of large language models (LLMs) designed to meet diverse needs. Compared to previous iterations, Qwen 2.5 has been significantly improved during both the pre-training and post-training stages. In terms of pre-training, we have scaled the high-quality pre-training datasets from the previous 7 trillion tokens to 18 trillion tokens. This provides a strong foundation for common sense, expert knowledge, and reasoning capabilities. In terms of post-training, we implement intricate supervised finetuning with over 1 million samples, as well as multistage reinforcement learning. Post-training techniques enhance human preference, and notably improve long text generation, structural data analysis, and instruction following. To handle diverse and varied use cases effectively, we present Qwen2.5 LLM series in rich sizes. Open-weight offerings include base and instruction-tuned models, with quantized versions available. In addition, for hosted solutions, the proprietary models currently include two mixture-of-experts (MoE) variants: Qwen2.5-Turbo and Qwen2.5-Plus, both available from Alibaba Cloud Model Studio. Qwen2.5 has demonstrated top-tier performance on a wide range of benchmarks evaluating language understanding, reasoning, mathematics, coding, human preference alignment, etc. Specifically, the open-weight flagship Qwen2.5-72B-Instruct outperforms a number of open and proprietary models and demonstrates competitive performance to the state-of-the-art open-weight model, Llama-3-405B-Instruct, which is around 5 times larger. Qwen2.5-Turbo and Qwen2.5-Plus offer superior cost-effectiveness while performing competitively against GPT-4o-mini and GPT-4o respectively. Additionally, as the foundation, Qwen2.5 models have been instrumental in training specialized models such as Qwen2.5-Math, Qwen2.5-Coder, QwQ, and multimodal models.