Qwen2 Technical Report
作者: An Yang, Baosong Yang, Binyuan Hui, Bo Zheng, Bowen Yu, Chang Zhou, Chengpeng Li, Chengyuan Li, Dayiheng Liu, Fei Huang, Guanting Dong, Haoran Wei, Huan Lin, Jialong Tang, Jialin Wang, Jian Yang, Jianhong Tu, Jianwei Zhang, Jianxin Ma, Jianxin Yang, Jin Xu, Jingren Zhou, Jinze Bai, Jinzheng He, Junyang Lin, Kai Dang, Keming Lu, Keqin Chen, Kexin Yang, Mei Li, Mingfeng Xue, Na Ni, Pei Zhang, Peng Wang, Ru Peng, Rui Men, Ruize Gao, Runji Lin, Shijie Wang, Shuai Bai, Sinan Tan, Tianhang Zhu, Tianhao Li, Tianyu Liu, Wenbin Ge, Xiaodong Deng, Xiaohuan Zhou, Xingzhang Ren, Xinyu Zhang, Xipin Wei, Xuancheng Ren, Xuejing Liu, Yang Fan, Yang Yao, Yichang Zhang, Yu Wan, Yunfei Chu, Yuqiong Liu, Zeyu Cui, Zhenru Zhang, Zhifang Guo, Zhihao Fan
分类: cs.CL, cs.AI
发布日期: 2024-07-15 (更新: 2024-09-10)
备注: 26 pages, 1 figure
💡 一句话要点
Qwen2系列发布:开源0.5B-72B参数规模语言模型,性能超越现有开源模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 开源模型 多语言支持 指令微调 自然语言处理 Transformer模型 混合专家模型
📋 核心要点
- 现有开源语言模型在性能、多语言支持和易用性方面存在局限,难以满足复杂应用需求。
- Qwen2系列模型通过架构优化和大规模训练,显著提升了性能,并支持约30种语言。
- Qwen2模型已在Hugging Face和ModelScope开源,并提供量化、微调和部署资源,方便社区使用。
📝 摘要(中文)
本报告介绍了Qwen2系列,这是我们最新的大型语言模型和大型多模态模型。我们发布了一套全面的基础和指令微调语言模型,参数范围从0.5到720亿,包括稠密模型和混合专家模型。Qwen2超越了大多数先前的开源权重模型,包括其前身Qwen1.5,并且在语言理解、生成、多语言能力、编码、数学和推理等各种基准测试中,相对于专有模型表现出具有竞争力的性能。旗舰模型Qwen2-72B表现出卓越的性能:作为基础语言模型,在MMLU上达到84.2,在GPQA上达到37.9,在HumanEval上达到64.6,在GSM8K上达到89.5,在BBH上达到82.4。指令微调变体Qwen2-72B-Instruct在MT-Bench上达到9.1,在Arena-Hard上达到48.1,在LiveCodeBench上达到35.7。此外,Qwen2展示了强大的多语言能力,精通大约30种语言,包括英语、中文、西班牙语、法语、德语、阿拉伯语、俄语、韩语、日语、泰语、越南语等,突显了其多功能性和全球影响力。为了促进社区创新和可访问性,我们已在Hugging Face和ModelScope上公开发布了Qwen2模型权重,并在GitHub上提供了包括示例代码在内的补充材料。这些平台还包括用于量化、微调和部署的资源,从而促进了广泛的应用和研究工作。
🔬 方法详解
问题定义:现有开源语言模型在各项任务上的性能与闭源模型存在差距,多语言支持不足,且部署和微调的便利性有待提高。Qwen2旨在缩小与闭源模型的差距,提供更强大的多语言能力,并降低使用门槛。
核心思路:Qwen2系列模型的核心思路是通过更大规模的参数、更有效的数据利用和架构优化,提升模型的性能和泛化能力。同时,注重多语言支持,使其能够处理多种语言的任务。此外,通过开源模型权重和提供易于使用的工具,降低模型的使用门槛。
技术框架:Qwen2系列包含多个不同参数规模的模型,从0.5B到72B不等,包括稠密模型和混合专家模型。整体架构基于Transformer,具体架构细节未知。训练过程包括预训练和指令微调两个阶段。预训练阶段使用大规模文本数据,指令微调阶段使用高质量的指令数据,以提升模型的指令遵循能力。
关键创新:Qwen2的关键创新在于其在性能、多语言支持和易用性方面的综合提升。具体的技术创新点包括:1) 模型架构的优化,可能包括注意力机制的改进和层归一化的调整;2) 训练数据的选择和处理,可能包括数据增强和数据过滤;3) 指令微调策略的优化,可能包括指令数据的生成和选择。
关键设计:论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节。但可以推测,Qwen2使用了标准的Transformer架构,并可能在注意力机制、层归一化等方面进行了优化。损失函数可能使用了交叉熵损失函数,并可能加入了正则化项。指令微调阶段可能使用了强化学习或直接偏好优化(DPO)等技术。
🖼️ 关键图片
📊 实验亮点
Qwen2-72B在MMLU上达到84.2,GPQA上达到37.9,HumanEval上达到64.6,GSM8K上达到89.5,BBH上达到82.4。指令微调后的Qwen2-72B-Instruct在MT-Bench上达到9.1,Arena-Hard上达到48.1,LiveCodeBench上达到35.7。这些结果表明Qwen2在多个基准测试中超越了现有开源模型,并与闭源模型具有竞争力。
🎯 应用场景
Qwen2系列模型可广泛应用于自然语言处理的各个领域,如机器翻译、文本摘要、问答系统、对话生成、代码生成等。其开源特性和多语言支持使其能够服务于全球范围内的研究人员和开发者,促进人工智能技术的普及和创新。未来,Qwen2有望成为构建各种智能应用的基础模型。
📄 摘要(原文)
This report introduces the Qwen2 series, the latest addition to our large language models and large multimodal models. We release a comprehensive suite of foundational and instruction-tuned language models, encompassing a parameter range from 0.5 to 72 billion, featuring dense models and a Mixture-of-Experts model. Qwen2 surpasses most prior open-weight models, including its predecessor Qwen1.5, and exhibits competitive performance relative to proprietary models across diverse benchmarks on language understanding, generation, multilingual proficiency, coding, mathematics, and reasoning. The flagship model, Qwen2-72B, showcases remarkable performance: 84.2 on MMLU, 37.9 on GPQA, 64.6 on HumanEval, 89.5 on GSM8K, and 82.4 on BBH as a base language model. The instruction-tuned variant, Qwen2-72B-Instruct, attains 9.1 on MT-Bench, 48.1 on Arena-Hard, and 35.7 on LiveCodeBench. Moreover, Qwen2 demonstrates robust multilingual capabilities, proficient in approximately 30 languages, spanning English, Chinese, Spanish, French, German, Arabic, Russian, Korean, Japanese, Thai, Vietnamese, and more, underscoring its versatility and global reach. To foster community innovation and accessibility, we have made the Qwen2 model weights openly available on Hugging Face and ModelScope, and the supplementary materials including example code on GitHub. These platforms also include resources for quantization, fine-tuning, and deployment, facilitating a wide range of applications and research endeavors.