Is GPT-OSS Good? A Comprehensive Evaluation of OpenAI's Latest Open Source Models
作者: Ziqian Bi, Keyu Chen, Chiung-Yi Tseng, Danyang Zhang, Tianyang Wang, Hongying Luo, Lu Chen, Junming Huang, Jibin Guan, Junfeng Hao, Xinyuan Song, Junhao Song
分类: cs.CL
发布日期: 2025-08-17 (更新: 2025-12-13)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
评估OpenAI的GPT-OSS模型在多任务中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 开源模型 专家混合架构 多任务学习 性能评估
📋 核心要点
- 现有大型语言模型在多任务处理上存在性能不均衡的问题,尤其是在多语言任务中表现较弱。
- 论文提出了GPT-OSS模型,通过专家混合架构优化参数使用,旨在提高模型在多任务中的表现和效率。
- 实验结果表明,gpt-oss-20B在多个基准测试中表现优于gpt-oss-120B,且在代码生成任务中具有相对优势。
📝 摘要(中文)
2025年8月,OpenAI发布了GPT-OSS模型,这是自2019年GPT-2以来首个开源的大型语言模型,包含120B和20B参数的两种专家混合架构。我们对这两种变体进行了评估,比较了六种当代开源大型语言模型,涵盖了从14.7B到235B参数的密集和稀疏设计,涉及十个基准测试,包括一般知识、数学推理、代码生成、多语言理解和对话能力。结果显示,gpt-oss-20B在多个基准测试中表现优于gpt-oss-120B,尽管其每次响应所需的内存和能量显著更少。这些发现为稀疏架构的扩展与性能提升之间的关系提供了实证依据,强调了优化策略的进一步研究需求。
🔬 方法详解
问题定义:本论文旨在解决现有大型语言模型在多任务处理中的性能不均衡问题,尤其是在多语言理解和代码生成等任务中的不足。现有方法在稀疏架构的扩展上未能实现预期的性能提升。
核心思路:论文的核心思路是通过引入专家混合架构,优化模型参数的使用,提升模型在多任务中的表现和效率。该设计旨在减少内存和能量消耗,同时保持或提升性能。
技术框架:整体架构包括两个主要的专家混合模型,分别为120B和20B参数。模型在标准化的推理设置下进行评估,涵盖多个基准测试。
关键创新:最重要的技术创新点在于采用了稀疏架构的专家混合设计,使得模型在保持较低资源消耗的同时,能够在特定任务上实现更优的性能。与现有密集模型相比,这种设计在资源利用上更为高效。
关键设计:在模型设计中,采用了特定的参数设置和损失函数,以优化模型在多任务处理中的表现。具体的网络结构细节和参数配置在论文中进行了详细描述。
📊 实验亮点
实验结果显示,gpt-oss-20B在多个基准测试中表现优于gpt-oss-120B,尤其在HumanEval和MMLU等任务中,尽管其内存和能量消耗显著更低。这一发现强调了稀疏架构在性能优化中的潜力。
🎯 应用场景
该研究的潜在应用场景包括自然语言处理、智能对话系统和多语言翻译等领域。通过优化模型的性能和资源消耗,GPT-OSS模型能够在实际应用中提供更高效的解决方案,推动开源大型语言模型的发展。
📄 摘要(原文)
In August 2025, OpenAI released GPT-OSS models, its first open weight large language models since GPT-2 in 2019, comprising two mixture of experts architectures with 120B and 20B parameters. We evaluated both variants against six contemporary open source large language models ranging from 14.7B to 235B parameters, representing both dense and sparse designs, across ten benchmarks covering general knowledge, mathematical reasoning, code generation, multilingual understanding, and conversational ability. All models were tested in unquantised form under standardised inference settings, with statistical validation using McNemars test and effect size analysis. Results show that gpt-oss-20B consistently outperforms gpt-oss-120B on several benchmarks, such as HumanEval and MMLU, despite requiring substantially less memory and energy per response. Both models demonstrate mid-tier overall performance within the current open source landscape, with relative strength in code generation and notable weaknesses in multilingual tasks. These findings provide empirical evidence that scaling in sparse architectures may not yield proportional performance gains, underscoring the need for further investigation into optimisation strategies and informing more efficient model selection for future open source deployments. More details and evaluation scripts are available at https://ai-agent-lab.github.io/gpt-oss (Project Webpage).