DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models
作者: DeepSeek-AI, Aixin Liu, Aoxue Mei, Bangcai Lin, Bing Xue, Bingxuan Wang, Bingzheng Xu, Bochao Wu, Bowei Zhang, Chaofan Lin, Chen Dong, Chengda Lu, Chenggang Zhao, Chengqi Deng, Chenhao Xu, Chong Ruan, Damai Dai, Daya Guo, Dejian Yang, Deli Chen, Erhang Li, Fangqi Zhou, Fangyun Lin, Fucong Dai, Guangbo Hao, Guanting Chen, Guowei Li, H. Zhang, Hanwei Xu, Hao Li, Haofen Liang, Haoran Wei, Haowei Zhang, Haowen Luo, Haozhe Ji, Honghui Ding, Hongxuan Tang, Huanqi Cao, Huazuo Gao, Hui Qu, Hui Zeng, Jialiang Huang, Jiashi Li, Jiaxin Xu, Jiewen Hu, Jingchang Chen, Jingting Xiang, Jingyang Yuan, Jingyuan Cheng, Jinhua Zhu, Jun Ran, Junguang Jiang, Junjie Qiu, Junlong Li, Junxiao Song, Kai Dong, Kaige Gao, Kang Guan, Kexin Huang, Kexing Zhou, Kezhao Huang, Kuai Yu, Lean Wang, Lecong Zhang, Lei Wang, Liang Zhao, Liangsheng Yin, Lihua Guo, Lingxiao Luo, Linwang Ma, Litong Wang, Liyue Zhang, M. S. Di, M. Y Xu, Mingchuan Zhang, Minghua Zhang, Minghui Tang, Mingxu Zhou, Panpan Huang, Peixin Cong, Peiyi Wang, Qiancheng Wang, Qihao Zhu, Qingyang Li, Qinyu Chen, Qiushi Du, Ruiling Xu, Ruiqi Ge, Ruisong Zhang, Ruizhe Pan, Runji Wang, Runqiu Yin, Runxin Xu, Ruomeng Shen, Ruoyu Zhang, S. H. Liu, Shanghao Lu, Shangyan Zhou, Shanhuang Chen, Shaofei Cai, Shaoyuan Chen, Shengding Hu, Shengyu Liu, Shiqiang Hu, Shirong Ma, Shiyu Wang, Shuiping Yu, Shunfeng Zhou, Shuting Pan, Songyang Zhou, Tao Ni, Tao Yun, Tian Pei, Tian Ye, Tianyuan Yue, Wangding Zeng, Wen Liu, Wenfeng Liang, Wenjie Pang, Wenjing Luo, Wenjun Gao, Wentao Zhang, Xi Gao, Xiangwen Wang, Xiao Bi, Xiaodong Liu, Xiaohan Wang, Xiaokang Chen, Xiaokang Zhang, Xiaotao Nie, Xin Cheng, Xin Liu, Xin Xie, Xingchao Liu, Xingkai Yu, Xingyou Li, Xinyu Yang, Xinyuan Li, Xu Chen, Xuecheng Su, Xuehai Pan, Xuheng Lin, Xuwei Fu, Y. Q. Wang, Yang Zhang, Yanhong Xu, Yanru Ma, Yao Li, Yao Li, Yao Zhao, Yaofeng Sun, Yaohui Wang, Yi Qian, Yi Yu, Yichao Zhang, Yifan Ding, Yifan Shi, Yiliang Xiong, Ying He, Ying Zhou, Yinmin Zhong, Yishi Piao, Yisong Wang, Yixiao Chen, Yixuan Tan, Yixuan Wei, Yiyang Ma, Yiyuan Liu, Yonglun Yang, Yongqiang Guo, Yongtong Wu, Yu Wu, Yuan Cheng, Yuan Ou, Yuanfan Xu, Yuduan Wang, Yue Gong, Yuhan Wu, Yuheng Zou, Yukun Li, Yunfan Xiong, Yuxiang Luo, Yuxiang You, Yuxuan Liu, Yuyang Zhou, Z. F. Wu, Z. Z. Ren, Zehua Zhao, Zehui Ren, Zhangli Sha, Zhe Fu, Zhean Xu, Zhenda Xie, Zhengyan Zhang, Zhewen Hao, Zhibin Gou, Zhicheng Ma, Zhigang Yan, Zhihong Shao, Zhixian Huang, Zhiyu Wu, Zhuoshu Li, Zhuping Zhang, Zian Xu, Zihao Wang, Zihui Gu, Zijia Zhu, Zilin Li, Zipeng Zhang, Ziwei Xie, Ziyi Gao, Zizheng Pan, Zongqing Yao, Bei Feng, Hui Li, J. L. Cai, Jiaqi Ni, Lei Xu, Meng Li, Ning Tian, R. J. Chen, R. L. Jin, S. S. Li, Shuang Zhou, Tianyu Sun, X. Q. Li, Xiangyue Jin, Xiaojin Shen, Xiaosha Chen, Xinnan Song, Xinyi Zhou, Y. X. Zhu, Yanping Huang, Yaohui Li, Yi Zheng, Yuchen Zhu, Yunxian Ma, Zhen Huang, Zhipeng Xu, Zhongyu Zhang, Dongjie Ji, Jian Liang, Jianzhong Guo, Jin Chen, Leyi Xia, Miaojun Wang, Mingming Li, Peng Zhang, Ruyi Chen, Shangmian Sun, Shaoqing Wu, Shengfeng Ye, T. Wang, W. L. Xiao, Wei An, Xianzu Wang, Xiaowen Sun, Xiaoxiang Wang, Ying Tang, Yukun Zha, Zekai Zhang, Zhe Ju, Zhen Zhang, Zihua Qu
分类: cs.CL
发布日期: 2025-12-02
💡 一句话要点
DeepSeek-V3.2:通过稀疏注意力、强化学习和Agent任务合成,提升大语言模型的推理和Agent性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 稀疏注意力 强化学习 Agent任务合成 长上下文 推理能力 计算效率
📋 核心要点
- 现有大语言模型在长文本处理和复杂推理任务中面临计算效率和性能瓶颈。
- DeepSeek-V3.2通过稀疏注意力机制、强化学习和Agent任务合成来提升模型性能。
- DeepSeek-V3.2在推理和Agent任务上表现出色,甚至超越GPT-5和Gemini-3.0-Pro。
📝 摘要(中文)
DeepSeek-V3.2是一个兼具高计算效率和卓越推理及Agent性能的模型。其关键技术突破包括:(1) DeepSeek稀疏注意力(DSA):DSA是一种高效的注意力机制,在长上下文场景中显著降低计算复杂度,同时保持模型性能。(2) 可扩展的强化学习框架:通过实施稳健的强化学习协议和扩展后训练计算,DeepSeek-V3.2的性能可与GPT-5相媲美。值得注意的是,我们高计算变体DeepSeek-V3.2-Speciale超越了GPT-5,并展现出与Gemini-3.0-Pro相当的推理能力,在2025年国际数学奥林匹克(IMO)和国际信息学奥林匹克(IOI)中均获得了金牌。(3) 大规模Agent任务合成流水线:为了将推理整合到工具使用场景中,我们开发了一种新型合成流水线,可以系统地大规模生成训练数据。这种方法促进了可扩展的Agent后训练,从而在复杂的交互环境中显著提高了泛化能力和指令遵循的鲁棒性。
🔬 方法详解
问题定义:现有的大型语言模型在处理长上下文和复杂的Agent任务时,面临着计算效率和推理能力的挑战。传统的注意力机制在处理长序列时计算复杂度呈平方增长,限制了模型的扩展能力。此外,如何有效地将推理能力融入到工具使用场景中,并提高模型在复杂交互环境中的泛化能力和指令遵循的鲁棒性,也是一个亟待解决的问题。
核心思路:DeepSeek-V3.2的核心思路是通过引入DeepSeek稀疏注意力(DSA)来降低计算复杂度,同时利用可扩展的强化学习框架来提升模型的推理能力。此外,通过大规模Agent任务合成流水线,生成高质量的训练数据,从而提高模型在工具使用场景中的泛化能力和指令遵循的鲁棒性。
技术框架:DeepSeek-V3.2的整体框架包括三个主要组成部分:DeepSeek稀疏注意力(DSA)、可扩展的强化学习框架和大规模Agent任务合成流水线。DSA用于降低长上下文的计算复杂度;强化学习框架用于提升模型的推理能力;Agent任务合成流水线用于生成高质量的训练数据,以提高模型在工具使用场景中的性能。
关键创新:DeepSeek-V3.2最重要的技术创新点在于DeepSeek稀疏注意力(DSA)机制和大规模Agent任务合成流水线。DSA通过稀疏化注意力矩阵,显著降低了计算复杂度,使得模型能够处理更长的上下文。Agent任务合成流水线则通过系统地生成训练数据,有效地将推理能力融入到工具使用场景中,提高了模型的泛化能力和指令遵循的鲁棒性。
关键设计:DSA的具体实现细节未知,但其核心思想是通过某种方式减少需要计算的注意力权重数量,从而降低计算复杂度。强化学习框架的具体实现细节也未知,但其关键在于设计合适的奖励函数和训练策略,以有效地提升模型的推理能力。Agent任务合成流水线的关键在于设计合理的任务生成策略,以生成多样化和高质量的训练数据。
🖼️ 关键图片
📊 实验亮点
DeepSeek-V3.2-Speciale在多个基准测试中表现出色,超越了GPT-5,并展现出与Gemini-3.0-Pro相当的推理能力。尤其值得一提的是,该模型在2025年国际数学奥林匹克(IMO)和国际信息学奥林匹克(IOI)中均获得了金牌,证明了其卓越的推理能力。这些实验结果表明,DeepSeek-V3.2在推理和Agent任务方面取得了显著的进展。
🎯 应用场景
DeepSeek-V3.2在智能客服、自动化办公、科学研究等领域具有广泛的应用前景。它可以用于处理长篇文档、进行复杂推理、以及在各种交互环境中完成任务。该研究的实际价值在于提升了大语言模型的效率和性能,为构建更智能、更强大的AI系统奠定了基础。未来,DeepSeek-V3.2有望应用于更广泛的领域,例如智能机器人、自动驾驶等。
📄 摘要(原文)
We introduce DeepSeek-V3.2, a model that harmonizes high computational efficiency with superior reasoning and agent performance. The key technical breakthroughs of DeepSeek-V3.2 are as follows: (1) DeepSeek Sparse Attention (DSA): We introduce DSA, an efficient attention mechanism that substantially reduces computational complexity while preserving model performance in long-context scenarios. (2) Scalable Reinforcement Learning Framework: By implementing a robust reinforcement learning protocol and scaling post-training compute, DeepSeek-V3.2 performs comparably to GPT-5. Notably, our high-compute variant, DeepSeek-V3.2-Speciale, surpasses GPT-5 and exhibits reasoning proficiency on par with Gemini-3.0-Pro, achieving gold-medal performance in both the 2025 International Mathematical Olympiad (IMO) and the International Olympiad in Informatics (IOI). (3) Large-Scale Agentic Task Synthesis Pipeline: To integrate reasoning into tool-use scenarios, we developed a novel synthesis pipeline that systematically generates training data at scale. This methodology facilitates scalable agentic post-training, yielding substantial improvements in generalization and instruction-following robustness within complex, interactive environments.