KAT-V1: Kwai-AutoThink Technical Report
作者: Zizheng Zhan, Ken Deng, Huaixi Tang, Wen Xiang, Kun Wu, Weihao Li, Wenqiang Zhu, Jingxuan Xu, Lecheng Huang, Zongxian Feng, Shaojie Wang, Shangpeng Yan, Xuxing Chen, Jiaheng Liu, Zhongyuan Peng, Zuchen Gao, Haoyang Huang, Xiaojiang Zhang, Jinghui Wang, Zheng Lin, Mengtong Li, Huiming Wang, Ziqi Zhan, Yanan Wu, Yuanxing Zhang, Jian Yang, Guang Chen, Haotian Zhang, Bin Chen, Bing Yu
分类: cs.CL
发布日期: 2025-07-11 (更新: 2025-07-21)
💡 一句话要点
提出 AutoThink 框架 KAT-V1,解决推理密集型任务中的过度思考问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 自动思考 推理密集型任务 知识蒸馏 强化学习 模式选择 代码生成
📋 核心要点
- 现有大语言模型在推理密集型任务中存在过度思考的问题,导致效率降低和资源浪费。
- 提出AutoThink框架,通过自动切换推理和非推理模式,动态适应任务复杂度,优化推理过程。
- 实验结果表明,KAT模型在多个推理基准上超越现有开源模型,并在实际编码助手中提升了效率。
📝 摘要(中文)
本文介绍了开源的40B大语言模型Kwaipilot-AutoThink (KAT),旨在解决推理密集型任务中常见的过度思考问题。该模型提出了一个自动思考训练范式,能够根据任务复杂度动态切换推理和非推理模式。具体而言,首先构建了基于新型标注流程和多智能体合成策略的双模式数据集;然后应用多Token预测(MTP)增强的知识蒸馏,以最小的预训练成本实现高效且细粒度的推理迁移。此外,还实施了冷启动初始化策略,利用多数投票信号和意图感知提示引入模式选择先验。最后,提出了Step-SRPO,一种将中间监督纳入GRPO框架的强化学习算法,为推理模式选择和响应准确性提供结构化指导。大量实验表明,KAT在多个基准测试中始终与当前最先进的模型(包括DeepSeek-R1-0528和Qwen3-235B-A22B)相匹配甚至超越,同时减少了token使用量。值得注意的是,KAT优于所有开源模型,甚至在泄漏控制的LiveCodeBench Pro上超过了o3-mini。KAT已成功部署在快手的内部编码助手Kwaipilot中,提高了实际开发工作流程的准确性、效率和可控的推理行为。此外,正在积极训练一个具有40B活跃参数的200B混合专家(MoE)模型,早期结果显示出显著的收益,进一步证明了AutoThink范式的可扩展性。
🔬 方法详解
问题定义:现有的大语言模型在处理推理密集型任务时,往往会进行不必要的过度思考,导致计算资源的浪费和推理效率的降低。现有的方法缺乏根据任务复杂度动态调整推理深度的能力,无法在保证性能的同时优化资源利用率。
核心思路:KAT的核心思路是引入一个自动思考(AutoThink)的训练范式,使模型能够根据任务的复杂程度,动态地在推理模式和非推理模式之间切换。通过这种方式,模型可以在需要深度推理的任务上进行充分思考,而在简单任务上则避免过度思考,从而提高整体效率。
技术框架:KAT的技术框架主要包含以下几个阶段:1) 双模式数据集构建:通过新型标注流程和多智能体合成策略构建包含推理和非推理两种模式的数据集。2) 多Token预测(MTP)增强的知识蒸馏:利用MTP技术,从更大的模型中提取知识,并将其迁移到KAT模型中,实现高效且细粒度的推理能力迁移。3) 冷启动初始化:使用多数投票信号和意图感知提示,为模型提供模式选择的先验知识,加速训练过程。4) Step-SRPO强化学习:提出Step-SRPO算法,将中间监督信息融入到GRPO框架中,引导模型进行更有效的推理模式选择和响应生成。
关键创新:KAT的关键创新在于其自动思考的训练范式,能够动态地在推理和非推理模式之间切换。与传统的固定推理深度的方法相比,AutoThink能够更好地适应不同复杂度的任务,从而提高效率和资源利用率。此外,Step-SRPO算法的引入,为模型的训练提供了更精细的监督信号,进一步提升了模型的性能。
关键设计:在数据集构建方面,采用了多智能体合成策略,以生成更丰富和多样化的训练数据。在知识蒸馏方面,使用了多Token预测(MTP)技术,以更有效地迁移知识。在强化学习方面,Step-SRPO算法通过引入中间监督,为模型的训练提供了更强的指导信号。冷启动初始化策略则利用多数投票信号和意图感知提示,为模型提供了模式选择的先验知识。
🖼️ 关键图片
📊 实验亮点
KAT模型在多个推理基准测试中表现出色,与DeepSeek-R1-0528和Qwen3-235B-A22B等先进模型相匹配甚至超越,同时减少了token使用量。在泄漏控制的LiveCodeBench Pro上,KAT优于所有开源模型,甚至超过了o3-mini。这些结果表明,KAT在推理能力和效率方面都具有显著优势。
🎯 应用场景
KAT模型具有广泛的应用前景,可以应用于各种需要推理能力的场景,例如代码生成、问题回答、文本摘要等。尤其是在资源受限的环境下,KAT的自动思考能力可以有效地提高效率和降低成本。该模型已成功部署在快手的内部编码助手Kwaipilot中,未来有望在更多实际应用中发挥作用。
📄 摘要(原文)
We present Kwaipilot-AutoThink (KAT), an open-source 40B large language model developed to address the overthinking problem in reasoning-intensive tasks, where an automatic thinking training paradigm is proposed to dynamically switch between reasoning and non-reasoning modes based on task complexity. Specifically, first, we construct the dual-regime dataset based on a novel tagging pipeline and a multi-agent synthesis strategy, and then we apply Multi-Token Prediction (MTP)-enhanced knowledge distillation, enabling efficient and fine-grained reasoning transfer with minimal pretraining cost. Besides, we implement a cold-start initialization strategy that introduces mode-selection priors using majority-vote signals and intent-aware prompting. Finally, we propose Step-SRPO, a reinforcement learning algorithm that incorporates intermediate supervision into the GRPO framework, offering structured guidance over both reasoning-mode selection and response accuracy. Extensive experiments across multiple benchmarks demonstrate that KAT consistently matches or even outperforms current state-of-the-art models, including DeepSeek-R1-0528 and Qwen3-235B-A22B, across a wide range of reasoning-intensive tasks while reducing token usage. Notably, KAT outperforms all open-source models and even surpasses o3-mini on the leakage-controlled LiveCodeBench Pro. Beyond academic evaluation, KAT has been successfully deployed in Kwaipilot (i.e., Kuaishou's internal coding assistant), where it improves real-world development workflows with high accuracy, efficiency, and controllable reasoning behaviors. Moreover, we are actively training a 200B Mixture-of-Experts (MoE) model with 40B active parameters, and early results already show significant gains, further demonstrating the scalability of the AutoThink paradigm.