Technical Report of TeleChat2, TeleChat2.5 and T1
作者: Zihan Wang, Xinzhang Liu, Yitong Yao, Chao Wang, Yu Zhao, Zhihao Yang, Wenmin Deng, Kaipeng Jia, Jiaxin Peng, Yuyao Huang, Sishi Xiong, Zhuo Jiang, Kaidong Yu, Xiaohui Hu, Fubei Yao, Ruiyu Fang, Zhuoru Jiang, Ruiting Song, Qiyi Xie, Rui Xue, Xuewei He, Yanlei Xue, Zhu Yuan, Zhaoxi Zhang, Zilu Huang, Shiquan Wang, Xin Wang, Hanming Wu, Mingyuan Wang, Xufeng Zhan, Yuhan Sun, Zhaohu Xing, Yuhao Jiang, Bingkai Yang, Shuangyong Song, Yongxiang Li, Zhongjiang He, Xuelong Li
分类: cs.CL
发布日期: 2025-07-24 (更新: 2025-07-29)
备注: 32 pages, 5 figures
💡 一句话要点
TeleChat2系列模型:通过增强训练策略显著提升性能,并在复杂推理任务上超越GPT-4o
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 复杂推理 代码生成 数学推理 强化学习 预训练 监督微调
📋 核心要点
- 现有语言模型在复杂推理、代码生成和数学推理等任务上仍面临挑战,需要更大的模型和更有效的训练方法。
- TeleChat2系列通过大规模高质量数据预训练、监督微调、直接偏好优化以及特定领域持续预训练和强化学习相结合,提升模型性能。
- T1-115B在复杂推理任务上超越了OpenAI的o1-mini和GPT-4o等专有模型,TeleChat2.5则在保证性能的同时优化了推理速度。
📝 摘要(中文)
本文介绍了TeleChat模型的最新系列:TeleChat2、TeleChat2.5和T1,它们是对TeleChat的重大升级。尽管模型架构变化不大,但新系列通过在预训练和后训练阶段采用增强的训练策略,实现了显著的性能提升。该系列首先是TeleChat2,它在10万亿高质量和多样化的tokens上进行预训练,然后进行监督微调(SFT)和直接偏好优化(DPO),以进一步增强其能力。TeleChat2.5和T1通过结合特定领域的持续预训练和强化学习(RL),扩展了流程,以提高代码生成和数学推理任务的性能。T1变体专为复杂推理而设计,支持长链式思考(CoT)推理,并在数学和编码方面表现出显著的改进。相比之下,TeleChat2.5优先考虑速度,提供快速推理。T1和TeleChat2.5的旗舰模型都是基于Transformer的密集架构,具有115B参数,与原始TeleChat相比,在推理和通用任务性能方面都表现出显著的进步。值得注意的是,T1-115B优于OpenAI的o1-mini和GPT-4o等专有模型。我们公开发布TeleChat2、TeleChat2.5和T1,包括具有35B和115B参数的后训练版本,旨在为开发人员和研究人员提供最先进的语言模型,以满足各种应用需求。
🔬 方法详解
问题定义:现有的大型语言模型在处理复杂推理、代码生成和数学问题时,仍然存在准确率和效率上的瓶颈。尤其是在长链式思考(CoT)推理方面,模型往往难以保持一致性和准确性。此外,针对特定领域的知识学习和快速推理的需求也日益增长。
核心思路:TeleChat2系列的核心思路是通过多阶段的训练策略,包括大规模预训练、监督微调、偏好优化、持续预训练和强化学习,来逐步提升模型的性能。针对不同需求,T1侧重于复杂推理能力,而TeleChat2.5则侧重于推理速度。
技术框架:TeleChat2系列模型的技术框架主要包含以下几个阶段:1) 预训练:在10万亿tokens的高质量数据集上进行预训练,学习通用语言知识。2) 监督微调(SFT):使用人工标注数据进行微调,提升模型在特定任务上的表现。3) 直接偏好优化(DPO):通过比较不同回答的偏好,优化模型的生成策略。4) 持续预训练:在特定领域的数据集上进行持续预训练,增强模型在该领域的知识。5) 强化学习(RL):使用强化学习算法,优化模型在代码生成和数学推理等任务上的表现。
关键创新:该系列模型的关键创新在于结合了多种训练策略,并针对不同目标进行了优化。T1模型通过强化学习和长链式思考训练,显著提升了复杂推理能力。TeleChat2.5则通过优化模型结构和训练方式,实现了更快的推理速度。此外,该系列模型还采用了高质量的数据集和有效的训练技巧,保证了模型的性能。
关键设计:TeleChat2系列模型基于Transformer架构,拥有115B参数。在预训练阶段,采用了大规模的高质量数据集,并使用了数据清洗和过滤技术。在监督微调阶段,使用了人工标注的数据,并采用了不同的微调策略。在强化学习阶段,使用了奖励模型来评估模型的生成质量,并采用了策略梯度算法来优化模型。具体的参数设置和损失函数选择根据不同的训练阶段和任务进行了调整。
🖼️ 关键图片
📊 实验亮点
T1-115B模型在复杂推理任务上超越了OpenAI的o1-mini和GPT-4o等专有模型,表明了该系列模型在复杂推理能力上的显著提升。TeleChat2.5在保证较高性能的同时,实现了更快的推理速度,满足了对实时性有要求的应用场景。开源发布的35B和115B参数模型,为研究人员和开发者提供了强大的工具。
🎯 应用场景
TeleChat2系列模型可广泛应用于智能客服、代码生成、数学问题求解、文本摘要、机器翻译等领域。T1模型擅长复杂推理,适用于需要深度分析和决策的场景;TeleChat2.5模型则更适用于对响应速度有较高要求的应用,如实时对话系统。该系列模型的开源发布将促进自然语言处理技术的发展和应用。
📄 摘要(原文)
We introduce the latest series of TeleChat models: \textbf{TeleChat2}, \textbf{TeleChat2.5}, and \textbf{T1}, offering a significant upgrade over their predecessor, TeleChat. Despite minimal changes to the model architecture, the new series achieves substantial performance gains through enhanced training strategies in both pre-training and post-training stages. The series begins with \textbf{TeleChat2}, which undergoes pretraining on 10 trillion high-quality and diverse tokens. This is followed by Supervised Fine-Tuning (SFT) and Direct Preference Optimization (DPO) to further enhance its capabilities. \textbf{TeleChat2.5} and \textbf{T1} expand the pipeline by incorporating a continual pretraining phase with domain-specific datasets, combined with reinforcement learning (RL) to improve performance in code generation and mathematical reasoning tasks. The \textbf{T1} variant is designed for complex reasoning, supporting long Chain-of-Thought (CoT) reasoning and demonstrating substantial improvements in mathematics and coding. In contrast, \textbf{TeleChat2.5} prioritizes speed, delivering rapid inference. Both flagship models of \textbf{T1} and \textbf{TeleChat2.5} are dense Transformer-based architectures with 115B parameters, showcasing significant advancements in reasoning and general task performance compared to the original TeleChat. Notably, \textbf{T1-115B} outperform proprietary models such as OpenAI's o1-mini and GPT-4o. We publicly release \textbf{TeleChat2}, \textbf{TeleChat2.5} and \textbf{T1}, including post-trained versions with 35B and 115B parameters, to empower developers and researchers with state-of-the-art language models tailored for diverse applications.