Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

作者: Yicheng Zou, Dongsheng Zhu, Lin Zhu, Tong Zhu, Yunhua Zhou, Peiheng Zhou, Xinyu Zhou, Dongzhan Zhou, Zhiwang Zhou, Yuhao Zhou, Bowen Zhou, Zhanping Zhong, Zhijie Zhong, Haiteng Zhao, Penghao Zhao, Xiaomeng Zhao, Zhiyuan Zhao, Yechen Zhang, Jin Zhang, Wenwei Zhang, Hongjie Zhang, Zhuo Zhang, Wenlong Zhang, Bo Zhang, Chao Zhang, Chen Zhang, Yuhang Zang, Fei Yuan, Jiakang Yuan, Jiashuo Yu, Jinhui Yin, Haochen Ye, Qian Yao, Bowen Yang, Danni Yang, Kaichen Yang, Ziang Yan, Jun Xu, Yicheng Xu, Wanghan Xu, Xuenan Xu, Chao Xu, Ruiliang Xu, Shuhao Xing, Long Xing, Xinchen Xie, Ling-I Wu, Zijian Wu, Zhenyu Wu, Lijun Wu, Yue Wu, Jianyu Wu, Wen Wu, Fan Wu, Xilin Wei, Qi Wei, Bingli Wang, Rui Wang, Ziyi Wang, Zun Wang, Yi Wang, Haomin Wang, Yizhou Wang, Lintao Wang, Yiheng Wang, Longjiang Wang, Bin Wang, Jian Tong, Zhongbo Tian, Huanze Tang, Chen Tang, Shixiang Tang, Yu Sun, Qiushi Sun, Xuerui Su, Qisheng Su, Chenlin Su, Demin Song, Jin Shi, Fukai Shang, Yuchen Ren, Pengli Ren, Xiaoye Qu, Yuan Qu, Jiantao Qiu, Yu Qiao, Runyu Peng, Tianshuo Peng, Jiahui Peng, Qizhi Pei, Zhuoshi Pan, Linke Ouyang, Wenchang Ning, Yichuan Ma, Zerun Ma, Ningsheng Ma, Runyuan Ma, Chengqi Lyu, Haijun Lv, Han Lv, Lindong Lu, Kuikun Liu, Jiangning Liu, Yuhong Liu, Kai Liu, Hongwei Liu, Zhoumianze Liu, Mengjie Liu, Ziyu Liu, Wenran Liu, Yang Liu, Liwei Liu, Kaiwen Liu, Junyao Lin, Junming Lin, Tianyang Lin, Dahua Lin, Jianze Liang, Linyang Li, Peiji Li, Zonglin Li, Zehao Li, Pengze Li, Guoyan Li, Lingkai Kong, Linglin Jing, Zhenjiang Jin, Feifei Jiang, Qian Jiang, Junhao Huang, Zixian Huang, Haian Huang, Zhouqi Hua, Han Hu, Linfeng Hou, Yinan He, Conghui He, Tianyao He, Xu Guo, Qipeng Guo, Aijia Guo, Yuzhe Gu, Lixin Gu, Jingyang Gong, Qiming Ge, Jiaye Ge, Songyang Gao, Jianfei Gao, Xinyu Fang, Caihua fan, Yue Fan, Yanhui Duan, Zichen Ding, Shengyuan Ding, Xuanlang Dai, Erfei Cui, Ganqu Cui, Pei Chu, Tao Chu, Guangran Cheng, Yu Cheng, Kai Chen, Yongkang Chen, Chiyu Chen, Guanzhou Chen, Qiaosheng Chen, Sitao Chen, Xin Chen, Haojiong Chen, Yicheng Chen, Weihan Cao, Yuhang Cao, Qinglong Cao, Lei Bai

分类: cs.LG, cs.CL, cs.CV

发布日期: 2026-03-26

💡 一句话要点

推出首个万亿参数科学多模态基础模型Intern-S1-Pro，提升通用与科学领域能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 科学大模型 强化学习 Agent智能 万亿参数 XTuner LMDeploy

📋 核心要点

现有模型在科学领域的推理和多模态理解能力不足，难以满足复杂科学任务的需求。
Intern-S1-Pro通过扩展模型规模到万亿参数，并结合先进的Agent能力，显著提升了模型的智能水平。
该模型在100多个科学任务上表现出色，并在通用能力上达到开源模型顶尖水平，超越了专有模型。

📝 摘要（中文）

本文介绍了Intern-S1-Pro，首个拥有万亿参数的科学多模态基础模型。通过扩展到前所未有的规模，该模型在通用和科学领域都实现了全面的增强。除了更强的推理和图像-文本理解能力外，其智能还通过先进的Agent能力得到增强。同时，其科学专业知识已得到极大的扩展，能够掌握化学、材料、生命科学和地球科学等关键科学领域的100多个专业任务。XTuner和LMDeploy的强大基础设施支持使得实现如此大规模成为可能，它们促进了万亿参数级别的高效强化学习（RL）训练，同时确保了训练和推理之间严格的精度一致性。通过无缝集成这些进步，Intern-S1-Pro进一步加强了通用智能和专业智能的融合，作为一个可专业化的通用模型，展示了其在通用能力方面处于开源模型顶尖水平的地位，同时在专业科学任务的深度上优于专有模型。

🔬 方法详解

问题定义：现有科学领域的大模型在参数规模、专业知识覆盖范围和推理能力上存在局限性，难以胜任复杂的科学研究任务。现有方法在训练和推理之间存在精度不一致的问题，影响模型性能。

核心思路：通过将模型扩展到万亿参数级别，并结合先进的Agent能力，提升模型的通用智能和专业智能。利用XTuner和LMDeploy等工具，实现高效的强化学习训练，并确保训练和推理之间精度的一致性。

技术框架：Intern-S1-Pro是一个多模态基础模型，能够处理图像和文本信息。其训练过程包括预训练和强化学习两个阶段。预训练阶段使用大规模的科学数据进行训练，使模型具备初步的科学知识和推理能力。强化学习阶段则通过与环境交互，进一步提升模型的智能水平。XTuner和LMDeploy等工具用于支持模型的训练和推理。

关键创新：该模型是首个万亿参数的科学多模态基础模型，参数规模远超现有模型。模型集成了先进的Agent能力，使其能够更好地理解和解决科学问题。通过XTuner和LMDeploy等工具，实现了高效的强化学习训练，并确保了训练和推理之间精度的一致性。

关键设计：模型使用了Transformer架构，并针对科学任务进行了优化。在训练过程中，使用了多种损失函数，包括交叉熵损失和强化学习奖励函数。模型的参数设置经过了精心的调整，以达到最佳的性能。

🖼️ 关键图片

📊 实验亮点

Intern-S1-Pro在100多个科学任务上表现出色，并在通用能力上达到开源模型顶尖水平。在特定科学任务上，该模型超越了专有模型，证明了其在科学领域的强大能力。该模型通过XTuner和LMDeploy实现了高效的强化学习训练，并确保了训练和推理之间精度的一致性。

🎯 应用场景

Intern-S1-Pro可广泛应用于化学、材料科学、生命科学和地球科学等领域，辅助科研人员进行数据分析、模型构建和实验设计。该模型有望加速科学发现的进程，并推动相关产业的发展。未来，该模型可以进一步扩展到其他科学领域，并与其他工具和平台集成，构建更加完善的科学研究生态系统。

📄 摘要（原文）

We introduce Intern-S1-Pro, the first one-trillion-parameter scientific multimodal foundation model. Scaling to this unprecedented size, the model delivers a comprehensive enhancement across both general and scientific domains. Beyond stronger reasoning and image-text understanding capabilities, its intelligence is augmented with advanced agent capabilities. Simultaneously, its scientific expertise has been vastly expanded to master over 100 specialized tasks across critical science fields, including chemistry, materials, life sciences, and earth sciences. Achieving this massive scale is made possible by the robust infrastructure support of XTuner and LMDeploy, which facilitates highly efficient Reinforcement Learning (RL) training at the 1-trillion parameter level while ensuring strict precision consistency between training and inference. By seamlessly integrating these advancements, Intern-S1-Pro further fortifies the fusion of general and specialized intelligence, working as a Specializable Generalist, demonstrating its position in the top tier of open-source models for general capabilities, while outperforming proprietary models in the depth of specialized scientific tasks.

Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理