Intern-S1: A Scientific Multimodal Foundation Model

📄 arXiv: 2508.15763v2 📥 PDF

作者: Lei Bai, Zhongrui Cai, Yuhang Cao, Maosong Cao, Weihan Cao, Chiyu Chen, Haojiong Chen, Kai Chen, Pengcheng Chen, Ying Chen, Yongkang Chen, Yu Cheng, Pei Chu, Tao Chu, Erfei Cui, Ganqu Cui, Long Cui, Ziyun Cui, Nianchen Deng, Ning Ding, Nanqing Dong, Peijie Dong, Shihan Dou, Sinan Du, Haodong Duan, Caihua Fan, Ben Gao, Changjiang Gao, Jianfei Gao, Songyang Gao, Yang Gao, Zhangwei Gao, Jiaye Ge, Qiming Ge, Lixin Gu, Yuzhe Gu, Aijia Guo, Qipeng Guo, Xu Guo, Conghui He, Junjun He, Yili Hong, Siyuan Hou, Caiyu Hu, Hanglei Hu, Jucheng Hu, Ming Hu, Zhouqi Hua, Haian Huang, Junhao Huang, Xu Huang, Zixian Huang, Zhe Jiang, Lingkai Kong, Linyang Li, Peiji Li, Pengze Li, Shuaibin Li, Tianbin Li, Wei Li, Yuqiang Li, Dahua Lin, Junyao Lin, Tianyi Lin, Zhishan Lin, Hongwei Liu, Jiangning Liu, Jiyao Liu, Junnan Liu, Kai Liu, Kaiwen Liu, Kuikun Liu, Shichun Liu, Shudong Liu, Wei Liu, Xinyao Liu, Yuhong Liu, Zhan Liu, Yinquan Lu, Haijun Lv, Hongxia Lv, Huijie Lv, Qitan Lv, Ying Lv, Chengqi Lyu, Chenglong Ma, Jianpeng Ma, Ren Ma, Runmin Ma, Runyuan Ma, Xinzhu Ma, Yichuan Ma, Zihan Ma, Sixuan Mi, Junzhi Ning, Wenchang Ning, Xinle Pang, Jiahui Peng, Runyu Peng, Yu Qiao, Jiantao Qiu, Xiaoye Qu, Yuan Qu, Yuchen Ren, Fukai Shang, Wenqi Shao, Junhao Shen, Shuaike Shen, Chunfeng Song, Demin Song, Diping Song, Chenlin Su, Weijie Su, Weigao Sun, Yu Sun, Qian Tan, Cheng Tang, Huanze Tang, Kexian Tang, Shixiang Tang, Jian Tong, Aoran Wang, Bin Wang, Dong Wang, Lintao Wang, Rui Wang, Weiyun Wang, Wenhai Wang, Jiaqi Wang, Yi Wang, Ziyi Wang, Ling-I Wu, Wen Wu, Yue Wu, Zijian Wu, Linchen Xiao, Shuhao Xing, Chao Xu, Huihui Xu, Jun Xu, Ruiliang Xu, Wanghan Xu, GanLin Yang, Yuming Yang, Haochen Ye, Jin Ye, Shenglong Ye, Jia Yu, Jiashuo Yu, Jing Yu, Fei Yuan, Yuhang Zang, Bo Zhang, Chao Zhang, Chen Zhang, Hongjie Zhang, Jin Zhang, Qiaosheng Zhang, Qiuyinzhe Zhang, Songyang Zhang, Taolin Zhang, Wenlong Zhang, Wenwei Zhang, Yechen Zhang, Ziyang Zhang, Haiteng Zhao, Qian Zhao, Xiangyu Zhao, Xiangyu Zhao, Bowen Zhou, Dongzhan Zhou, Peiheng Zhou, Yuhao Zhou, Yunhua Zhou, Dongsheng Zhu, Lin Zhu, Yicheng Zou

分类: cs.LG, cs.CL, cs.CV

发布日期: 2025-08-21 (更新: 2025-08-24)

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

提出 Intern-S1:一个用于科学领域的多模态基础模型,显著提升专业任务性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 科学领域 基础模型 混合专家模型 强化学习 分子合成 反应条件预测

📋 核心要点

  1. 现有通用基础模型在科学领域的性能不足,无法满足科研需求,且与闭源模型存在较大差距。
  2. Intern-S1 采用多模态混合专家模型,并使用包含大量科学领域数据的语料库进行持续预训练。
  3. 通过离线和在线强化学习,并提出混合奖励机制,Intern-S1 在科学任务上超越了现有开源和闭源模型。

📝 摘要(中文)

近年来,涌现了大量开源基础模型,并在一些广泛关注的领域取得了显著进展,其性能非常接近闭源模型。然而,在高价值但更具挑战性的科学专业领域,要么仍然依赖于专家模型,要么通用基础模型的进展与热门领域相比显著滞后,远不足以改变科学研究,并且开源模型与闭源模型在这些科学领域之间存在巨大差距。为了缩小这一差距,并朝着通用人工智能(AGI)迈出一步,我们推出了 Intern-S1,这是一个专门的通才,具备通用理解和推理能力,并具有分析多种科学模态数据的专业知识。Intern-S1 是一个多模态混合专家(MoE)模型,具有 280 亿个激活参数和 2410 亿个总参数,在 5T tokens 上持续预训练,其中包括来自科学领域的超过 2.5T tokens。在后训练阶段,Intern-S1 在 InternBootCamp 中进行离线和在线强化学习(RL),我们提出了混合奖励(MoR)来协同对 1000 多个任务同时进行 RL 训练。通过算法、数据和训练系统的综合创新,Intern-S1 在在线 RL 训练中取得了顶级的性能。在综合评估基准上,Intern-S1 在开源模型中展示了在通用推理任务上具有竞争力的性能,并在科学领域显著优于开源模型,在分子合成规划、反应条件预测、预测晶体的热力学稳定性等专业任务中超越了闭源最先进的模型。我们的模型可在 https://huggingface.co/internlm/Intern-S1 上获得。

🔬 方法详解

问题定义:现有通用基础模型在科学领域的应用面临挑战,具体表现在对科学数据的理解和推理能力不足,导致在专业科学任务上的性能远低于专家模型或闭源模型。现有方法难以有效利用科学领域的知识,无法满足科研需求。

核心思路:Intern-S1 的核心思路是构建一个专门针对科学领域的多模态基础模型,通过大规模科学数据的预训练,使模型具备理解和推理科学知识的能力。同时,利用混合专家模型提升模型容量,并通过强化学习进一步优化模型在科学任务上的表现。

技术框架:Intern-S1 采用多模态混合专家(MoE)架构,包含多个专家网络,每个专家网络负责处理特定类型的科学数据或任务。模型首先在包含大量科学领域数据的语料库上进行预训练,然后通过离线和在线强化学习进行微调。在线强化学习阶段,使用 InternBootCamp 框架,并提出混合奖励(MoR)机制,同时优化多个科学任务。

关键创新:Intern-S1 的关键创新在于:1) 针对科学领域的多模态数据进行专门设计和训练;2) 采用混合专家模型,提升模型容量和专业性;3) 提出混合奖励机制,实现多任务强化学习的协同优化。

关键设计:Intern-S1 模型包含 280 亿个激活参数和 2410 亿个总参数。预训练数据包含 5T tokens,其中超过 2.5T tokens 来自科学领域。混合奖励机制通过加权平均不同任务的奖励信号,实现多任务之间的平衡。具体权重根据任务的重要性和难度进行调整。强化学习算法采用 PPO 算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Intern-S1 在多个科学任务上取得了显著的性能提升。例如,在分子合成规划任务中,Intern-S1 超过了闭源最先进的模型。在反应条件预测和晶体稳定性预测任务中,Intern-S1 也显著优于现有开源模型。这些结果表明 Intern-S1 在科学领域具有强大的竞争力。

🎯 应用场景

Intern-S1 在科学研究领域具有广泛的应用前景,例如分子合成规划、反应条件预测、晶体稳定性预测等。该模型可以加速科学发现过程,降低科研成本,并为科学家提供强大的辅助工具。未来,Intern-S1 有望应用于更多科学领域,推动科学研究的智能化发展。

📄 摘要(原文)

In recent years, a plethora of open-source foundation models have emerged, achieving remarkable progress in some widely attended fields, with performance being quite close to that of closed-source models. However, in high-value but more challenging scientific professional fields, either the fields still rely on expert models, or the progress of general foundation models lags significantly compared to those in popular areas, far from sufficient for transforming scientific research and leaving substantial gap between open-source models and closed-source models in these scientific domains. To mitigate this gap and explore a step further toward Artificial General Intelligence (AGI), we introduce Intern-S1, a specialized generalist equipped with general understanding and reasoning capabilities with expertise to analyze multiple science modal data. Intern-S1 is a multimodal Mixture-of-Experts (MoE) model with 28 billion activated parameters and 241 billion total parameters, continually pre-trained on 5T tokens, including over 2.5T tokens from scientific domains. In the post-training stage, Intern-S1 undergoes offline and then online reinforcement learning (RL) in InternBootCamp, where we propose Mixture-of-Rewards (MoR) to synergize the RL training on more than 1000 tasks simultaneously. Through integrated innovations in algorithms, data, and training systems, Intern-S1 achieved top-tier performance in online RL training. On comprehensive evaluation benchmarks, Intern-S1 demonstrates competitive performance on general reasoning tasks among open-source models and significantly outperforms open-source models in scientific domains, surpassing closed-source state-of-the-art models in professional tasks, such as molecular synthesis planning, reaction condition prediction, predicting thermodynamic stabilities for crystals. Our models are available at https://huggingface.co/internlm/Intern-S1.