Seed1.5-VL Technical Report
作者: Dong Guo, Faming Wu, Feida Zhu, Fuxing Leng, Guang Shi, Haobin Chen, Haoqi Fan, Jian Wang, Jianyu Jiang, Jiawei Wang, Jingji Chen, Jingjia Huang, Kang Lei, Liping Yuan, Lishu Luo, Pengfei Liu, Qinghao Ye, Rui Qian, Shen Yan, Shixiong Zhao, Shuai Peng, Shuangye Li, Sihang Yuan, Sijin Wu, Tianheng Cheng, Weiwei Liu, Wenqian Wang, Xianhan Zeng, Xiao Liu, Xiaobo Qin, Xiaohan Ding, Xiaojun Xiao, Xiaoying Zhang, Xuanwei Zhang, Xuehan Xiong, Yanghua Peng, Yangrui Chen, Yanwei Li, Yanxu Hu, Yi Lin, Yiyuan Hu, Yiyuan Zhang, Youbin Wu, Yu Li, Yudong Liu, Yue Ling, Yujia Qin, Zanbo Wang, Zhiwu He, Aoxue Zhang, Bairen Yi, Bencheng Liao, Can Huang, Can Zhang, Chaorui Deng, Chaoyi Deng, Cheng Lin, Cheng Yuan, Chenggang Li, Chenhui Gou, Chenwei Lou, Chengzhi Wei, Chundian Liu, Chunyuan Li, Deyao Zhu, Donghong Zhong, Feng Li, Feng Zhang, Gang Wu, Guodong Li, Guohong Xiao, Haibin Lin, Haihua Yang, Haoming Wang, Heng Ji, Hongxiang Hao, Hui Shen, Huixia Li, Jiahao Li, Jialong Wu, Jianhua Zhu, Jianpeng Jiao, Jiashi Feng, Jiaze Chen, Jianhui Duan, Jihao Liu, Jin Zeng, Jingqun Tang, Jingyu Sun, Joya Chen, Jun Long, Junda Feng, Junfeng Zhan, Junjie Fang, Junting Lu, Kai Hua, Kai Liu, Kai Shen, Kaiyuan Zhang, Ke Shen, Ke Wang, Keyu Pan, Kun Zhang, Kunchang Li, Lanxin Li, Lei Li, Lei Shi, Li Han, Liang Xiang, Liangqiang Chen, Lin Chen, Lin Li, Lin Yan, Liying Chi, Longxiang Liu, Mengfei Du, Mingxuan Wang, Ningxin Pan, Peibin Chen, Pengfei Chen, Pengfei Wu, Qingqing Yuan, Qingyao Shuai, Qiuyan Tao, Renjie Zheng, Renrui Zhang, Ru Zhang, Rui Wang, Rui Yang, Rui Zhao, Shaoqiang Xu, Shihao Liang, Shipeng Yan, Shu Zhong, Shuaishuai Cao, Shuangzhi Wu, Shufan Liu, Shuhan Chang, Songhua Cai, Tenglong Ao, Tianhao Yang, Tingting Zhang, Wanjun Zhong, Wei Jia, Wei Weng, Weihao Yu, Wenhao Huang, Wenjia Zhu, Wenli Yang, Wenzhi Wang, Xiang Long, XiangRui Yin, Xiao Li, Xiaolei Zhu, Xiaoying Jia, Xijin Zhang, Xin Liu, Xinchen Zhang, Xinyu Yang, Xiongcai Luo, Xiuli Chen, Xuantong Zhong, Xuefeng Xiao, Xujing Li, Yan Wu, Yawei Wen, Yifan Du, Yihao Zhang, Yining Ye, Yonghui Wu, Yu Liu, Yu Yue, Yufeng Zhou, Yufeng Yuan, Yuhang Xu, Yuhong Yang, Yun Zhang, Yunhao Fang, Yuntao Li, Yurui Ren, Yuwen Xiong, Zehua Hong, Zehua Wang, Zewei Sun, Zeyu Wang, Zhao Cai, Zhaoyue Zha, Zhecheng An, Zhehui Zhao, Zhengzhuo Xu, Zhipeng Chen, Zhiyong Wu, Zhuofan Zheng, Zihao Wang, Zilong Huang, Ziyu Zhu, Zuquan Song
分类: cs.CV, cs.AI
发布日期: 2025-05-11
💡 一句话要点
提出Seed1.5-VL,用于提升通用多模态理解和推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 多模态理解 混合专家模型 Agent任务 视觉推理 GUI控制 游戏AI
📋 核心要点
- 现有VLM模型在通用多模态理解和推理方面仍有提升空间,尤其是在复杂推理和Agent任务中。
- Seed1.5-VL通过紧凑的架构(532M视觉编码器+20B MoE LLM)和精心设计的数据训练,提升了多模态理解和推理能力。
- Seed1.5-VL在多个VLM基准测试中取得SOTA,并在GUI控制和游戏等Agent任务中超越OpenAI CUA和Claude 3.7。
📝 摘要(中文)
本文介绍了Seed1.5-VL,一个旨在提升通用多模态理解和推理的视觉-语言基础模型。Seed1.5-VL由一个532M参数的视觉编码器和一个具有20B活跃参数的混合专家(MoE) LLM组成。尽管其架构相对紧凑,但它在广泛的公共VLM基准测试和内部评估套件中表现出色,在60个公共基准测试中的38个上实现了最先进的性能。此外,在以智能体为中心的任务中,如GUI控制和游戏,Seed1.5-VL优于领先的多模态系统,包括OpenAI CUA和Claude 3.7。除了视觉和视频理解,它还展示了强大的推理能力,使其特别适用于多模态推理挑战,如视觉谜题。我们相信这些能力将支持更广泛的跨领域应用。在本报告中,我们主要全面回顾了构建Seed1.5-VL的经验,包括模型设计、数据构建和各个阶段的训练,希望这份报告能够激发进一步的研究。Seed1.5-VL现已在https://www.volcengine.com/上提供(火山引擎模型ID:doubao-1-5-thinking-vision-pro-250428)。
🔬 方法详解
问题定义:论文旨在构建一个更强大的视觉-语言基础模型,以提升通用多模态理解和推理能力。现有VLM模型在处理复杂推理任务,特别是需要智能体交互的任务(如GUI控制和游戏)时,仍然存在局限性,性能有待提升。此外,模型尺寸和效率也是一个挑战,需要在性能和计算成本之间取得平衡。
核心思路:论文的核心思路是构建一个相对紧凑但功能强大的模型,通过精心设计的模型架构、数据构建和训练策略,提升模型在多模态理解、推理和Agent任务中的性能。采用混合专家(MoE)架构的LLM,可以在保持模型参数规模的同时,提升模型的表达能力和泛化能力。
技术框架:Seed1.5-VL由一个视觉编码器和一个LLM组成。视觉编码器负责提取图像或视频的视觉特征,LLM负责处理文本信息并进行多模态融合和推理。整体流程是:首先,视觉编码器将输入图像或视频编码为视觉特征;然后,LLM将视觉特征和文本信息进行融合,并进行推理或生成;最后,根据任务需求,输出结果。
关键创新:Seed1.5-VL的关键创新在于其紧凑的架构和强大的性能。通过采用混合专家(MoE)架构的LLM,模型可以在保持相对较小参数规模的同时,获得强大的表达能力。此外,论文还注重数据构建和训练策略,通过精心选择和处理训练数据,以及采用有效的训练方法,提升模型的泛化能力和鲁棒性。
关键设计:视觉编码器采用532M参数的模型,LLM采用20B活跃参数的混合专家(MoE)架构。具体的数据构建和训练策略细节未知,报告中提到有全面的回顾,但未详细展开。损失函数和网络结构等技术细节也未在摘要中提及。
🖼️ 关键图片
📊 实验亮点
Seed1.5-VL在60个公共VLM基准测试中的38个上实现了最先进的性能。在GUI控制和游戏等Agent任务中,Seed1.5-VL优于OpenAI CUA和Claude 3.7。这些结果表明Seed1.5-VL在多模态理解、推理和Agent任务中具有显著的优势。
🎯 应用场景
Seed1.5-VL具有广泛的应用前景,包括智能助手、自动驾驶、机器人控制、教育娱乐等领域。它可以用于图像/视频理解、视觉问答、视觉推理、GUI控制、游戏AI等任务。该模型能够提升智能系统的感知、理解和决策能力,从而实现更智能、更高效的应用。
📄 摘要(原文)
We present Seed1.5-VL, a vision-language foundation model designed to advance general-purpose multimodal understanding and reasoning. Seed1.5-VL is composed with a 532M-parameter vision encoder and a Mixture-of-Experts (MoE) LLM of 20B active parameters. Despite its relatively compact architecture, it delivers strong performance across a wide spectrum of public VLM benchmarks and internal evaluation suites, achieving the state-of-the-art performance on 38 out of 60 public benchmarks. Moreover, in agent-centric tasks such as GUI control and gameplay, Seed1.5-VL outperforms leading multimodal systems, including OpenAI CUA and Claude 3.7. Beyond visual and video understanding, it also demonstrates strong reasoning abilities, making it particularly effective for multimodal reasoning challenges such as visual puzzles. We believe these capabilities will empower broader applications across diverse tasks. In this report, we mainly provide a comprehensive review of our experiences in building Seed1.5-VL across model design, data construction, and training at various stages, hoping that this report can inspire further research. Seed1.5-VL is now accessible at https://www.volcengine.com/ (Volcano Engine Model ID: doubao-1-5-thinking-vision-pro-250428)