Kimi-VL Technical Report

📄 arXiv: 2504.07491v3 📥 PDF

作者: Kimi Team, Angang Du, Bohong Yin, Bowei Xing, Bowen Qu, Bowen Wang, Cheng Chen, Chenlin Zhang, Chenzhuang Du, Chu Wei, Congcong Wang, Dehao Zhang, Dikang Du, Dongliang Wang, Enming Yuan, Enzhe Lu, Fang Li, Flood Sung, Guangda Wei, Guokun Lai, Han Zhu, Hao Ding, Hao Hu, Hao Yang, Hao Zhang, Haoning Wu, Haotian Yao, Haoyu Lu, Heng Wang, Hongcheng Gao, Huabin Zheng, Jiaming Li, Jianlin Su, Jianzhou Wang, Jiaqi Deng, Jiezhong Qiu, Jin Xie, Jinhong Wang, Jingyuan Liu, Junjie Yan, Kun Ouyang, Liang Chen, Lin Sui, Longhui Yu, Mengfan Dong, Mengnan Dong, Nuo Xu, Pengyu Cheng, Qizheng Gu, Runjie Zhou, Shaowei Liu, Sihan Cao, Tao Yu, Tianhui Song, Tongtong Bai, Wei Song, Weiran He, Weixiao Huang, Weixin Xu, Xiaokun Yuan, Xingcheng Yao, Xingzhe Wu, Xinhao Li, Xinxing Zu, Xinyu Zhou, Xinyuan Wang, Y. Charles, Yan Zhong, Yang Li, Yangyang Hu, Yanru Chen, Yejie Wang, Yibo Liu, Yibo Miao, Yidao Qin, Yimin Chen, Yiping Bao, Yiqin Wang, Yongsheng Kang, Yuanxin Liu, Yuhao Dong, Yulun Du, Yuxin Wu, Yuzhi Wang, Yuzi Yan, Zaida Zhou, Zhaowei Li, Zhejun Jiang, Zheng Zhang, Zhilin Yang, Zhiqi Huang, Zihao Huang, Zijia Zhao, Ziwei Chen, Zongyu Lin

分类: cs.CV

发布日期: 2025-04-10 (更新: 2025-06-23)

备注: Updated Kimi-VL-A3B-Thinking-2506 information

🔗 代码/项目: GITHUB


💡 一句话要点

Kimi-VL:高效开源MoE视觉语言模型,擅长长文本理解和高分辨率视觉输入

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 混合专家模型 长文本理解 高分辨率图像 多模态推理

📋 核心要点

  1. 现有视觉语言模型在处理长文本和高分辨率图像时面临计算成本高昂和信息损失的挑战。
  2. Kimi-VL采用混合专家(MoE)架构和MoonViT视觉编码器,在保证性能的同时降低计算成本,并提升对高分辨率图像的理解能力。
  3. 实验结果表明,Kimi-VL在长文本理解和高分辨率图像理解任务上取得了显著的性能提升,并在多个基准测试中超越了现有模型。

📝 摘要(中文)

本文介绍了Kimi-VL,一个高效的开源混合专家(MoE)视觉语言模型(VLM)。该模型在语言解码器中仅激活28亿参数(Kimi-VL-A3B),即可提供先进的多模态推理、长上下文理解和强大的Agent能力。Kimi-VL在多轮Agent任务(如OSWorld)中表现出色,与旗舰模型相媲美。此外,它在各种具有挑战性的视觉语言任务中表现出卓越的能力,包括大学水平的图像和视频理解、OCR、数学推理和多图像理解。在对比评估中,它有效地与GPT-4o-mini、Qwen2.5-VL-7B和Gemma-3-12B-IT等先进高效的VLM竞争,并在几个关键领域超越了GPT-4o。Kimi-VL还在处理长上下文和感知清晰度方面取得了进展。凭借128K的扩展上下文窗口,Kimi-VL可以处理各种长输入,在LongVideoBench上获得64.5分,在MMLongBench-Doc上获得35.1分。其原生分辨率视觉编码器MoonViT进一步使其能够看到和理解超高分辨率的视觉输入,在InfoVQA上获得83.2分,在ScreenSpot-Pro上获得34.5分,同时保持了常见任务的较低计算成本。基于Kimi-VL,我们推出了一种先进的长思考变体:Kimi-VL-Thinking-2506。通过长链思考(CoT)监督微调(SFT)和强化学习(RL)开发,最新的模型表现出强大的长程推理能力(MMMU上64.0,MMMU-Pro上46.3,MathVision上56.9,MathVista上80.1,VideoMMMU上65.2),同时获得了强大的通用能力。代码和模型可在https://github.com/MoonshotAI/Kimi-VL公开获取。

🔬 方法详解

问题定义:现有视觉语言模型(VLM)在处理长上下文和高分辨率视觉输入时面临挑战。长上下文处理通常需要大量的计算资源,而直接处理高分辨率图像会导致信息冗余和计算负担。此外,如何有效利用多模态信息进行复杂推理也是一个关键问题。

核心思路:Kimi-VL的核心思路是利用混合专家(MoE)架构来提高模型效率,并采用原生分辨率视觉编码器MoonViT来有效处理高分辨率视觉输入。MoE架构允许模型只激活部分参数,从而降低计算成本。MoonViT则能够在不降低图像分辨率的情况下提取视觉特征,保留更多细节信息。此外,通过长链思考(CoT)监督微调(SFT)和强化学习(RL),增强模型的长程推理能力。

技术框架:Kimi-VL的整体架构包含一个视觉编码器(MoonViT)和一个语言解码器。MoonViT负责提取视觉特征,语言解码器负责处理文本输入和视觉特征,并生成输出。MoE架构被应用于语言解码器中,以提高模型效率。Kimi-VL-Thinking-2506则在Kimi-VL的基础上,通过CoT SFT和RL进行微调,以增强长程推理能力。

关键创新:Kimi-VL的关键创新点在于以下几个方面:1) 采用MoE架构,在保证性能的同时降低计算成本;2) 采用原生分辨率视觉编码器MoonViT,有效处理高分辨率视觉输入;3) 通过CoT SFT和RL,增强模型的长程推理能力。与现有方法相比,Kimi-VL能够在更低的计算成本下处理更长的上下文和更高分辨率的视觉输入,并具有更强的推理能力。

关键设计:Kimi-VL的关键设计包括:1) MoonViT的结构设计,使其能够有效提取高分辨率图像的特征;2) MoE架构中专家数量和路由策略的选择,以平衡性能和计算成本;3) CoT SFT和RL的训练策略,以提高模型的推理能力。具体参数设置和损失函数等细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Kimi-VL在多个基准测试中取得了显著的性能提升。例如,在LongVideoBench上获得了64.5分,在MMLongBench-Doc上获得了35.1分。MoonViT在InfoVQA上获得83.2分,在ScreenSpot-Pro上获得34.5分。Kimi-VL-Thinking-2506在MMMU上获得64.0分,在MMMU-Pro上获得46.3分,在MathVision上获得56.9分,在MathVista上获得80.1分,在VideoMMMU上获得65.2分。这些结果表明Kimi-VL在长文本理解、高分辨率图像理解和推理能力方面具有显著优势。

🎯 应用场景

Kimi-VL具有广泛的应用前景,包括智能助手、图像和视频理解、OCR、数学推理、多图像理解等领域。它可以应用于需要处理长文本和高分辨率图像的场景,例如文档分析、医学影像诊断、自动驾驶等。该研究的成果有助于推动视觉语言模型在实际应用中的发展。

📄 摘要(原文)

We present Kimi-VL, an efficient open-source Mixture-of-Experts (MoE) vision-language model (VLM) that offers advanced multimodal reasoning, long-context understanding, and strong agent capabilities - all while activating only 2.8B parameters in its language decoder (Kimi-VL-A3B). Kimi-VL demonstrates strong performance across challenging domains: as a general-purpose VLM, Kimi-VL excels in multi-turn agent tasks (e.g., OSWorld), matching flagship models. Furthermore, it exhibits remarkable capabilities across diverse challenging vision language tasks, including college-level image and video comprehension, OCR, mathematical reasoning, and multi-image understanding. In comparative evaluations, it effectively competes with cutting-edge efficient VLMs such as GPT-4o-mini, Qwen2.5-VL-7B, and Gemma-3-12B-IT, while surpassing GPT-4o in several key domains. Kimi-VL also advances in processing long contexts and perceiving clearly. With a 128K extended context window, Kimi-VL can process diverse long inputs, achieving impressive scores of 64.5 on LongVideoBench and 35.1 on MMLongBench-Doc. Its native-resolution vision encoder, MoonViT, further allows it to see and understand ultra-high-resolution visual inputs, achieving 83.2 on InfoVQA and 34.5 on ScreenSpot-Pro, while maintaining lower computational cost for common tasks. Building upon Kimi-VL, we introduce an advanced long-thinking variant: Kimi-VL-Thinking-2506. Developed through long chain-of-thought (CoT) supervised fine-tuning (SFT) and reinforcement learning (RL), the latest model exhibits strong long-horizon reasoning capabilities (64.0 on MMMU, 46.3 on MMMU-Pro, 56.9 on MathVision, 80.1 on MathVista, 65.2 on VideoMMMU) while obtaining robust general abilities. Code and models are publicly accessible at https://github.com/MoonshotAI/Kimi-VL.