Kwai Keye-VL Technical Report

📄 arXiv: 2507.01949v1 📥 PDF

作者: Kwai Keye Team, Biao Yang, Bin Wen, Changyi Liu, Chenglong Chu, Chengru Song, Chongling Rao, Chuan Yi, Da Li, Dunju Zang, Fan Yang, Guorui Zhou, Hao Peng, Haojie Ding, Jiaming Huang, Jiangxia Cao, Jiankang Chen, Jingyun Hua, Jin Ouyang, Kaibing Chen, Kaiyu Jiang, Kaiyu Tang, Kun Gai, Shengnan Zhang, Siyang Mao, Sui Huang, Tianke Zhang, Tingting Gao, Wei Chen, Wei Yuan, Xiangyu Wu, Xiao Hu, Xingyu Lu, Yang Zhou, Yi-Fan Zhang, Yiping Yang, Yulong Chen, Zhenhua Wu, Zhenyu Li, Zhixin Ling, Ziming Li, Dehua Ma, Di Xu, Haixuan Gao, Hang Li, Jiawei Guo, Jing Wang, Lejian Ren, Muhao Wei, Qianqian Wang, Qigen Hu, Shiyao Wang, Tao Yu, Xinchen Luo, Yan Li, Yiming Liang, Yuhang Hu, Zeyi Lu, Zhuoran Yang, Zixing Zhang

分类: cs.CV

发布日期: 2025-07-02

备注: Technical Report: https://github.com/Kwai-Keye/Keye


💡 一句话要点

提出Kwai Keye-VL,用于提升多模态大模型在短视频理解上的性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 短视频理解 多模态大模型 视觉语言模型 预训练 后训练 冷启动学习 强化学习

📋 核心要点

  1. 现有多模态大模型在理解信息密集的短视频方面存在不足,无法充分捕捉动态信息。
  2. Kwai Keye-VL通过大规模高质量视频数据和创新的训练方案,提升模型在短视频理解上的性能。
  3. 实验结果表明,Keye-VL在公共视频基准测试中达到SOTA,并在KC-MMBench上表现出显著优势。

📝 摘要(中文)

多模态大型语言模型(MLLM)在静态图像上表现出卓越的能力,但它们在理解动态、信息密集的短视频方面往往表现不足,而短视频是当今数字领域的主导媒介。为了弥合这一差距,我们推出了Kwai Keye-VL,一个80亿参数的多模态基础模型,旨在实现短视频理解方面的领先性能,同时保持强大的通用视觉语言能力。Keye-VL的开发基于两个核心支柱:一个超过6000亿tokens的大规模高质量数据集,并强烈强调视频,以及一个创新的训练方案。该方案包括一个用于稳固视觉语言对齐的四阶段预训练过程,然后是一个细致的两阶段后训练过程。第一个后训练阶段增强了指令跟随等基础能力,而第二个阶段则侧重于激发高级推理。在第二阶段,一个关键的创新是我们的五模式“冷启动”数据混合,包括“思考”、“非思考”、“自动思考”、“带图像思考”和高质量视频数据。这种混合教会模型何时以及如何进行推理。随后的强化学习(RL)和对齐步骤进一步增强了这些推理能力,并纠正了异常的模型行为,例如重复输出。为了验证我们的方法,我们进行了广泛的评估,表明Keye-VL在公共视频基准测试中取得了最先进的结果,并在通用的基于图像的任务中保持了高度的竞争力。此外,我们开发并发布了KC-MMBench,这是一个专为真实世界短视频场景量身定制的新基准,Keye-VL在其中显示出显著的优势。

🔬 方法详解

问题定义:现有的大型多模态模型在处理静态图像时表现良好,但在理解动态、信息量大的短视频时能力不足。现有的方法难以有效捕捉视频中的时序信息和复杂关系,导致理解能力受限。

核心思路:Keye-VL的核心思路是通过大规模的视频数据预训练和精细的后训练策略,提升模型对短视频内容的理解和推理能力。通过“冷启动”数据混合,使模型学会何时以及如何进行推理。

技术框架:Keye-VL的训练过程分为四个阶段的预训练和两个阶段的后训练。预训练阶段用于视觉语言对齐,后训练阶段分别增强基础能力(如指令跟随)和高级推理能力。在推理能力增强阶段,采用了五种模式的“冷启动”数据混合。此外,还使用了强化学习和对齐步骤来优化模型的行为。

关键创新:Keye-VL的关键创新在于其五模式“冷启动”数据混合,包括“思考”、“非思考”、“自动思考”、“带图像思考”和高质量视频数据。这种混合方式能够引导模型学习在不同情境下进行推理,从而提升模型的泛化能力和适应性。

关键设计:Keye-VL模型参数量为80亿。训练数据包含超过6000亿tokens,并侧重于视频数据。后训练阶段的损失函数和网络结构等技术细节在论文中未明确给出,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Keye-VL在公共视频基准测试中取得了state-of-the-art的结果,证明了其在短视频理解方面的优越性能。此外,在专门为短视频场景设计的KC-MMBench基准测试中,Keye-VL也表现出显著的优势,表明其在实际应用中具有很强的竞争力。具体的性能数据和提升幅度在论文中未详细给出,属于未知信息。

🎯 应用场景

Kwai Keye-VL在短视频理解方面具有广泛的应用前景,例如视频内容推荐、智能视频编辑、视频内容审核、视频问答等。该模型可以提升短视频平台的智能化水平,为用户提供更优质的体验,并为相关产业带来新的发展机遇。

📄 摘要(原文)

While Multimodal Large Language Models (MLLMs) demonstrate remarkable capabilities on static images, they often fall short in comprehending dynamic, information-dense short-form videos, a dominant medium in today's digital landscape. To bridge this gap, we introduce \textbf{Kwai Keye-VL}, an 8-billion-parameter multimodal foundation model engineered for leading-edge performance in short-video understanding while maintaining robust general-purpose vision-language abilities. The development of Keye-VL rests on two core pillars: a massive, high-quality dataset exceeding 600 billion tokens with a strong emphasis on video, and an innovative training recipe. This recipe features a four-stage pre-training process for solid vision-language alignment, followed by a meticulous two-phase post-training process. The first post-training stage enhances foundational capabilities like instruction following, while the second phase focuses on stimulating advanced reasoning. In this second phase, a key innovation is our five-mode cold-start'' data mixture, which includesthinking'', non-thinking'',auto-think'', ``think with image'', and high-quality video data. This mixture teaches the model to decide when and how to reason. Subsequent reinforcement learning (RL) and alignment steps further enhance these reasoning capabilities and correct abnormal model behaviors, such as repetitive outputs. To validate our approach, we conduct extensive evaluations, showing that Keye-VL achieves state-of-the-art results on public video benchmarks and remains highly competitive on general image-based tasks (Figure 1). Furthermore, we develop and release the \textbf{KC-MMBench}, a new benchmark tailored for real-world short-video scenarios, where Keye-VL shows a significant advantage.