Kwai Keye-VL-2.0 Technical Report

📄 arXiv: 2606.10651v1 📥 PDF

作者: Kwai Keye Team, Bin Wen, Changyi Liu, Chengru Song, Chongling Rao, Guowang Zhang, Han Li, Haonan Fan, Hengrui Ju, Jiankang Chen, Jiapeng Chen, Jiawei Yuan, Kaixuan Yang, Kaiyu Jiang, Kun Gai, Lingzhi Zhou, Na Nie, Sen Na, Tianke Zhang, Tingting Gao, Xuanyu Zheng, Yulong Chen, Fan Yang, Haixuan Gao, Lele Yang, Mingqiao Liu, Muxi Diao, Qi Zhang, Qile Su, Wei Chen, Wentao Hong, Xingyu Lu, Yancheng Long, Yankai Yang, Yingxin Li, Yiyang Fan, Yu Xia, Yuzhe Chen, Ziliang Lai, Chuan Yi, Haonan Jia, Tianming Liang, Weixin Xu, Xiaoxiao Ma, Yang Tian, Yufei Han, Feng Han, Hang Li, Jing Wang, Jinghui Jia, Junmin Chen, Junyu Shi, Ruilin Zhang

分类: cs.CV

发布日期: 2026-06-09

备注: 31 pages, 11 figures


💡 一句话要点

提出Kwai Keye-VL-2.0以解决长视频理解和智能体协作问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 混合专家 深度稀疏注意力 多模态融合 在线蒸馏 智能体协作 时间定位 视频分析

📋 核心要点

  1. 长视频理解面临超长上下文处理、信息冗余和计算成本高等挑战,现有方法难以有效应对。
  2. 提出的Keye-VL-2.0模型采用深度稀疏注意力(DSA)和跨模态多教师在线蒸馏(MOPD),实现高效的多模态信息处理。
  3. 实验结果显示,Keye-VL-2.0在视频理解和时间定位任务上表现优异,尤其在TimeLens和Video-MME-v2上取得了显著提升。

📝 摘要(中文)

我们介绍了Kwai Keye-VL-2.0-30B-A3B,这是一个开源的混合专家(MoE)多模态基础模型,旨在推动长视频理解和智能体智能的发展。为了解决超长上下文、信息冗余和高昂计算成本等挑战,Keye-VL-2.0首次将深度稀疏注意力(DSA)应用于基于GQA的多模态架构,实现了256K上下文的无损处理,同时捕捉关键帧和长距离时间依赖。该架构基于高度优化的训练和推理基础设施,显著提高了吞吐量并减少了计算开销。此外,我们引入了跨模态多教师在线蒸馏(MOPD),通过从在线策略回滚中提取密集的标记级教师反馈,增强了模型在多任务对齐中的能力。大量评估表明,Keye-VL-2.0在视频理解和时间定位等任务上达到了同规模模型中的最先进性能。

🔬 方法详解

问题定义:本论文旨在解决长视频理解中的超长上下文处理、信息冗余和计算成本高的问题。现有方法在处理小时级视频时,往往面临性能瓶颈和资源浪费。

核心思路:论文提出的Keye-VL-2.0模型通过引入深度稀疏注意力(DSA)和跨模态多教师在线蒸馏(MOPD),有效提升了模型在长视频场景中的理解能力,尤其是在捕捉长距离时间依赖方面。

技术框架:Keye-VL-2.0的整体架构包括多个模块:首先是视频输入输出的可扩展性,其次是异构ViT-LM并行处理,最后是定制的DSA内核,确保高效的训练和推理。

关键创新:最重要的技术创新在于将DSA应用于GQA基础架构,实现了256K上下文的无损处理,并通过MOPD解决了多任务对齐中的灾难性遗忘问题。

关键设计:模型激活仅使用3B参数,采用定制的损失函数和网络结构,确保在多模态自我纠错和智能体协作中达到最佳性能。具体的参数设置和网络细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在实验中,Keye-VL-2.0-30B-A3B在视频理解和时间定位任务上表现出色,特别是在TimeLens和Video-MME-v2上分别实现了显著的性能提升,超越了同规模的其他模型,展示了其在长视频理解中的优势。

🎯 应用场景

该研究的潜在应用领域包括长视频分析、智能体协作和多模态交互等。Keye-VL-2.0能够在教育、娱乐和工业等多个场景中提供高效的智能体支持,推动多模态应用的进步与发展。

📄 摘要(原文)

We introduce Kwai Keye-VL-2.0-30B-A3B, an open-source Mixture-of-Experts (MoE) multimodal foundation model designed to advance long-video understanding and agentic intelligence. To address the challenges of ultra-long contexts, information redundancy, and prohibitive computational costs inherent in hour-level videos, Keye-VL-2.0 is the first to adapt DeepSeek Sparse Attention (DSA) to GQA-based multimodal architectures, enabling lossless 256K context processing while capturing critical frames and long-range temporal dependencies. This architecture is underpinned by a highly optimized training and inference infrastructure, including scalable video I/O, heterogeneous ViT-LM parallelism, and custom DSA kernels that significantly maximize throughput and minimize computational overhead. Furthermore, to overcome the algorithmic dilemma of catastrophic forgetting during multi-task alignment, we introduce Cross-Modal Multi-Teacher On-Policy Distillation (MOPD) paired with Context-RL and Video-RL. By distilling dense token-level teacher feedback from on-policy rollouts back into the MoE backbone, which activates only 3B parameters, Keye-VL-2.0 natively empowers advanced agent collaboration across Code, Tool, and Search scenarios with multimodal self-correction. Extensive evaluations across video understanding, temporal grounding, reasoning, STEM, and agent benchmarks demonstrate that Keye-VL-2.0-30B-A3B achieves state-of-the-art performance among models of similar scale, particularly excelling in fine-grained temporal localization on TimeLens and long-video comprehension on Video-MME-v2 and LongVideoBench. We release our model checkpoints to accelerate community progress toward scalable and robust multimodal agentic applications.