OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

📄 arXiv: 2602.08683 📥 PDF

作者: Feilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

OneVision-Encoder:编解码器对齐的稀疏性作为多模态智能的基础原则

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频理解 稀疏编码 编解码器对齐 多模态学习 视觉编码器

📋 核心要点

  1. 现有视觉架构对密集像素网格进行均匀处理,浪费大量计算资源在静态背景上,未能聚焦于定义运动和意义的预测残差。
  2. OneVision-Encoder通过编解码器分块,仅关注视频中信息熵高的区域,并采用共享3D RoPE统一空间和时间推理。
  3. 实验表明,OV-Encoder在多个视觉理解任务上优于现有模型,尤其在视频理解上提升显著,验证了编解码器对齐稀疏性的有效性。

📝 摘要(中文)

本文提出了一种新的视觉编码器OneVision-Encoder (OV-Encoder),其核心假设是:通用人工智能本质上是一个压缩问题。有效的压缩需要共振,即深度学习的最佳扩展方式是使其架构与数据的基本结构对齐。OV-Encoder通过将预测性视觉结构压缩为语义意义来编码视频。它采用编解码器分块(Codec Patchification),放弃均匀计算,专注于信号熵丰富的3.1%-25%的区域。为了在不规则的token布局下统一空间和时间推理,OV-Encoder采用共享的3D RoPE,并使用超过一百万个语义概念的大规模聚类判别目标进行训练,共同捕捉对象持久性和运动动态。实验结果表明,效率和准确性之间不是权衡关系,而是正相关关系。当集成到LLM中时,OV-Encoder在16个图像、视频和文档理解基准测试中始终优于Qwen3-ViT和SigLIP2等强大的视觉backbone,同时使用更少的视觉token和预训练数据。在视频理解任务中,OV-Encoder比Qwen3-ViT平均提升4.1%。

🔬 方法详解

问题定义:当前视觉模型在处理视频时,对所有像素进行同等处理,忽略了视频数据中信息分布的不均衡性。大量计算资源被浪费在静态背景等冗余信息上,而真正重要的、包含运动和语义信息的区域却未能得到充分关注。这导致模型效率低下,难以有效提取视频中的关键信息。

核心思路:论文的核心思路是将视觉模型的架构与视频编解码器的信息论原则对齐。视频编解码器通过预测和残差编码来压缩视频数据,只保留和传输变化的部分。借鉴这一思想,OV-Encoder只关注视频中信息熵高的区域,即那些包含显著变化和语义信息的区域,从而减少计算量,提高效率。

技术框架:OV-Encoder的整体框架包括以下几个主要模块:1) Codec Patchification:使用编解码器分块策略,将视频帧分割成不规则的patch,并只选择信息熵高的patch进行处理。2) Shared 3D RoPE:采用共享的3D RoPE(Rotary Position Embedding)来编码patch的位置信息,从而统一空间和时间推理。3) Large-scale Cluster Discrimination Objective:使用大规模聚类判别目标进行训练,以学习对象持久性和运动动态。

关键创新:OV-Encoder的关键创新在于其编解码器对齐的稀疏性。与传统的密集视觉模型不同,OV-Encoder只关注视频中信息熵高的区域,从而大大减少了计算量,提高了效率。此外,OV-Encoder还采用了共享的3D RoPE和大规模聚类判别目标,以进一步提高模型的性能。

关键设计:Codec Patchification的具体实现方式是,首先计算每个patch的信息熵,然后选择信息熵高于阈值的patch进行处理。3D RoPE是一种旋转位置编码,可以有效地编码patch的位置信息,并支持空间和时间推理。大规模聚类判别目标通过将视频帧聚类成不同的语义概念,并训练模型来区分这些概念,从而学习对象持久性和运动动态。具体损失函数未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OV-Encoder在16个图像、视频和文档理解基准测试中,始终优于Qwen3-ViT和SigLIP2等强大的视觉backbone,同时使用更少的视觉token和预训练数据。尤其在视频理解任务中,OV-Encoder比Qwen3-ViT平均提升4.1%。这些结果表明,编解码器对齐的稀疏性是一种有效的策略,可以提高视觉模型的效率和性能。

🎯 应用场景

OneVision-Encoder在视频理解、视频检索、视频编辑等领域具有广泛的应用前景。其高效的特性使其能够应用于资源受限的设备上,例如移动设备和嵌入式系统。此外,该研究为下一代视觉通用模型的开发提供了一种新的思路,即通过与数据内在结构对齐来提高模型的效率和性能。

📄 摘要(原文)

Hypothesis. Artificial general intelligence is, at its core, a compression problem. Effective compression demands resonance: deep learning scales best when its architecture aligns with the fundamental structure of the data. These are the fundamental principles. Yet, modern vision architectures have strayed from these truths: visual signals are highly redundant, while discriminative information, the surprise, is sparse. Current models process dense pixel grids uniformly, wasting vast compute on static background rather than focusing on the predictive residuals that define motion and meaning. We argue that to solve visual understanding, we must align our architectures with the information-theoretic principles of video, i.e., Codecs.Method. OneVision-Encoder encodes video by compressing predictive visual structure into semantic meaning. By adopting Codec Patchification, OV-Encoder abandons uniform computation to focus exclusively on the 3.1%-25% of regions rich in signal entropy. To unify spatial and temporal reasoning under irregular token layouts, OneVision-Encoder employs a shared 3D RoPE and is trained with a large-scale cluster discrimination objective over more than one million semantic concepts, jointly capturing object permanence and motion dynamics.Evidence. The results validate our core hypothesis: efficiency and accuracy are not a trade-off; they are positively correlated. When integrated into LLM, it consistently outperforms strong vision backbones such as Qwen3-ViT and SigLIP2 across 16 image, video, and document understanding benchmarks, despite using substantially fewer visual tokens and pretraining data. Notably, on video understanding tasks, OV-Encoder achieves an average improvement of 4.1% over Qwen3-ViT. Codec-aligned, patch-level sparsity is a foundational principle, enabling OV-Encoder as a scalable engine for next-generation visual generalists.