SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

📄 arXiv: 2605.12500v1 📥 PDF

作者: Haiwen Diao, Penghao Wu, Hanming Deng, Jiahao Wang, Shihao Bai, Silei Wu, Weichen Fan, Wenjie Ye, Wenwen Tong, Xiangyu Fan, Yan Li, Yubo Wang, Zhijie Cao, Zhiqian Lin, Zhitao Yang, Zhongang Cai, Yuwei Niu, Yue Zhu, Bo Liu, Chengguang Lv, Haojia Yu, Haozhe Xie, Hongli Wang, Jianan Fan, Jiaqi Li, Jiefan Lu, Jingcheng Ni, Junxiang Xu, Kaihuan Liang, Lianqiang Shi, Linjun Dai, Linyan Wang, Oscar Qian, Peng Gao, Pengfei Liu, Qingping Sun, Rui Shen, Ruisi Wang, Shengnan Ma, Shuang Yang, Siyi Xie, Siying Li, Tianbo Zhong, Xiangli Kong, Xuanke Shi, Yang Gao, Yongqiang Yao, Yves Wang, Zhengqi Bai, Zhengyu Lin, Zixin Yin, Wenxiu Sun, Ruihao Gong, Quan Wang, Lewei Lu, Lei Yang, Ziwei Liu, Dahua Lin

分类: cs.CV

发布日期: 2026-05-12

备注: Project page: https://github.com/OpenSenseNova/SenseNova-U1


💡 一句话要点

SenseNova-U1:基于NEO-unify架构的统一多模态理解与生成模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉语言模型 统一架构 图像生成 知识推理 智能体决策 NEO-unify

📋 核心要点

  1. 现有视觉-语言模型将理解和生成视为独立任务,导致架构复杂、流程繁琐,限制了多模态智能的发展。
  2. SenseNova-U1基于NEO-unify架构,将理解和生成统一为单一底层过程的协同视角,实现原生统一的多模态范式。
  3. SenseNova-U1在多种任务上表现出色,包括文本理解、图像生成、智能体决策等,并展现出在VLA和WM场景的潜力。

📝 摘要(中文)

当前的大型视觉-语言模型(VLMs)受限于理解和生成被视为独立问题,导致架构分散、流程级联和表征空间错位。本文认为这种割裂阻碍了原生多模态智能的涌现。因此,我们提出了SenseNova-U1,一种基于NEO-unify的原生统一多模态范式,其中理解和生成是单一底层过程的协同视角。我们发布了两个原生统一变体,SenseNova-U1-8B-MoT和SenseNova-U1-A3B-MoT,分别基于稠密(8B)和混合专家(30B-A3B)的理解基线构建。从第一性原理设计,它们在文本理解、视觉-语言感知、知识推理、智能体决策和空间智能方面与顶级理解型VLMs相媲美。同时,它们提供强大的语义一致性和视觉保真度,擅长传统或知识密集型的任意到图像(X2I)合成、复杂的富文本信息图生成以及交错的视觉-语言生成,无论是否具有思考模式。除了性能之外,我们还展示了详细的模型设计、数据预处理、预/后训练和推理策略,以支持社区研究。最后但并非最不重要的是,初步证据表明我们的模型超越了感知和生成,在视觉-语言-动作(VLA)和世界模型(WM)场景中表现出色。这指向了一个更广阔的路线图,即模型不转换模态,而是以原生方式跨模态思考和行动。多模态AI不再是连接独立的系统,而是构建一个统一的系统,并相信必要的能力会从内部涌现。

🔬 方法详解

问题定义:现有视觉-语言模型(VLMs)通常将理解和生成视为两个独立的问题,导致模型架构复杂,需要级联的pipeline来完成任务。这种分离不仅增加了工程复杂度,也限制了模型在多模态任务中的表现,阻碍了原生多模态智能的涌现。现有方法的痛点在于无法实现理解和生成的统一表示和处理。

核心思路:SenseNova-U1的核心思路是将理解和生成视为一个统一过程的两个不同视角,而不是两个独立的任务。通过构建一个统一的架构,模型可以同时进行理解和生成,从而实现更高效和更自然的多模态交互。这种设计旨在消除理解和生成之间的隔阂,使模型能够更好地利用多模态信息。

技术框架:SenseNova-U1基于NEO-unify架构,该架构旨在统一多模态理解和生成。具体的技术框架细节未知,但从论文描述来看,它包含一个统一的表征空间,使得理解和生成可以在同一空间中进行。模型包含两个变体:SenseNova-U1-8B-MoT(稠密模型)和SenseNova-U1-A3B-MoT(混合专家模型)。

关键创新:SenseNova-U1的关键创新在于其原生统一的多模态范式,它将理解和生成视为一个整体,而不是两个分离的部分。这种统一的视角使得模型能够更好地利用多模态信息,从而在各种任务中取得更好的表现。与现有方法相比,SenseNova-U1避免了复杂的级联pipeline,实现了更简洁和高效的多模态处理。

关键设计:论文中提到模型设计、数据预处理、预/后训练和推理策略的细节,但具体的技术细节未知。模型使用了稠密和混合专家两种不同的架构,这可能涉及到不同的参数设置和网络结构。损失函数和训练策略的具体细节也未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SenseNova-U1在文本理解、视觉-语言感知、知识推理、智能体决策和空间智能等多个任务上与顶级理解型VLMs相媲美。同时,它在任意到图像(X2I)合成、富文本信息图生成以及交错的视觉-语言生成方面表现出色。初步证据表明,该模型在视觉-语言-动作(VLA)和世界模型(WM)场景中也表现出强大的潜力。

🎯 应用场景

SenseNova-U1具有广泛的应用前景,包括但不限于:多模态对话系统、智能图像生成、视觉辅助的智能体、教育领域的富文本信息图生成等。该模型能够理解和生成多模态信息,有望在人机交互、内容创作和智能决策等领域发挥重要作用,推动多模态人工智能的发展。

📄 摘要(原文)

Recent large vision-language models (VLMs) remain fundamentally constrained by a persistent dichotomy: understanding and generation are treated as distinct problems, leading to fragmented architectures, cascaded pipelines, and misaligned representation spaces. We argue that this divide is not merely an engineering artifact, but a structural limitation that hinders the emergence of native multimodal intelligence. Hence, we introduce SenseNova-U1, a native unified multimodal paradigm built upon NEO-unify, in which understanding and generation evolve as synergistic views of a single underlying process. We launch two native unified variants, SenseNova-U1-8B-MoT and SenseNova-U1-A3B-MoT, built on dense (8B) and mixture-of-experts (30B-A3B) understanding baselines, respectively. Designed from first principles, they rival top-tier understanding-only VLMs across text understanding, vision-language perception, knowledge reasoning, agentic decision-making, and spatial intelligence. Meanwhile, they deliver strong semantic consistency and visual fidelity, excelling in conventional or knowledge-intensive any-to-image (X2I) synthesis, complex text-rich infographic generation, and interleaved vision-language generation, with or without think patterns. Beyond performance, we show detailed model design, data preprocessing, pre-/post-training, and inference strategies to support community research. Last but not least, preliminary evidence demonstrates that our models extend beyond perception and generation, performing strongly in vision-language-action (VLA) and world model (WM) scenarios. This points toward a broader roadmap where models do not translate between modalities, but think and act across them in a native manner. Multimodal AI is no longer about connecting separate systems, but about building a unified one and trusting the necessary capabilities to emerge from within.