Lance: Unified Multimodal Modeling by Multi-Task Synergy

📄 arXiv: 2605.18678v1 📥 PDF

作者: Fengyi Fu, Mengqi Huang, Shaojin Wu, Yunsheng Jiang, Yufei Huo, Hao Li, Yinghang Song, Fei Ding, Jianzhu Guo, Qian He, Zheren Fu, Zhendong Mao, Yongdong Zhang

分类: cs.CV, cs.AI

发布日期: 2026-05-18

备注: 34 pages, 14 figures, 10 tables, homepage url: https://lance-project.github.io , code url: https://github.com/bytedance/Lance


💡 一句话要点

Lance:通过多任务协同实现统一的多模态建模,支持图像和视频的理解、生成与编辑。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 统一模型 图像生成 视频生成 多任务学习 混合专家模型 上下文建模 解耦能力路径

📋 核心要点

  1. 现有统一多模态模型通常依赖于扩大模型规模或以文本-图像为主的设计,效率和灵活性受限。
  2. Lance通过协同多任务训练,结合统一上下文建模和解耦能力路径,实现高效的多模态理解、生成和编辑。
  3. 实验表明,Lance在图像和视频生成方面超越现有开源模型,同时保持强大的多模态理解能力。

📝 摘要(中文)

本文提出了Lance,一个轻量级的原生统一模型,支持图像和视频的多模态理解、生成和编辑。Lance没有依赖模型容量的扩展或以文本-图像为主导的设计,而是探索了一种通过协同多任务训练实现统一多模态建模的实用范例。它基于两个核心原则:统一上下文建模和解耦能力路径。具体来说,Lance从头开始训练,并在共享的交错多模态序列上采用双流混合专家架构,从而实现联合上下文学习,同时解耦理解和生成的能力路径。此外,我们引入了模态感知旋转位置编码,以减轻异构视觉token之间的干扰,并提高跨任务对齐。在训练过程中,Lance采用分阶段多任务训练范例,具有面向能力的目标和自适应数据调度,以增强语义理解和视觉生成性能。实验结果表明,Lance在图像和视频生成方面显著优于现有的开源统一模型,同时保持了强大的多模态理解能力。

🔬 方法详解

问题定义:现有统一多模态模型通常依赖于大规模的模型参数或者以文本-图像对为中心的设计,这导致了模型训练和部署的成本高昂,并且难以灵活地适应各种多模态任务,例如视频编辑和生成。因此,如何设计一个轻量级且通用的模型,能够同时处理多模态的理解、生成和编辑任务,是一个重要的挑战。

核心思路:Lance的核心思路是通过多任务协同训练,在统一的框架下学习不同模态之间的关联,并解耦理解和生成的能力路径。通过共享的上下文建模,模型可以更好地理解不同模态之间的关系,而解耦的能力路径则允许模型针对不同的任务进行优化,从而提高整体性能。

技术框架:Lance采用双流混合专家(MoE)架构,处理共享的交错多模态序列。该架构包含两个主要分支:一个用于理解任务,另一个用于生成任务。这两个分支共享底层的上下文建模模块,但具有不同的专家网络,以适应不同的任务需求。训练过程采用分阶段多任务训练策略,首先训练模型的理解能力,然后逐步引入生成任务,并使用自适应数据调度来平衡不同任务之间的学习进度。

关键创新:Lance的关键创新在于其统一的上下文建模和解耦能力路径的设计。统一的上下文建模允许模型在不同模态之间共享信息,从而提高理解能力。解耦的能力路径则允许模型针对不同的任务进行优化,从而提高生成能力。此外,模态感知旋转位置编码(Modality-aware Rotary Positional Encoding)的设计,可以有效缓解异构视觉token之间的干扰,并提升跨任务对齐效果。

关键设计:Lance使用Transformer作为其核心架构,并采用双流MoE结构。模态感知旋转位置编码被用于处理不同模态的token。损失函数包括用于理解任务的交叉熵损失和用于生成任务的重建损失。自适应数据调度策略根据不同任务的训练进度动态调整数据采样比例。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Lance在图像和视频生成任务上显著优于现有的开源统一模型。例如,在图像生成任务上,Lance的FID指标优于其他模型。同时,Lance在多模态理解任务上也表现出色,证明了其在理解和生成能力上的平衡性。具体性能数据请参考论文原文。

🎯 应用场景

Lance具有广泛的应用前景,包括但不限于:智能视频编辑、内容创作、虚拟现实、增强现实、机器人视觉等领域。它可以用于生成逼真的图像和视频,编辑现有内容,以及理解多模态输入。该研究的实际价值在于提供了一个轻量级且通用的多模态模型,降低了多模态应用开发的门槛,并为未来的多模态研究提供了新的思路。

📄 摘要(原文)

We present Lance, a lightweight native unified model supporting multimodal understanding, generation, and editing for both images and videos. Rather than relying on model capacity scaling or text-image-dominant designs, Lance explores a practical paradigm for unified multimodal modeling via collaborative multi-task training. It is grounded in two core principles: unified context modeling and decoupled capability pathways. Specifically, Lance is trained from scratch and employs a dual-stream mixture-of-experts architecture on shared interleaved multimodal sequences, enabling joint context learning while decoupling the pathways for understanding and generation. We further introduce modality-aware rotary positional encoding to mitigate interference among heterogeneous visual tokens and boost cross-task alignment. During training, Lance adopts a staged multi-task training paradigm with capability-oriented objectives and adaptive data scheduling to strengthen both semantic comprehension and visual generation performance. Experimental results demonstrate that Lance substantially outperforms existing open-source unified models in image and video generation, while retaining strong multimodal understanding capabilities. The homepage is available at https://lance-project.github.io.