LumosX: Relate Any Identities with Their Attributes for Personalized Video Generation

📄 arXiv: 2603.20192v1 📥 PDF

作者: Jiazheng Xing, Fei Du, Hangjie Yuan, Pengwei Liu, Hongbin Xu, Hai Ci, Ruigang Niu, Weihua Chen, Fan Wang, Yong Liu

分类: cs.CV, cs.AI

发布日期: 2026-03-20

备注: ICLR 2026 Camera Ready Version. Code and Models: https://jiazheng-xing.github.io/lumosx-home/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

LumosX:通过关联身份及其属性实现个性化视频生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 个性化视频生成 多主体视频生成 扩散模型 关系注意力 面部属性对齐

📋 核心要点

  1. 现有文本到视频生成方法在跨主体面部属性对齐方面存在不足,缺乏显式机制来保证组内一致性。
  2. LumosX通过构建包含主体属性依赖关系的数据集,并设计关系注意力机制来显式建模主体和属性之间的关系。
  3. 实验结果表明,LumosX在细粒度、身份一致和语义对齐的个性化多主体视频生成方面达到了SOTA水平。

📝 摘要(中文)

扩散模型在文本到视频生成方面的最新进展显著提升了个性化内容创作能力,能够对前景和背景元素进行精细控制。然而,跨主体的精确面部属性对齐仍然具有挑战性,因为现有方法缺乏确保组内一致性的显式机制。为了解决这一差距,需要显式的建模策略和面部属性感知的数据资源。因此,我们提出了LumosX,一个在数据和模型设计方面都有所改进的框架。在数据方面,定制的收集流程协调来自独立视频的标题和视觉线索,而多模态大型语言模型(MLLM)推断并分配特定于主体的依赖关系。这些提取的关系先验施加了更精细的结构,从而增强了个性化视频生成的表达控制,并能够构建全面的基准。在建模方面,关系自注意力和关系交叉注意力将位置感知嵌入与精细的注意力动态交织在一起,以铭刻显式的主体-属性依赖关系,从而加强有纪律的组内凝聚力并扩大不同主体集群之间的分离。在我们基准上的全面评估表明,LumosX在细粒度、身份一致和语义对齐的个性化多主体视频生成方面实现了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决个性化视频生成中,多个主体之间面部属性对齐的问题。现有方法难以保证生成视频中同一组内个体属性的一致性,例如,如果要求生成“戴眼镜的A和不戴眼镜的B”,现有方法可能无法准确实现,或者生成的结果A和B的身份不明确。

核心思路:LumosX的核心思路是显式地建模主体(identity)和属性(attribute)之间的关系。通过构建包含主体属性依赖关系的数据集,并设计关系注意力机制,使得模型能够学习并利用这些关系,从而生成更准确、更一致的个性化视频。

技术框架:LumosX框架主要包含两个部分:数据构建和模型设计。数据构建部分,利用多模态大型语言模型(MLLM)从独立视频中提取标题和视觉线索,并推断主体之间的依赖关系,构建包含主体属性依赖关系的数据集。模型设计部分,提出了关系自注意力(Relational Self-Attention)和关系交叉注意力(Relational Cross-Attention)机制,用于显式地建模主体和属性之间的关系。

关键创新:LumosX的关键创新在于:1) 提出了一个数据构建流程,能够自动提取和标注主体属性依赖关系,构建高质量的训练数据集;2) 设计了关系注意力机制,能够显式地建模主体和属性之间的关系,从而提高生成视频的准确性和一致性。与现有方法相比,LumosX能够更好地控制生成视频中多个主体的属性,并保证组内一致性。

关键设计:关系自注意力(Relational Self-Attention)和关系交叉注意力(Relational Cross-Attention)机制是LumosX的关键设计。这些机制将位置感知嵌入与精细的注意力动态交织在一起,以铭刻显式的主体-属性依赖关系。具体来说,通过在注意力计算中引入关系信息,使得模型能够更好地关注与主体属性相关的特征,从而提高生成视频的准确性和一致性。具体的参数设置、损失函数和网络结构等技术细节在论文中有详细描述,此处不再赘述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LumosX在自建的基准数据集上进行了全面评估,实验结果表明,LumosX在细粒度、身份一致和语义对齐的个性化多主体视频生成方面达到了SOTA水平。具体性能数据和对比基线在论文中有详细展示,表明LumosX显著优于现有方法。

🎯 应用场景

LumosX在个性化视频生成领域具有广泛的应用前景,例如:定制化教育视频、个性化广告、虚拟角色扮演、电影特效等。该研究能够生成更逼真、更符合用户需求的个性化视频内容,具有重要的实际价值和商业潜力。未来,该技术有望应用于更复杂的场景,例如:生成具有复杂交互行为的虚拟世界。

📄 摘要(原文)

Recent advances in diffusion models have significantly improved text-to-video generation, enabling personalized content creation with fine-grained control over both foreground and background elements. However, precise face-attribute alignment across subjects remains challenging, as existing methods lack explicit mechanisms to ensure intra-group consistency. Addressing this gap requires both explicit modeling strategies and face-attribute-aware data resources. We therefore propose LumosX, a framework that advances both data and model design. On the data side, a tailored collection pipeline orchestrates captions and visual cues from independent videos, while multimodal large language models (MLLMs) infer and assign subject-specific dependencies. These extracted relational priors impose a finer-grained structure that amplifies the expressive control of personalized video generation and enables the construction of a comprehensive benchmark. On the modeling side, Relational Self-Attention and Relational Cross-Attention intertwine position-aware embeddings with refined attention dynamics to inscribe explicit subject-attribute dependencies, enforcing disciplined intra-group cohesion and amplifying the separation between distinct subject clusters. Comprehensive evaluations on our benchmark demonstrate that LumosX achieves state-of-the-art performance in fine-grained, identity-consistent, and semantically aligned personalized multi-subject video generation. Code and models are available at https://jiazheng-xing.github.io/lumosx-home/.