Spatial-Temporal Decoupled Reference Conditioning for Identity-Preserving Text-to-Video Generation

作者: Yuheng Chen, Teng Hu, Yuji Wang, Qingdong He, Lizhuang Ma, Jiangning Zhang

分类: cs.CV

发布日期: 2026-06-01

💡 一句话要点

提出ST-DRC框架，解决身份保持的文本到视频生成中语义控制与身份保真间的平衡问题。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 文本到视频生成 身份保持 时空解耦 参考调节 扩散模型

📋 核心要点

现有身份保持视频生成方法难以兼顾高层语义控制和低层身份保真度，存在平衡难题。
ST-DRC框架通过时空解耦参考调节，在潜在空间注入身份信息，并抑制像素级复制。
实验表明，ST-DRC在身份保持、提示对齐、时间一致性和视频质量方面均表现出色。

📝 摘要（中文）

本文提出了一种用于身份保持的文本到视频生成框架ST-DRC，旨在平衡高层语义控制和低层身份保真度。ST-DRC通过视频VAE编码参考图像，并将其与噪声视频潜在特征连接，实现潜在空间内的上下文特征注入，从而在无需额外适配器的情况下访问丰富的低层身份细节。为了分离身份感知的参考检索和外观复制，引入了TASS-RoPE方案，该方案在时间上将参考令牌放置在视频序列附近，但在空间上对其进行移位，从而允许参考信息通过时空注意力流动，同时抑制像素级复制粘贴的捷径。为了进一步防止捷径学习并加强扩散目标中稀释的身份监督，将外观不变的参考增强与面部引导的身份目标相结合，鼓励模型在颜色、姿势和布局的变化下保持身份。在推理时，引入了一种三流参考无分类器引导策略，该策略独立控制文本一致性和参考保真度。实验表明，ST-DRC在LTX-2.3的基础上，以轻量级设计实现了强大的身份保持、提示对齐、时间一致性和视频质量。该方法在面部身份保持视频生成赛道中名列前茅，验证了时空解耦参考调节的有效性。

🔬 方法详解

问题定义：论文旨在解决身份保持的文本到视频生成任务中，现有方法难以在高层语义控制（例如，根据文本提示生成特定动作）和低层身份保真度（例如，确保生成视频中的人物与参考图像中的人物是同一个人）之间取得良好平衡的问题。现有方法要么过度依赖参考图像的像素信息，导致生成结果缺乏多样性，要么无法充分利用参考图像中的身份信息，导致生成的人物与参考人物不一致。

核心思路：论文的核心思路是采用时空解耦的参考调节方法，将参考图像中的身份信息以一种解耦的方式注入到视频生成过程中。具体来说，首先在潜在空间中注入参考图像的特征，以便模型可以访问低层身份细节。然后，通过一种特殊的注意力机制，将参考信息在时间和空间上进行解耦，从而避免模型直接复制参考图像的像素信息，而是学习参考图像中的身份特征。最后，通过引入外观不变的参考增强和面部引导的身份目标，进一步加强模型对身份信息的学习。

技术框架：ST-DRC框架主要包含以下几个模块：1) 视频VAE：用于将视频和参考图像编码到潜在空间中。2) 潜在空间特征注入：将参考图像的潜在特征与噪声视频潜在特征连接，实现上下文特征注入。3) TASS-RoPE：一种时空解耦的注意力机制，用于将参考信息注入到视频生成过程中。4) 外观不变的参考增强：通过对参考图像进行颜色、姿势和布局的变换，增强模型对身份信息的鲁棒性。5) 面部引导的身份目标：通过引入额外的损失函数，鼓励模型生成的人物与参考人物的面部特征一致。6) 三流参考无分类器引导：在推理时，独立控制文本一致性和参考保真度。

关键创新：论文最重要的技术创新点在于提出了时空解耦的参考调节方法。与现有方法相比，该方法可以更好地平衡高层语义控制和低层身份保真度。具体来说，TASS-RoPE机制通过在时间和空间上解耦参考信息，避免了模型直接复制参考图像的像素信息，而是学习参考图像中的身份特征。此外，外观不变的参考增强和面部引导的身份目标进一步加强了模型对身份信息的学习。

关键设计：TASS-RoPE是一种关键设计，它通过时间相邻和空间偏移的方式处理参考令牌，避免模型直接复制参考图像的像素信息。具体来说，TASS-RoPE将参考令牌放置在视频序列的时间轴附近，但在空间上对其进行移位。这种设计允许参考信息通过时空注意力流动，同时抑制像素级复制粘贴的捷径。此外，论文还使用了外观不变的参考增强和面部引导的身份目标，以进一步加强模型对身份信息的学习。在推理时，使用了三流参考无分类器引导策略，以独立控制文本一致性和参考保真度。

🖼️ 关键图片

📊 实验亮点

ST-DRC在面部身份保持视频生成赛道中名列前茅，验证了其有效性。该方法在LTX-2.3的基础上，以轻量级设计实现了强大的身份保持、提示对齐、时间一致性和视频质量。实验结果表明，ST-DRC能够生成高质量的、与参考人物身份一致的视频，同时能够很好地遵循文本提示。

🎯 应用场景

该研究成果可应用于虚拟形象定制、电影特效制作、游戏角色生成等领域。例如，用户可以通过提供一张照片和一段文字描述，生成一段包含该人物并执行特定动作的视频。该技术还可以用于保护个人隐私，例如，在视频会议中使用虚拟形象代替真实面孔。

📄 摘要（原文）

Identity-preserving video generation (IPVG) aims to synthesize high-fidelity videos that follow text prompts while faithfully preserving a reference identity. Despite recent progress, existing IPVG methods still struggle to balance high-level semantic control and low-level identity fidelity. To bridge this gap, we propose ST-DRC, an effective Spatial-Temporal Decoupled Reference Conditioning framework for identity-preserving text-to-video generation. At the framework level, ST-DRC performs latent in-context feature injection by encoding the reference image with the video VAE and concatenating it with noisy video latents, enabling rich low-level identity details to be accessed without additional adapters. To separate identity-aware reference retrieval from appearance copying, we introduce TASS-RoPE, a Temporal-Adjacent Spatial-Shifted RoPE scheme that places reference tokens near the video sequence in time but shifts them in space, allowing reference information to flow through spatio-temporal attention while suppressing pixel-level copy-paste shortcuts. To further prevent shortcut learning and strengthen the otherwise diluted identity supervision in the diffusion objective, we combine appearance-invariant reference augmentation with face-guided identity objectives, encouraging the model to preserve identity under variations in color, pose, and layout. At inference time, we introduce a three-stream reference classifier-free guidance strategy that independently controls text adherence and reference fidelity. Experiments demonstrate that ST-DRC achieves strong identity preservation, prompt alignment, temporal consistency, and video quality with a lightweight design built on LTX-2.3. Our method ranks among the top submissions in the facial identity-preserving video generation track, validating the effectiveness of spatial-temporal decoupled reference conditioning.

Spatial-Temporal Decoupled Reference Conditioning for Identity-Preserving Text-to-Video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理