SMRABooth: Subject and Motion Representation Alignment for Customized Video Generation

作者: Xuancheng Xu, Yaning Li, Sisi You, Bing-Kun Bao

分类: cs.CV

发布日期: 2025-12-13

💡 一句话要点

SMRABooth：通过主体与运动表征对齐实现定制化视频生成

🎯 匹配领域: 支柱三：空间感知 (Perception & SLAM)

关键词: 定制视频生成 主体表征 运动表征 LoRA微调 自监督学习 光流估计 表征对齐

📋 核心要点

现有定制视频生成方法难以兼顾主体外观相似性和运动模式一致性，缺乏对象级别的指导。
SMRABooth利用自监督编码器和光流编码器提取主体和运动表征，并通过LoRA微调实现对齐。
实验表明，SMRABooth在主体和运动定制方面表现出色，能够保持主体外观和运动模式的一致性。

📝 摘要（中文）

本文提出了一种名为SMRABooth的方法，用于定制化视频生成，旨在从参考图像中忠实地保留主体的外观，同时保持参考视频中时间上一致的运动。现有方法由于缺乏对象级别的主体和运动指导，难以同时保证主体外观的相似性和运动模式的一致性。SMRABooth利用自监督编码器和光流编码器来提供对象级别的主体和运动表征，并在LoRA微调过程中将这些表征与模型对齐。该方法包含三个核心阶段：（1）利用自监督编码器提取主体表征，以指导主体对齐，使模型能够捕获主体的整体结构并增强高层语义一致性。（2）利用光流编码器提取运动表征，以捕获与外观无关的结构连贯且对象级别的运动轨迹。（3）提出了一种主体-运动关联解耦策略，通过在位置和时间上稀疏地注入LoRA，有效减少主体和运动LoRA之间的干扰。大量实验表明，SMRABooth在主体和运动定制方面表现出色，能够保持一致的主体外观和运动模式，证明了其在可控文本到视频生成中的有效性。

🔬 方法详解

问题定义：定制化视频生成旨在根据给定的参考图像和视频，生成具有特定主体外观和运动模式的视频。现有方法的痛点在于，缺乏对主体和运动的精细控制，难以同时保证生成视频中主体外观与参考图像的高度相似，以及运动模式与参考视频的时间一致性。现有方法容易受到主体和运动之间干扰的影响，导致生成质量下降。

核心思路：SMRABooth的核心思路是利用对象级别的主体和运动表征来指导视频生成过程。通过自监督编码器提取主体表征，捕捉主体的整体结构和高层语义信息；通过光流编码器提取运动表征，捕捉与外观无关的结构连贯的运动轨迹。然后，通过对齐这些表征，实现对主体外观和运动模式的精确控制。

技术框架：SMRABooth包含三个主要阶段：（1）主体表征提取：使用自监督编码器从参考图像中提取主体表征。（2）运动表征提取：使用光流编码器从参考视频中提取运动表征。（3）主体-运动对齐：通过LoRA微调，将主体和运动表征与文本到视频生成模型对齐。此外，还引入了一种主体-运动关联解耦策略，以减少主体和运动LoRA之间的干扰。

关键创新：SMRABooth的关键创新在于：（1）利用自监督编码器和光流编码器提取对象级别的主体和运动表征，为视频生成提供更精细的控制。（2）提出了一种主体-运动关联解耦策略，通过稀疏LoRA注入，有效减少主体和运动LoRA之间的干扰。与现有方法相比，SMRABooth能够更好地平衡主体外观相似性和运动模式一致性。

关键设计：在主体表征提取阶段，使用了预训练的自监督编码器，例如DINO。在运动表征提取阶段，使用了预训练的光流估计网络，例如RAFT。在LoRA微调阶段，采用了稀疏LoRA注入策略，只在特定的位置和时间注入LoRA，以减少主体和运动LoRA之间的干扰。具体的LoRA注入位置和时间的选择需要根据具体任务进行调整。损失函数包括外观相似性损失和运动一致性损失，用于约束生成视频的主体外观和运动模式。

📊 实验亮点

论文通过大量实验验证了SMRABooth的有效性。实验结果表明，SMRABooth在主体外观相似性和运动模式一致性方面均优于现有方法。具体来说，SMRABooth能够生成具有更高主体外观相似度和更流畅运动模式的视频，证明了其在可控文本到视频生成中的优越性。实验还验证了主体-运动关联解耦策略的有效性，表明该策略能够有效减少主体和运动LoRA之间的干扰。

🎯 应用场景

SMRABooth在定制化视频生成领域具有广泛的应用前景，例如个性化内容创作、虚拟形象定制、电影特效制作等。该技术可以根据用户的需求，生成具有特定主体外观和运动模式的视频，为用户提供更加个性化和定制化的视频内容。此外，该技术还可以应用于教育、娱乐等领域，例如制作个性化的教学视频、游戏角色等。

📄 摘要（原文）

Customized video generation aims to produce videos that faithfully preserve the subject's appearance from reference images while maintaining temporally consistent motion from reference videos. Existing methods struggle to ensure both subject appearance similarity and motion pattern consistency due to the lack of object-level guidance for subject and motion. To address this, we propose SMRABooth, which leverages the self-supervised encoder and optical flow encoder to provide object-level subject and motion representations. These representations are aligned with the model during the LoRA fine-tuning process. Our approach is structured in three core stages: (1) We exploit subject representations via a self-supervised encoder to guide subject alignment, enabling the model to capture overall structure of subject and enhance high-level semantic consistency. (2) We utilize motion representations from an optical flow encoder to capture structurally coherent and object-level motion trajectories independent of appearance. (3) We propose a subject-motion association decoupling strategy that applies sparse LoRAs injection across both locations and timing, effectively reducing interference between subject and motion LoRAs. Extensive experiments show that SMRABooth excels in subject and motion customization, maintaining consistent subject appearance and motion patterns, proving its effectiveness in controllable text-to-video generation.

SMRABooth: Subject and Motion Representation Alignment for Customized Video Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册