SocialDirector: Training-Free Social Interaction Control for Multi-Person Video Generation
作者: Liangyang Ouyang, Ruicong Liu, Caixin Kang, Yifei Huang, Yoichi Sato
分类: cs.CV
发布日期: 2026-05-11
💡 一句话要点
提出SocialDirector:一种无需训练的多人视频生成社交交互控制框架
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)
关键词: 视频生成 交叉注意力控制 多主体交互 无需训练 多模态大模型 计算机视觉
📋 核心要点
- 现有视频生成模型在处理多人交互时,常出现动作主体错位、社交动态混乱及动作目标指向错误等问题,缺乏对交互过程的显式控制。
- 提出SocialDirector框架,通过无需训练的交叉注意力调节机制,利用时空掩码约束主体关注范围,并对方向性语义进行重加权以引导动作交互。
- 实验验证了该方法在多种视频生成模型上的有效性,显著提升了交互保真度,并建立了一套基于VLM的自动化评估流水线以量化社交交互质量。
📝 摘要(中文)
视频生成技术在从文本或图像提示生成逼真视频方面取得了显著进展。然而,电影制作和社交机器人领域对包含对话、手势及协同动作等丰富社交交互的多人视频需求日益增长。现有模型缺乏对交互的显式控制,常导致动作主体错位(actor-action mismatch)、社交动态混乱及动作目标指向错误。为此,本文提出了SocialDirector,这是一种无需训练的交互控制器,通过调节交叉注意力图来增强生成模型。SocialDirector包含社交主体掩码(Social Actor Masking)和方向重加权(Directional Reweighting)两个模块。前者通过时空掩码约束每个人的视觉Token仅关注其对应的文本描述,从而避免主体与动作的错位;后者通过放大对方向性词汇的注意力,确保动作指向预定目标。实验表明,SocialDirector显著提升了交互保真度,并构建了基于开源VLM的自动化评估流程。
🔬 方法详解
问题定义:现有扩散模型在生成多人视频时,由于交叉注意力机制的全局性,导致模型无法区分不同主体的动作属性,从而引发“张冠李戴”的动作错位问题,且难以精确控制动作的交互方向。
核心思路:通过在推理阶段直接干预交叉注意力图(Cross-Attention Maps),实现对生成过程的细粒度控制。该方法无需额外训练,具有极强的通用性和即插即用特性。
技术框架:SocialDirector包含两个核心模块:一是社交主体掩码(Social Actor Masking),通过时空掩码将特定主体的视觉Token与对应的文本描述绑定;二是方向重加权(Directional Reweighting),通过增强注意力权重引导模型关注空间方位词,从而实现交互方向的精确控制。
关键创新:创新性地引入了无需训练的注意力调节机制,将复杂的社交交互解构为“主体-动作”绑定与“方向-目标”引导两个子任务,有效解决了生成模型在多主体场景下的语义对齐难题。
关键设计:利用时空掩码对交叉注意力矩阵进行掩蔽操作,确保每个主体仅能访问其对应的文本描述Token;同时,通过对特定的方向性提示词(如“向左”、“向右”)对应的注意力权重进行放大,实现对动作交互轨迹的动态引导。
🖼️ 关键图片
📊 实验亮点
实验在多个主流视频生成模型上进行了验证,结果显示SocialDirector在处理复杂多人交互场景时,显著降低了动作主体错位率。通过引入基于开源VLM的自动化评估指标,研究证明了该方法在交互保真度上大幅超越基线模型,其生成质量已接近真实视频的交互表现。
🎯 应用场景
该技术在影视后期制作、虚拟角色动画生成及社交机器人交互模拟领域具有广泛应用价值。它能够帮助创作者精确控制视频中多个人物的互动细节,降低动画制作成本,并为社交机器人提供更符合人类行为逻辑的训练数据,推动人机交互研究的发展。
📄 摘要(原文)
Video generation has advanced rapidly, producing photorealistic videos from text or image prompts. Meanwhile, film production and social robotics increasingly demand multi-person videos with rich social interactions, including conversations, gestures, and coordinated actions. However, existing models offer no explicit control over interactions, such as who performs which action, when it occurs, and toward whom it is directed. This often results in wrong person performing unintended actions (actor-action mismatch), disordered social dynamics, and wrong action targets. To address these challenges, we present SocialDirector, a training-free interaction controller that enhances the generation model by modulating cross-attention maps. SocialDirector contains two modules: Social Actor Masking and Directional Reweighting. Social Actor Masking constrains each person's visual tokens to attend only to their own textual descriptions via a spatiotemporal mask, avoiding actor-action mismatch and disordered social dynamics. Directional Reweighting amplifies attention to directional words (e.g., "leftward", "right"), leading each action towards its intended target. To evaluate generated social interactions, we annotate existing datasets with interaction descriptions and build a fully automated evaluation pipeline powered by open-source VLMs. Experiments on different video generation models show that SocialDirector significantly improves interaction fidelity and approaches the upper bound set by real videos.