Text2Interact: High-Fidelity and Diverse Text-to-Two-Person Interaction Generation

📄 arXiv: 2510.06504v1 📥 PDF

作者: Qingxuan Wu, Zhiyang Dou, Chuan Guo, Yiming Huang, Qiao Feng, Bing Zhou, Jian Wang, Lingjie Liu

分类: cs.CV

发布日期: 2025-10-07


💡 一句话要点

Text2Interact:提出高保真、多样化的文本驱动双人互动生成框架

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱八:物理动画 (Physics-based Animation)

关键词: 文本驱动生成 双人互动 动作合成 人机交互 深度学习

📋 核心要点

  1. 现有方法难以捕捉双人互动复杂性,训练数据不足且文本信息利用不充分。
  2. Text2Interact通过合成数据和精细化建模,生成逼真且文本对齐的双人互动。
  3. 实验表明,该方法在运动多样性、保真度和泛化性方面均有显著提升。

📝 摘要(中文)

从文本建模人与人之间的互动仍然具有挑战性,因为它不仅需要逼真的人物个体动态,还需要精确的、与文本一致的时空耦合。目前的进展受到以下因素的阻碍:1) 双人训练数据有限,不足以捕捉双人互动的各种复杂性;2) 文本到互动建模不够精细,语言条件作用将丰富的、结构化的提示简化为单一的句子嵌入。为了解决这些限制,我们提出了Text2Interact框架,旨在通过可扩展的高保真互动数据合成器和有效的时空协调管道来生成逼真的、文本对齐的人与人互动。首先,我们提出了InterCompose,一个可扩展的合成-组合管道,它将LLM生成的互动描述与强大的单人运动先验对齐。给定一个提示和一个代理的运动,InterCompose检索候选的单人运动,训练另一个代理的条件反应生成器,并使用神经运动评估器来过滤弱或未对齐的样本——在不增加额外捕获的情况下扩展互动覆盖范围。其次,我们提出了InterActor,一个具有词级条件作用的文本到互动模型,它保留了token级别的线索(启动、响应、接触顺序),以及一个自适应互动损失,它强调上下文相关的双人关节对,从而提高了精细互动建模的耦合性和物理合理性。大量的实验表明,在运动多样性、保真度和泛化性方面都有持续的提高,包括分布外场景和用户研究。我们将发布代码和模型,以方便重现。

🔬 方法详解

问题定义:现有方法在文本驱动的双人互动生成方面面临挑战。主要痛点在于缺乏高质量的训练数据,难以捕捉双人互动的复杂性和多样性。此外,现有模型通常将文本提示简化为单一的句子嵌入,忽略了文本中蕴含的细粒度信息,导致生成的互动不够精确和自然。

核心思路:Text2Interact的核心思路是通过合成高质量的互动数据来解决训练数据不足的问题,并设计精细化的文本到互动模型来充分利用文本信息。通过合成数据,可以扩展互动覆盖范围,并学习到更鲁棒的互动模式。精细化的模型可以更好地理解文本中的语义信息,并生成更符合文本描述的互动行为。

技术框架:Text2Interact框架包含两个主要模块:InterCompose和InterActor。InterCompose负责合成高质量的互动数据,它首先利用LLM生成互动描述,然后检索单人运动,并训练条件反应生成器来生成另一个人的运动。InterActor是一个文本到互动模型,它使用词级条件作用来保留token级别的线索,并使用自适应互动损失来提高耦合性和物理合理性。

关键创新:该论文的关键创新在于提出了一个可扩展的合成-组合管道InterCompose,用于生成高质量的互动数据。InterCompose能够将LLM生成的互动描述与单人运动先验对齐,并通过神经运动评估器来过滤弱或未对齐的样本,从而在不增加额外捕获的情况下扩展互动覆盖范围。另一个创新是InterActor模型,它使用词级条件作用和自适应互动损失来提高互动生成的精确性和物理合理性。

关键设计:InterCompose的关键设计包括:1) 使用LLM生成多样化的互动描述;2) 使用条件反应生成器来生成另一个人的运动;3) 使用神经运动评估器来过滤不合理的运动。InterActor的关键设计包括:1) 使用词级条件作用来保留token级别的线索;2) 使用自适应互动损失来强调上下文相关的双人关节对。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Text2Interact在运动多样性、保真度和泛化性方面均优于现有方法。在分布外场景和用户研究中,该方法也表现出良好的性能。例如,该方法能够生成更符合文本描述的互动行为,并提高用户对虚拟角色互动的满意度。具体性能数据未知。

🎯 应用场景

Text2Interact技术可应用于虚拟现实、游戏开发、人机交互等领域。例如,可以用于创建更逼真的虚拟角色互动,提升游戏体验,或设计更自然的人机交互界面。该技术还有潜力应用于社交机器人、远程协作等场景,促进人与人之间的交流和互动。

📄 摘要(原文)

Modeling human-human interactions from text remains challenging because it requires not only realistic individual dynamics but also precise, text-consistent spatiotemporal coupling between agents. Currently, progress is hindered by 1) limited two-person training data, inadequate to capture the diverse intricacies of two-person interactions; and 2) insufficiently fine-grained text-to-interaction modeling, where language conditioning collapses rich, structured prompts into a single sentence embedding. To address these limitations, we propose our Text2Interact framework, designed to generate realistic, text-aligned human-human interactions through a scalable high-fidelity interaction data synthesizer and an effective spatiotemporal coordination pipeline. First, we present InterCompose, a scalable synthesis-by-composition pipeline that aligns LLM-generated interaction descriptions with strong single-person motion priors. Given a prompt and a motion for an agent, InterCompose retrieves candidate single-person motions, trains a conditional reaction generator for another agent, and uses a neural motion evaluator to filter weak or misaligned samples-expanding interaction coverage without extra capture. Second, we propose InterActor, a text-to-interaction model with word-level conditioning that preserves token-level cues (initiation, response, contact ordering) and an adaptive interaction loss that emphasizes contextually relevant inter-person joint pairs, improving coupling and physical plausibility for fine-grained interaction modeling. Extensive experiments show consistent gains in motion diversity, fidelity, and generalization, including out-of-distribution scenarios and user studies. We will release code and models to facilitate reproducibility.