Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars

作者: Youliang Zhang, Zhengguang Zhou, Zhentao Yu, Ziyao Huang, Teng Hu, Sen Liang, Guozhen Zhang, Ziqiao Peng, Shunkai Li, Yi Chen, Zixiang Zhou, Yuan Zhou, Qinglin Lu, Xiu Li

分类: cs.CV, cs.AI

发布日期: 2026-02-02

💡 一句话要点

InteractAvatar：提出双流框架，实现文本驱动的具身人与物交互的 talking avatar 生成

🎯 匹配领域: 支柱五：交互与反应 (Interaction & Reaction) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: Talking Avatar 人与物交互 视频生成 双流框架 环境感知 动作生成 具身智能

📋 核心要点

现有talking avatar生成方法难以实现与环境物体交互，主要挑战在于环境感知和控制质量之间的平衡。
InteractAvatar采用双流框架，将环境感知、交互规划与视频生成解耦，提升了控制性和生成质量。
论文构建了GroundedInter基准用于GHOI视频生成评估，实验证明了InteractAvatar在生成逼真交互avatar方面的有效性。

📝 摘要（中文）

本文提出了一种新的双流框架InteractAvatar，用于生成具有人与物交互（GHOI）的talking avatar。现有的talking avatar生成方法虽然可以生成具有简单人体动作的全身avatar，但扩展到GHOI仍然是一个开放的挑战，需要avatar执行与周围物体对齐的交互。这一挑战源于环境感知和GHOI生成中的控制质量困境。InteractAvatar将感知和规划与视频合成分离，以实现GHOI。利用检测增强环境感知，引入感知和交互模块（PIM）来生成文本对齐的交互动作。此外，提出了音频-交互感知生成模块（AIM）来合成执行物体交互的生动talking avatar。PIM和AIM共享相似的网络结构，并支持动作和视频的并行协同生成，从而有效地缓解了控制质量困境。最后，建立了一个名为GroundedInter的基准，用于评估GHOI视频生成。大量的实验和比较表明，该方法在为talking avatar生成GHOI方面是有效的。

🔬 方法详解

问题定义：现有talking avatar生成方法主要关注简单的人体动作，难以实现与周围物体的自然交互。主要痛点在于：一是缺乏对环境的有效感知，难以理解文本描述中物体的位置和属性；二是人与物交互的控制质量难以保证，容易出现动作不自然或视频不连贯的问题。

核心思路：InteractAvatar的核心思路是将环境感知、交互规划与视频生成解耦。通过独立的感知和交互模块（PIM）负责生成与文本描述对齐的交互动作，再通过音频-交互感知生成模块（AIM）将动作转化为逼真的talking avatar视频。这种解耦的设计可以有效缓解控制质量困境，提高生成视频的真实感和可控性。

技术框架：InteractAvatar采用双流框架，包含两个主要模块：感知和交互模块（PIM）和音频-交互感知生成模块（AIM）。PIM首先利用目标检测增强环境感知，然后根据文本描述生成与物体交互的动作序列。AIM则根据音频和PIM生成的动作序列，生成talking avatar视频。PIM和AIM共享相似的网络结构，并采用运动到视频对齐器，实现动作和视频的并行协同生成。

关键创新：InteractAvatar的关键创新在于双流解耦框架，将环境感知和交互规划从视频生成中分离出来。这种设计使得模型可以更专注于理解文本描述中的交互信息，并生成更自然、更可控的交互动作。此外，PIM和AIM的并行协同生成机制，有效缓解了控制质量困境。

关键设计：PIM模块利用目标检测器提取环境中的物体信息，并将其与文本描述相结合，生成交互动作序列。AIM模块采用生成对抗网络（GAN）结构，根据音频和动作序列生成talking avatar视频。特别设计的运动到视频对齐器，用于保证PIM生成的动作与AIM生成的视频在时序上的一致性。损失函数包括对抗损失、重构损失和运动损失，用于提高生成视频的真实感和动作的自然性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，InteractAvatar在GroundedInter基准上取得了显著的性能提升，在生成逼真的人与物交互talking avatar方面优于现有方法。通过定性和定量分析，验证了InteractAvatar在环境感知、交互动作生成和视频生成方面的有效性。具体性能数据未知，但论文强调了其方法在生成GHOI方面的优越性。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏、社交媒体等领域，例如创建能够与用户进行自然交互的虚拟助手、生成具有逼真交互动作的游戏角色、以及在社交媒体平台上创建更具表现力的虚拟化身。未来，该技术有望进一步扩展到更复杂的交互场景，例如多人交互、复杂环境交互等。

📄 摘要（原文）

Generating talking avatars is a fundamental task in video generation. Although existing methods can generate full-body talking avatars with simple human motion, extending this task to grounded human-object interaction (GHOI) remains an open challenge, requiring the avatar to perform text-aligned interactions with surrounding objects. This challenge stems from the need for environmental perception and the control-quality dilemma in GHOI generation. To address this, we propose a novel dual-stream framework, InteractAvatar, which decouples perception and planning from video synthesis for grounded human-object interaction. Leveraging detection to enhance environmental perception, we introduce a Perception and Interaction Module (PIM) to generate text-aligned interaction motions. Additionally, an Audio-Interaction Aware Generation Module (AIM) is proposed to synthesize vivid talking avatars performing object interactions. With a specially designed motion-to-video aligner, PIM and AIM share a similar network structure and enable parallel co-generation of motions and plausible videos, effectively mitigating the control-quality dilemma. Finally, we establish a benchmark, GroundedInter, for evaluating GHOI video generation. Extensive experiments and comparisons demonstrate the effectiveness of our method in generating grounded human-object interactions for talking avatars. Project page: https://interactavatar.github.io

Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理