EgoReAct: Egocentric Video-Driven 3D Human Reaction Generation

📄 arXiv: 2512.22808v2 📥 PDF

作者: Libo Zhang, Zekun Li, Tianyu Li, Zeyu Cao, Rui Xu, Xiaoxiao Long, Wenjia Wang, Jingbo Wang, Yuan Liu, Wenping Wang, Daquan Zhou, Taku Komura, Zhiyang Dou

分类: cs.CV, cs.AI

发布日期: 2025-12-28 (更新: 2026-01-03)

备注: 12 pages, 9 figures


💡 一句话要点

EgoReAct:提出一种基于第一视角视频的3D人体反应生成框架,解决空间对齐和因果性问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 第一视角视频 人体反应生成 3D动作生成 自回归模型 空间对齐

📋 核心要点

  1. 现有方法难以从第一视角视频中生成逼真的人体反应,主要挑战在于严格的因果生成和精确的3D空间对齐。
  2. EgoReAct的核心思想是利用自回归框架,从第一视角视频中生成3D对齐的人体反应动作,并融入3D动态特征以增强空间定位。
  3. 实验结果表明,EgoReAct在真实感、空间一致性和生成效率方面均优于现有方法,同时保持了严格的因果关系。

📝 摘要(中文)

本文提出EgoReAct,一种从第一视角视频流中实时生成3D对齐的人体反应动作的自回归框架。针对现有数据集(如ViMo)中第一视角视频与反应动作之间存在显著空间不一致的问题,本文首先构建了人体反应数据集(HRD),以解决数据稀缺和未对齐问题。EgoReAct利用HRD,通过矢量量化变分自编码器将反应动作压缩到紧凑的潜在空间,然后训练生成式预训练Transformer,从视觉输入生成反应。EgoReAct在生成过程中融入了3D动态特征,即度量深度和头部动态,有效增强了空间定位。大量实验表明,EgoReAct在保持严格因果关系的同时,相比现有方法实现了显著更高的真实感、空间一致性和生成效率。

🔬 方法详解

问题定义:现有方法在从第一视角视频生成人体反应时,面临着两个主要问题。一是缺乏高质量的数据集,现有数据集如ViMo存在第一视角视频与反应动作之间空间不一致的问题。二是难以保证生成过程的因果性,即生成的反应必须基于之前的视觉输入,而不能“预知”未来的信息。

核心思路:EgoReAct的核心思路是构建一个自回归框架,该框架能够根据第一视角视频流逐步生成3D对齐的人体反应动作。通过将反应动作压缩到潜在空间,并利用Transformer进行生成,可以有效地捕捉动作的时序依赖关系和复杂性。同时,融入3D动态特征可以增强空间定位,提高生成动作的真实感。

技术框架:EgoReAct的整体框架包括以下几个主要模块:1) 人体反应数据集(HRD)的构建,用于解决数据稀缺和未对齐问题。2) 矢量量化变分自编码器(VQ-VAE),用于将反应动作压缩到紧凑的潜在空间。3) 生成式预训练Transformer(GPT),用于从视觉输入生成反应动作。4) 3D动态特征提取模块,用于提取度量深度和头部动态等信息,并将其融入到生成过程中。

关键创新:EgoReAct的关键创新在于:1) 构建了高质量的人体反应数据集HRD,解决了数据稀缺和空间未对齐的问题。2) 提出了基于VQ-VAE和GPT的自回归生成框架,能够有效地生成3D对齐的人体反应动作。3) 融入了3D动态特征,增强了空间定位,提高了生成动作的真实感。

关键设计:在VQ-VAE中,使用了矢量量化技术来学习离散的潜在表示,这有助于捕捉动作的结构信息。在GPT中,使用了因果注意力机制来保证生成过程的因果性。在3D动态特征提取模块中,使用了深度估计网络和头部姿态估计网络来提取度量深度和头部动态信息。损失函数包括VQ-VAE的重构损失和量化损失,以及GPT的交叉熵损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EgoReAct在生成人体反应动作的真实感、空间一致性和生成效率方面均优于现有方法。具体来说,EgoReAct在HRD数据集上实现了显著的性能提升,例如在空间一致性指标上优于现有方法ViMo等。同时,EgoReAct能够实时生成3D对齐的人体反应动作,证明了其在实际应用中的可行性。

🎯 应用场景

EgoReAct具有广泛的应用前景,例如可以用于虚拟现实和增强现实中的人机交互,使虚拟角色能够根据用户的行为做出自然的反应。此外,还可以应用于机器人控制,使机器人能够根据视觉输入做出相应的动作。该研究的成果有助于提升人机交互的自然性和真实感,并为机器人技术的发展提供新的思路。

📄 摘要(原文)

Humans exhibit adaptive, context-sensitive responses to egocentric visual input. However, faithfully modeling such reactions from egocentric video remains challenging due to the dual requirements of strictly causal generation and precise 3D spatial alignment. To tackle this problem, we first construct the Human Reaction Dataset (HRD) to address data scarcity and misalignment by building a spatially aligned egocentric video-reaction dataset, as existing datasets (e.g., ViMo) suffer from significant spatial inconsistency between the egocentric video and reaction motion, e.g., dynamically moving motions are always paired with fixed-camera videos. Leveraging HRD, we present EgoReAct, the first autoregressive framework that generates 3D-aligned human reaction motions from egocentric video streams in real-time. We first compress the reaction motion into a compact yet expressive latent space via a Vector Quantised-Variational AutoEncoder and then train a Generative Pre-trained Transformer for reaction generation from the visual input. EgoReAct incorporates 3D dynamic features, i.e., metric depth, and head dynamics during the generation, which effectively enhance spatial grounding. Extensive experiments demonstrate that EgoReAct achieves remarkably higher realism, spatial consistency, and generation efficiency compared with prior methods, while maintaining strict causality during generation. We will release code, models, and data upon acceptance.