Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

作者: Linxi Xie, Lisong C. Sun, Ashley Neall, Tong Wu, Shengqu Cai, Gordon Wetzstein

分类: cs.CV

发布日期: 2026-02-20

备注: Project page here: https://codeysun.github.io/generated-reality

💡 一句话要点

提出基于手部和相机控制的交互式视频生成方法，用于人机交互世界模拟。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱六：视频提取与匹配 (Video Extraction)

关键词: 视频生成 扩散模型 人机交互 扩展现实 手部姿势估计 头部姿势估计 知识蒸馏 具身智能

📋 核心要点

现有视频世界模型控制信号粗糙，无法满足扩展现实中对具身交互的需求。
提出一种以人为中心的视频世界模型，通过头部和手部姿势控制生成虚拟环境。
实验表明，该系统能有效提高任务性能，并增强用户对动作的控制感。

📝 摘要（中文）

扩展现实(XR)需要能够响应用户跟踪的真实世界运动的生成模型，但当前的视频世界模型只接受粗略的控制信号，如文本或键盘输入，限制了它们在具身交互中的效用。本文提出了一种以人为中心的视频世界模型，该模型以跟踪的头部姿势和关节级的手部姿势为条件。为此，我们评估了现有的扩散Transformer条件策略，并提出了一种有效的3D头部和手部控制机制，从而实现灵巧的手部-物体交互。我们使用这种策略训练了一个双向视频扩散模型教师，并将其提炼成一个因果的、交互式的系统，该系统生成以自我为中心的虚拟环境。我们用人类受试者评估了这个生成的现实系统，并证明了与相关的基线相比，任务性能得到了提高，并且对所执行的动作的感知控制水平也显著提高。

🔬 方法详解

问题定义：现有视频世界模型主要依赖文本或键盘等粗略控制信号，无法实现自然、流畅的具身交互。在扩展现实(XR)应用中，用户需要通过头部和手部的精细动作与虚拟环境进行交互，而现有模型难以满足这种需求。因此，如何构建一个能够响应用户头部和手部运动的、可交互的视频生成模型是本文要解决的核心问题。

核心思路：本文的核心思路是利用扩散模型强大的生成能力，并将其与头部和手部姿势的精确控制相结合。通过将头部姿势和手部姿势作为条件输入，引导扩散模型生成与用户动作相一致的视频内容。此外，采用知识蒸馏技术，将离线的双向扩散模型转化为在线的、因果的交互式系统。

技术框架：该方法包含以下主要模块：1) 数据收集：收集包含头部姿势和手部姿势的视频数据。2) 双向扩散模型训练：使用收集到的数据训练一个双向视频扩散模型，该模型以头部姿势和手部姿势为条件。3) 知识蒸馏：将训练好的双向扩散模型蒸馏成一个因果的、交互式的系统。4) 交互式视频生成：用户通过头部和手部运动与系统交互，系统根据用户的动作生成相应的视频内容。

关键创新：本文的关键创新在于提出了一种有效的3D头部和手部控制机制，用于条件化视频扩散模型。该机制能够精确地控制生成视频中头部和手部的运动，从而实现灵巧的手部-物体交互。此外，通过知识蒸馏，将离线的双向扩散模型转化为在线的交互式系统，提高了系统的实用性。

关键设计：在扩散模型方面，采用了扩散Transformer架构。在条件控制方面，设计了一种专门的3D头部和手部控制机制，具体细节未知。在知识蒸馏方面，采用了标准的蒸馏训练方法，目标是最小化学生模型和教师模型之间的输出差异。损失函数未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，与相关基线相比，该系统在任务性能方面有所提高，并且用户对所执行的动作的感知控制水平也显著提高。具体的性能数据和提升幅度未知，但主观评价显示用户对系统的交互体验感到满意。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏等领域，为用户提供更加沉浸式和交互式的体验。例如，用户可以在虚拟环境中通过手势操作物体，进行绘画、组装等任务。未来，该技术有望应用于远程协作、教育培训等领域，实现更加高效和自然的远程交互。

📄 摘要（原文）

Extended reality (XR) demands generative models that respond to users' tracked real-world motion, yet current video world models accept only coarse control signals such as text or keyboard input, limiting their utility for embodied interaction. We introduce a human-centric video world model that is conditioned on both tracked head pose and joint-level hand poses. For this purpose, we evaluate existing diffusion transformer conditioning strategies and propose an effective mechanism for 3D head and hand control, enabling dexterous hand--object interactions. We train a bidirectional video diffusion model teacher using this strategy and distill it into a causal, interactive system that generates egocentric virtual environments. We evaluate this generated reality system with human subjects and demonstrate improved task performance as well as a significantly higher level of perceived amount of control over the performed actions compared with relevant baselines.

Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理