Animate Any Character in Any World

作者: Yitong Wang, Fangyun Wei, Hongyang Zhang, Bo Dai, Yan Lu

分类: cs.CV, cs.AI

发布日期: 2025-12-18

备注: Project page: https://snowflakewang.github.io/AniX/

💡 一句话要点

AniX：提出一种通用角色动画框架，实现在任意3D场景中控制角色行为。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 角色动画 3D场景 自然语言控制 视频生成 交互式环境

📋 核心要点

现有世界模型在交互式环境模拟中存在局限，主要体现在静态环境缺乏交互，或可控实体动作受限。
AniX的核心在于结合静态世界生成与可控实体模型，通过条件自回归视频生成，实现角色在任意场景中的自然语言控制。
实验结果表明，AniX在视觉质量、角色一致性、动作可控性和长时程连贯性方面均表现出色，验证了其有效性。

📝 摘要（中文）

本文提出了一种名为AniX的框架，旨在增强交互式环境模拟能力。现有方法主要分为两类：静态世界生成模型（构建无主动代理的3D环境）和可控实体模型（允许单个实体在不可控环境中执行有限动作）。AniX结合了静态世界生成模型的真实感和结构化基础，并将可控实体模型扩展到支持用户指定的角色，使其能够在环境中执行开放式的动作。用户可以提供3DGS场景和角色，并通过自然语言指导角色执行各种行为，从基本的移动到以物体为中心的交互，同时自由探索环境。AniX合成了时间上连贯的视频片段，保持了与提供的场景和角色一致的视觉效果，将其形式化为一个条件自回归视频生成问题。基于预训练的视频生成器，该训练策略显著增强了运动动态，同时保持了跨动作和角色的泛化能力。评估涵盖了视觉质量、角色一致性、动作可控性和长时程连贯性等多个方面。

🔬 方法详解

问题定义：现有方法要么侧重于生成静态的3D环境，缺乏与环境的交互能力；要么虽然可以控制单个实体，但其动作受限，且环境通常是不可控的。因此，如何让用户指定的角色在任意3D场景中自由地、自然地执行各种动作，是一个亟待解决的问题。

核心思路：AniX的核心思路是将静态世界生成模型的真实感和结构化基础，与可控实体模型的交互能力相结合。通过条件自回归视频生成，利用自然语言指令控制角色在3D场景中的行为，从而实现更灵活、更自然的交互式环境模拟。

技术框架：AniX的整体框架基于一个预训练的视频生成器。用户首先提供一个3DGS场景和一个角色模型。然后，用户通过自然语言指令指定角色的行为。AniX将这些信息作为条件输入到视频生成器中，生成时间上连贯的视频片段。该框架包含场景理解模块、角色控制模块和视频生成模块。

关键创新：AniX的关键创新在于其能够将用户指定的角色无缝地融入到任意3D场景中，并根据自然语言指令控制角色的行为。与现有方法相比，AniX具有更强的泛化能力，可以处理更复杂的场景和动作。此外，AniX还采用了专门的训练策略，以增强运动动态，并保持跨动作和角色的泛化能力。

关键设计：AniX使用了3D高斯溅射（3DGS）来表示场景，这使得场景具有高度的真实感和可编辑性。角色模型可以是任意的3D模型。自然语言指令被编码成向量表示，作为视频生成器的条件输入。视频生成器采用Transformer架构，并使用对抗训练来提高生成视频的质量。损失函数包括重构损失、对抗损失和运动平滑损失。

🖼️ 关键图片

📊 实验亮点

AniX在多个方面进行了评估，包括视觉质量、角色一致性、动作可控性和长时程连贯性。实验结果表明，AniX在这些方面均取得了显著的成果。例如，在视觉质量方面，AniX生成的视频片段与真实视频非常接近。在动作可控性方面，AniX能够准确地根据自然语言指令控制角色的行为。与现有方法相比，AniX在这些指标上均有显著提升。

🎯 应用场景

AniX具有广泛的应用前景，例如游戏开发、虚拟现实、电影制作和机器人仿真等领域。它可以用于创建更逼真、更具交互性的虚拟环境，并允许用户以更自然的方式与这些环境进行交互。此外，AniX还可以用于训练机器人，使其能够在复杂的环境中执行各种任务。

📄 摘要（原文）

Recent advances in world models have greatly enhanced interactive environment simulation. Existing methods mainly fall into two categories: (1) static world generation models, which construct 3D environments without active agents, and (2) controllable-entity models, which allow a single entity to perform limited actions in an otherwise uncontrollable environment. In this work, we introduce AniX, leveraging the realism and structural grounding of static world generation while extending controllable-entity models to support user-specified characters capable of performing open-ended actions. Users can provide a 3DGS scene and a character, then direct the character through natural language to perform diverse behaviors from basic locomotion to object-centric interactions while freely exploring the environment. AniX synthesizes temporally coherent video clips that preserve visual fidelity with the provided scene and character, formulated as a conditional autoregressive video generation problem. Built upon a pre-trained video generator, our training strategy significantly enhances motion dynamics while maintaining generalization across actions and characters. Our evaluation covers a broad range of aspects, including visual quality, character consistency, action controllability, and long-horizon coherence.

Animate Any Character in Any World

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理