Aether: Geometric-Aware Unified World Modeling
作者: Aether Team, Haoyi Zhu, Yifan Wang, Jianjun Zhou, Wenzheng Chang, Yang Zhou, Zizun Li, Junyi Chen, Chunhua Shen, Jiangmiao Pang, Tong He
分类: cs.CV, cs.AI, cs.LG, cs.RO
发布日期: 2025-03-24 (更新: 2025-07-28)
备注: Project Page: https://aether-world.github.io/
💡 一句话要点
Aether:提出几何感知统一世界建模框架,实现类人空间推理。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 世界建模 几何感知 视频预测 视觉规划 动态重建 零样本学习 统一框架
📋 核心要点
- 现有AI系统在空间推理方面存在不足,几何重建和生成建模的集成仍然是一个关键挑战。
- Aether通过联合优化4D动态重建、动作条件视频预测和目标条件视觉规划,实现几何感知推理。
- Aether在没有真实数据的情况下,实现了零样本的合成到真实世界的泛化,重建性能可与特定领域模型媲美。
📝 摘要(中文)
本文提出了Aether,一个统一的框架,通过联合优化三个核心能力,在世界模型中实现几何感知的推理:(1) 4D动态重建,(2) 动作条件下的视频预测,以及(3) 目标条件下的视觉规划。通过任务交错的特征学习,Aether实现了重建、预测和规划目标之间的协同知识共享。基于视频生成模型,我们的框架展示了零样本的合成到真实世界的泛化能力,尽管在训练期间从未观察到真实世界的数据。此外,由于其内在的几何建模,我们的方法在动作跟随和重建任务中实现了零样本泛化。值得注意的是,即使没有真实世界的数据,其重建性能也与甚至优于特定领域的模型。此外,Aether采用相机轨迹作为几何信息化的动作空间,从而实现有效的动作条件预测和视觉规划。我们希望我们的工作能够激发社区探索物理上合理的世界建模及其应用的新领域。
🔬 方法详解
问题定义:现有方法难以将几何重建和生成模型有效结合,导致AI系统缺乏类似人类的空间推理能力。尤其是在复杂动态环境中,如何构建一个能够理解、预测和规划的统一世界模型是一个挑战。现有方法通常针对特定任务进行优化,缺乏通用性和泛化能力。
核心思路:Aether的核心思路是通过任务交错的特征学习,在重建、预测和规划三个任务之间共享知识,从而实现几何感知的统一世界建模。利用视频生成模型作为基础,并引入几何信息化的动作空间(相机轨迹),使得模型能够更好地理解和预测环境的变化。
技术框架:Aether框架包含三个主要模块:4D动态重建模块、动作条件视频预测模块和目标条件视觉规划模块。这三个模块通过共享的特征表示进行连接,并联合优化。4D动态重建模块负责从视频中恢复场景的几何结构和动态变化;动作条件视频预测模块根据给定的动作序列预测未来的视频帧;目标条件视觉规划模块则根据给定的目标,规划出实现目标的动作序列。
关键创新:Aether的关键创新在于其统一的框架设计和任务交错的特征学习方法。通过联合优化重建、预测和规划三个任务,模型能够学习到更丰富的场景表示,从而实现更好的泛化能力。此外,使用相机轨迹作为几何信息化的动作空间,使得模型能够更好地理解动作与环境之间的关系。
关键设计:Aether使用视频生成模型作为基础,并在此基础上添加了4D动态重建模块。损失函数包括重建损失、预测损失和规划损失,这些损失函数被联合优化。相机轨迹被编码为动作序列,并作为动作条件视频预测模块的输入。具体的网络结构和参数设置在论文中详细描述。
🖼️ 关键图片
📊 实验亮点
Aether在零样本合成到真实世界的泛化方面表现出色,即使没有真实世界的数据,其重建性能也与甚至优于特定领域的模型。在动作跟随和重建任务中实现了零样本泛化。这些结果表明Aether具有很强的泛化能力和实际应用潜力。
🎯 应用场景
Aether的潜在应用领域包括机器人导航、自动驾驶、虚拟现实和增强现实等。它可以帮助机器人在复杂动态环境中进行自主导航和决策,提高自动驾驶系统的安全性和可靠性,并为用户提供更逼真的虚拟现实和增强现实体验。未来,Aether可以进一步扩展到其他领域,例如游戏开发和电影制作。
📄 摘要(原文)
The integration of geometric reconstruction and generative modeling remains a critical challenge in developing AI systems capable of human-like spatial reasoning. This paper proposes Aether, a unified framework that enables geometry-aware reasoning in world models by jointly optimizing three core capabilities: (1) 4D dynamic reconstruction, (2) action-conditioned video prediction, and (3) goal-conditioned visual planning. Through task-interleaved feature learning, Aether achieves synergistic knowledge sharing across reconstruction, prediction, and planning objectives. Building upon video generation models, our framework demonstrates zero-shot synthetic-to-real generalization despite never observing real-world data during training. Furthermore, our approach achieves zero-shot generalization in both action following and reconstruction tasks, thanks to its intrinsic geometric modeling. Notably, even without real-world data, its reconstruction performance is comparable with or even better than that of domain-specific models. Additionally, Aether employs camera trajectories as geometry-informed action spaces, enabling effective action-conditioned prediction and visual planning. We hope our work inspires the community to explore new frontiers in physically-reasonable world modeling and its applications.