Visual Generation in the New Era: An Evolution from Atomic Mapping to Agentic World Modeling
作者: Keming Wu, Zuhao Yang, Kaichen Zhang, Shizun Wang, Haowei Zhu, Sicong Leng, Zhongyu Yang, Qijie Wang, Sudong Wang, Ziting Wang, Zili Wang, Hui Zhang, Haonan Wang, Hang Zhou, Yifan Pu, Xingxuan Li, Fangneng Zhan, Bo Li, Lidong Bing, Yuxin Song, Ziwei Liu, Wenhu Chen, Jingdong Wang, Xinchao Wang, Xiaojuan Qi, Shijian Lu, Bin Wang
分类: cs.CV
发布日期: 2026-04-30
备注: Project Page: https://github.com/EvolvingLMMs-Lab/Evolving-Visual-Generation
💡 一句话要点
提出智能视觉生成五级分类法,推动视觉生成从原子映射向Agentic世界建模演进
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉生成 智能视觉 Agentic建模 世界建模 生成模型 因果推理 长时一致性
📋 核心要点
- 现有视觉生成模型缺乏空间推理、长时一致性和因果理解能力,难以生成符合真实世界规律的视觉内容。
- 论文提出一个五级分类法,将视觉生成划分为原子生成、条件生成、上下文生成、Agentic生成和世界建模生成五个阶段。
- 论文通过基准评估、野外压力测试和专家约束案例研究,揭示了现有评估方法的局限性,并为未来研究方向提供了指导。
📝 摘要(中文)
当前视觉生成模型在照片写实性、排版、指令跟随和交互式编辑方面取得了显著进展,但仍然在空间推理、持久状态、长时一致性和因果理解方面面临挑战。本文认为,该领域应超越表观合成,转向智能视觉生成:即基于结构、动态、领域知识和因果关系的合理视觉效果。为了构建这种转变,我们引入了一个五级分类法:原子生成、条件生成、上下文生成、Agentic生成和世界建模生成,从被动渲染器发展到交互式、Agentic、具有世界认知的生成器。我们分析了关键技术驱动因素,包括流动匹配、统一的理解和生成模型、改进的视觉表示、后训练、奖励建模、数据管理、合成数据提炼和采样加速。我们进一步表明,当前的评估通常通过强调感知质量而忽略结构、时间和因果失败,从而高估了进展。通过结合基准评估、野外压力测试和专家约束案例研究,该路线图提供了一个以能力为中心的视角,用于理解、评估和推进下一代智能视觉生成系统。
🔬 方法详解
问题定义:现有视觉生成模型虽然在生成逼真图像方面取得了很大进展,但它们在理解和模拟真实世界的复杂性方面仍然存在不足。具体来说,这些模型在空间推理、维持持久状态、保证长时一致性以及理解因果关系方面表现不佳。这些局限性阻碍了它们在需要更高级别智能的应用中的应用,例如交互式环境和智能代理。
核心思路:论文的核心思路是将视觉生成从单纯的表观合成转变为智能视觉生成。这意味着模型不仅要生成视觉上逼真的图像,还要理解图像背后的结构、动态、领域知识和因果关系。为了实现这一目标,论文提出了一个五级分类法,将视觉生成的发展划分为不同的阶段,并强调了每个阶段的关键技术和挑战。
技术框架:论文提出的五级分类法包括:1) 原子生成:最基本的生成形式,例如GAN;2) 条件生成:在给定条件(如文本描述)下生成图像;3) 上下文生成:利用上下文信息(如周围图像)生成图像;4) Agentic生成:生成具有自主行为能力的智能体;5) 世界建模生成:构建和利用世界模型进行生成。该框架旨在提供一个结构化的视角,用于理解和评估不同视觉生成模型的优缺点,并指导未来的研究方向。
关键创新:论文的关键创新在于提出了一个全面的视觉生成分类框架,该框架不仅考虑了生成图像的视觉质量,还考虑了模型对世界知识的理解和推理能力。此外,论文还强调了现有评估方法的局限性,并提出了更具挑战性的评估方法,例如野外压力测试和专家约束案例研究。
关键设计:论文没有提出具体的模型架构或算法,而是侧重于对现有方法的分析和分类。论文讨论了多种关键技术,包括流动匹配、统一的理解和生成模型、改进的视觉表示、后训练、奖励建模、数据管理、合成数据提炼和采样加速。这些技术被认为是推动视觉生成向智能方向发展的关键驱动因素。
🖼️ 关键图片
📊 实验亮点
论文通过结合基准评估、野外压力测试和专家约束案例研究,揭示了现有视觉生成模型在结构、时间和因果关系理解方面的不足。这些评估结果表明,当前的评估方法往往高估了视觉生成领域的进展,并强调了开发更具挑战性的评估方法的重要性。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏开发、机器人导航、自动驾驶等领域。通过提升视觉生成模型的智能水平,可以创建更逼真、更具交互性的虚拟环境,并赋予智能体更强的环境感知和推理能力,从而实现更高级别的自动化和智能化。
📄 摘要(原文)
Recent visual generation models have made major progress in photorealism, typography, instruction following, and interactive editing, yet they still struggle with spatial reasoning, persistent state, long-horizon consistency, and causal understanding. We argue that the field should move beyond appearance synthesis toward intelligent visual generation: plausible visuals grounded in structure, dynamics, domain knowledge, and causal relations. To frame this shift, we introduce a five-level taxonomy: Atomic Generation, Conditional Generation, In-Context Generation, Agentic Generation, and World-Modeling Generation, progressing from passive renderers to interactive, agentic, world-aware generators. We analyze key technical drivers, including flow matching, unified understanding-and-generation models, improved visual representations, post-training, reward modeling, data curation, synthetic data distillation, and sampling acceleration. We further show that current evaluations often overestimate progress by emphasizing perceptual quality while missing structural, temporal, and causal failures. By combining benchmark review, in-the-wild stress tests, and expert-constrained case studies, this roadmap offers a capability-centered lens for understanding, evaluating, and advancing the next generation of intelligent visual generation systems.