See Before You Code: Learning Visual Priors for Spatially Aware Educational Animation Generation

作者: Yuejia Li, Ke He, Junheng Li, Shutong Chen, Jingkang Xia, Zhiyue Su, Junchi Zhang, Mang Ye

分类: cs.AI, cs.CV

发布日期: 2026-05-15

备注: 21 pages, 4 figures

💡 一句话要点

OmniManim：基于视觉先验的空间感知教育动画生成框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 教育动画生成 视觉规划 渲染反馈 代码生成 关键帧布局 视觉质量 深度学习

📋 核心要点

现有方法生成的教育动画代码渲染后常出现视觉缺陷，难以仅从代码层面检测和修复。
OmniManim框架通过显式视觉规划，在代码生成前预测关键帧布局，优化动画插值，从而减少视觉缺陷。
实验表明，OmniManim在EduRequire-500数据集上显著提升了渲染质量，优于现有方法。

📝 摘要（中文）

大型语言模型可以为教育动画生成可执行代码，但渲染结果常出现视觉缺陷，如元素重叠、未对齐和动画不连续。这些缺陷仅在执行后才显现，难以仅从代码中检测。论文将此问题形式化为渲染反馈感知的约束代码生成：给定自然语言描述，模型必须生成可执行代码，其渲染输出满足结构化质量标准，而这些标准只能在渲染后评估。为此，论文提出了OmniManim，一个围绕共享场景状态、显式视觉规划、结构化渲染后诊断和局部修复构建的渲染反馈感知教育动画生成框架。其中，视觉Agent是一个任务特定的视觉规划模块，它预测稀疏关键帧布局，通过由粗到精的边界框去噪，并优化插值感知目标，以减少下游动画插值引起的中间帧失败。论文还构建了ManimLayout-1K和EduRequire-500两个数据集，并提供了一个可复现的评估协议，涵盖可执行性、教学质量、视觉质量和效率。在EduRequire-500上，OmniManim在测量的渲染质量上优于单模型基线和现有的多Agent框架。系统的消融研究进一步验证了显式视觉规划，特别是其粗略空间先验、边界框细化和插值感知优化，是这些收益的核心。

🔬 方法详解

问题定义：论文旨在解决教育动画代码生成中，由于缺乏对渲染结果的视觉感知，导致生成的动画存在元素重叠、未对齐、动画不连续等视觉缺陷的问题。现有方法主要依赖于代码本身进行优化，无法有效预测和避免渲染后的视觉问题。

核心思路：论文的核心思路是在代码生成过程中引入显式的视觉规划，即在生成代码之前，先预测动画的关键帧布局，并对布局进行优化，以确保渲染后的动画满足视觉质量要求。这种“先看再写”的策略能够有效避免仅依赖代码优化带来的局限性。

技术框架：OmniManim框架包含以下几个主要模块：共享场景状态、显式视觉规划（Vision Agent）、结构化渲染后诊断和局部修复。Vision Agent是核心模块，负责预测关键帧布局，并通过粗到精的边界框去噪和插值感知优化来提高布局的质量。框架通过共享场景状态来协调各个模块之间的信息传递。

关键创新：论文的关键创新在于引入了显式的视觉规划模块（Vision Agent），将视觉感知融入到代码生成过程中。Vision Agent通过预测关键帧布局，并优化布局以减少渲染后的视觉缺陷，从而实现了渲染反馈感知的代码生成。与现有方法相比，OmniManim能够更有效地生成高质量的教育动画。

关键设计：Vision Agent的关键设计包括：1) 粗到精的边界框去噪，用于逐步优化关键帧布局；2) 插值感知优化，用于减少由于动画插值导致的中间帧失败；3) 任务特定的视觉规划模块，针对教育动画的特点进行优化。损失函数的设计也考虑了视觉质量的要求，例如避免元素重叠等。

🖼️ 关键图片

📊 实验亮点

OmniManim在EduRequire-500数据集上取得了显著的性能提升，超越了单模型基线和现有的多Agent框架。消融实验表明，显式视觉规划中的粗略空间先验、边界框细化和插值感知优化是提升渲染质量的关键因素。这些结果验证了论文提出的视觉规划策略的有效性。

🎯 应用场景

该研究成果可应用于教育动画自动生成、虚拟现实内容创作、游戏开发等领域。通过提升动画生成的质量和效率，可以降低教育资源的制作成本，丰富教学内容，并为用户提供更具吸引力的互动体验。未来，该技术有望扩展到更复杂的动画场景和更广泛的应用领域。

📄 摘要（原文）

Large language models can generate executable code for educational animations, but the resulting renders often exhibit visual defects, including element overlap, misalignment, and broken animation continuity. These defects cannot be reliably detected from the code alone and become apparent only after execution. We formalize this problem as render-feedback-aware constrained code generation: given a natural language specification, the model must generate executable code whose rendered output satisfies structured quality criteria that can be evaluated only after rendering. To address this problem, we introduce OmniManim, a render-feedback-aware educational animation generation framework built around a shared scene state, explicit visual planning, structured post-render diagnostics, and localized repair. Within OmniManim, the Vision Agent is a task-specific visual planning module: it predicts sparse keyframe layouts with coarse-to-fine bounding-box denoising and optimizes an interpolation-aware objective to reduce intermediate-frame failures induced by downstream animation interpolation. We further construct two datasets, ManimLayout-1K and EduRequire-500, and provide a reproducible evaluation protocol covering executability, instructional quality, visual quality, and efficiency. On EduRequire-500, OmniManim improves measured render quality over both single-model baselines and existing multi-agent frameworks. Systematic ablation studies further verify that explicit visual planning, especially its coarse spatial prior, bounding-box refinement, and interpolation-aware optimization, is central to these gains.

See Before You Code: Learning Visual Priors for Spatially Aware Educational Animation Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理