Training and Agentic Inference Strategies for LLM-based Manim Animation Generation

📄 arXiv: 2604.18364v1 📥 PDF

作者: Ravidu Suien Rammuni Silva, Ahmad Lotfi, Isibor Kennedy Ihianle, Golnaz Shahtahmassebi, Jordan J. Bird

分类: cs.AI, cs.GR, cs.MA

发布日期: 2026-04-20


💡 一句话要点

提出ManimTrainer和ManimAgent,用于训练和推理LLM生成Manim动画,提升代码质量和视觉效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Manim动画生成 大型语言模型 监督微调 强化学习 渲染器在环 群体相对策略优化 文本到视频生成

📋 核心要点

  1. 现有方法在利用LLM生成Manim动画时,缺乏对空间推理、时间排序和领域特定API的有效处理。
  2. 论文提出ManimTrainer和ManimAgent,通过结合SFT和GRPO的训练流程,以及RITL和RITL-DOC的推理策略,提升动画生成质量。
  3. 实验结果表明,Qwen 3 Coder 30B模型结合GRPO和RITL-DOC策略,在视觉相似度上超越了GPT-4.1基线模型。

📝 摘要(中文)

本文研究了训练和推理策略对基于LLM的Manim动画生成的影响。针对通用预训练数据中空间推理、时间排序和领域特定API知识的不足,提出了ManimTrainer训练流程,结合了监督微调(SFT)和基于群体相对策略优化(GRPO)的强化学习,使用统一的代码和视觉评估融合奖励信号。同时提出了ManimAgent推理流程,包含渲染器在环(RITL)和API文档增强的RITL(RITL-DOC)策略。该研究首次对Manim的文本到代码到视频转换进行了统一的训练和推理研究,使用ManimBench评估了17个小于30B的开源LLM在九种训练和推理策略组合下的性能。结果表明,SFT通常提高代码质量,而GRPO增强视觉输出并提高模型在推理时对外部信号的响应。Qwen 3 Coder 30B模型在GRPO和RITL-DOC下表现最佳,渲染成功率(RSR)为94%,视觉相似度(VS)为85.7%,超过了GPT-4.1基线模型3个百分点。分析还表明,代码和视觉指标之间的相关性随着SFT和GRPO的增强而加强,但随着推理时增强而减弱,突出了训练和智能体推理策略在Manim动画生成中的互补作用。

🔬 方法详解

问题定义:论文旨在解决LLM在生成Manim动画时面临的挑战,包括空间推理、时间排序以及对Manim API的理解不足。现有方法难以有效利用LLM的潜力,生成的动画质量不高,与预期效果存在差距。

核心思路:论文的核心思路是结合监督微调(SFT)和强化学习(GRPO)来训练LLM,并利用渲染器在环(RITL)的推理策略进行迭代优化。通过SFT提升LLM的代码生成能力,GRPO增强其对视觉效果的感知和优化能力,RITL则允许模型在生成过程中根据渲染结果进行自我修正。

技术框架:整体框架包含两个主要部分:ManimTrainer训练流程和ManimAgent推理流程。ManimTrainer首先使用SFT对LLM进行微调,然后使用GRPO进行强化学习,奖励信号综合考虑代码质量和视觉效果。ManimAgent则采用RITL或RITL-DOC策略,LLM生成Manim代码后,通过渲染器生成视频,然后将视频反馈给LLM,LLM根据反馈调整代码,迭代优化动画效果。

关键创新:论文的关键创新在于提出了一个统一的训练和推理框架,专门用于LLM生成Manim动画。该框架结合了SFT和GRPO,并引入了RITL推理策略,能够有效提升动画的代码质量和视觉效果。此外,论文还提出了API文档增强的RITL(RITL-DOC)策略,进一步提升了模型对Manim API的利用能力。

关键设计:GRPO使用群体相对策略优化算法,奖励函数综合考虑代码质量(例如,代码是否可执行,是否符合Manim API规范)和视觉效果(例如,生成的视频与参考视频的相似度)。RITL策略的关键在于如何有效地将渲染结果反馈给LLM,论文采用了视觉特征提取和文本描述相结合的方式,让LLM能够理解渲染结果并进行相应的调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Qwen 3 Coder 30B模型在GRPO和RITL-DOC策略下表现最佳,渲染成功率(RSR)达到94%,视觉相似度(VS)达到85.7%,超过了GPT-4.1基线模型3个百分点。此外,SFT和GRPO能够增强代码和视觉指标之间的相关性,而推理时增强则会减弱这种相关性,表明训练和推理策略在Manim动画生成中起着互补作用。

🎯 应用场景

该研究成果可应用于教育、科研、科普等领域,通过LLM自动生成高质量的Manim动画,降低动画制作门槛,提高内容创作效率。例如,教师可以利用该技术快速生成教学动画,科研人员可以用于可视化研究成果,科普作者可以创作生动的科普视频。

📄 摘要(原文)

Generating programmatic animation using libraries such as Manim presents unique challenges for Large Language Models (LLMs), requiring spatial reasoning, temporal sequencing, and familiarity with domain-specific APIs that are underrepresented in general pre-training data. A systematic study of how training and inference strategies interact in this setting is lacking in current research. This study introduces ManimTrainer, a training pipeline that combines Supervised Fine-tuning (SFT) with Reinforcement Learning (RL) based Group Relative Policy Optimisation (GRPO) using a unified reward signal that fuses code and visual assessment signals, and ManimAgent, an inference pipeline featuring Renderer-in-the-loop (RITL) and API documentation-augmented RITL (RITL-DOC) strategies. Using these techniques, this study presents the first unified training and inference study for text-to-code-to-video transformation with Manim. It evaluates 17 open-source sub-30B LLMs across nine combinations of training and inference strategies using ManimBench. Results show that SFT generally improves code quality, while GRPO enhances visual outputs and increases the models' responsiveness to extrinsic signals during self-correction at inference time. The Qwen 3 Coder 30B model with GRPO and RITL-DOC achieved the highest overall performance, with a 94% Render Success Rate (RSR) and 85.7% Visual Similarity (VS) to reference videos, surpassing the baseline GPT-4.1 model by +3 percentage points in VS. Additionally, the analysis shows that the correlation between code and visual metrics strengthens with SFT and GRPO but weakens with inference-time enhancements, highlighting the complementary roles of training and agentic inference strategies in Manim animation generation.