PhysicsSolutionAgent: Towards Multimodal Explanations for Numerical Physics Problem Solving
作者: Aditya Thole, Anmol Agrawal, Arnav Ramamoorthy, Dhruv Kumar
分类: cs.CL, cs.HC
发布日期: 2026-01-19
💡 一句话要点
提出PhysicsSolutionAgent,生成带Manim动画的物理问题讲解视频
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 物理问题求解 多模态解释 Manim动画 自主智能体 视觉语言模型 教育应用 视频生成
📋 核心要点
- 现有方法在解释数值物理问题时,缺乏有效的视觉呈现,难以提升概念理解。
- PhysicsSolutionAgent利用大型语言模型和Manim动画,自动生成高质量的物理问题讲解视频。
- 实验结果表明,PSA在视频生成方面取得了较好的完成率,但仍存在视觉一致性和内容理解方面的问题。
📝 摘要(中文)
解释数值物理问题通常需要超越文本的解决方案;清晰的视觉推理可以显著提高概念理解。大型语言模型(LLM)在文本形式的许多物理问题上表现出强大的性能,但它们生成高质量长篇视觉解释的能力仍未得到充分探索。本文介绍PhysicsSolutionAgent(PSA),一个自主智能体,使用Manim动画生成长达六分钟的物理问题讲解视频。为了评估生成的视频,我们设计了一个评估流程,该流程执行跨15个定量参数的自动检查,并结合来自视觉语言模型(VLM)的反馈来迭代地提高视频质量。我们在涵盖数值和理论物理问题的32个视频上评估了PSA。结果表明,视频质量存在系统性差异,具体取决于问题的难度以及任务是数值还是理论。使用GPT-5-mini,PSA实现了100%的视频完成率,平均自动评分达到3.8/5。然而,定性分析和人工检查揭示了包括视觉布局不一致以及视觉内容在反馈期间如何被解释的错误等小问题和大问题。这些发现暴露了可靠的Manim代码生成中的关键局限性,并突出了多模态推理和评估在数值物理问题的视觉解释中面临的更广泛挑战。我们的工作强调需要在未来的多模态教育系统中改进视觉理解、验证和评估框架。
🔬 方法详解
问题定义:论文旨在解决数值物理问题讲解中缺乏高质量视觉解释的问题。现有方法主要依赖文本描述,难以直观地展示物理过程和概念,阻碍了学生的理解。因此,如何利用AI自动生成清晰、准确的物理问题讲解视频成为一个挑战。
核心思路:论文的核心思路是构建一个自主智能体PhysicsSolutionAgent (PSA),该智能体能够利用大型语言模型(LLM)理解物理问题,并生成相应的Manim动画代码,最终生成讲解视频。通过视觉化的方式,更直观地呈现物理概念和解题步骤。同时,利用视觉语言模型(VLM)进行反馈,迭代优化视频质量。
技术框架:PSA的整体框架包含以下几个主要模块:1) 问题理解模块:利用LLM(如GPT-5-mini)理解输入的物理问题,提取关键信息和解题步骤。2) Manim代码生成模块:根据问题理解的结果,生成相应的Manim动画代码,实现物理过程的视觉呈现。3) 视频生成模块:执行Manim代码,生成最终的讲解视频。4) 评估与反馈模块:利用自动评估指标和VLM的反馈,对生成的视频进行评估,并指导LLM进行迭代优化。
关键创新:该论文的关键创新在于:1) 提出了一个完整的自主智能体PSA,能够自动生成物理问题讲解视频。2) 设计了一个包含自动评估指标和VLM反馈的评估流程,用于迭代优化视频质量。3) 将LLM和Manim动画相结合,实现了物理概念的视觉化呈现。
关键设计:在技术细节方面,论文采用了GPT-5-mini作为LLM,负责问题理解和Manim代码生成。评估指标包括视频完成率、视觉一致性、内容准确性等。VLM的反馈主要用于检测视频中的错误和不一致之处。论文还探索了不同难度和类型的物理问题对视频生成质量的影响。
📊 实验亮点
实验结果表明,使用GPT-5-mini的PSA实现了100%的视频完成率,平均自动评分达到3.8/5。然而,人工评估发现视频在视觉布局一致性和内容理解方面仍存在问题,表明在可靠的Manim代码生成和多模态推理方面仍有提升空间。该研究揭示了当前LLM在生成复杂视觉解释方面的局限性。
🎯 应用场景
该研究成果可应用于在线教育平台、物理学习APP等场景,为学生提供更直观、生动的物理问题讲解。通过自动生成高质量的讲解视频,可以降低教育成本,提高教学效率,并促进物理知识的普及。未来,该技术还可扩展到其他学科,如数学、化学等,构建更完善的智能教育系统。
📄 摘要(原文)
Explaining numerical physics problems often requires more than text-based solutions; clear visual reasoning can substantially improve conceptual understanding. While large language models (LLMs) demonstrate strong performance on many physics questions in textual form, their ability to generate long, high-quality visual explanations remains insufficiently explored. In this work, we introduce PhysicsSolutionAgent (PSA), an autonomous agent that generates physics-problem explanation videos of up to six minutes using Manim animations. To evaluate the generated videos, we design an assessment pipeline that performs automated checks across 15 quantitative parameters and incorporates feedback from a vision-language model (VLM) to iteratively improve video quality. We evaluate PSA on 32 videos spanning numerical and theoretical physics problems. Our results reveal systematic differences in video quality depending on problem difficulty and whether the task is numerical or theoretical. Using GPT-5-mini, PSA achieves a 100% video-completion rate with an average automated score of 3.8/5. However, qualitative analysis and human inspection uncover both minor and major issues, including visual layout inconsistencies and errors in how visual content is interpreted during feedback. These findings expose key limitations in reliable Manim code generation and highlight broader challenges in multimodal reasoning and evaluation for visual explanations of numerical physics problems. Our work underscores the need for improved visual understanding, verification, and evaluation frameworks in future multimodal educational systems