PhyDrawGen: Physically Grounded Diagram Generation from Natural Language
作者: Nafiul Haque, Syed Nazmus Sakib, Shifat E Arman
分类: cs.AI, cs.CV
发布日期: 2026-05-28
备注: 9 figures, 7 tables. Under review at EMNLP 2026
💡 一句话要点
PhyDrawGen:提出一种神经符号方法,用于从自然语言生成符合物理规律的图示
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 物理图示生成 神经符号方法 物理约束求解 大型语言模型 视觉验证
📋 核心要点
- 现有方法在从文本生成物理图示时,难以保证物理规律的正确性,存在幻构和违反约束的问题。
- PhyDrawGen采用神经符号方法,将语义理解和物理约束求解分离,保证生成图示的物理正确性。
- 实验表明,PhyDrawGen在力学、光学和电磁学等问题上显著优于现有模型,尤其在处理不常见物体时表现更佳。
📝 摘要(中文)
从文本生成物理图示需要严格遵守物理定律。现有的生成模型虽然能产生视觉上合理的输出,但会系统性地幻构力矢量,忽略守恒定律,并违反几何约束。我们提出了PhyDrawGen,一个神经符号流水线,它将语义场景理解与物理约束满足解耦。首先,一个大型语言模型从问题文本中提取类型化的场景图。然后,一个确定性求解器将这个图转换为平面直线图(PSLG),将力平衡、光路和场拓扑编码为精确的几何基元。最后,一个微调的Qwen-VL模型实现了一个视觉接地的提议-验证循环,以迭代地纠正任何约束违反。在涵盖力学、光学和电磁学的1449个问题的基准测试中,PhyDrawGen显著优于GPT-5-image、Gemini 2.5 Flash和Gemini 3 Pro,即使在不常见的物体问题上也能表现出强大的物理准确性。
🔬 方法详解
问题定义:论文旨在解决从自然语言文本生成符合物理规律的图示的问题。现有方法,如直接使用大型语言模型生成图像,虽然视觉效果较好,但无法保证物理上的正确性,经常出现违反物理定律的情况,例如力矢量方向错误、忽略守恒定律、几何约束不满足等。这些问题限制了其在物理教育、科研等领域的应用。
核心思路:论文的核心思路是将问题分解为语义场景理解和物理约束满足两个阶段。首先利用大型语言模型进行语义理解,提取场景中的物体、关系等信息,构建场景图。然后,利用确定性求解器,将场景图转换为满足物理约束的几何图形。最后,利用视觉模型进行验证和修正,确保最终生成的图示在视觉上也合理。
技术框架:PhyDrawGen包含三个主要模块:1) 场景图提取模块:使用大型语言模型(LLM)从问题文本中提取类型化的场景图,该图表示了场景中的物体及其之间的关系。2) 物理约束求解模块:使用确定性求解器将场景图转换为平面直线图(PSLG),该图编码了力平衡、光路和场拓扑等物理约束。3) 视觉验证与修正模块:使用微调的Qwen-VL模型,通过视觉接地的提议-验证循环,迭代地纠正任何约束违反。
关键创新:该方法的核心创新在于将神经方法(LLM用于语义理解和视觉模型用于验证)与符号方法(确定性求解器用于物理约束满足)相结合,从而既能利用神经模型的强大表达能力,又能保证物理规律的正确性。这种神经符号方法避免了端到端生成模型难以学习物理规律的缺点。
关键设计:在场景图提取模块,使用了类型化的场景图,明确了物体的类型和关系类型,有助于后续的物理约束求解。在物理约束求解模块,将物理约束编码为精确的几何基元,例如力平衡表示为力的矢量和为零。在视觉验证与修正模块,使用了Qwen-VL模型,并设计了提议-验证循环,迭代地修正违反约束的地方。
🖼️ 关键图片
📊 实验亮点
PhyDrawGen在包含1449个问题的基准测试中,显著优于GPT-5-image、Gemini 2.5 Flash和Gemini 3 Pro。尤其是在处理不常见物体的问题时,PhyDrawGen表现出更强的物理准确性,证明了其神经符号方法的有效性。
🎯 应用场景
PhyDrawGen可应用于物理教育领域,帮助学生更好地理解物理概念和定律。在科研领域,可以辅助研究人员进行物理建模和仿真。此外,该技术还可以扩展到其他科学领域,例如化学、生物学等,用于生成符合科学规律的图示。
📄 摘要(原文)
Generating physics diagrams from text requires strict adherence to physical laws. While current generative models produce visually plausible outputs, they systematically hallucinate force vectors, ignore conservation laws, and violate geometric constraints. We present PhyDrawGen, a neuro-symbolic pipeline that decouples semantic scene understanding from physical constraint satisfaction. First, a large language model extracts a typed scene graph from the problem text. A deterministic solver then converts this graph into a Planar Straight-Line Graph (PSLG), encoding force balance, optical paths, and field topologies as exact geometric primitives. Finally, a fine-tuned Qwen-VL model implements a visually grounded propose-verify loop to iteratively correct any constraint violations. Evaluated on a benchmark of 1,449 problems spanning mechanics, optics, and electromagnetism, PhyDrawGen significantly outperforms GPT-5-image, Gemini 2.5 Flash, and Gemini 3 Pro, demonstrating robust physical accuracy even on unusual-object problems.