Hidden in Plain Sight: Visual-to-Symbolic Analytical Solution Inference from Field Visualizations

作者: Pengze Li, Jiaquan Zhang, Yunbo Long, Xinping Liu, Zhou wenjie, Encheng Su, Zihang Zeng, Jiaqi Liu, Jiyao Liu, Junchi Yu, Lihao Liu, Philip Torr, Shixiang Tang, Aoran Wang, Xi Chen

分类: cs.AI

发布日期: 2026-04-10

💡 一句话要点

提出ViSA-R2，从场可视化中推断物理场解析解，解决AI辅助科学推理难题。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉到符号推断 解析解恢复 物理场可视化 AI辅助科学推理 思维链 Qwen3-VL

📋 核心要点

现有方法在从视觉观察中恢复物理场的解析解方面存在不足，阻碍了AI在科学推理中的应用。
ViSA-R2模仿物理学家的思维方式，通过结构识别、假设、参数推导和验证，实现解析解的推断。
ViSA-R2在ViSA-Bench基准测试中，显著优于开源基线和闭源VLM，验证了其有效性。

📝 摘要（中文）

本文研究了二维线性稳态场的视觉到符号解析解推断（ViSA）问题，旨在实现AI辅助科学推理。给定场可视化（以及一阶导数）和少量辅助元数据，模型需要输出一个带有完全实例化的数值常数的、可执行的SymPy表达式。为此，我们提出了ViSA-R2，并将其与一个以解决方案为中心的自验证思维链流程对齐，该流程模拟了物理学家的解决思路：结构模式识别、解族（ansatz）假设、参数推导和一致性验证。此外，我们发布了ViSA-Bench，一个VLM就绪的合成基准，涵盖30个具有可验证解析/符号注释的线性稳态场景。我们通过数值精度、表达式结构相似性和字符级精度来评估预测结果。实验表明，使用8B开放权重Qwen3-VL作为backbone，ViSA-R2在标准化协议下优于强大的开源基线和已评估的闭源前沿VLM。

🔬 方法详解

问题定义：论文旨在解决从二维线性稳态场的视觉表示中推断出其解析解的问题。现有方法要么依赖于数值模拟，无法提供符号化的解析解，要么无法直接从视觉信息中推断，需要大量人工干预。这限制了AI在科学发现和工程设计中的应用。

核心思路：论文的核心思路是模仿物理学家解决此类问题的方式，即首先识别场的可视化模式，然后基于这些模式提出可能的解族（ansatz），接着推导解中的参数，最后验证解的有效性。这种“思维链”方法使得模型能够逐步逼近正确的解析解。

技术框架：ViSA-R2的整体框架包含以下几个主要阶段：1) 结构模式识别：利用视觉模型识别场的可视化模式，例如对称性、周期性等。2) 解族（ansatz）假设：基于识别出的模式，提出可能的解析解形式。3) 参数推导：利用场的可视化信息（包括一阶导数）和元数据，推导解中的参数。4) 一致性验证：验证推导出的解与原始可视化信息是否一致。如果验证失败，则返回到解族假设阶段，尝试其他可能的解。

关键创新：论文的关键创新在于提出了一个以解决方案为中心的自验证思维链流程，该流程能够有效地将视觉信息转化为符号化的解析解。与传统的端到端方法相比，这种方法更具可解释性和鲁棒性，并且能够更好地利用领域知识。

关键设计：ViSA-R2使用了Qwen3-VL作为视觉backbone，用于提取场的可视化特征。在解族假设阶段，模型会根据识别出的模式生成多个候选解。参数推导阶段使用了优化算法来最小化预测解与可视化信息之间的差异。一致性验证阶段则使用了数值方法来评估解的精度。

🖼️ 关键图片

📊 实验亮点

ViSA-R2在ViSA-Bench基准测试中取得了显著的性能提升。具体而言，在使用8B开放权重Qwen3-VL作为backbone的情况下，ViSA-R2在数值精度、表达式结构相似性和字符级精度方面均优于现有的开源基线和闭源VLM。例如，在某些场景下，ViSA-R2的数值精度比最佳基线提高了10%以上。

🎯 应用场景

该研究成果可应用于多个领域，例如物理学、工程学和材料科学。它可以帮助科学家和工程师快速分析和理解复杂的物理场，从而加速科学发现和工程设计过程。例如，在流体力学中，可以利用该方法从流场可视化中推断出速度场的解析解，从而更好地理解流体行为。

📄 摘要（原文）

Recovering analytical solutions of physical fields from visual observations is a fundamental yet underexplored capability for AI-assisted scientific reasoning. We study visual-to-symbolic analytical solution inference (ViSA) for two-dimensional linear steady-state fields: given field visualizations (and first-order derivatives) plus minimal auxiliary metadata, the model must output a single executable SymPy expression with fully instantiated numeric constants. We introduce ViSA-R2 and align it with a self-verifying, solution-centric chain-of-thought pipeline that follows a physicist-like pathway: structural pattern recognition solution-family (ansatz) hypothesis parameter derivation consistency verification. We also release ViSA-Bench, a VLM-ready synthetic benchmark covering 30 linear steady-state scenarios with verifiable analytical/symbolic annotations, and evaluate predictions by numerical accuracy, expression-structure similarity, and character-level accuracy. Using an 8B open-weight Qwen3-VL backbone, ViSA-R2 outperforms strong open-source baselines and the evaluated closed-source frontier VLMs under a standardized protocol.

Hidden in Plain Sight: Visual-to-Symbolic Analytical Solution Inference from Field Visualizations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理