Figure It Out: Improve the Frontier of Reasoning with Executable Visual States

📄 arXiv: 2512.24297v2 📥 PDF

作者: Meiqi Chen, Fandong Meng, Jie Zhou

分类: cs.CL

发布日期: 2025-12-30 (更新: 2026-01-06)


💡 一句话要点

FIGR:通过可执行视觉状态提升复杂推理能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉推理 可执行代码 强化学习 数学问题求解 多模态推理

📋 核心要点

  1. 现有基于文本的推理方法难以捕捉复杂场景中隐式的空间和几何关系,限制了推理能力。
  2. FIGR通过生成可执行代码构建图表,将视觉信息融入推理过程,外化中间假设,辅助推理。
  3. 实验表明,FIGR在数学推理基准测试中显著优于纯文本方法,验证了其有效性。

📝 摘要(中文)

复杂推理问题通常涉及文本中未明确编码的隐式空间和几何关系。虽然现有的推理模型在许多领域表现良好,但纯粹基于文本的推理难以捕捉复杂场景中的结构约束。本文提出了FIGR,它通过端到端强化学习将可执行的视觉构建集成到多轮推理中。FIGR不依赖于纯文本的思维链,而是通过生成可执行代码在推理循环中构建图表,从而外化中间假设。自适应奖励机制选择性地调节视觉构建的调用时机,从而能够对仅从文本难以推断的潜在全局属性进行更一致的推理。在八个具有挑战性的数学基准测试中进行的实验表明,FIGR优于强大的纯文本思维链基线,在AIME 2025上提高了13.12%,在BeyondAIME上提高了11.00%。这些结果突出了FIGR精确、可控的图形构建在增强复杂推理能力方面的有效性。

🔬 方法详解

问题定义:论文旨在解决复杂推理问题中,纯文本推理方法难以有效利用空间和几何关系的问题。现有方法依赖于文本中的显式信息,忽略了图形结构中蕴含的隐式约束,导致推理性能受限。尤其是在需要进行空间关系推理的数学问题中,这一问题尤为突出。

核心思路:论文的核心思路是将视觉信息融入推理过程。具体而言,通过生成可执行代码来构建图表,将中间推理步骤可视化,从而显式地表达空间和几何关系。这种方法允许模型在推理过程中利用视觉信息,克服了纯文本推理的局限性。

技术框架:FIGR的整体框架是一个多轮推理过程,包含以下主要模块:1) 文本编码器:将输入文本编码为向量表示。2) 代码生成器:基于文本表示生成可执行代码,用于构建图表。3) 图形执行器:执行生成的代码,构建相应的图表。4) 推理模块:结合文本表示和图表信息进行推理,并输出最终答案。5) 奖励机制:根据推理结果和图表构建的质量,对代码生成器进行奖励或惩罚,从而优化代码生成策略。

关键创新:FIGR的关键创新在于将可执行的视觉构建集成到推理循环中。与传统的思维链方法不同,FIGR不依赖于纯文本的推理步骤,而是通过构建图表来外化中间假设。此外,自适应奖励机制能够选择性地调节视觉构建的调用时机,使得模型能够根据问题的复杂程度灵活地利用视觉信息。

关键设计:FIGR使用强化学习来训练代码生成器。奖励函数的设计至关重要,它需要同时考虑推理结果的准确性和图表构建的质量。论文采用了一种自适应奖励机制,根据推理的进展情况动态调整奖励权重。此外,代码生成器的网络结构和代码的语法设计也对最终性能有重要影响。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FIGR在八个数学基准测试中表现出色,显著优于纯文本思维链基线。在AIME 2025上,FIGR的性能提升了13.12%,在BeyondAIME上提升了11.00%。这些结果表明,FIGR通过精确、可控的图形构建,有效增强了复杂推理能力。实验结果充分验证了FIGR的有效性和优越性。

🎯 应用场景

FIGR具有广泛的应用前景,可应用于数学问题求解、几何推理、机器人导航、场景理解等领域。通过将视觉信息融入推理过程,FIGR能够有效解决传统方法难以处理的复杂推理问题,提升人工智能系统的智能水平。未来,该技术有望应用于自动驾驶、智能家居、医疗诊断等领域。

📄 摘要(原文)

Complex reasoning problems often involve implicit spatial and geometric relationships that are not explicitly encoded in text. While recent reasoning models perform well across many domains, purely text-based reasoning struggles to capture structural constraints in complex settings. In this paper, we introduce FIGR, which integrates executable visual construction into multi-turn reasoning via end-to-end reinforcement learning. Rather than relying solely on textual chains of thought, FIGR externalizes intermediate hypotheses by generating executable code that constructs diagrams within the reasoning loop. An adaptive reward mechanism selectively regulates when visual construction is invoked, enabling more consistent reasoning over latent global properties that are difficult to infer from text alone. Experiments on eight challenging mathematical benchmarks demonstrate that FIGR outperforms strong text-only chain-of-thought baselines, improving the base model by 13.12% on AIME 2025 and 11.00% on BeyondAIME. These results highlight the effectiveness of precise, controllable figure construction of FIGR in enhancing complex reasoning ability.