Formula-One Prompting: Adaptive Reasoning Through Equations For Applied Mathematics

📄 arXiv: 2601.19302v1 📥 PDF

作者: Natapong Nitarach, Pittawat Taveekitworachai, Kunat Pipatanakul

分类: cs.CL

发布日期: 2026-01-27


💡 一句话要点

提出Formula-One Prompting,通过公式推导实现应用数学问题自适应推理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 公式推导 自适应求解 应用数学

📋 核心要点

  1. 现有方法在解决应用数学问题时,未能充分利用问题中蕴含的控制方程信息,导致推理效率和准确性受限。
  2. Formula-One Prompting通过显式地推导和利用数学公式,指导LLM选择合适的求解策略,提升推理能力。
  3. 实验结果表明,F-1在应用数学领域表现优异,相较于CoT和PoT,在FinanceMath和物理问题上取得了显著提升。

📝 摘要(中文)

本文提出Formula-One Prompting (F-1),一种两阶段方法,利用数学公式作为中间表示,实现自适应求解应用数学问题。F-1首先从问题描述中推导控制方程,然后基于生成的方程,在思维链(CoT)、程序思维(PoT)或直接计算中选择一种求解策略,所有这些都在单个LLM调用中完成。在五个模型和四个基准测试上的结果表明,F-1的性能平均优于CoT +5.76%,优于PoT +8.42%。关键的是,在应用领域收益最大:在FinanceMath上超过CoT +13.30%,在OlympiadBench中,物理(+2.55%)比纯数学(+0.44%)的收益更大。这表明F-1在应用数学问题中比CoT更有效。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在应用数学问题求解中的不足。现有方法,如思维链(CoT)和程序思维(PoT),主要关注中间步骤的结构化,但忽略了应用数学问题中至关重要的控制方程的推导和利用。这导致LLM在需要公式推导或选择合适计算方法的问题上表现不佳。

核心思路:论文的核心思路是让LLM首先显式地推导出问题相关的数学公式,然后基于这些公式自适应地选择合适的求解策略。通过将公式作为中间表示,引导LLM更有效地进行推理和计算。这种方法模拟了人类解决应用数学问题的过程,即先理解问题背后的物理或数学原理,再选择合适的工具和方法。

技术框架:Formula-One Prompting (F-1) 包含两个主要阶段:1) 公式推导阶段:LLM根据问题描述,生成相关的数学公式。这需要LLM具备一定的数学知识和符号推理能力。2) 自适应求解阶段:基于推导出的公式,LLM选择合适的求解策略,包括CoT、PoT或直接计算。选择策略的依据是公式的复杂度和问题的类型。整个过程在一个LLM调用中完成,减少了多次交互带来的延迟和误差。

关键创新:F-1的关键创新在于将数学公式作为LLM推理的中间表示,并根据这些公式自适应地选择求解策略。与CoT和PoT等方法相比,F-1更关注问题本身的数学结构,从而能够更有效地解决应用数学问题。这种方法也更符合人类解决问题的直觉,即先理解问题,再选择方法。

关键设计:F-1的关键设计在于如何有效地提示LLM进行公式推导和策略选择。论文中使用了特定的prompt模板,引导LLM生成公式,并根据公式的特征选择合适的求解策略。具体的prompt设计细节未知,但可以推测其包含了对公式的结构、变量和关系的描述,以及对不同求解策略适用性的指导。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,Formula-One Prompting (F-1) 在四个基准测试上均优于CoT和PoT。平均而言,F-1比CoT提升了5.76%,比PoT提升了8.42%。在FinanceMath数据集上,F-1比CoT提升了13.30%,表明其在金融领域的应用潜力巨大。在OlympiadBench数据集上,F-1在物理问题上的提升(2.55%)大于纯数学问题(0.44%),进一步验证了其在应用数学问题上的有效性。

🎯 应用场景

该研究成果可应用于金融、物理、密码学等多个领域,提升LLM在这些领域的应用能力。例如,在金融领域,可以帮助LLM自动推导金融模型,进行风险评估和投资决策;在物理领域,可以辅助LLM解决物理问题,进行科学研究和工程设计。该方法有望推动LLM在科学计算和工程应用中的发展。

📄 摘要(原文)

Prompting techniques such as Chain-of-Thought (CoT) and Program-of-Thought (PoT) improve LLM mathematical reasoning by structuring intermediate steps in natural language or code. However, applied mathematics problems in domains like finance, physics, and cryptography often require recalling or deriving governing equations, a step that current approaches do not explicitly leverage. We propose Formula-One Prompting (F-1), a two-phase approach that uses mathematical equations as an intermediate representation before adaptive solving. F-1 first formulates governing equations from problem descriptions, then selects a solving strategy among CoT, PoT, or direct computation based on the generated equations, all within a single LLM call. Results across five models and four benchmarks show F-1 outperforms CoT by +5.76% and PoT by +8.42% on average. Crucially, gains are largest in applied domains: +13.30% on FinanceMath over CoT, and within OlympiadBench, larger gains on physics (+2.55%) than pure math (+0.44%). This demonstrates that F-1 is more effective than CoT in applied mathematics problems.