SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers

作者: Kechen Li, Wenqi Zhu, Coralia Cartis, Tianbo Ji, Shiwei Liu

分类: cs.LG

发布日期: 2025-02-27

💡 一句话要点

SoS1：类O1和R1推理的LLM是平方和求解器，显著提升多项式非负性判定能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 多项式优化 平方和 数据集 微调 推理指令

📋 核心要点

判定多元多项式非负性是数学难题，现有LLM在此任务上表现不佳，缺乏有效推理能力。
论文提出SoS-1K数据集和专家设计的推理指令，引导LLM进行结构化数学推理。
微调后的7B模型SoS-7B在准确率上超越了更大的模型，且计算成本更低，验证了方法的有效性。

📝 摘要（中文）

大型语言模型（LLM）在各种任务中都达到了人类水平的熟练程度，但它们执行严格的数学问题求解的能力仍然是一个开放的挑战。本文研究了一个基本但计算上难以解决的问题：确定给定的多元多项式是否非负。这个问题与希尔伯特第十七问题密切相关，在全球多项式优化中起着关键作用，并在各个领域都有应用。首先，我们引入了SoS-1K，这是一个精心策划的包含约1000个多项式的的数据集，以及基于五个渐进式挑战性标准设计的专家推理指令。评估多个最先进的LLM后，我们发现，在没有结构化指导的情况下，所有模型的性能仅略高于随机猜测基线50%。然而，高质量的推理指令显著提高了准确性，将性能提高到81%。此外，我们基于SoS-1K微调仅4小时的7B模型SoS-7B，在准确性方面优于671B DeepSeek-V3和GPT-4o-mini，同时分别仅需要后两者1.8%和5%的计算时间。我们的发现突出了LLM在推动数学推理边界和解决NP-hard问题方面的潜力。

🔬 方法详解

问题定义：论文旨在解决判定多元多项式是否非负的问题，这是一个NP-hard问题，与全局多项式优化密切相关。现有LLM在解决此类问题时，缺乏有效的数学推理能力，性能接近随机猜测，难以满足实际应用需求。

核心思路：论文的核心思路是通过提供高质量的推理指令，引导LLM进行结构化的数学推理。通过将复杂问题分解为更小的、可管理的步骤，并提供明确的推理路径，使LLM能够更好地理解和解决问题。此外，通过在专门构建的数据集上进行微调，进一步提升LLM在该任务上的性能。

技术框架：论文的技术框架主要包括以下几个部分：1) 构建SoS-1K数据集，包含约1000个多项式样本；2) 设计专家推理指令，基于五个渐进式挑战性标准；3) 使用SoS-1K数据集和推理指令对LLM进行微调；4) 评估微调后的LLM在判定多项式非负性任务上的性能。

关键创新：论文的关键创新在于：1) 提出了SoS-1K数据集，为LLM的数学推理能力评估和训练提供了新的基准；2) 设计了专家推理指令，有效引导LLM进行结构化数学推理，显著提升了性能；3) 证明了通过少量数据微调的小型LLM可以超越大型LLM，表明了数据质量和推理指导的重要性。

关键设计：SoS-1K数据集包含不同难度级别的多项式样本，推理指令的设计遵循由易到难的原则，逐步引导LLM进行推理。微调过程中，使用了标准的反向传播算法和交叉熵损失函数。模型的选择和参数设置可能根据具体实验有所调整，但论文中未详细说明。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在没有结构化指导的情况下，现有LLM在SoS-1K数据集上的准确率仅略高于50%。然而，通过高质量的推理指令，LLM的准确率可以提升至81%。更重要的是，经过SoS-1K微调的7B模型SoS-7B，在准确率上超越了671B DeepSeek-V3和GPT-4o-mini，同时计算成本显著降低，分别仅为后两者的1.8%和5%。

🎯 应用场景

该研究成果可应用于全局多项式优化、控制理论、机器人学等领域。通过提升LLM的数学推理能力，可以更有效地解决实际工程问题，例如优化控制系统的性能、设计更安全的机器人运动轨迹等。未来，该方法有望扩展到其他NP-hard问题，推动人工智能在科学计算领域的应用。

📄 摘要（原文）

Large Language Models (LLMs) have achieved human-level proficiency across diverse tasks, but their ability to perform rigorous mathematical problem solving remains an open challenge. In this work, we investigate a fundamental yet computationally intractable problem: determining whether a given multivariate polynomial is nonnegative. This problem, closely related to Hilbert's Seventeenth Problem, plays a crucial role in global polynomial optimization and has applications in various fields. First, we introduce SoS-1K, a meticulously curated dataset of approximately 1,000 polynomials, along with expert-designed reasoning instructions based on five progressively challenging criteria. Evaluating multiple state-of-the-art LLMs, we find that without structured guidance, all models perform only slightly above the random guess baseline 50%. However, high-quality reasoning instructions significantly improve accuracy, boosting performance up to 81%. Furthermore, our 7B model, SoS-7B, fine-tuned on SoS-1K for just 4 hours, outperforms the 671B DeepSeek-V3 and GPT-4o-mini in accuracy while only requiring 1.8% and 5% of the computation time needed for letters, respectively. Our findings highlight the potential of LLMs to push the boundaries of mathematical reasoning and tackle NP-hard problems.

SoS1: O1 and R1-Like Reasoning LLMs are Sum-of-Square Solvers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理