Diverse Inference and Verification for Advanced Reasoning
作者: Iddo Drori, Gaston Longhitano, Mao Mao, Seunghwan Hyun, Yuke Zhang, Sungjun Park, Zachary Meeks, Xin-Yu Zhang, Ben Segev, Howard Yong, Nakul Verma, Avi Shporer, Alon Amit, Madeleine Udell
分类: cs.AI
发布日期: 2025-02-14
备注: 165 pages
💡 一句话要点
提出多样化推理与验证方法,显著提升LLM在复杂推理任务上的性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction)
关键词: 大型语言模型 复杂推理 多样化推理 验证机制 数学问题求解
📋 核心要点
- 现有LLM在复杂推理任务(如IMO组合数学、ARC谜题、HLE问题)上表现不足,面临着准确率低的挑战。
- 核心思想是结合多种模型和方法进行多样化推理,并引入验证机制,对结果进行筛选和修正,提升整体性能。
- 实验结果表明,该方法在IMO、HLE和ARC等任务上均取得了显著的准确率提升,超越了现有方法和人类水平。
📝 摘要(中文)
本文提出了一种多样化推理方法,结合多种模型和方法在测试时进行推理,以提升大型语言模型(LLM)在国际数学奥林匹克(IMO)组合数学问题、抽象和推理语料库(ARC)谜题以及人类最后考试(HLE)问题等高级推理任务上的性能。研究发现,验证数学和代码问题,以及在其他问题上进行拒绝抽样是简单而有效的。通过Lean自动验证IMO问题的正确性,通过代码验证ARC谜题,并发现best-of-N方法能有效回答HLE问题。该方法将IMO组合数学问题的准确率从33.3%提高到77.8%,HLE问题的准确率从8%提高到37%,并解决了80%人类无法解决的ARC谜题以及26.5%的o3高算力模型无法解决的ARC谜题。测试时模拟、强化学习和元学习与推理反馈通过调整agent图表示和改变提示、代码和数据集来提高泛化能力。该方法可靠、鲁棒且可扩展,并且为了可复现研究的精神,将在发表后公开。
🔬 方法详解
问题定义:现有的大型语言模型在处理需要复杂推理的任务时,例如国际数学奥林匹克(IMO)的组合数学问题、抽象和推理语料库(ARC)的谜题以及人类最后考试(HLE)问题,仍然面临着准确率低的挑战。这些任务需要模型具备强大的逻辑推理、抽象概括和问题解决能力,而现有方法往往难以有效应对。
核心思路:论文的核心解决思路是采用一种多样化的推理方法,即在测试阶段结合多种不同的模型和方法进行推理。通过集成多个模型的优势,可以提高模型对问题的理解和解决能力。此外,论文还引入了验证机制,对模型的输出结果进行验证和筛选,从而提高最终结果的准确性。
技术框架:整体框架包含多样化推理和验证两个主要阶段。在多样化推理阶段,使用多个预训练的语言模型,并结合不同的推理方法(如提示工程、代码生成等)生成多个候选答案。在验证阶段,针对不同类型的任务,采用不同的验证方法。例如,对于数学问题,使用Lean等定理证明器进行验证;对于ARC谜题,使用代码执行进行验证;对于HLE问题,采用best-of-N方法进行选择。
关键创新:最重要的技术创新点在于将多样化推理和验证机制相结合。通过多样化推理,可以扩大搜索空间,提高找到正确答案的可能性。通过验证机制,可以有效过滤掉错误的答案,提高最终结果的准确性。此外,论文还探索了使用测试时模拟、强化学习和元学习等方法来进一步提高模型的泛化能力。
关键设计:在多样化推理阶段,选择具有不同架构和训练数据的语言模型,以保证模型的多样性。在验证阶段,针对不同类型的任务,设计了相应的验证方法。例如,对于数学问题,使用Lean定理证明器进行形式化验证;对于ARC谜题,编写代码来模拟谜题的规则,并验证模型的输出是否符合规则。此外,还使用了拒绝抽样等技术来进一步提高验证的效率。
📊 实验亮点
实验结果表明,该方法在IMO组合数学问题上的准确率从33.3%提升到77.8%,在HLE问题上的准确率从8%提升到37%,并且解决了80%人类无法解决的ARC谜题以及26.5%的o3高算力模型无法解决的ARC谜题。这些结果表明,该方法能够显著提高LLM在复杂推理任务上的性能。
🎯 应用场景
该研究成果可广泛应用于需要复杂推理能力的领域,例如数学问题求解、代码生成、逻辑推理、智能游戏等。通过提高LLM在这些领域的性能,可以促进自动化问题求解、智能助手等应用的发展,具有重要的实际价值和未来影响。
📄 摘要(原文)
Reasoning LLMs such as OpenAI o1, o3 and DeepSeek R1 have made significant progress in mathematics and coding, yet find challenging advanced tasks such as International Mathematical Olympiad (IMO) combinatorics problems, Abstraction and Reasoning Corpus (ARC) puzzles, and Humanity's Last Exam (HLE) questions. We use a diverse inference approach that combines multiple models and methods at test time. We find that verifying mathematics and code problems, and rejection sampling on other problems is simple and effective. We automatically verify correctness of solutions to IMO problems by Lean, and ARC puzzles by code, and find that best-of-N effectively answers HLE questions. Our approach increases answer accuracy on IMO combinatorics problems from 33.3% to 77.8%, accuracy on HLE questions from 8% to 37%, and solves 80% of ARC puzzles that 948 humans could not and 26.5% of ARC puzzles that o3 high compute does not. Test-time simulations, reinforcement learning, and meta-learning with inference feedback improve generalization by adapting agent graph representations and varying prompts, code, and datasets. Our approach is reliable, robust, and scalable, and in the spirit of reproducible research, we will make it publicly available upon publication.