Learning to Rank Chain-of-Thought: Using a Small Model

作者: Eric Hanchen Jiang, Haozheng Luo, Shengyuan Pang, Xiaomin Li, Zhenting Qi, Hengli Li, Cheng-Fu Yang, Zongyu Lin, Xinfeng Li, Hao Xu, Kai-Wei Chang, Ying Nian Wu

分类: cs.LG, cs.AI, cs.CL, stat.ML

发布日期: 2025-05-21 (更新: 2025-09-30)

💡 一句话要点

提出EORM：一种轻量级后验验证器，提升LLM数学推理可靠性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 数学推理 思维链 能量模型 后验验证 轻量级模型

📋 核心要点

大型语言模型在数学推理方面表现欠佳，且现有验证方法计算成本过高。
EORM通过能量模型对CoT解排序，仅用结果标签区分正确推理，无需昂贵标注。
EORM仅55M参数，显著提升Llama 3 8B在GSM8k和MATH数据集上的准确率。

📝 摘要（中文）

大型语言模型(LLMs)在可靠的数学推理方面存在困难，并且现有的验证方法通常计算成本高昂。本文介绍了一种高效、轻量级的后验验证器——能量结果奖励模型(EORM)，旨在解决这一挑战。EORM使用基于能量的框架来对思维链(CoT)解决方案进行排序，仅使用简单的结果标签学习区分正确和不正确的推理，从而消除了对昂贵注释的需求。EORM仅有55M参数，比典型的奖励模型小127倍以上，在GSM8k上将Llama 3 8B的准确率提高到90.7%，在MATH上提高到63.7%。这种性能是通过有效地从候选池中选择最佳推理路径来实现的，使其能够匹配或超过资源密集型的Best-of-N抽样技术的准确性。重要的是，我们的实验表明，EORM可以有效地推广到分布外问题和未见过的模型，表明它学习了有效推理的基本原则。这种鲁棒性，加上其效率，使EORM成为在复杂的现实世界应用中部署更可靠的LLM的实用工具。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在数学推理任务中可靠性不足的问题。现有方法，如使用大型奖励模型进行验证，计算成本高昂，难以部署。此外，这些方法通常需要大量的标注数据，进一步增加了成本。因此，需要一种高效、轻量级的验证方法，能够在无需大量标注的情况下，提升LLM的推理能力。

核心思路：论文的核心思路是利用一个小型能量模型（EORM）来学习区分正确和错误的推理路径。EORM通过对思维链（CoT）解决方案进行排序，选择能量最低（即最有可能正确）的路径作为最终答案。这种方法避免了直接训练LLM进行推理，而是专注于验证和选择，从而降低了计算成本和数据需求。

技术框架：EORM的技术框架主要包含以下几个阶段：1) 使用LLM生成多个CoT解决方案；2) 使用EORM对这些解决方案进行排序，EORM为每个CoT路径分配一个能量值；3) 选择能量值最低的CoT路径作为最终答案。EORM本身是一个小型神经网络，输入是CoT路径的文本表示，输出是一个标量能量值。

关键创新：EORM的关键创新在于其基于能量的排序框架和轻量级的设计。与传统的奖励模型不同，EORM不需要大量的标注数据，只需要简单的结果标签（正确或错误）即可进行训练。此外，EORM的参数量非常小，使其易于部署和扩展。这种设计使得EORM能够在计算资源有限的情况下，有效地提升LLM的推理能力。

关键设计：EORM的关键设计包括：1) 使用Transformer编码器将CoT路径转换为文本表示；2) 使用一个简单的全连接网络将文本表示映射到能量值；3) 使用对比损失函数训练EORM，使得正确CoT路径的能量值低于错误CoT路径的能量值。具体的损失函数形式未知，但其目标是最小化正确答案的能量，最大化错误答案的能量。参数设置方面，EORM使用了55M参数，远小于典型的奖励模型。

🖼️ 关键图片

📊 实验亮点

EORM在GSM8k数据集上将Llama 3 8B的准确率提高到90.7%，在MATH数据集上提高到63.7%。EORM的性能与使用更多计算资源的Best-of-N抽样技术相当甚至更好。此外，实验表明EORM具有良好的泛化能力，可以有效地应用于分布外问题和未见过的模型。EORM仅使用55M参数，比典型的奖励模型小127倍以上，体现了其高效性。

🎯 应用场景

EORM可应用于各种需要可靠数学推理的场景，例如金融分析、科学计算、教育辅导等。通过提高LLM的推理准确性，EORM可以帮助用户做出更明智的决策。由于其轻量级和高效性，EORM特别适合在资源受限的环境中部署，例如移动设备或边缘计算平台。未来，EORM可以进一步扩展到其他类型的推理任务，例如常识推理和逻辑推理。

📄 摘要（原文）

Large Language Models (LLMs) struggle with reliable mathematical reasoning, and current verification methods are often computationally expensive. This paper introduces the Energy Outcome Reward Model (EORM), a highly efficient, lightweight post-hoc verifier designed to address this challenge. EORM uses an energy-based framework to rank Chain-of-Thought (CoT) solutions, learning to distinguish correct from incorrect reasoning using only simple outcome labels, thus eliminating the need for expensive annotations. With only 55M parameters, over 127 times smaller than typical reward models, EORM boosts the accuracy of Llama 3 8B to 90.7\% on GSM8k and 63.7\% on MATH. This performance is achieved by efficiently selecting the optimal reasoning path from a pool of candidates, allowing it to match or exceed the accuracy of far more resource-intensive Best-of-N sampling techniques. Crucially, our experiments show that EORM generalizes effectively to out-of-distribution problems and unseen models, indicating it learns fundamental principles of valid reasoning. This robustness, combined with its efficiency, establishes EORM as a practical tool for deploying more dependable LLMs in complex, real-world applications.

Learning to Rank Chain-of-Thought: Using a Small Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理