Preference Optimization for Reasoning with Pseudo Feedback

作者: Fangkai Jiao, Geyang Guo, Xingxing Zhang, Nancy F. Chen, Shafiq Joty, Furu Wei

分类: cs.CL

发布日期: 2024-11-25 (更新: 2025-02-14)

备注: 28 pages, 11 figures. ICLR 2025

💡 一句话要点

提出基于伪反馈的偏好优化方法，提升LLM在数学推理和代码生成任务上的性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 偏好优化 伪反馈 数学推理 代码生成 大语言模型 测试用例 自洽性

📋 核心要点

现有偏好优化方法依赖高质量人工标注的推理数据集，但此类数据稀缺，限制了LLM推理能力的提升。
论文提出利用测试用例生成伪反馈，将问题求解转化为对解的评估，从而构建偏好对，用于偏好优化。
实验表明，使用伪反馈进行偏好优化能显著提升LLM在数学推理和代码生成任务上的性能，甚至超越一些更大的模型。

📝 摘要（中文）

本文提出了一种新颖的方法，通过将推理问题解决方案的标注转化为针对相关测试用例的评估，从而为推理任务生成伪反馈。该方法利用测试用例探索两种形式的伪反馈：一种由前沿LLM生成，另一种通过将自洽性扩展到多测试用例生成。在数学推理和代码生成任务上，使用伪反馈进行偏好优化的实验表明，两种任务的性能均有所提高。具体而言，使用Mathstral-7B作为基础模型，MATH结果从58.3提高到68.6，超过了NuminaMath-72B和GPT-4-Turbo-1106-preview。在GSM8K和College Math中，分数分别从85.6提高到90.3，从34.3提高到42.3。基于Deepseek-coder-7B-v1.5，在LiveCodeBench上获得了24.6的分数（从21.1提升），超过了Claude-3-Haiku。

🔬 方法详解

问题定义：现有的大语言模型（LLM）推理能力提升依赖于偏好优化技术，例如直接偏好优化（DPO）。这些方法需要高质量的推理任务标签来生成偏好对。然而，具有人工验证标签的推理数据集非常有限，这阻碍了LLM推理能力的进一步提升。因此，如何有效地利用有限的资源来提升LLM的推理能力是一个关键问题。

核心思路：本文的核心思路是利用测试用例来生成伪反馈，从而构建偏好对。具体来说，将推理问题的解决方案的标注过程视为针对相关测试用例的评估。如果一个解决方案通过了更多的测试用例，则认为它比其他解决方案更优。通过这种方式，可以自动生成大量的偏好数据，而无需人工标注。

技术框架：该方法主要包含以下几个阶段：1) 使用LLM生成多个可能的解决方案；2) 使用测试用例评估每个解决方案，并生成伪反馈；3) 使用生成的伪反馈进行偏好优化，例如使用DPO算法；4) 在验证集上评估优化后的模型性能。

关键创新：该方法最重要的创新点在于提出了利用测试用例生成伪反馈的策略。与传统的依赖人工标注的方法不同，该方法可以自动生成大量的偏好数据，从而有效地提升LLM的推理能力。此外，论文还探索了两种生成伪反馈的方式：一种是使用前沿LLM生成测试用例，另一种是将自洽性扩展到多测试用例。

关键设计：论文中使用了两种不同的伪反馈生成方法。第一种方法是使用强大的LLM（如GPT-4）来生成测试用例，并使用这些测试用例来评估不同的解决方案。第二种方法是将自洽性（self-consistency）的概念扩展到多测试用例。具体来说，对于每个问题，生成多个解决方案，并使用多个测试用例来评估这些解决方案。如果一个解决方案在多个测试用例中都表现良好，则认为它是一个好的解决方案。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用伪反馈进行偏好优化能够显著提升LLM在数学推理和代码生成任务上的性能。例如，在MATH数据集上，使用Mathstral-7B作为基础模型，性能从58.3提升到68.6，超过了NuminaMath-72B和GPT-4-Turbo-1106-preview。在LiveCodeBench上，基于Deepseek-coder-7B-v1.5的模型性能从21.1提升到24.6，超过了Claude-3-Haiku。

🎯 应用场景

该研究成果可广泛应用于需要复杂推理能力的场景，例如数学问题求解、代码生成、逻辑推理等。通过降低对人工标注数据的依赖，该方法能够更经济高效地提升LLM在这些领域的性能，加速AI在教育、软件开发等行业的应用。

📄 摘要（原文）

Preference optimization techniques, such as Direct Preference Optimization (DPO), are frequently employed to enhance the reasoning capabilities of large language models (LLMs) in domains like mathematical reasoning and coding, typically following supervised fine-tuning. These methods rely on high-quality labels for reasoning tasks to generate preference pairs; however, the availability of reasoning datasets with human-verified labels is limited. In this study, we introduce a novel approach to generate pseudo feedback for reasoning tasks by framing the labeling of solutions to reason problems as an evaluation against associated test cases. We explore two forms of pseudo feedback based on test cases: one generated by frontier LLMs and the other by extending self-consistency to multi-test-case. We conduct experiments on both mathematical reasoning and coding tasks using pseudo feedback for preference optimization, and observe improvements across both tasks. Specifically, using Mathstral-7B as our base model, we improve MATH results from 58.3 to 68.6, surpassing both NuminaMath-72B and GPT-4-Turbo-1106-preview. In GSM8K and College Math, our scores increase from 85.6 to 90.3 and from 34.3 to 42.3, respectively. Building on Deepseek-coder-7B-v1.5, we achieve a score of 24.6 on LiveCodeBench (from 21.1), surpassing Claude-3-Haiku.

Preference Optimization for Reasoning with Pseudo Feedback

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理