InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities

作者: Shuo Cai, Su Lu, Qi Zhou, Kejing Yang, Zhijie Sang, Congkai Xie, Hongxia Yang

分类: cs.AI

发布日期: 2025-08-07 (更新: 2025-08-12)

🔗 代码/项目: HUGGINGFACE

💡 一句话要点

InfiAlign：一种可扩展且高效的LLM对齐框架，提升推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型对齐 推理能力提升 监督微调 直接偏好优化 数据选择 样本效率 可扩展性

📋 核心要点

现有LLM推理能力提升方法面临数据和计算资源消耗大的挑战，且样本效率提升方法依赖启发式策略，缺乏可扩展性。
InfiAlign框架通过集成监督微调（SFT）和直接偏好优化（DPO），并结合高质量数据自动选择流程，实现高效LLM对齐。
实验表明，InfiAlign在Qwen2.5-Math-7B-Base模型上仅用12%的数据达到DeepSeek-R1-Distill-Qwen-7B的性能，并在AIME基准测试中提升3.89%。

📝 摘要（中文）

大型语言模型（LLMs）在各种复杂任务中展现出令人印象深刻的推理能力。然而，通过后训练来增强这些能力仍然需要大量的资源，特别是在数据和计算成本方面。尽管最近的研究试图通过选择性数据管理来提高样本效率，但现有方法通常依赖于启发式或特定于任务的策略，这阻碍了可扩展性。本文介绍了一种可扩展且高效的后训练框架InfiAlign，它集成了监督微调（SFT）和直接偏好优化（DPO），以对齐LLM并增强推理能力。InfiAlign的核心是一个强大的数据选择流程，它使用多维质量指标从开源推理数据集中自动管理高质量的对齐数据。该流程能够在显著降低数据需求的同时获得显著的性能提升，并且可以扩展到新的数据源。当应用于Qwen2.5-Math-7B-Base模型时，我们的SFT模型实现了与DeepSeek-R1-Distill-Qwen-7B相当的性能，同时仅使用了大约12%的训练数据，并在各种推理任务中表现出强大的泛化能力。通过应用DPO获得了额外的改进，尤其是在数学推理任务中获得了显著的收益。该模型在AIME 24/25基准测试中平均提高了3.89%。我们的结果强调了将原则性数据选择与全阶段后训练相结合的有效性，为以可扩展且数据高效的方式对齐大型推理模型提供了一种实用的解决方案。模型检查点可在https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT上找到。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）推理能力提升过程中数据和计算资源消耗过大的问题。现有方法，尤其是那些试图提高样本效率的方法，往往依赖于启发式或特定任务的策略，导致可扩展性不足。这些方法难以适应新的数据源和推理任务，限制了其在实际应用中的价值。

核心思路：InfiAlign的核心思路是结合监督微调（SFT）和直接偏好优化（DPO），并引入一个强大的数据选择流程，自动从开源数据集中筛选高质量的对齐数据。通过这种方式，模型可以在更少的数据上学习到更有效的推理能力，从而降低资源消耗并提高可扩展性。数据选择流程的设计旨在确保所选数据具有代表性和高质量，从而提高模型的泛化能力。

技术框架：InfiAlign框架主要包含以下几个阶段：1) 数据选择：使用多维质量指标从开源推理数据集中自动筛选高质量的对齐数据。2) 监督微调（SFT）：使用筛选后的高质量数据对LLM进行微调，使其初步具备较强的推理能力。3) 直接偏好优化（DPO）：使用DPO进一步优化模型的推理能力，使其更好地符合人类的偏好。整个流程旨在实现数据高效且可扩展的LLM对齐。

关键创新：InfiAlign最重要的技术创新点在于其数据选择流程。该流程使用多维质量指标，能够自动从开源数据集中筛选出高质量的对齐数据。与现有方法相比，该流程无需人工干预，可以自动适应新的数据源和推理任务，从而提高了可扩展性。此外，InfiAlign将SFT和DPO相结合，充分利用了两种方法的优势，进一步提高了模型的推理能力。

关键设计：数据选择流程的关键设计在于多维质量指标的选取。这些指标可能包括数据的复杂度、多样性、正确性等。SFT阶段的关键设计在于选择合适的学习率、batch size等超参数，以及设计合适的损失函数。DPO阶段的关键设计在于选择合适的偏好数据，以及调整DPO的超参数，以平衡模型的推理能力和人类偏好。

🖼️ 关键图片

📊 实验亮点

InfiAlign在Qwen2.5-Math-7B-Base模型上进行了实验，结果表明，其SFT模型仅使用约12%的训练数据，即可达到与DeepSeek-R1-Distill-Qwen-7B相当的性能。此外，通过应用DPO，InfiAlign在AIME 24/25基准测试中平均提高了3.89%，表明其在数学推理任务中具有显著的优势。

🎯 应用场景

InfiAlign框架可应用于各种需要强大推理能力的场景，例如数学问题求解、代码生成、逻辑推理等。该框架能够以较低的成本训练出高性能的推理模型，降低了LLM在实际应用中的门槛。此外，InfiAlign的可扩展性使其能够适应新的数据源和推理任务，具有广泛的应用前景。

📄 摘要（原文）

Large language models (LLMs) have exhibited impressive reasoning abilities on a wide range of complex tasks. However, enhancing these capabilities through post-training remains resource intensive, particularly in terms of data and computational cost. Although recent efforts have sought to improve sample efficiency through selective data curation, existing methods often rely on heuristic or task-specific strategies that hinder scalability. In this work, we introduce InfiAlign, a scalable and sample-efficient post-training framework that integrates supervised fine-tuning (SFT) with Direct Preference Optimization (DPO) to align LLMs for enhanced reasoning. At the core of InfiAlign is a robust data selection pipeline that automatically curates high-quality alignment data from open-source reasoning datasets using multidimensional quality metrics. This pipeline enables significant performance gains while drastically reducing data requirements and remains extensible to new data sources. When applied to the Qwen2.5-Math-7B-Base model, our SFT model achieves performance on par with DeepSeek-R1-Distill-Qwen-7B, while using only approximately 12% of the training data, and demonstrates strong generalization across diverse reasoning tasks. Additional improvements are obtained through the application of DPO, with particularly notable gains in mathematical reasoning tasks. The model achieves an average improvement of 3.89% on AIME 24/25 benchmarks. Our results highlight the effectiveness of combining principled data selection with full-stage post-training, offering a practical solution for aligning large reasoning models in a scalable and data-efficient manner. The model checkpoints are available at https://huggingface.co/InfiX-ai/InfiAlign-Qwen-7B-SFT.

InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理