InfiFPO: Implicit Model Fusion via Preference Optimization in Large Language Models

📄 arXiv: 2505.13878v2 📥 PDF

作者: Yanggan Gu, Yuanyi Wang, Zhaoyi Yan, Yiming Zhang, Qi Zhou, Fei Wu, Hongxia Yang

分类: cs.LG, cs.CL

发布日期: 2025-05-20 (更新: 2025-10-22)

期刊: NeurIPS 2025


💡 一句话要点

InfiFPO:通过偏好优化实现大语言模型中的隐式模型融合

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型融合 偏好优化 知识蒸馏 直接偏好优化 概率融合 Phi-4

📋 核心要点

  1. 现有模型融合方法在偏好对齐阶段主要依赖响应输出,忽略了源模型的概率信息,限制了知识的有效迁移。
  2. InfiFPO通过在序列级别融合多源概率,并将其作为DPO的参考模型,实现了隐式模型融合和知识蒸馏。
  3. 实验表明,InfiFPO在多个基准测试中优于现有模型融合和偏好优化方法,显著提升了模型性能。

📝 摘要(中文)

模型融合通过轻量级训练方法将多个具有不同优势的大语言模型(LLM)组合成一个更强大的集成模型。现有的模型融合工作主要集中在监督微调(SFT)上,而偏好对齐(PA)——增强LLM性能的关键阶段——在很大程度上未被探索。目前PA阶段的少数融合方法,如WRPO,通过仅利用源模型的响应输出来简化流程,而忽略了它们的概率信息。为了解决这个限制,我们提出InfiFPO,一种用于隐式模型融合的偏好优化方法。InfiFPO用融合的源模型替换了直接偏好优化(DPO)中的参考模型,该融合模型在序列级别合成多源概率,规避了先前工作中复杂的词汇对齐挑战,同时保持了概率信息。通过引入概率裁剪和最大边际融合策略,InfiFPO使枢轴模型能够与人类偏好对齐,同时有效地从源模型中提取知识。在11个广泛使用的基准上的综合实验表明,InfiFPO始终优于现有的模型融合和偏好优化方法。当使用Phi-4作为枢轴模型时,InfiFPO将其在11个基准上的平均性能从79.95提高到83.33,显著提高了其在数学、编码和推理任务中的能力。

🔬 方法详解

问题定义:现有模型融合方法,尤其是在偏好对齐阶段,通常忽略了源模型的概率信息,导致知识迁移效率低下。此外,直接融合不同词汇表的大语言模型概率分布非常困难,需要复杂的词汇对齐策略。因此,如何有效地融合多个LLM的知识,同时避免复杂的词汇对齐问题,是本文要解决的核心问题。

核心思路:InfiFPO的核心思路是利用融合的源模型概率分布作为DPO算法中的参考模型,从而实现隐式模型融合。通过在序列级别融合多个源模型的概率,InfiFPO能够保留源模型的概率信息,并将其用于指导枢轴模型的训练。这种方法避免了直接融合不同词汇表带来的挑战,同时实现了知识的有效迁移。

技术框架:InfiFPO的技术框架主要包括以下几个步骤:1)选择多个源模型和一个枢轴模型;2)对于给定的输入序列,计算每个源模型的概率分布;3)使用概率裁剪和最大边际融合策略,将多个源模型的概率分布融合为一个单一的概率分布;4)使用融合后的概率分布作为DPO算法的参考模型,训练枢轴模型,使其与人类偏好对齐。

关键创新:InfiFPO的关键创新在于:1)提出了一种隐式模型融合方法,通过融合源模型的概率分布来指导枢轴模型的训练,避免了复杂的词汇对齐问题;2)引入了概率裁剪和最大边际融合策略,有效地平衡了不同源模型的贡献,并提高了融合模型的性能;3)将模型融合应用到偏好对齐阶段,充分利用了源模型的知识,提升了枢轴模型与人类偏好的对齐程度。

关键设计:InfiFPO的关键设计包括:1)概率裁剪:限制源模型概率的上限,防止某个源模型过度影响融合结果;2)最大边际融合:选择具有最大边际的源模型进行融合,提高融合模型的鲁棒性;3)DPO损失函数:使用DPO损失函数来训练枢轴模型,使其与人类偏好对齐。具体来说,DPO损失函数鼓励枢轴模型生成更符合人类偏好的响应,同时惩罚生成不符合人类偏好的响应。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,InfiFPO在11个广泛使用的基准测试中始终优于现有的模型融合和偏好优化方法。例如,当使用Phi-4作为枢轴模型时,InfiFPO将其在11个基准上的平均性能从79.95提高到83.33,显著提高了其在数学、编码和推理任务中的能力。这些结果证明了InfiFPO在模型融合和偏好对齐方面的有效性。

🎯 应用场景

InfiFPO具有广泛的应用前景,可用于构建更强大的通用大语言模型。例如,可以将擅长不同任务的多个LLM融合为一个模型,使其在各种任务上都表现出色。此外,InfiFPO还可以用于个性化LLM,通过融合用户偏好的多个模型,生成更符合用户需求的响应。该方法在智能客服、内容生成、教育辅导等领域具有潜在的应用价值。

📄 摘要(原文)

Model fusion combines multiple Large Language Models (LLMs) with different strengths into a more powerful, integrated model through lightweight training methods. Existing works on model fusion focus primarily on supervised fine-tuning (SFT), leaving preference alignment (PA) --a critical phase for enhancing LLM performance--largely unexplored. The current few fusion methods on PA phase, like WRPO, simplify the process by utilizing only response outputs from source models while discarding their probability information. To address this limitation, we propose InfiFPO, a preference optimization method for implicit model fusion. InfiFPO replaces the reference model in Direct Preference Optimization (DPO) with a fused source model that synthesizes multi-source probabilities at the sequence level, circumventing complex vocabulary alignment challenges in previous works and meanwhile maintaining the probability information. By introducing probability clipping and max-margin fusion strategies, InfiFPO enables the pivot model to align with human preferences while effectively distilling knowledge from source models. Comprehensive experiments on 11 widely-used benchmarks demonstrate that InfiFPO consistently outperforms existing model fusion and preference optimization methods. When using Phi-4 as the pivot model, InfiFPO improve its average performance from 79.95 to 83.33 on 11 benchmarks, significantly improving its capabilities in mathematics, coding, and reasoning tasks.