MACPO: Weak-to-Strong Alignment via Multi-Agent Contrastive Preference Optimization
作者: Yougang Lyu, Lingyong Yan, Zihan Wang, Dawei Yin, Pengjie Ren, Maarten de Rijke, Zhaochun Ren
分类: cs.CL, cs.AI
发布日期: 2024-10-10 (更新: 2025-03-02)
备注: ICLR 2025
💡 一句话要点
提出MACPO框架,通过多智能体对比偏好优化实现弱监督到强模型的对齐。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型对齐 弱监督学习 多智能体学习 对比学习 偏好优化
📋 核心要点
- 现有对齐方法主要关注强到弱或自对齐,难以有效解决LLM中弱监督到强模型的对齐问题。
- MACPO框架通过多智能体对比学习,迭代强化积极行为、惩罚消极行为,促进弱教师和强学生相互学习。
- 实验表明,MACPO能同时提升强学生和弱教师的对齐性能,且教师数量越多,对齐效果越好。
📝 摘要(中文)
随着大型语言模型(LLMs)的快速发展并在特定任务上接近人类水平,将其与人类价值观对齐变得更加紧迫。在LLMs优于人类的情况下,我们面临着一个弱到强的对齐问题,即需要通过弱教师产生的弱监督来有效地对齐强大的学生LLMs。现有的对齐方法主要集中在强到弱的对齐和自我对齐设置上,将它们应用于更困难的弱到强对齐设置是不切实际的。为了填补这一空白,我们提出了一个多智能体对比偏好优化(MACPO)框架。MACPO通过迭代地强化不熟悉的积极行为,同时惩罚熟悉的消极行为,促进了弱教师和强学生之间的相互学习。为此,我们设计了一种相互积极行为增强策略,以鼓励弱教师和强学生相互学习积极行为,并为下一次迭代提供更高质量的积极行为。此外,我们提出了一种硬性消极行为构建策略,通过对消极行为数据进行微调,诱导弱教师和强学生产生熟悉的消极行为。在HH-RLHF和PKU-SafeRLHF数据集上的实验结果,通过自动指标和人工判断进行评估,表明MACPO同时提高了强学生和弱教师的对齐性能。此外,随着弱教师数量的增加,MACPO通过更多的迭代优化轮次实现了更好的弱到强对齐性能。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)中,如何利用弱教师(weak teachers)的弱监督信号,有效地对齐更强大的学生模型(strong student LLMs)的问题。现有方法主要集中于强到弱的对齐或自对齐,无法直接应用于弱到强的对齐场景。这种场景的痛点在于,弱教师的监督信号质量不高,难以指导强学生模型进行有效的学习和对齐。
核心思路:论文的核心思路是通过多智能体对比偏好优化(Multi-Agent Contrastive Preference Optimization, MACPO),让弱教师和强学生相互学习,迭代提升彼此的对齐性能。具体来说,通过强化不熟悉的积极行为,同时惩罚熟悉的消极行为,促使双方不断探索和学习更优的行为模式。这种相互学习的机制能够克服弱监督信号的局限性,实现更好的弱到强对齐。
技术框架:MACPO框架包含以下主要模块:1) 相互积极行为增强(Mutual Positive Behavior Augmentation):鼓励弱教师和强学生相互学习对方的积极行为,并为下一轮迭代提供更高质量的积极行为样本。2) 硬性消极行为构建(Hard Negative Behavior Construction):通过对消极行为数据进行微调,诱导弱教师和强学生生成熟悉的消极行为,从而更好地进行对比学习。3) 对比偏好优化(Contrastive Preference Optimization):基于增强的积极行为和构建的消极行为,使用对比学习的目标函数来优化弱教师和强学生的策略。整个框架通过迭代的方式,不断提升弱教师和强学生的对齐性能。
关键创新:MACPO的关键创新在于其多智能体对比学习的框架,以及相互积极行为增强和硬性消极行为构建策略。与现有方法相比,MACPO不是简单地让学生模型模仿教师模型,而是通过相互学习和对比的方式,更有效地利用了弱监督信号。相互积极行为增强策略能够克服弱教师的局限性,提供更高质量的积极行为样本。硬性消极行为构建策略能够帮助模型更好地识别和避免消极行为。
关键设计:在相互积极行为增强策略中,论文可能采用了某种形式的策略梯度方法或模仿学习方法,来让弱教师和强学生学习对方的策略。在硬性消极行为构建策略中,论文可能使用了对抗训练或负采样等技术,来生成更具挑战性的消极行为样本。对比偏好优化可能使用了InfoNCE损失函数或类似的对比学习目标函数,来最大化积极行为和消极行为之间的区分度。具体的参数设置和网络结构等技术细节未知,需要参考论文原文。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在HH-RLHF和PKU-SafeRLHF数据集上,MACPO能够同时提高强学生和弱教师的对齐性能。此外,随着弱教师数量的增加,MACPO通过更多的迭代优化轮次实现了更好的弱到强对齐性能。具体的性能提升数据未知,需要参考论文原文。
🎯 应用场景
MACPO框架可应用于各种需要将大型语言模型与人类价值观对齐的场景,例如安全对话系统、负责任的AI助手等。该研究有助于提升AI系统的安全性、可靠性和可信度,降低AI系统产生有害或不当行为的风险。未来,该方法可以扩展到其他弱监督学习场景,例如利用众包数据进行模型训练。
📄 摘要(原文)
As large language models (LLMs) are rapidly advancing and achieving near-human capabilities on specific tasks, aligning them with human values is becoming more urgent. In scenarios where LLMs outperform humans, we face a weak-to-strong alignment problem where we need to effectively align strong student LLMs through weak supervision generated by weak teachers. Existing alignment methods mainly focus on strong-to-weak alignment and self-alignment settings, and it is impractical to adapt them to the much harder weak-to-strong alignment setting. To fill this gap, we propose a multi-agent contrastive preference optimization (MACPO) framework. MACPO facilitates weak teachers and strong students to learn from each other by iteratively reinforcing unfamiliar positive behaviors while penalizing familiar negative ones. To get this, we devise a mutual positive behavior augmentation strategy to encourage weak teachers and strong students to learn from each other's positive behavior and further provide higher quality positive behavior for the next iteration. Additionally, we propose a hard negative behavior construction strategy to induce weak teachers and strong students to generate familiar negative behavior by fine-tuning on negative behavioral data. Experimental results on the HH-RLHF and PKU-SafeRLHF datasets, evaluated using both automatic metrics and human judgments, demonstrate that MACPO simultaneously improves the alignment performance of strong students and weak teachers. Moreover, as the number of weak teachers increases, MACPO achieves better weak-to-strong alignment performance through more iteration optimization rounds.