Visualising Policy-Reward Interplay to Inform Zeroth-Order Preference Optimisation of Large Language Models

作者: Alessio Galatolo, Zhenbang Dai, Katie Winkle, Meriem Beloucif

分类: cs.CL

发布日期: 2025-03-05 (更新: 2025-07-23)

备注: ACL25 Findings

🔗 代码/项目: GITHUB

💡 一句话要点

提出ZOPrO：一种用于大型语言模型偏好优化的零阶优化算法。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 零阶优化 偏好优化 大型语言模型 同步扰动随机逼近 策略优化

📋 核心要点

一阶方法微调LLM计算成本高，零阶优化虽省内存但收敛慢，限制了其在复杂生成任务中的应用。
ZOPrO算法通过分析策略与奖励模型的交互模式，指导SPSA采样策略，加速零阶优化收敛。
实验表明，ZOPrO在摘要、翻译和对话任务中能有效提升奖励信号，收敛速度与一阶方法相当。

📝 摘要（中文）

使用反向传播等一阶方法微调大型语言模型（LLMs）计算量巨大。零阶（ZO）优化使用函数评估代替梯度，减少了内存使用，但在高维模型中收敛速度较慢。因此，LLMs中的ZO研究主要集中在分类上，忽略了更复杂的生成任务。在本文中，我们介绍了一种新的ZO算法ZOPrO，专为LLMs中的偏好优化而设计。我们首先分析了传统（一阶）偏好优化期间策略模型和奖励模型之间的相互作用，揭示了它们相对更新的模式。在这些见解的指导下，我们采用具有目标采样策略的同步扰动随机逼近（SPSA）来加速收敛。通过在摘要、机器翻译和对话助手上的实验，我们证明了我们的方法始终增强奖励信号，同时实现了与一阶方法相当的收敛时间。虽然它不如某些最先进的方法，但我们的工作是第一个将零阶方法应用于LLMs中的偏好优化，超越了分类任务，并为很大程度上未被探索的研究方向铺平了道路。代码和可视化可在https://github.com/alessioGalatolo/VisZOPrO获得。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）偏好优化中，使用一阶方法计算成本高昂，而直接应用零阶优化方法收敛速度慢的问题。现有零阶优化方法主要集中在分类任务，无法有效应用于更复杂的生成任务，限制了其在LLM领域的应用。

核心思路：论文的核心思路是，通过分析一阶偏好优化过程中策略模型和奖励模型之间的相互作用，提取有用的信息，并利用这些信息来指导零阶优化算法的采样过程，从而加速收敛。具体来说，观察策略和奖励模型更新之间的关系，并设计一种目标采样策略，使零阶优化能够更有效地探索参数空间。

技术框架：ZOPrO算法基于同步扰动随机逼近（SPSA）。整体流程如下： 1. 分析阶段：分析一阶偏好优化中策略模型和奖励模型的更新模式。 2. 采样阶段：基于分析阶段得到的洞察，设计目标采样策略，对参数空间进行扰动采样。 3. 评估阶段：使用采样得到的参数更新LLM，并评估其性能（奖励信号）。 4. 更新阶段：根据评估结果，更新模型参数。

关键创新：论文的关键创新在于将一阶偏好优化中的策略-奖励模型交互信息融入到零阶优化算法中。通过分析一阶方法的行为，指导零阶方法的采样策略，从而克服了零阶优化收敛速度慢的缺点。这是首次将零阶方法应用于LLM的偏好优化，并成功应用于生成任务。

关键设计：ZOPrO算法的关键设计包括： 1. 目标采样策略：根据策略模型和奖励模型的更新模式，设计一种有针对性的采样策略，例如，优先采样那些能够同时提升策略和奖励模型的参数方向。 2. SPSA的扰动幅度：需要仔细调整SPSA的扰动幅度，以平衡探索和利用之间的关系。过大的扰动幅度可能导致优化不稳定，而过小的扰动幅度可能导致收敛速度过慢。 3. 奖励函数的选择：奖励函数的选择对偏好优化的效果至关重要。需要选择能够准确反映人类偏好的奖励函数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ZOPrO算法在摘要、机器翻译和对话助手任务上，能够有效提升奖励信号，并且收敛速度与一阶方法相当。虽然性能略低于某些SOTA方法，但ZOPrO是首个将零阶方法成功应用于LLM偏好优化的工作，为后续研究开辟了新的方向。

🎯 应用场景

该研究成果可应用于各种需要人工反馈或偏好对齐的大型语言模型应用场景，例如：对话系统、文本摘要、机器翻译、内容生成等。通过降低计算成本，使得在资源受限的环境下也能进行LLM的偏好优化，加速LLM的定制化和个性化。

📄 摘要（原文）

Fine-tuning Large Language Models (LLMs) with first-order methods like back-propagation is computationally intensive. Zeroth-Order (ZO) optimisation uses function evaluations instead of gradients, reducing memory usage, but suffers from slow convergence in high-dimensional models. As a result, ZO research in LLMs has mostly focused on classification, overlooking more complex generative tasks. In this paper, we introduce ZOPrO, a novel ZO algorithm designed for Preference Optimisation in LLMs. We begin by analysing the interplay between policy and reward models during traditional (first-order) Preference Optimisation, uncovering patterns in their relative updates. Guided by these insights, we adapt Simultaneous Perturbation Stochastic Approximation (SPSA) with a targeted sampling strategy to accelerate convergence. Through experiments on summarisation, machine translation, and conversational assistants, we demonstrate that our method consistently enhances reward signals while achieving convergence times comparable to first-order methods. While it falls short of some state-of-the-art methods, our work is the first to apply Zeroth-Order methods to Preference Optimisation in LLMs, going beyond classification tasks and paving the way for a largely unexplored research direction. Code and visualisations are available at https://github.com/alessioGalatolo/VisZOPrO

Visualising Policy-Reward Interplay to Inform Zeroth-Order Preference Optimisation of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理