Reverse Engineering Human Preferences with Reinforcement Learning

📄 arXiv: 2505.15795v2 📥 PDF

作者: Lisa Alazraki, Tan Yi-Chern, Jon Ander Campos, Maximilian Mozes, Marek Rei, Max Bartolo

分类: cs.CL

发布日期: 2025-05-21 (更新: 2025-10-24)

备注: NeurIPS 2025 (Spotlight)


💡 一句话要点

利用强化学习逆向工程人类偏好,提升LLM评估得分且难以检测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 逆向工程 人类偏好 对抗攻击

📋 核心要点

  1. 现有LLM评估框架易受攻击,模型响应可被调整以过度拟合评判者的偏好,导致评估结果失真。
  2. 提出一种利用强化学习优化文本前导的方法,通过评判LLM的反馈信号作为奖励,提升下游LLM的性能。
  3. 实验表明,该方法能有效提高LLM评估得分,且生成的文本前导难以被检测,并具有跨模型的泛化能力。

📝 摘要(中文)

大型语言模型(LLM)的能力通常由其他经过训练以预测人类偏好的LLM进行评估。这种被称为“LLM-as-a-judge”的框架具有高度可扩展性和相对较低的成本。然而,它也容易受到恶意利用,因为LLM的响应可以被调整以过度拟合评判者的偏好。先前的工作表明,候选LLM生成的答案可以事后编辑,以最大化评判LLM分配给它们的分数。在本研究中,我们采用了一种不同的方法,使用评判LLM提供的信号作为奖励,以对抗性地调整生成文本前导的模型,旨在提高下游性能。我们发现,与这些模型流水线连接的冻结LLM获得了比现有框架更高的LLM评估分数。至关重要的是,与其他直接干预模型响应的框架不同,我们的方法几乎无法检测。我们还证明了,当候选LLM和评判LLM被替换为训练期间未使用的模型时,调整后的前导生成器的有效性仍然存在。这些发现提出了关于设计更可靠的LLM-as-a-judge评估环境的重要问题。它们还表明,人类偏好可以通过流水线连接LLM以通过强化学习优化上游前导来有效地进行逆向工程——这种方法可以在对抗性攻击之外的各种任务和领域中找到未来的应用。

🔬 方法详解

问题定义:论文旨在解决LLM评估框架中存在的偏好过度拟合问题。现有的“LLM-as-a-judge”方法虽然高效,但容易受到攻击,攻击者可以通过调整LLM的输出来欺骗评判模型,从而获得虚高的评估分数。这种攻击会损害评估的可靠性和公正性。

核心思路:论文的核心思路是利用强化学习来逆向工程人类偏好。具体来说,不是直接修改LLM的输出,而是训练一个文本前导生成器,生成一段添加到输入中的文本,使得下游LLM的输出更符合评判LLM的偏好。这种方法的优势在于,它不直接干预LLM的输出,因此更难以被检测。

技术框架:整体框架包含三个主要部分:文本前导生成器、候选LLM和评判LLM。文本前导生成器负责生成文本前导,候选LLM将文本前导添加到输入中并生成响应,评判LLM评估候选LLM的响应并给出奖励信号。强化学习算法使用评判LLM的奖励信号来训练文本前导生成器,使其能够生成更符合评判LLM偏好的文本前导。

关键创新:最重要的技术创新点在于使用强化学习来优化文本前导,而不是直接修改LLM的输出。这种方法具有更高的隐蔽性和泛化能力。与现有方法相比,该方法不依赖于对候选LLM的直接干预,因此更难被检测,并且可以应用于不同的LLM和评估任务。

关键设计:文本前导生成器可以使用各种模型,例如Transformer模型。强化学习算法可以使用策略梯度方法,例如REINFORCE或PPO。奖励函数可以基于评判LLM给出的分数,也可以结合其他指标,例如文本的流畅性和相关性。关键参数包括强化学习的超参数(例如学习率、折扣因子)以及文本前导的长度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过强化学习优化的文本前导能够显著提高LLM的评估得分,并且这种提升具有跨模型的泛化能力。即使将候选LLM和评判LLM替换为训练期间未使用的模型,该方法仍然有效。更重要的是,该方法生成的文本前导难以被检测,这使得攻击更加隐蔽。

🎯 应用场景

该研究成果可应用于提升LLM评估的鲁棒性和公正性,减少恶意攻击的影响。此外,该方法还可用于优化LLM在各种任务中的表现,例如文本生成、对话系统和信息检索。通过逆向工程人类偏好,可以使LLM更好地满足用户的需求,提高用户体验。

📄 摘要(原文)

The capabilities of Large Language Models (LLMs) are routinely evaluated by other LLMs trained to predict human preferences. This framework--known as LLM-as-a-judge--is highly scalable and relatively low cost. However, it is also vulnerable to malicious exploitation, as LLM responses can be tuned to overfit the preferences of the judge. Previous work shows that the answers generated by a candidate-LLM can be edited post hoc to maximise the score assigned to them by a judge-LLM. In this study, we adopt a different approach and use the signal provided by judge-LLMs as a reward to adversarially tune models that generate text preambles designed to boost downstream performance. We find that frozen LLMs pipelined with these models attain higher LLM-evaluation scores than existing frameworks. Crucially, unlike other frameworks which intervene directly on the model's response, our method is virtually undetectable. We also demonstrate that the effectiveness of the tuned preamble generator transfers when the candidate-LLM and the judge-LLM are replaced with models that are not used during training. These findings raise important questions about the design of more reliable LLM-as-a-judge evaluation settings. They also demonstrate that human preferences can be reverse engineered effectively, by pipelining LLMs to optimise upstream preambles via reinforcement learning--an approach that could find future applications in diverse tasks and domains beyond adversarial attacks.