Teaching Models to Balance Resisting and Accepting Persuasion

📄 arXiv: 2410.14596v2 📥 PDF

作者: Elias Stengel-Eskin, Peter Hase, Mohit Bansal

分类: cs.CL, cs.AI

发布日期: 2024-10-18 (更新: 2025-02-10)

备注: NAACL Camera-Ready. Code: https://github.com/esteng/persuasion_balanced_training


💡 一句话要点

提出Persuasion-Training (PBT)方法,提升LLM在对抗性说服中的抵抗力与接受有益说服的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 说服攻击 对抗防御 多智能体对话 偏好优化

📋 核心要点

  1. 大型语言模型易受说服攻击,现有防御方法未能兼顾抵抗恶意说服和接受有益说服。
  2. 提出Persuasion-Training (PBT)方法,通过多智能体对话生成数据,并使用偏好优化训练模型。
  3. 实验表明,PBT提升了模型抵抗恶意信息的能力,增强了模型在辩论中的协作性能和稳定性。

📝 摘要(中文)

大型语言模型(LLMs)容易受到说服的影响,当模型面对对抗性对话者时,这会带来风险。本文旨在防御模型免受说服,并提出防御对抗性(即负面)说服只是问题的一半:模型还应该能够接受有益的(即正面的)说服,以改进其答案。研究表明,仅针对一方进行优化会导致另一方的表现不佳。为了平衡正面和负面说服,本文引入了Persuasion-Training(PBT),它利用多智能体递归对话树来创建数据,并通过偏好优化训练模型以在适当的时候接受说服。PBT允许使用从较小的7-8B模型之间的对话生成的数据来训练更大的70B模型。此外,PBT始终如一地提高了对错误信息的抵抗力和对挑战的弹性,同时在包含正面和负面说服的整体数据上实现了最佳的整体性能。关键的是,本文表明PBT模型在跨两个领域(琐事和常识问答)的多智能体辩论中是更好的队友。研究发现,如果没有PBT,更强和更弱的模型对的性能不稳定,模型呈现答案的顺序决定了团队获得更强或更弱模型的性能。PBT带来了更好、更稳定的结果和更少的顺序依赖性,更强的模型始终将较弱的模型拉高。

🔬 方法详解

问题定义:大型语言模型容易受到说服的影响,尤其是在面对对抗性对话者时。现有的防御方法通常只关注抵抗负面说服,而忽略了模型接受有益说服以改进答案的能力。这种单方面的优化会导致模型在另一方面的表现不佳,从而影响其整体性能和可靠性。

核心思路:论文的核心思路是平衡模型抵抗负面说服和接受正面说服的能力。通过训练模型在适当的时候接受有益的建议,同时抵御恶意的信息,从而提高模型的整体性能和鲁棒性。这种平衡是通过Persuasion-Training (PBT)方法实现的,该方法利用多智能体对话生成数据,并使用偏好优化训练模型。

技术框架:PBT方法的核心是多智能体递归对话树。首先,使用较小的语言模型(例如7-8B参数的模型)进行对话,生成包含正面和负面说服的数据。然后,使用这些数据来训练更大的语言模型(例如70B参数的模型)。训练过程使用偏好优化,鼓励模型接受有益的说服,同时抵御恶意的信息。整个框架包含数据生成、模型训练和评估三个主要阶段。

关键创新:PBT方法的关键创新在于它能够平衡模型抵抗负面说服和接受正面说服的能力。与现有的只关注一方的方法不同,PBT通过多智能体对话生成包含正面和负面说服的数据,并使用偏好优化训练模型,从而实现了更全面的防御。此外,PBT还能够利用较小的模型生成的数据来训练更大的模型,从而降低了训练成本。

关键设计:PBT的关键设计包括多智能体对话树的构建方式、偏好优化损失函数的设计以及模型的选择和训练策略。多智能体对话树的构建需要仔细设计对话策略,以确保生成的数据包含足够多的正面和负面说服。偏好优化损失函数需要能够区分有益的说服和恶意的说服,并鼓励模型做出正确的选择。模型的选择和训练策略需要考虑到模型的规模和计算资源,以确保训练过程的可行性和效率。具体的参数设置和网络结构未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PBT方法能够显著提高模型抵抗恶意信息的能力,并在包含正面和负面说服的整体数据上实现了最佳的整体性能。此外,PBT模型在多智能体辩论中表现出更好的协作性能和稳定性,能够使较弱的模型受益于较强模型的知识,从而提升团队整体表现。具体的性能数据未知。

🎯 应用场景

该研究成果可应用于各种需要语言模型进行决策和推理的场景,例如智能客服、信息检索、自动驾驶等。通过提高模型抵抗恶意信息和接受有益建议的能力,可以增强系统的安全性和可靠性,并提升用户体验。未来,该方法有望推广到更广泛的自然语言处理任务中。

📄 摘要(原文)

Large language models (LLMs) are susceptible to persuasion, which can pose risks when models are faced with an adversarial interlocutor. We take a first step towards defending models against persuasion while also arguing that defense against adversarial (i.e. negative) persuasion is only half of the equation: models should also be able to accept beneficial (i.e. positive) persuasion to improve their answers. We show that optimizing models for only one side results in poor performance on the other. In order to balance positive and negative persuasion, we introduce Persuasion-Training (or PBT), which leverages multi-agent recursive dialogue trees to create data and trains models via preference optimization to accept persuasion when appropriate. PBT allows us to use data generated from dialogues between smaller 7-8B models for training much larger 70B models. Moreover, PBT consistently improves resistance to misinformation and resilience to being challenged while also resulting in the best overall performance on holistic data containing both positive and negative persuasion. Crucially, we show that PBT models are better teammates in multi-agent debates across two domains (trivia and commonsense QA). We find that without PBT, pairs of stronger and weaker models have unstable performance, with the order in which the models present their answers determining whether the team obtains the stronger or weaker model's performance. PBT leads to better and more stable results and less order dependence, with the stronger model consistently pulling the weaker one up.