Towards Strategic Persuasion with Language Models

作者: Zirui Cheng, Jiaxuan You

分类: cs.AI, cs.CY, cs.GT

发布日期: 2025-09-26

💡 一句话要点

提出基于贝叶斯劝说的LLM战略劝说框架，并用强化学习提升劝说能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 战略劝说 贝叶斯劝说 强化学习 人机交互

📋 核心要点

现有LLM劝说能力评估缺乏系统性，人类劝说效果因领域而异，难以泛化。
论文提出基于贝叶斯劝说框架的评估方法，并构建环境用于训练和评估LLM的战略劝说能力。
实验表明，前沿模型能实现高劝说收益，且策略与理论预测一致，小型LLM通过强化学习可显著提升劝说能力。

📝 摘要（中文）

大型语言模型（LLMs）已经展现出与人类相当的强大劝说能力，这既带来了潜在的益处，也引发了对其部署的社会担忧。然而，系统性地评估LLMs的劝说能力本质上具有挑战性，因为人类之间的劝说效果在不同领域差异显著。本文采用了一种理论驱动的方法，提供了一个可扩展且有原则的框架来衡量LLMs的劝说能力。基于贝叶斯劝说（BP）框架，我们重新利用现有人与人之间的劝说数据集，构建了用于评估和训练LLMs进行战略劝说的环境。结果表明，前沿模型能够持续获得较高的劝说收益，并表现出与理论预测相符的复杂劝说策略。在此基础上，我们使用强化学习在我们的环境中训练LLMs进行战略劝说。结果还表明，即使是小型LLMs也可以通过强化学习获得显著更高的劝说收益。

🔬 方法详解

问题定义：论文旨在解决如何系统性地评估和提升大型语言模型（LLMs）的劝说能力的问题。现有方法缺乏理论基础，且难以在不同领域泛化。此外，如何训练LLMs以实现更有效的战略劝说也是一个挑战。

核心思路：论文的核心思路是利用贝叶斯劝说（Bayesian Persuasion, BP）框架，将劝说过程建模为一个信息披露问题。劝说者（LLM）通过策略性地披露信息，影响接收者（人类或模拟）的信念，从而使其采取期望的行动。这种方法提供了一个理论基础，使得劝说能力的评估和训练更加系统和可控。

技术框架：整体框架包括以下几个主要模块：1) 环境构建：基于现有人与人之间的劝说数据集，构建模拟劝说环境。2) LLM评估：使用构建的环境评估现有LLM的劝说能力，并分析其劝说策略。3) 强化学习训练：使用强化学习算法，在环境中训练LLM，使其学习更有效的劝说策略。4) 性能评估：评估训练后的LLM在劝说任务上的性能，并与基线模型进行比较。

关键创新：论文的关键创新在于将贝叶斯劝说框架应用于LLM的劝说能力评估和训练。这提供了一个理论基础，使得劝说策略的设计和分析更加系统和可解释。此外，使用强化学习训练LLM进行战略劝说，能够显著提升其劝说能力。

关键设计：论文的关键设计包括：1) 奖励函数设计：在强化学习中，奖励函数的设计至关重要。论文需要设计一个合适的奖励函数，以鼓励LLM学习有效的劝说策略。例如，奖励可以基于接收者采取期望行动的概率。2) 状态表示：需要将环境状态（例如，接收者的信念）表示为LLM可以理解的形式。3) 动作空间：定义LLM可以采取的动作，例如，披露哪些信息。4) 模型结构：选择合适的LLM模型结构，并进行微调，以适应劝说任务。

📊 实验亮点

实验结果表明，前沿LLM在基于贝叶斯劝说的环境中能够获得较高的劝说收益，并且其劝说策略与理论预测相符。通过强化学习训练，即使是小型LLM也能显著提升劝说能力，在特定任务上甚至超过了未经训练的大型LLM。这些结果验证了该框架的有效性，并为LLM的战略劝说研究提供了新的方向。

🎯 应用场景

该研究成果可应用于多个领域，如在线营销、公共政策宣传、谈判协商等。通过训练具有战略劝说能力的LLM，可以更有效地影响用户行为，提高沟通效率。未来，该技术有望应用于智能客服、个性化推荐等场景，实现更智能、更人性化的交互。

📄 摘要（原文）

Large language models (LLMs) have demonstrated strong persuasive capabilities comparable to those of humans, offering promising benefits while raising societal concerns about their deployment. However, systematically evaluating the persuasive capabilities of LLMs is inherently challenging, as the effectiveness of persuasion among humans varies significantly across different domains. In this paper, we take a theory-driven approach to provide a scalable and principled framework for measuring the persuasive capabilities of LLMs. Grounded in the Bayesian Persuasion (BP) framework, we repurpose existing human-human persuasion datasets to construct environments for evaluating and training LLMs in strategic persuasion. Our results reveal that frontier models can consistently achieve high persuasion gains and exhibit sophisticated persuasion strategies that align with theoretical predictions. Building on this, we use reinforcement learning to train LLMs for strategic persuasion in our environments. Our results also demonstrate that even small LLMs can obtain significantly higher persuasion gains through reinforcement learning.

Towards Strategic Persuasion with Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册