On the Adaptive Psychological Persuasion of Large Language Models
作者: Tianjie Ju, Yujia Chen, Hao Fei, Mong-Li Lee, Wynne Hsu, Pengzhou Cheng, Zongru Wu, Zhuosheng Zhang, Gongshen Liu
分类: cs.CL
发布日期: 2025-06-07
备注: Working in progress
🔗 代码/项目: GITHUB
💡 一句话要点
提出自适应心理说服框架,提升大语言模型在对抗对话中的说服成功率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 心理说服 对抗对话 直接偏好优化 自适应策略
📋 核心要点
- 现有工作缺乏对LLMs在心理修辞情境下自主说服和抵制说服能力的系统性探索。
- 论文提出一种自适应框架,基于直接偏好优化,训练LLMs自主选择最优心理说服策略。
- 实验结果表明,该方法能有效提升LLMs的说服成功率,同时保持其通用能力。
📝 摘要(中文)
本文旨在探索大语言模型(LLMs)在心理说服方面的能力,包括自主说服和抵制说服。首先,评估了四种常用LLMs在对抗对话中作为说服者和倾听者的表现,发现说服者LLMs主要采用重复策略,导致成功率较低。然后,引入了十一种心理说服策略,发现显式地指导LLMs采用特定策略(如流畅效应和重复效应)可以显著提高说服成功率。然而,没有一种“万能”策略,其性能严重依赖于上下文反事实。受此启发,提出了一种基于直接偏好优化的自适应框架,该框架通过利用策略特定响应的说服结果作为偏好对,训练LLMs自主选择最佳策略。在三个开源LLMs上的实验表明,所提出的自适应心理说服方法有效地使说服者LLMs能够选择最佳策略,显著提高其成功率,同时保持通用能力。代码已开源。
🔬 方法详解
问题定义:论文旨在解决大语言模型在对抗性对话中,作为说服者时,如何有效利用心理学策略来提高说服成功率的问题。现有方法,如简单地重复论点,效果不佳,缺乏对不同情境下最优策略的自适应选择能力。
核心思路:核心思路是让LLM能够根据对话的上下文和目标对象的特点,自适应地选择最有效的心理说服策略。通过学习不同策略在不同情境下的表现,LLM可以动态地调整其说服方式,从而提高成功率。
技术框架:该框架基于直接偏好优化(Direct Preference Optimization, DPO)。首先,人工定义了一组心理说服策略(如流畅效应、重复效应等)。然后,对于每个对话情境,LLM生成多个使用不同策略的回复。这些回复根据其说服成功与否进行排序,形成偏好对。DPO利用这些偏好对来训练LLM,使其能够预测并选择最有可能成功的策略。
关键创新:关键创新在于将心理学策略与直接偏好优化相结合,使LLM能够自适应地学习和应用说服策略。与以往依赖人工设计的固定策略或简单重复的方法不同,该方法能够根据上下文动态调整策略,从而更有效地进行说服。
关键设计:框架的关键设计包括:1) 精心挑选的心理说服策略集合;2) 基于说服结果的偏好对构建方法;3) 使用DPO进行策略选择模型的训练。具体来说,DPO损失函数用于优化LLM的策略选择能力,使其能够根据输入选择能够最大化说服成功概率的策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的自适应心理说服方法能够显著提高LLMs的说服成功率。例如,在特定数据集上,该方法相比于基线方法(如简单重复策略)的成功率提升了10%以上。此外,实验还验证了该方法在不同开源LLMs上的有效性,表明其具有良好的泛化能力。
🎯 应用场景
该研究成果可应用于多个领域,如人机对话系统、谈判协商、在线营销和公共关系等。通过提升LLMs的说服能力,可以构建更智能、更有效的对话代理,从而改善用户体验,提高沟通效率,并促进商业和社会目标的实现。未来,该技术还可用于教育领域,帮助学生学习辩论和说服技巧。
📄 摘要(原文)
Previous work has showcased the intriguing capabilities of Large Language Models (LLMs) in instruction-following and rhetorical fluency. However, systematic exploration of their dual capabilities to autonomously persuade and resist persuasion, particularly in contexts involving psychological rhetoric, remains unexplored. In this paper, we first evaluate four commonly adopted LLMs by tasking them to alternately act as persuaders and listeners in adversarial dialogues. Empirical results show that persuader LLMs predominantly employ repetitive strategies, leading to low success rates. Then we introduce eleven comprehensive psychological persuasion strategies, finding that explicitly instructing LLMs to adopt specific strategies such as Fluency Effect and Repetition Effect significantly improves persuasion success rates. However, no ``one-size-fits-all'' strategy proves universally effective, with performance heavily dependent on contextual counterfactuals. Motivated by these observations, we propose an adaptive framework based on direct preference optimization that trains LLMs to autonomously select optimal strategies by leveraging persuasion results from strategy-specific responses as preference pairs. Experiments on three open-source LLMs confirm that the proposed adaptive psychological persuasion method effectively enables persuader LLMs to select optimal strategies, significantly enhancing their success rates while maintaining general capabilities. Our code is available at https://github.com/KalinaEine/PsychologicalPersuasion.