Chain of Strategy Optimization Makes Large Language Models Better Emotional Supporter

📄 arXiv: 2503.05362v3 📥 PDF

作者: Weixiang Zhao, Xingyu Sui, Xinyang Han, Yang Deng, Yulin Hu, Jiahe Guo, Libo Qin, Qianyun Du, Shijin Wang, Yanyan Zhao, Bing Qin, Ting Liu

分类: cs.CL

发布日期: 2025-03-07 (更新: 2025-09-19)

备注: 21 pages, 9 figures, 17 tables


💡 一句话要点

提出策略链优化方法,提升大语言模型的情感支持能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感支持对话 大型语言模型 策略链优化 偏好建模 蒙特卡洛树搜索

📋 核心要点

  1. 现有情感支持对话(ESC)的大语言模型策略选择准确率低,且存在偏好偏差,难以适应用户的情感需求。
  2. 论文提出策略链优化(CSO)方法,通过在对话回合级别优化策略选择偏好,提升模型的情感支持能力。
  3. 实验结果表明,CSO在 LLaMA-3.1-8B、Gemma-2-9B 和 Qwen2.5-7B 等模型上优于标准监督微调,验证了其有效性。

📝 摘要(中文)

现代社会日益增长的情感压力增加了对情感支持对话(ESC)的需求。大型语言模型(LLM)在ESC方面展现出潜力,但面临两个主要挑战:(1)策略选择准确率低,以及(2)偏好偏差,限制了它们对用户情感需求的适应性。现有的监督微调(SFT)难以解决这些问题,因为它在单个黄金标准响应上严格训练模型,而没有对细微的策略权衡进行建模。为了克服这些限制,我们提出了一种新颖的策略链优化(CSO)方法,该方法在每个对话回合优化策略选择偏好。我们首先利用蒙特卡洛树搜索构建ESC-Pro,这是一个高质量的偏好数据集,包含回合级别的策略-响应对。在ESC-Pro上使用CSO进行训练,可以提高策略准确性和偏差缓解,从而使LLM能够生成更具同理心和上下文适当的响应。在LLaMA-3.1-8B、Gemma-2-9B和Qwen2.5-7B上的实验表明,CSO优于标准SFT,突出了细粒度、回合级别偏好建模在ESC中的有效性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在情感支持对话(ESC)中策略选择不准确和偏好偏差的问题。现有的监督微调(SFT)方法通常基于单一的“黄金标准”回复进行训练,无法捕捉到情感支持策略选择中的细微差别和权衡,导致模型生成的情感支持回复不够 empathetic 和 contextually appropriate。

核心思路:论文的核心思路是在对话的每个回合,优化模型对不同情感支持策略的选择偏好。通过更细粒度的偏好建模,使模型能够更好地理解用户的情感状态,并选择最合适的策略进行回应。这种方法旨在克服传统SFT方法的局限性,提高模型在情感支持对话中的表现。

技术框架:整体框架包含两个主要阶段:(1) 数据集构建阶段:利用蒙特卡洛树搜索(MCTS)生成高质量的偏好数据集 ESC-Pro,该数据集包含回合级别的策略-响应对,并标注了不同策略的偏好程度。(2) 模型训练阶段:使用 ESC-Pro 数据集,通过策略链优化(CSO)方法对大型语言模型进行微调。CSO 的目标是使模型学习到在不同对话上下文中选择最佳策略的偏好。

关键创新:论文的关键创新在于提出了策略链优化(CSO)方法,这是一种细粒度的、回合级别的偏好建模方法。与传统的SFT方法不同,CSO 不仅关注生成正确的回复,更关注选择合适的策略。通过优化策略选择偏好,CSO 能够使模型生成更 empathetic 和 contextually appropriate 的情感支持回复。

关键设计:ESC-Pro数据集的构建是关键设计之一,MCTS用于探索不同的策略-响应组合,并根据一定的奖励函数评估其质量。CSO 的具体实现细节未知,但可以推测其损失函数可能包含策略选择的偏好项,以引导模型学习选择更合适的策略。具体的参数设置和网络结构信息未知,但论文中使用了 LLaMA-3.1-8B、Gemma-2-9B 和 Qwen2.5-7B 等模型进行实验。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在 LLaMA-3.1-8B、Gemma-2-9B 和 Qwen2.5-7B 等模型上,使用 CSO 方法进行微调后,模型的情感支持能力显著提升,优于标准的监督微调(SFT)方法。具体的性能数据和提升幅度未知,但论文强调了 CSO 在提高策略准确性和缓解偏好偏差方面的有效性。

🎯 应用场景

该研究成果可应用于各种需要情感支持的场景,例如心理健康咨询、在线客服、社交机器人等。通过提升大语言模型的情感支持能力,可以为用户提供更有效、更个性化的情感支持服务,缓解社会压力,改善心理健康状况。未来,该技术有望进一步发展,实现更智能、更人性化的情感交互。

📄 摘要(原文)

The growing emotional stress in modern society has increased the demand for Emotional Support Conversations (ESC). While Large Language Models (LLMs) show promise for ESC, they face two key challenges: (1) low strategy selection accuracy, and (2) preference bias, limiting their adaptability to emotional needs of users. Existing supervised fine-tuning (SFT) struggles to address these issues, as it rigidly trains models on single gold-standard responses without modeling nuanced strategy trade-offs. To overcome these limitations, we propose Chain-of-Strategy Optimization (CSO), a novel approach that optimizes strategy selection preferences at each dialogue turn. We first leverage Monte Carlo Tree Search to construct ESC-Pro, a high-quality preference dataset with turn-level strategy-response pairs. Training on ESC-Pro with CSO improves both strategy accuracy and bias mitigation, enabling LLMs to generate more empathetic and contextually appropriate responses. Experiments on LLaMA-3.1-8B, Gemma-2-9B, and Qwen2.5-7B demonstrate that CSO outperforms standard SFT, highlighting the efficacy of fine-grained, turn-level preference modeling in ESC.