Chain of Strategy Optimization Makes Large Language Models Better Emotional Supporter

作者: Weixiang Zhao, Xingyu Sui, Xinyang Han, Yang Deng, Yulin Hu, Jiahe Guo, Libo Qin, Qianyun Du, Shijin Wang, Yanyan Zhao, Bing Qin, Ting Liu

分类: cs.CL

发布日期: 2025-03-07 (更新: 2025-09-19)

备注: 21 pages, 9 figures, 17 tables

💡 一句话要点

提出策略链优化方法，提升大语言模型的情感支持能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 情感支持对话 大型语言模型 策略链优化 偏好建模 蒙特卡洛树搜索

📋 核心要点

现有情感支持对话（ESC）的大语言模型策略选择准确率低，且存在偏好偏差，难以适应用户的情感需求。
论文提出策略链优化（CSO）方法，通过在对话回合级别优化策略选择偏好，提升模型的情感支持能力。
实验结果表明，CSO在 LLaMA-3.1-8B、Gemma-2-9B 和 Qwen2.5-7B 等模型上优于标准监督微调，验证了其有效性。

📝 摘要（中文）

现代社会日益增长的情感压力增加了对情感支持对话（ESC）的需求。大型语言模型（LLM）在ESC方面展现出潜力，但面临两个主要挑战：（1）策略选择准确率低，以及（2）偏好偏差，限制了它们对用户情感需求的适应性。现有的监督微调（SFT）难以解决这些问题，因为它在单个黄金标准响应上严格训练模型，而没有对细微的策略权衡进行建模。为了克服这些限制，我们提出了一种新颖的策略链优化（CSO）方法，该方法在每个对话回合优化策略选择偏好。我们首先利用蒙特卡洛树搜索构建ESC-Pro，这是一个高质量的偏好数据集，包含回合级别的策略-响应对。在ESC-Pro上使用CSO进行训练，可以提高策略准确性和偏差缓解，从而使LLM能够生成更具同理心和上下文适当的响应。在LLaMA-3.1-8B、Gemma-2-9B和Qwen2.5-7B上的实验表明，CSO优于标准SFT，突出了细粒度、回合级别偏好建模在ESC中的有效性。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在情感支持对话（ESC）中策略选择不准确和偏好偏差的问题。现有的监督微调（SFT）方法通常基于单一的“黄金标准”回复进行训练，无法捕捉到情感支持策略选择中的细微差别和权衡，导致模型生成的情感支持回复不够 empathetic 和 contextually appropriate。

核心思路：论文的核心思路是在对话的每个回合，优化模型对不同情感支持策略的选择偏好。通过更细粒度的偏好建模，使模型能够更好地理解用户的情感状态，并选择最合适的策略进行回应。这种方法旨在克服传统SFT方法的局限性，提高模型在情感支持对话中的表现。

技术框架：整体框架包含两个主要阶段：(1) 数据集构建阶段：利用蒙特卡洛树搜索（MCTS）生成高质量的偏好数据集 ESC-Pro，该数据集包含回合级别的策略-响应对，并标注了不同策略的偏好程度。(2) 模型训练阶段：使用 ESC-Pro 数据集，通过策略链优化（CSO）方法对大型语言模型进行微调。CSO 的目标是使模型学习到在不同对话上下文中选择最佳策略的偏好。

关键创新：论文的关键创新在于提出了策略链优化（CSO）方法，这是一种细粒度的、回合级别的偏好建模方法。与传统的SFT方法不同，CSO 不仅关注生成正确的回复，更关注选择合适的策略。通过优化策略选择偏好，CSO 能够使模型生成更 empathetic 和 contextually appropriate 的情感支持回复。

关键设计：ESC-Pro数据集的构建是关键设计之一，MCTS用于探索不同的策略-响应组合，并根据一定的奖励函数评估其质量。CSO 的具体实现细节未知，但可以推测其损失函数可能包含策略选择的偏好项，以引导模型学习选择更合适的策略。具体的参数设置和网络结构信息未知，但论文中使用了 LLaMA-3.1-8B、Gemma-2-9B 和 Qwen2.5-7B 等模型进行实验。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在 LLaMA-3.1-8B、Gemma-2-9B 和 Qwen2.5-7B 等模型上，使用 CSO 方法进行微调后，模型的情感支持能力显著提升，优于标准的监督微调（SFT）方法。具体的性能数据和提升幅度未知，但论文强调了 CSO 在提高策略准确性和缓解偏好偏差方面的有效性。

🎯 应用场景

该研究成果可应用于各种需要情感支持的场景，例如心理健康咨询、在线客服、社交机器人等。通过提升大语言模型的情感支持能力，可以为用户提供更有效、更个性化的情感支持服务，缓解社会压力，改善心理健康状况。未来，该技术有望进一步发展，实现更智能、更人性化的情感交互。

📄 摘要（原文）

The growing emotional stress in modern society has increased the demand for Emotional Support Conversations (ESC). While Large Language Models (LLMs) show promise for ESC, they face two key challenges: (1) low strategy selection accuracy, and (2) preference bias, limiting their adaptability to emotional needs of users. Existing supervised fine-tuning (SFT) struggles to address these issues, as it rigidly trains models on single gold-standard responses without modeling nuanced strategy trade-offs. To overcome these limitations, we propose Chain-of-Strategy Optimization (CSO), a novel approach that optimizes strategy selection preferences at each dialogue turn. We first leverage Monte Carlo Tree Search to construct ESC-Pro, a high-quality preference dataset with turn-level strategy-response pairs. Training on ESC-Pro with CSO improves both strategy accuracy and bias mitigation, enabling LLMs to generate more empathetic and contextually appropriate responses. Experiments on LLaMA-3.1-8B, Gemma-2-9B, and Qwen2.5-7B demonstrate that CSO outperforms standard SFT, highlighting the efficacy of fine-grained, turn-level preference modeling in ESC.

Chain of Strategy Optimization Makes Large Language Models Better Emotional Supporter

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理