SELF-EMO: Emotional Self-Evolution from Recognition to Consistent Expression

作者: Shaowei Zhang, Faqiang Qian, Yan Chen, Ziliang Wang, Kang An, Yong Dai, Mengya Gao, Yichao Wu

分类: cs.AI

发布日期: 2026-04-20

💡 一句话要点

提出SELF-EMO框架，解决对话情感识别中数据稀缺和情感表达一致性问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 对话情感识别 自监督学习 强化学习 数据增强 情感表达 人机交互 自博弈

📋 核心要点

现有对话情感识别方法受限于高质量标注数据的稀缺性和静态性，难以保证情感表达的一致性。
SELF-EMO框架通过自博弈生成多样对话数据，并利用数据飞轮机制筛选高质量样本，实现持续自我改进。
实验结果表明，SELF-EMO在多个数据集上取得了SOTA性能，显著提升了情感识别的准确率和泛化能力。

📝 摘要（中文）

对话情感识别(ERC)已成为大型语言模型(LLM)以人为本交互的一项基本能力。除了准确识别之外，连贯的情感表达也至关重要，然而这两者都受到高质量标注数据的稀缺性和静态性的限制。本文提出了SELF-EMO，一个基于“更好的情感预测带来更一致的情感反应”这一假设的自我进化框架。我们引入了情感理解和情感表达两个辅助任务，并设计了一个基于角色的自博弈范式，模型同时扮演情感识别器和对话响应器的角色。通过迭代交互，模型生成多样化的对话轨迹，从而实现可扩展的数据生成。为了确保质量，我们采用了一种数据飞轮机制，该机制使用基于平滑IoU的奖励来过滤候选预测和响应，并将选定的样本反馈回来进行持续的自我改进，无需外部监督。我们进一步开发了SELF-GRPO，一种强化学习算法，通过多标签对齐奖励和组级别一致性信号来稳定优化。在IEMOCAP、MELD和EmoryNLP上的实验表明，SELF-EMO实现了最先进的性能，在Qwen3-4B上提高了+6.33%，在Qwen3-8B上提高了+8.54%，证明了其强大的有效性和泛化能力。

🔬 方法详解

问题定义：现有对话情感识别模型面临数据稀缺和情感表达不一致的问题。高质量标注数据难以获取，且静态数据集无法覆盖真实对话中丰富的情感变化。这导致模型在实际应用中难以准确识别和表达情感。

核心思路：SELF-EMO的核心思路是利用模型自身的能力，通过自博弈生成高质量的训练数据，并不断迭代优化。该方法基于“更好的情感预测带来更一致的情感反应”的假设，通过让模型扮演情感识别器和对话响应器，相互促进，共同提升。

技术框架：SELF-EMO框架包含以下几个主要模块：1) 角色扮演模块：模型扮演情感识别器和对话响应器，进行对话交互。2) 数据生成模块：通过自博弈生成多样化的对话轨迹。3) 数据过滤模块：采用数据飞轮机制，利用基于平滑IoU的奖励过滤候选预测和响应，选择高质量样本。4) 模型训练模块：使用SELF-GRPO算法，结合多标签对齐奖励和组级别一致性信号，稳定优化模型。

关键创新：SELF-EMO的关键创新在于其完全依赖模型自身进行数据生成和筛选，无需外部人工标注。这种自进化的方式能够有效解决数据稀缺问题，并提升模型的情感表达一致性。SELF-GRPO算法通过多标签对齐和组级别一致性约束，进一步稳定了训练过程。

关键设计：数据飞轮机制使用平滑IoU作为奖励信号，用于评估生成数据的质量。SELF-GRPO算法结合了多标签分类损失、情感相似度损失和组级别一致性损失，以实现更精确的情感识别和更一致的情感表达。具体的损失函数权重和训练迭代次数等超参数需要根据具体数据集进行调整。

🖼️ 关键图片

📊 实验亮点

SELF-EMO在IEMOCAP、MELD和EmoryNLP三个数据集上均取得了SOTA性能。在Qwen3-4B模型上，准确率提升了+6.33%，在Qwen3-8B模型上，准确率提升了+8.54%。这些结果表明，SELF-EMO框架具有强大的有效性和泛化能力，能够显著提升对话情感识别的性能。

🎯 应用场景

SELF-EMO框架可应用于智能客服、情感聊天机器人、心理健康咨询等领域。通过提升对话情感识别的准确性和情感表达的一致性，可以改善人机交互体验，增强用户的情感连接，并为用户提供更个性化和贴心的服务。该研究成果有望推动人机情感交互技术的进一步发展。

📄 摘要（原文）

Emotion Recognition in Conversation (ERC) has become a fundamental capability for large language models (LLMs) in human-centric interaction. Beyond accurate recognition, coherent emotional expression is also crucial, yet both are limited by the scarcity and static nature of high-quality annotated data. In this work, we propose SELF-EMO, a self-evolution framework grounded in the hypothesis that better emotion prediction leads to more consistent emotional responses. We introduce two auxiliary tasks, emotional understanding and emotional expression, and design a role-based self-play paradigm where the model acts as both an emotion recognizer and a dialogue responder. Through iterative interactions, the model generates diverse conversational trajectories, enabling scalable data generation. To ensure quality, we adopt a data flywheel mechanism that filters candidate predictions and responses using a smoothed IoU-based reward and feeds selected samples back for continuous self-improvement without external supervision. We further develop SELF-GRPO, a reinforcement learning algorithm that stabilizes optimization with multi-label alignment rewards and group-level consistency signals. Experiments on IEMOCAP, MELD, and EmoryNLP show that SELF-EMO achieves state-of-the-art performance, improving accuracy by +6.33% on Qwen3-4B and +8.54% on Qwen3-8B, demonstrating strong effectiveness and generalization.

SELF-EMO: Emotional Self-Evolution from Recognition to Consistent Expression

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理