Context and System Fusion in Post-ASR Emotion Recognition with Large Language Models

作者: Pavel Stepachev, Pinzhen Chen, Barry Haddow

分类: cs.CL, eess.AS

发布日期: 2024-10-04

💡 一句话要点

利用大语言模型融合上下文和多系统输出，提升ASR后情感识别准确率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 情感识别 大语言模型 ASR后处理 上下文融合 系统融合

📋 核心要点

现有语音情感识别方法在利用ASR转录文本时，未能有效融合上下文信息和多系统输出。
本文提出一种基于LLM提示工程的方法，通过转录排序、上下文选择和系统融合来提升情感识别性能。
实验表明，该方法在GenSEC任务上显著优于基线模型，准确率提升了20%。

📝 摘要（中文）

本文探讨了如何利用大语言模型(LLM)在ASR后的语音情感预测中，充分利用上下文信息和多个系统输出。研究基于GenSEC任务，探索了LLM提示工程的最佳实践，包括ASR转录排序、可变对话上下文以及系统输出融合等技术。实验结果表明，对话上下文存在收益递减效应，并且用于选择转录文本的指标至关重要。最终，最佳模型在准确率上超过了基线模型20%。

🔬 方法详解

问题定义：论文旨在解决ASR（自动语音识别）后情感识别任务中，如何更有效地利用上下文信息和多个ASR系统的输出结果，以提高情感识别的准确率。现有的方法可能只依赖于单一ASR系统的输出，并且对上下文信息的利用不足，导致情感识别性能受限。

核心思路：论文的核心思路是利用大语言模型（LLM）强大的语言理解和推理能力，通过精心设计的提示（Prompt）工程，将上下文信息和多个ASR系统的输出结果融合起来，从而提高情感识别的准确率。这种方法能够更好地捕捉语音中的情感信息，并减少ASR错误对情感识别的影响。

技术框架：整体框架包括以下几个主要步骤：1) 使用多个ASR系统生成候选转录文本；2) 对候选转录文本进行排序，选择最佳转录文本；3) 构建包含上下文信息的提示（Prompt），输入到LLM中；4) LLM根据提示进行情感预测；5) 对多个系统的预测结果进行融合。其中，上下文信息包括对话历史，系统输出融合则考虑了不同ASR系统的置信度。

关键创新：论文的关键创新在于将LLM应用于ASR后的情感识别任务，并探索了多种利用上下文信息和多系统输出的方法。通过实验发现，对话上下文存在收益递减效应，并且用于选择转录文本的指标对最终性能至关重要。此外，论文还提出了一种有效的系统输出融合方法，能够进一步提高情感识别的准确率。

关键设计：论文中，提示工程的设计是关键。提示包括当前语句的ASR转录文本，以及一定长度的对话历史。对话历史的长度是一个重要的参数，实验表明，过长的对话历史会导致收益递减。此外，论文还研究了不同的转录文本选择指标，例如ASR系统的置信度得分。在系统输出融合方面，论文采用了一种加权平均的方法，根据不同ASR系统的性能赋予不同的权重。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在GenSEC任务上取得了显著的性能提升，最佳模型在准确率上超过了基线模型20%。研究还发现，对话上下文存在收益递减效应，并且用于选择转录文本的指标至关重要。这些发现为未来研究提供了重要的指导。

🎯 应用场景

该研究成果可应用于智能客服、情感聊天机器人、语音助手等领域，提升人机交互的自然性和情感感知能力。通过更准确地识别用户的情感，系统可以提供更个性化、更贴心的服务，从而改善用户体验。未来，该技术还可应用于心理健康监测、市场调研等领域。

📄 摘要（原文）

Large language models (LLMs) have started to play a vital role in modelling speech and text. To explore the best use of context and multiple systems' outputs for post-ASR speech emotion prediction, we study LLM prompting on a recent task named GenSEC. Our techniques include ASR transcript ranking, variable conversation context, and system output fusion. We show that the conversation context has diminishing returns and the metric used to select the transcript for prediction is crucial. Finally, our best submission surpasses the provided baseline by 20% in absolute accuracy.

Context and System Fusion in Post-ASR Emotion Recognition with Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理