Structured Prompting and LLM Ensembling for Multimodal Conversational Aspect-based Sentiment Analysis

📄 arXiv: 2512.22603v1 📥 PDF

作者: Zhiqiang Gao, Shihao Gao, Zixing Zhang, Yihao Guo, Hongyu Chen, Jing Han

分类: cs.CL

发布日期: 2025-12-27

期刊: ACM Multimedia 2025

DOI: 10.1145/3746027.3762070


💡 一句话要点

提出结构化提示与LLM集成方法,用于多模态对话场景下的细粒度情感分析。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态对话 情感分析 结构化提示 大型语言模型 LLM集成 情感六元组 情感翻转

📋 核心要点

  1. 多模态对话情感分析面临情感要素抽取不完整和情感动态变化难以捕捉的挑战。
  2. 采用结构化提示,引导LLM逐步提取情感要素,并利用LLM集成提升情感翻转检测的鲁棒性。
  3. 实验结果表明,该方法在情感要素抽取和情感翻转检测任务上均取得了显著的性能提升。

📝 摘要(中文)

本文针对多模态对话场景下的基于方面的情感分析(MCABSA)问题,旨在构建具备情感智能的AI系统。该挑战包含两个子任务:(1)从多说话人对话中提取完整的情感六元组,包括持有者、目标、方面、观点、情感和理由;(2)检测情感翻转,即识别动态情感变化及其潜在触发因素。针对子任务一,我们设计了一个结构化提示流程,引导大型语言模型(LLM)逐步提取情感成分,并进行精细化的上下文理解。针对子任务二,我们通过集成三个LLM的互补优势,稳健地识别情感转变及其触发因素。我们的系统在子任务一上取得了47.38%的平均分,在子任务二上取得了74.12%的精确匹配F1值,证明了逐步细化和集成策略在复杂多模态情感分析任务中的有效性。

🔬 方法详解

问题定义:论文旨在解决多模态对话场景下,基于方面的情感分析(MCABSA)问题,具体包括情感六元组的抽取(持有者、目标、方面、观点、情感和理由)以及情感翻转的检测。现有方法在处理复杂对话上下文、多模态信息融合以及情感动态变化方面存在不足,难以准确捕捉细粒度的情感信息。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大理解和生成能力,通过结构化提示引导LLM逐步完成情感要素的抽取,并采用LLM集成的方式提高情感翻转检测的准确性和鲁棒性。结构化提示旨在分解复杂任务,降低LLM的学习难度,而LLM集成则可以利用不同LLM的互补优势。

技术框架:整体框架包含两个主要部分,分别对应MCABSA挑战的两个子任务。对于子任务一(情感六元组抽取),采用结构化提示流程,依次提示LLM抽取各个情感要素。对于子任务二(情感翻转检测),则采用三个LLM进行预测,然后通过集成策略(具体集成方法未知)得到最终结果。

关键创新:论文的关键创新在于将结构化提示应用于多模态对话情感分析任务,并结合LLM集成策略。结构化提示能够有效引导LLM理解复杂的对话上下文,并准确抽取情感要素。LLM集成则能够提高情感翻转检测的鲁棒性,减少单一LLM的偏差。

关键设计:结构化提示的具体提示词设计未知,但强调了逐步细化和上下文理解的重要性。LLM集成的具体集成方法(如投票、加权平均等)未知。论文未提供关于损失函数、网络结构等技术细节的具体信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该系统在MCABSA挑战赛中取得了优异的成绩,在子任务一(情感六元组抽取)上取得了47.38%的平均分,在子任务二(情感翻转检测)上取得了74.12%的精确匹配F1值。实验结果表明,结构化提示和LLM集成策略能够有效提升多模态对话情感分析的性能。

🎯 应用场景

该研究成果可应用于智能客服、情感聊天机器人、舆情监控等领域。通过准确理解用户在多模态对话中的情感,可以提升人机交互的自然性和有效性,为用户提供更加个性化和贴心的服务。未来,该技术有望在心理健康咨询、在线教育等领域发挥重要作用。

📄 摘要(原文)

Understanding sentiment in multimodal conversations is a complex yet crucial challenge toward building emotionally intelligent AI systems. The Multimodal Conversational Aspect-based Sentiment Analysis (MCABSA) Challenge invited participants to tackle two demanding subtasks: (1) extracting a comprehensive sentiment sextuple, including holder, target, aspect, opinion, sentiment, and rationale from multi-speaker dialogues, and (2) detecting sentiment flipping, which detects dynamic sentiment shifts and their underlying triggers. For Subtask-I, in the present paper, we designed a structured prompting pipeline that guided large language models (LLMs) to sequentially extract sentiment components with refined contextual understanding. For Subtask-II, we further leveraged the complementary strengths of three LLMs through ensembling to robustly identify sentiment transitions and their triggers. Our system achieved a 47.38% average score on Subtask-I and a 74.12% exact match F1 on Subtask-II, showing the effectiveness of step-wise refinement and ensemble strategies in rich, multimodal sentiment analysis tasks.