An LLM Benchmark for Addressee Recognition in Multi-modal Multi-party Dialogue
作者: Koji Inoue, Divesh Lala, Mikey Elmers, Keiko Ochi, Tatsuya Kawahara
分类: cs.CL, cs.AI, cs.SD, eess.AS
发布日期: 2025-01-28 (更新: 2025-03-18)
备注: This paper has been accepted for presentation at International Workshop on Spoken Dialogue Systems Technology 2025 (IWSDS 2025) and represents the author's version of the work
💡 一句话要点
构建多模态多人对话语料库,并用LLM基准测试解决寻址对象识别难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多人对话 寻址对象识别 大型语言模型 多模态语料库 基准测试
📋 核心要点
- 多人对话理解是对话系统的重要挑战,现有方法难以有效识别对话中的寻址对象。
- 论文构建多模态多人对话语料库,并利用GPT-4o进行寻址对象识别的基准测试。
- 实验表明GPT-4o在该任务上的表现仅略高于随机水平,揭示了任务的难度。
📝 摘要(中文)
为了推动口语对话系统的发展,尤其是在处理多人对话方面的能力,本文构建了一个三方讨论的多模态多人对话语料库。论文重点关注寻址对象识别任务,即识别对话中下一个轮次的目标对象,这是多人对话系统独有的关键组成部分。通过对语料库子集的标注,发现大约20%的对话轮次中存在明确的寻址对象。为了评估该任务的复杂性,论文使用大型语言模型(GPT-4o)进行了基准测试。结果表明,GPT-4o的准确率仅略高于随机水平,突显了多人对话中寻址对象识别的挑战。这些发现强调了进一步研究的必要性,以提高大型语言模型理解和驾驭复杂多人对话动态的能力。
🔬 方法详解
问题定义:论文旨在解决多人对话场景下的寻址对象识别问题。现有方法,特别是针对单人对话设计的模型,难以有效处理多人对话中复杂的交互和上下文信息,导致寻址对象识别的准确率较低。现有方法的痛点在于缺乏针对多人对话场景的训练数据和模型设计。
核心思路:论文的核心思路是构建一个专门针对多人对话的语料库,并利用大型语言模型(LLM)进行基准测试,从而评估现有LLM在寻址对象识别任务上的能力。通过分析LLM的性能,可以了解现有模型的不足,并为未来的研究提供方向。
技术框架:论文的技术框架主要包括两个部分:首先是构建多模态多人对话语料库,该语料库包含三方讨论的对话数据,并标注了寻址对象信息。其次是利用GPT-4o等大型语言模型在该语料库上进行寻址对象识别的基准测试。测试过程中,模型接收对话历史作为输入,并预测下一个轮次的寻址对象。
关键创新:论文的关键创新在于构建了一个专门用于多人对话寻址对象识别的多模态语料库。该语料库的标注信息为研究人员提供了宝贵的资源,可以用于训练和评估针对多人对话场景的模型。此外,利用GPT-4o进行基准测试,为评估现有LLM在这一任务上的能力提供了一个客观的参考。
关键设计:论文中语料库的关键设计在于选择了三方对话作为研究对象,这既能体现多人对话的复杂性,又避免了过于复杂的多方交互。标注过程中,标注人员需要仔细分析对话内容,判断每个轮次的寻址对象。基准测试中,GPT-4o的输入包括对话历史和当前轮次的发言内容,输出为预测的寻址对象。论文未提及具体的损失函数或网络结构等技术细节,重点在于评估GPT-4o的性能。
🖼️ 关键图片
📊 实验亮点
实验结果显示,GPT-4o在多人对话寻址对象识别任务上的准确率仅略高于随机水平。这表明,即使是目前最先进的LLM,在处理复杂的多人对话场景时仍然面临很大的挑战。该结果突出了针对多人对话场景进行模型优化的必要性,并为未来的研究提供了明确的方向。
🎯 应用场景
该研究成果可应用于智能会议系统、多人在线游戏、社交机器人等领域。通过准确识别对话中的寻址对象,可以提升对话系统的交互体验,使其更加自然流畅。未来,该研究可促进更智能、更人性化的多人对话系统的发展,提升人机协作效率。
📄 摘要(原文)
Handling multi-party dialogues represents a significant step for advancing spoken dialogue systems, necessitating the development of tasks specific to multi-party interactions. To address this challenge, we are constructing a multi-modal multi-party dialogue corpus of triadic (three-participant) discussions. This paper focuses on the task of addressee recognition, identifying who is being addressed to take the next turn, a critical component unique to multi-party dialogue systems. A subset of the corpus was annotated with addressee information, revealing that explicit addressees are indicated in approximately 20% of conversational turns. To evaluate the task's complexity, we benchmarked the performance of a large language model (GPT-4o) on addressee recognition. The results showed that GPT-4o achieved an accuracy only marginally above chance, underscoring the challenges of addressee recognition in multi-party dialogue. These findings highlight the need for further research to enhance the capabilities of large language models in understanding and navigating the intricacies of multi-party conversational dynamics.