The ICASSP 2026 HumDial Challenge: Benchmarking Human-like Spoken Dialogue Systems in the LLM Era

📄 arXiv: 2601.05564v1 📥 PDF

作者: Zhixian Zhao, Shuiyuan Wang, Guojian Li, Hongfei Xue, Chengyou Wang, Shuai Wang, Longshuai Xiao, Zihan Zhang, Hui Bu, Xin Xu, Xinsheng Wang, Hexin Liu, Eng Siong Chng, Hung-yi Lee, Haizhou Li, Lei Xie

分类: cs.SD, cs.CL, cs.HC, eess.AS

发布日期: 2026-01-09

备注: Official summary paper for the ICASSP 2026 HumDial Challenge


💡 一句话要点

ICASSP 2026 HumDial挑战赛:LLM时代类人对话系统评测基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 口语对话系统 情感智能 全双工交互 大型语言模型 人机交互

📋 核心要点

  1. 现有口语对话系统在情感理解和实时交互方面存在不足,难以实现真正类人的对话体验。
  2. HumDial挑战赛旨在通过构建公平的评估平台,推动具备情感智能和全双工交互能力的对话系统发展。
  3. 挑战赛包含情感智能和全双工交互两个赛道,并提供基于真实人类对话的大型数据集。

📝 摘要(中文)

随着大型语言模型(LLMs),特别是音频-LLMs和全模态模型的快速发展,口语对话系统已经取得了显著的进步,逐渐缩小了人机交互与人际交互之间的差距。实现真正“类人”的交流需要双重能力:感知和共鸣用户情感状态的情感智能,以及驾驭动态、自然对话流程的强大交互机制,例如实时轮流发言。因此,我们在ICASSP 2026上发起了首届类人口语对话系统挑战赛(HumDial),以评估这些双重能力。该挑战赛以源自真实人类对话的大型数据集为基础,建立了一个公平的评估平台,包含两个赛道:(1)情感智能,针对长期情感理解和共情生成;(2)全双工交互,系统地评估“边听边说”条件下的实时决策。本文总结了数据集、赛道配置和最终结果。

🔬 方法详解

问题定义:目前的口语对话系统,虽然受益于大型语言模型的发展,但在情感理解的深度和实时交互的自然度上仍然存在明显的差距。现有方法难以准确捕捉用户的情感状态,并且在“边听边说”这种全双工交互场景下,决策能力不足,导致对话体验不流畅,不够人性化。

核心思路:HumDial挑战赛的核心思路是通过构建一个公平、全面的评估基准,促进类人对话系统的发展。该挑战赛聚焦于情感智能和全双工交互这两个关键能力,鼓励研究者设计能够理解用户情感并进行实时决策的对话系统。通过提供真实人类对话数据,挑战赛旨在推动更自然、更人性化的对话系统研究。

技术框架:HumDial挑战赛主要包含两个赛道:情感智能赛道和全双工交互赛道。情感智能赛道侧重于评估系统对用户长期情感的理解能力和共情生成能力。全双工交互赛道则关注系统在“边听边说”条件下的实时决策能力。每个赛道都提供相应的数据集和评估指标,参赛者可以根据自己的研究方向选择参与。

关键创新:HumDial挑战赛的关键创新在于其对类人对话系统双重能力的关注:情感智能和全双工交互。以往的对话系统评估往往侧重于对话的流畅性和信息传递的准确性,而忽略了情感理解和实时交互的重要性。HumDial挑战赛通过设立专门的赛道和评估指标,强调了这两个关键能力,旨在推动对话系统向更人性化的方向发展。

关键设计:挑战赛的数据集来源于真实的人类对话,保证了数据的真实性和多样性。情感智能赛道可能采用情感分类、情感回归等技术,评估系统对用户情感的理解程度。全双工交互赛道则需要考虑实时语音识别、对话状态跟踪、决策策略等多个环节,并可能采用强化学习等方法进行优化。具体的参数设置、损失函数和网络结构取决于参赛者的具体实现。

📊 实验亮点

HumDial挑战赛构建了一个基于真实人类对话的大型数据集,并设计了情感智能和全双工交互两个赛道,为类人对话系统的评估提供了一个公平的基准。挑战赛的结果将有助于研究者了解当前对话系统的优势和不足,并推动相关技术的发展。

🎯 应用场景

该研究成果可应用于智能客服、虚拟助手、在线教育、心理咨询等领域。通过提升对话系统的情感理解和实时交互能力,可以显著改善用户体验,提高服务效率,并为用户提供更个性化、更人性化的服务。未来,类人对话系统有望在人机交互领域发挥更大的作用。

📄 摘要(原文)

Driven by the rapid advancement of Large Language Models (LLMs), particularly Audio-LLMs and Omni-models, spoken dialogue systems have evolved significantly, progressively narrowing the gap between human-machine and human-human interactions. Achieving truly human-like'' communication necessitates a dual capability: emotional intelligence to perceive and resonate with users' emotional states, and robust interaction mechanisms to navigate the dynamic, natural flow of conversation, such as real-time turn-taking. Therefore, we launched the first Human-like Spoken Dialogue Systems Challenge (HumDial) at ICASSP 2026 to benchmark these dual capabilities. Anchored by a sizable dataset derived from authentic human conversations, this initiative establishes a fair evaluation platform across two tracks: (1) Emotional Intelligence, targeting long-term emotion understanding and empathetic generation; and (2) Full-Duplex Interaction, systematically evaluating real-time decision-making under listening-while-speaking'' conditions. This paper summarizes the dataset, track configurations, and the final results.