Towards a GENEA Leaderboard -- an Extended, Living Benchmark for Evaluating and Advancing Conversational Motion Synthesis

📄 arXiv: 2410.06327v1 📥 PDF

作者: Rajmund Nagy, Hendric Voss, Youngwoo Yoon, Taras Kucherenko, Teodor Nikolov, Thanh Hoang-Minh, Rachel McDonnell, Stefan Kopp, Michael Neff, Gustav Eje Henter

分类: cs.HC, cs.CV, cs.GR, cs.LG

发布日期: 2024-10-08

备注: 15 pages, 2 figures, project page: https://genea-workshop.github.io/leaderboard/


💡 一句话要点

提出GENEA Leaderboard:用于评估和推进对话动作合成的扩展性benchmark

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 手势生成 对话动作合成 benchmark 用户研究 人机交互

📋 核心要点

  1. 现有手势生成评估缺乏标准化,难以准确衡量模型性能和比较不同方法。
  2. 提出GENEA Leaderboard,通过动态更新的benchmark和用户研究驱动对话动作合成进展。
  3. 鼓励社区参与评估流程,共同推动手势生成研究的未来发展方向。

📝 摘要(中文)

当前语音驱动的手势生成评估缺乏标准化,并且侧重于易于衡量的方面,而忽略了真正重要的方面。这导致无法确定当前最佳技术水平,也无法在比较两篇论文时知道哪种方法更适合哪种目的。本文回顾并详细说明了现有手势生成评估的问题,并提出了改进这些问题的新方案。具体来说,我们宣布即将推出一个动态的排行榜,用于评估对话动作合成的进展。与早期手势生成挑战赛不同,该排行榜将每年多次更新大规模用户研究的新的手势生成系统,并且排行榜上的系统可以提交到作者喜欢的任何出版场所。通过随着时间的推移不断发展排行榜评估数据和任务,这项工作可以不断推动朝着社区确定的最重要的最终目标前进。我们积极寻求社区参与整个评估流程:从评估的数据和任务,到工具,再到评估的系统。换句话说,我们的提议不仅使研究人员更容易进行良好的评估,而且他们的集体投入和贡献也将有助于推动手势生成研究的未来。

🔬 方法详解

问题定义:现有语音驱动手势生成的研究评估存在诸多问题。首先,评估指标不统一,不同论文采用不同的指标,难以进行公平比较。其次,评估侧重于容易量化的指标,例如动作的准确性,而忽略了更重要的方面,例如动作的自然性和与语音的协调性。最后,缺乏一个持续更新的benchmark,无法跟踪领域内的最新进展。这些问题阻碍了该领域的发展。

核心思路:本文的核心思路是建立一个动态的、社区驱动的benchmark,即GENEA Leaderboard。该Leaderboard将定期更新评估数据和任务,并采用大规模用户研究来评估手势生成系统的性能。通过这种方式,可以更全面、更准确地评估手势生成系统的性能,并促进该领域的发展。

技术框架:GENEA Leaderboard的整体框架包括以下几个主要部分:1) 数据集:使用高质量的对话数据,包含语音和动作信息。2) 评估指标:采用多种评估指标,包括客观指标(例如动作准确性)和主观指标(例如自然性和协调性)。3) 用户研究:进行大规模用户研究,收集用户对不同手势生成系统的评价。4) Leaderboard:根据评估结果,对不同的手势生成系统进行排名。5) 社区参与:鼓励社区参与数据收集、评估指标设计和系统评估等各个环节。

关键创新:GENEA Leaderboard的关键创新在于其动态性和社区驱动性。传统的benchmark通常是静态的,一旦发布后就不会再更新。而GENEA Leaderboard会定期更新评估数据和任务,以反映最新的研究进展。此外,GENEA Leaderboard鼓励社区参与评估流程,从而确保评估的公平性和准确性。

关键设计:GENEA Leaderboard的具体设计细节包括:1) 数据集的选择:选择具有代表性的对话数据集,并进行高质量的标注。2) 评估指标的设计:设计能够全面反映手势生成系统性能的评估指标,包括客观指标和主观指标。3) 用户研究的设计:设计科学的用户研究方案,确保用户评价的可靠性。4) Leaderboard的更新频率:定期更新Leaderboard,以反映最新的研究进展。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

GENEA Leaderboard通过大规模用户研究评估手势生成系统,克服了传统评估方法的局限性。该benchmark的动态更新机制和社区驱动模式,能够更准确地反映领域进展,并促进手势生成技术的快速发展。具体性能数据将在后续的Leaderboard更新中公布。

🎯 应用场景

该研究成果可广泛应用于虚拟助手、社交机器人、游戏角色动画等领域。通过提供更自然、更具表现力的手势,可以显著提升人机交互的体验。此外,该benchmark的建立将加速手势生成技术的发展,为相关应用提供更强大的技术支持。

📄 摘要(原文)

Current evaluation practices in speech-driven gesture generation lack standardisation and focus on aspects that are easy to measure over aspects that actually matter. This leads to a situation where it is impossible to know what is the state of the art, or to know which method works better for which purpose when comparing two publications. In this position paper, we review and give details on issues with existing gesture-generation evaluation, and present a novel proposal for remedying them. Specifically, we announce an upcoming living leaderboard to benchmark progress in conversational motion synthesis. Unlike earlier gesture-generation challenges, the leaderboard will be updated with large-scale user studies of new gesture-generation systems multiple times per year, and systems on the leaderboard can be submitted to any publication venue that their authors prefer. By evolving the leaderboard evaluation data and tasks over time, the effort can keep driving progress towards the most important end goals identified by the community. We actively seek community involvement across the entire evaluation pipeline: from data and tasks for the evaluation, via tooling, to the systems evaluated. In other words, our proposal will not only make it easier for researchers to perform good evaluations, but their collective input and contributions will also help drive the future of gesture-generation research.