HumanOmni-Speaker: Identifying Who said What and When

📄 arXiv: 2603.21664v1 📥 PDF

作者: Detao Bai, Shimin Yao, Weixuan Chen, Xihan Wei, Zhiheng Ma

分类: cs.CV

发布日期: 2026-03-23


💡 一句话要点

提出HumanOmni-Speaker模型,解决多人对话场景下“谁在何时说了什么”的难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 说话人识别 视频理解 唇语识别 时空建模

📋 核心要点

  1. 现有Omni-modal模型难以准确识别多人对话中“谁在何时说了什么”,存在利用视觉偏差和忽略高频唇动等问题。
  2. 提出HumanOmni-Speaker模型,利用Visual Delta Encoder压缩帧间运动信息,捕捉细粒度的口型和说话人轨迹。
  3. HumanOmni-Speaker在VR-SDR基准上表现出色,实现了端到端唇读和高精度空间定位,无需额外裁剪。

📝 摘要(中文)

Omni-modal大型语言模型在联合感官处理方面取得了进展,但它们在人类交互的一个基石上存在根本性问题:难以解读复杂的多人对话动态,从而准确回答“谁在何时说了什么”。现有模型存在“能力错觉”,它们利用传统基准测试中的视觉偏差来绕过真正的跨模态对齐,同时依赖于稀疏、低帧率的视觉采样,这破坏了关键的高频动态,如唇部运动。为了打破这种错觉,我们引入了视觉注册的说话人分割和识别(VR-SDR)以及HumanOmni-Speaker基准。通过严格消除视觉捷径,这种严格的范式要求仅使用自然语言查询进行真正的端到端时空身份绑定。为了克服潜在的架构感知差距,我们提出了HumanOmni-Speaker,它由Visual Delta Encoder提供支持。通过以25 fps的速度采样原始视频,并将帧间运动残差显式压缩为每帧仅6个token,它可以捕获细粒度的口型和说话人轨迹,而不会触发灾难性的token爆炸。最终,HumanOmni-Speaker展示了强大的多模态协同作用,原生支持端到端唇读和高精度空间定位,无需侵入式裁剪,并在各种以说话人为中心的任务中实现了卓越的性能。

🔬 方法详解

问题定义:论文旨在解决多人对话场景下,准确识别“谁在何时说了什么”这一难题。现有方法,特别是Omni-modal大型语言模型,在处理此类任务时,往往依赖于视觉偏差(例如说话人的位置)或低帧率的视觉信息,无法真正理解对话中的动态信息,导致性能下降。此外,现有基准测试也存在视觉捷径,使得模型可以在没有真正理解语义的情况下获得较好的结果。

核心思路:论文的核心思路是通过高帧率的视频输入和Visual Delta Encoder来捕捉细粒度的视觉信息,特别是唇部运动和说话人轨迹。通过显式地压缩帧间运动残差,模型能够在不引入过多计算负担的情况下,有效地利用视频中的动态信息。同时,论文提出了VR-SDR基准,旨在消除视觉捷径,迫使模型真正理解对话内容。

技术框架:HumanOmni-Speaker模型主要包含以下几个模块:1) 视频输入模块,以25fps的速率采样原始视频;2) Visual Delta Encoder,用于压缩帧间运动残差,提取视觉特征;3) 多模态融合模块,将视觉特征与音频特征进行融合;4) 输出模块,预测每个说话人在何时说了什么。整体流程是端到端的,模型可以直接从原始视频和音频输入中预测结果。

关键创新:论文的关键创新在于Visual Delta Encoder的设计。传统的视频处理方法往往需要大量的计算资源来处理高帧率的视频,而Visual Delta Encoder通过压缩帧间运动残差,有效地减少了计算量,同时保留了关键的视觉信息。此外,VR-SDR基准的提出也迫使模型更加关注语义理解,而不是依赖视觉捷径。

关键设计:Visual Delta Encoder的关键设计在于将帧间运动残差压缩为每帧仅6个token。具体实现方式未知,但可以推测使用了某种形式的自编码器或transformer结构。损失函数的设计也至关重要,需要能够有效地训练模型捕捉唇部运动和说话人轨迹。论文中可能还使用了数据增强等技术来提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HumanOmni-Speaker模型在VR-SDR基准上取得了显著的性能提升,证明了其在多模态对话理解方面的优势。通过使用Visual Delta Encoder,模型能够有效地捕捉细粒度的视觉信息,并在端到端唇读和高精度空间定位方面表现出色。具体的性能数据和对比基线需要在论文中查找。

🎯 应用场景

该研究成果可应用于智能会议系统、视频监控、人机交互等领域。例如,在智能会议系统中,可以自动识别发言人,并生成会议纪要。在视频监控中,可以识别特定人物的语音,并进行追踪。在人机交互中,可以实现更自然、更智能的对话交互。

📄 摘要(原文)

While Omni-modal Large Language Models have made strides in joint sensory processing, they fundamentally struggle with a cornerstone of human interaction: deciphering complex, multi-person conversational dynamics to accurately answer Who said what and when.'' Current models suffer from anillusion of competence'' -- they exploit visual biases in conventional benchmarks to bypass genuine cross-modal alignment, while relying on sparse, low-frame-rate visual sampling that destroys crucial high-frequency dynamics like lip movements. To shatter this illusion, we introduce Visual-Registered Speaker Diarization and Recognition (VR-SDR) and the HumanOmni-Speaker Benchmark. By strictly eliminating visual shortcuts, this rigorous paradigm demands true end-to-end spatio-temporal identity binding using only natural language queries. To overcome the underlying architectural perception gap, we propose HumanOmni-Speaker, powered by a Visual Delta Encoder. By sampling raw video at 25 fps and explicitly compressing inter-frame motion residuals into just 6 tokens per frame, it captures fine-grained visemes and speaker trajectories without triggering a catastrophic token explosion. Ultimately, HumanOmni-Speaker demonstrates strong multimodal synergy, natively enabling end-to-end lip-reading and high-precision spatial localization without intrusive cropping, and achieving superior performance across a wide spectrum of speaker-centric tasks.