Listening with the Eyes: Benchmarking Egocentric Co-Speech Grounding across Space and Time
作者: Weijie Zhou, Xuantang Xiong, Zhenlin Hu, Xiaomeng Zhu, Chaoyang Zhao, Honghui Dong, Zhengyou Zhang, Ming Tang, Jinqiao Wang
分类: cs.CV
发布日期: 2026-03-09
💡 一句话要点
提出EcoG-Bench基准测试,用于评估具身智能体在共现语音指示下的时空定位能力
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身智能 共现语音 时空定位 多模态学习 基准测试 人机交互 视听融合
📋 核心要点
- 现有具身智能基准测试存在语言捷径,MLLM无需学习视听对齐即可获得良好表现,无法有效评估共现语音指示下的时空定位能力。
- 提出EcoG-Bench基准测试,要求智能体共同预测“什么”、“在哪里”和“何时”才能完成定位,从而严格评估视听时空对齐能力。
- 实验表明,现有MLLM在EcoG-Bench上表现远低于人类水平,表明多模态接口可能限制了时间对齐线索的可观察性。
📝 摘要(中文)
在情境化协作中,说话者经常使用意图不明确的指示性命令(例如,“把那个递给我”),只有将语音与简短的共现指向动作对齐才能识别出所指对象。然而,许多具身智能基准测试允许仅使用语言的捷径,使得多模态大型语言模型(MLLM)无需学习指示性交互所需的视听对齐即可表现良好。为了弥合这一差距,我们引入了Egocentric Co-Speech Grounding (EcoG),其中只有智能体共同预测“什么”、“在哪里”和“何时”才能执行定位。为了实现这一点,我们提出了EcoG-Bench,这是一个仅用于评估的双语(EN/ZH)诊断基准,包含811个以自我为中心的视频片段,具有密集的空间注释和毫秒级的动作监督。它在渐进式认知评估协议下组织。对最先进的MLLM进行基准测试显示出严重的可执行性差距:虽然人类受试者在EcoG-Bench上实现了接近天花板的性能(96.9%的严格Eco-Accuracy),但最佳原生视频-音频设置仍然很低(Gemini-3-Pro:17.0%)。此外,在一项诊断性消融实验中,用带有时间戳的帧样本和外部验证的ASR(带有单词级时间信息)替换原生视频-音频接口,可以显著提高同一模型的性能(17.0%→42.9%)。总的来说,EcoG-Bench为事件级语音-手势绑定提供了一个严格的、可执行的测试平台,并表明多模态接口可能会限制时间对齐线索的可观察性,而与模型推理无关。
🔬 方法详解
问题定义:论文旨在解决具身智能体在理解共现语音指示(co-speech deictic commands)时,如何进行精确的时空定位(grounding)的问题。现有方法和基准测试往往存在“语言捷径”,即模型可以通过仅分析语言信息而无需真正理解语音和视觉信息的时序对应关系就能完成任务,导致无法有效评估模型对视听信息时空对齐的理解能力。
核心思路:论文的核心思路是设计一个更严格的评估基准,迫使模型必须同时理解“什么”(What,指代对象)、“在哪里”(Where,空间位置)和“何时”(When,时间信息),才能完成定位任务。通过这种“三元组”的约束,避免模型仅依赖语言信息进行推断,从而更真实地反映模型在理解共现语音指示方面的能力。
技术框架:论文提出了EcoG-Bench基准测试,包含以下几个关键组成部分: 1. 数据集:包含811个以自我为中心的视频片段,涵盖英语和中文两种语言。 2. 标注:对视频中的指示对象进行密集的空间标注,并提供毫秒级的动作(stroke)监督信息。 3. 评估协议:采用渐进式认知评估协议,逐步增加任务的难度。 4. 评估指标:使用严格的Eco-Accuracy指标,要求模型同时正确预测“什么”、“在哪里”和“何时”才能被认为是正确的。
关键创新:论文的关键创新在于提出了EcoG-Bench基准测试,它通过以下方式改进了现有基准测试: 1. 严格性:要求模型同时预测“什么”、“在哪里”和“何时”,避免了语言捷径。 2. 时序性:提供毫秒级的动作监督信息,强调了时序信息的重要性。 3. 诊断性:通过消融实验,分析了不同模态信息对模型性能的影响。
关键设计:EcoG-Bench的关键设计包括: 1. 数据采集:采用以自我为中心的视角,模拟真实场景下的交互。 2. 标注规范:制定详细的标注规范,确保标注质量。 3. 评估指标:Eco-Accuracy指标要求模型同时正确预测“什么”、“在哪里”和“何时”,确保评估的严格性。 4. 消融实验:通过替换原生视频-音频接口为时间戳帧样本和外部验证的ASR,分析了多模态接口对模型性能的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有最先进的MLLM(Gemini-3-Pro)在EcoG-Bench上的Eco-Accuracy仅为17.0%,远低于人类水平(96.9%)。通过将原生视频-音频接口替换为时间戳帧样本和外部验证的ASR,同一模型的性能提升至42.9%,表明多模态接口可能限制了时间对齐线索的可观察性。
🎯 应用场景
该研究成果可应用于提升具身智能体在人机协作、机器人导航、虚拟助手等领域的性能。通过更精确地理解人类的语音指示和手势,智能体可以更好地与人类进行交互,完成各种任务,例如在家庭环境中帮助用户寻找物品,或在工业环境中协助工人进行装配。
📄 摘要(原文)
In situated collaboration, speakers often use intentionally underspecified deictic commands (e.g., ``pass me \textit{that}''), whose referent becomes identifiable only by aligning speech with a brief co-speech pointing \emph{stroke}. However, many embodied benchmarks admit language-only shortcuts, allowing MLLMs to perform well without learning the \emph{audio--visual alignment} required by deictic interaction. To bridge this gap, we introduce \textbf{Egocentric Co-Speech Grounding (EcoG)}, where grounding is executable only if an agent jointly predicts \textit{What}, \textit{Where}, and \textit{When}. To operationalize this, we present \textbf{EcoG-Bench}, an evaluation-only bilingual (EN/ZH) diagnostic benchmark of \textbf{811} egocentric clips with dense spatial annotations and millisecond-level stroke supervision. It is organized under a \textbf{Progressive Cognitive Evaluation} protocol. Benchmarking state-of-the-art MLLMs reveals a severe executability gap: while human subjects achieve near-ceiling performance on EcoG-Bench (\textbf{96.9\%} strict Eco-Accuracy), the best native video-audio setting remains low (Gemini-3-Pro: \textbf{17.0\%}). Moreover, in a diagnostic ablation, replacing the native video--audio interface with timestamped frame samples and externally verified ASR (with word-level timing) substantially improves the same model (\textbf{17.0\%}$\to$\textbf{42.9\%}). Overall, EcoG-Bench provides a strict, executable testbed for event-level speech--gesture binding, and suggests that multimodal interfaces may bottleneck the observability of temporal alignment cues, independently of model reasoning.