VideoFDB: Evaluating Full-Duplex Vision-Speech Capabilities in Conversational Agents

作者: Amrita Mazumdar, Seonwook Park, Rajarshi Roy, Nikhil Srihari, Shengze Wang, Yuhao Zhou, Julia Wang, Koki Nagano, Shalini De Mello

分类: cs.CV, cs.CL, cs.HC

发布日期: 2026-05-28

备注: Project page: https://research.nvidia.com/labs/amri/projects/video-fdb/

💡 一句话要点

VideoFDB：提出首个全双工视听对话基准，评估对话Agent的非语言交互能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 全双工对话 视听对话 非语言交流 对话Agent 基准测试

📋 核心要点

现有全双工基准主要评估语音，忽略了自然人机交互中重要的非语言视听信息。
VideoFDB基准旨在评估Agent在视听输入下，理解并生成视听响应的全双工对话能力。
实验揭示现有Agent在处理非语言信息时存在缺陷，如忽略视觉信息和无法生成自然的非语言反馈。

📝 摘要（中文）

本文提出了VideoFDB，这是首个用于评估全双工视听-视听(AV2AV)对话Agent的基准。VideoFDB包含：(i) 237个来自真实视频通话的双人对话片段，涵盖11种非语言对话动态；(ii) 一个区分感知和生成行为的分类体系；(iii) 一个基于规则的LM-as-judge评估框架，该框架具有可解释的轴，用于评估关于非语言对话动态的对话质量。通过对开源和闭源的视觉-语音Agent的评估，我们发现了系统性的失败模式：字幕崩溃和视觉流忽略。结果表明，当前的系统利用视觉进行显式的视觉问答，而不是自然对话中所需的流式联合视听理解。我们进一步评估了级联的语音-头像系统，发现它们的架构从根本上排除了产生全双工非语言线索的可能性。作为首个全双工AV2AV交互的基准，VideoFDB为系统评估奠定了基础，并有望加速下一代多模态对话Agent的进步和发展。

🔬 方法详解

问题定义：现有全双工对话基准主要集中在语音层面，忽略了人类对话中丰富的非语言视听信息，例如点头、微笑和手势。这导致现有Agent在处理自然人机交互时，无法充分理解和生成这些非语言线索，影响了交互的自然性和有效性。现有方法的痛点在于缺乏一个能够全面评估Agent在视听层面进行全双工对话能力的基准。

核心思路：VideoFDB的核心思路是构建一个包含真实视听对话数据的基准，并设计相应的评估指标，以全面评估Agent在视听输入下，理解并生成视听响应的全双工对话能力。通过对Agent在VideoFDB上的表现进行评估，可以发现Agent在处理非语言信息方面的不足，并指导Agent的改进。

技术框架：VideoFDB基准包含以下几个主要组成部分： 1. 视听对话数据集：包含237个来自真实视频通话的双人对话片段，涵盖11种非语言对话动态。 2. 分类体系：将Agent的行为分为感知和生成两类，并对每类行为进行细致的划分。 3. 评估框架：采用基于规则的LM-as-judge评估框架，该框架具有可解释的轴，用于评估关于非语言对话动态的对话质量。

关键创新：VideoFDB最重要的技术创新点在于它是首个用于评估全双工视听-视听(AV2AV)对话Agent的基准。与现有的全双工语音基准相比，VideoFDB更加关注Agent在视听层面的交互能力，能够更全面地评估Agent在自然人机交互中的表现。

关键设计：VideoFDB的关键设计包括： 1. 数据集构建：从真实的视频通话中收集数据，保证数据的真实性和多样性。 2. 分类体系设计：根据Agent的行为特点，设计了感知和生成两类行为，并对每类行为进行细致的划分。 3. 评估框架设计：采用基于规则的LM-as-judge评估框架，该框架能够自动评估Agent的对话质量，并提供可解释的评估结果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有的视觉-语音Agent在处理非语言信息时存在缺陷，例如字幕崩溃和视觉流忽略。这些Agent主要利用视觉进行显式的视觉问答，而不是进行流式联合视听理解。此外，级联的语音-头像系统由于其架构限制，无法产生全双工非语言线索。这些发现为未来Agent的改进提供了重要的指导。

🎯 应用场景

VideoFDB基准的潜在应用领域包括虚拟助手、远程协作、社交机器人等。通过使用VideoFDB评估和改进对话Agent，可以提升Agent在自然人机交互中的表现，使其能够更好地理解人类的意图，并生成更自然的响应，从而提高用户体验。未来，VideoFDB可以促进多模态对话Agent的发展，使其在更多领域得到应用。

📄 摘要（原文）

Natural human conversation is full-duplex and audio-visual: people simultaneously speak and listen while continuously interpreting and producing nonverbal cues, such as nods, smiles, and gestures. To support successful human-agent interaction, agents must model full-duplex audiovisual conversation; however, existing full-duplex benchmarks evaluate only speech. In this work, we present VideoFDB, the first benchmark to evaluate full-duplex audio-visual-to-audio-visual (AV2AV) conversational agents. VideoFDB contributes (i) 237 dyadic clips spanning 11 nonverbal conversational dynamics from real-world video calls, (ii) a taxonomy separating perception from generation behaviors, and (iii) a rubric-based LM-as-judge evaluation framework with interpretable axes for assessing conversational quality with respect to nonverbal conversational dynamics. Across open- and closed-source vision-speech agents, we find systematic failure modes: captioning collapse and visual-stream ignorance, and we show that current systems exploit vision for explicit visual question answering but not for the streaming joint audiovisual grounding required in natural conversation. We further evaluate cascaded speech-to-avatar systems and find that their architecture fundamentally precludes the production of full-duplex nonverbal cues. As the first benchmark for full-duplex AV2AV interaction, VideoFDB establishes a foundation for systematic evaluation and, we hope, will accelerate the advancement and development of next-generation multimodal conversational agents.

VideoFDB: Evaluating Full-Duplex Vision-Speech Capabilities in Conversational Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理