OmniACBench: A Benchmark for Evaluating Context-Grounded Acoustic Control in Omni-Modal Models
作者: Seunghee Kim, Bumkyu Park, Kyudan Jung, Joosung Lee, Soyoon Kim, Jeonghoon Kim, Taeuk Kim, Hwiyeol Jo
分类: cs.CL
发布日期: 2026-03-25
💡 一句话要点
OmniACBench:用于评估全模态模型中上下文相关的声学控制的基准测试。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 全模态模型 声学控制 基准测试 多模态融合 语音合成
📋 核心要点
- 现有全模态模型评估侧重于文本输出,忽略了模型能否以适当方式“说话”的能力。
- OmniACBench通过要求模型根据口语指令、文本和图像,以特定声学特征朗读文本来评估声学控制能力。
- 实验表明,现有模型在OmniACBench上表现不佳,瓶颈在于多模态上下文整合而非单模态处理。
📝 摘要(中文)
本文提出了OmniACBench,一个用于评估全模态模型中上下文相关的声学控制的基准测试。现有全模态模型的测试平台主要通过文本输出来评估多模态理解能力,无法明确模型是否能正确地“说”出答案。OmniACBench旨在解决这个问题。给定口语指令、文本脚本和图像,模型必须以适当的语调和方式朗读脚本。OmniACBench包含3,559个验证实例,涵盖六个声学特征:语速、发声、发音、情感、全局口音和音色。对八个模型的广泛实验表明,尽管它们在先前的文本输出评估中表现出色,但在所提出的设置中存在局限性。分析表明,主要瓶颈不在于处理单个模态,而在于整合多模态上下文以进行忠实的语音生成。此外,还确定了三种常见的失败模式——弱直接控制、失败的隐式推理和失败的多模态基础——为开发能够有效口头表达响应的模型提供了见解。
🔬 方法详解
问题定义:现有全模态模型评估主要依赖于文本输出,无法有效评估模型根据多模态输入(如图像、文本指令)控制语音声学特征(如语速、情感)的能力。这限制了对模型真正理解和生成自然语音能力的评估。现有方法缺乏一个专门用于评估上下文相关的声学控制能力的基准测试。
核心思路:OmniACBench的核心思路是构建一个数据集,其中包含口语指令、文本脚本和图像,并要求模型根据这些输入生成具有特定声学特征的语音。通过评估模型生成的语音与目标声学特征的匹配程度,来衡量模型的多模态理解和声学控制能力。这种设计旨在模拟真实场景中,模型需要根据上下文信息生成自然语音的情况。
技术框架:OmniACBench基准测试包含以下几个关键组成部分: 1. 数据集构建:收集包含口语指令、文本脚本和图像的数据,并标注六个关键声学特征(语速、发声、发音、情感、全局口音和音色)。 2. 评估指标:设计用于评估模型生成语音与目标声学特征匹配程度的指标。 3. 模型评估:使用OmniACBench评估现有全模态模型在上下文相关的声学控制方面的性能。 4. 错误分析:分析模型失败的常见模式,为改进模型提供指导。
关键创新:OmniACBench的关键创新在于: 1. 关注声学控制:首次将全模态模型的评估重点放在声学控制能力上,弥补了现有评估方法的不足。 2. 多模态上下文:要求模型根据多模态上下文生成语音,更贴近真实应用场景。 3. 细粒度评估:提供六个声学特征的细粒度评估,可以更全面地了解模型的声学控制能力。
关键设计:OmniACBench数据集包含3,559个验证实例,涵盖六个声学特征:语速、发声、发音、情感、全局口音和音色。数据集的构建过程包括数据收集、数据清洗、数据标注和数据验证等步骤。评估指标包括客观指标(如语速的均方误差)和主观指标(如人类评估员对语音情感的评分)。实验中使用了八个不同的全模态模型,并分析了它们的性能和失败模式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有全模态模型在OmniACBench上表现不佳,即使它们在传统的文本输出评估中表现出色。分析表明,模型的主要瓶颈在于整合多模态上下文以进行忠实的语音生成,而非处理单个模态。研究还识别了三种常见的失败模式:弱直接控制、失败的隐式推理和失败的多模态基础。
🎯 应用场景
OmniACBench的研究成果可应用于开发更自然、更智能的语音助手、虚拟角色和人机交互系统。例如,可以利用该基准测试来训练语音助手根据用户的情绪和语境,以更自然的方式回应。此外,该研究还可以促进语音合成技术的发展,使合成语音更具表现力和个性化。
📄 摘要(原文)
Most testbeds for omni-modal models assess multimodal understanding via textual outputs, leaving it unclear whether these models can properly speak their answers. To study this, we introduce OmniACBench, a benchmark for evaluating context-grounded acoustic control in omni-modal models. Given a spoken instruction, a text script, and an image, a model must read the script aloud with an appropriate tone and manner. OmniACBench comprises 3,559 verified instances covering six acoustic features: speech rate, phonation, pronunciation, emotion, global accent, and timbre. Extensive experiments on eight models reveal their limitations in the proposed setting, despite their strong performance on prior textual-output evaluations. Our analyses show that the main bottleneck lies not in processing individual modalities, but in integrating multimodal context for faithful speech generation. Moreover, we identify three common failure modes-weak direct control, failed implicit inference, and failed multimodal grounding-providing insights for developing models that can verbalize responses effectively.