Moravec's Paradox: Towards an Auditory Turing Test
作者: David Noever, Forrest McKee
分类: cs.AI, cs.SD, eess.AS
发布日期: 2025-07-30
💡 一句话要点
提出听觉图灵测试基准,揭示AI在复杂听觉场景理解上的显著缺陷
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 听觉图灵测试 语音识别 听觉场景分析 多模态学习 噪声鲁棒性
📋 核心要点
- 现有AI系统在复杂听觉场景理解方面存在显著缺陷,尤其是在噪声环境和上下文理解中。
- 论文提出一个包含917个挑战的听觉图灵测试,旨在量化人机在听觉感知上的差距。
- 实验结果表明,即使是GPT-4和Whisper等先进模型,在听觉图灵测试中的表现也远低于人类水平。
📝 摘要(中文)
本研究表明,当前的人工智能系统在人类可以轻松完成的听觉任务上表现出灾难性的失败。受莫拉维克悖论(即对人类来说简单的任务对机器来说往往很困难,反之亦然)的启发,我们引入了一个听觉图灵测试,包含七个类别共917个挑战:重叠语音、噪声中的语音、时间扭曲、空间音频、咖啡店噪声、电话失真和感知错觉。我们对包括GPT-4的音频功能和OpenAI的Whisper在内的最先进的音频模型进行了评估,结果显示失败率超过93%,即使是性能最好的模型在人类成功率高出7.5倍的任务(52%)上也仅达到6.9%的准确率。这些结果揭示了人工智能系统在处理复杂听觉场景时的聚焦失败,特别是在选择性注意、噪声鲁棒性和上下文适应方面。我们的基准不仅量化了人机听觉差距,还提供了关于这些失败原因的见解,表明当前的架构缺乏类似人类的听觉场景分析的基本机制。音频验证码的传统设计突出了人类进化出的但机器未能选择的常见过滤器。这项工作建立了一个诊断框架,用于衡量在实现人类水平的机器听觉方面的进展,并强调需要将选择性注意、基于物理的音频理解和上下文感知集成到多模态人工智能系统中的新方法。
🔬 方法详解
问题定义:论文旨在解决现有AI系统在复杂听觉场景理解方面的不足。现有方法在处理噪声、重叠语音、时间扭曲等复杂听觉信息时,鲁棒性和准确性都远低于人类水平,无法有效进行听觉场景分析。
核心思路:论文的核心思路是借鉴图灵测试的思想,设计一个专门用于评估AI系统听觉能力的基准测试。通过模拟各种现实场景下的听觉挑战,量化AI系统与人类在听觉感知上的差距,并分析AI系统失败的原因。
技术框架:该研究构建了一个包含917个听觉挑战的测试集,分为七个类别:重叠语音、噪声中的语音、时间扭曲、空间音频、咖啡店噪声、电话失真和感知错觉。研究者使用该测试集评估了包括GPT-4的音频功能和OpenAI的Whisper在内的多个最先进的音频模型。
关键创新:该研究的关键创新在于提出了一个专门用于评估AI系统听觉能力的听觉图灵测试基准。该基准涵盖了多种复杂的听觉场景,能够更全面地评估AI系统在听觉感知方面的能力。此外,该研究还深入分析了AI系统在听觉任务中失败的原因,为未来的研究提供了有价值的见解。
关键设计:测试集的设计考虑了多种现实场景下的听觉挑战,例如不同类型的噪声、语音重叠、时间扭曲等。每个类别都包含多个难度不同的挑战,以更全面地评估AI系统的听觉能力。评估指标主要为准确率,即AI系统正确完成听觉任务的比例。
📊 实验亮点
实验结果表明,即使是GPT-4和Whisper等先进模型,在听觉图灵测试中的表现也远低于人类水平。AI系统的平均准确率仅为6.9%,而人类的准确率高达52%。这表明当前AI系统在复杂听觉场景理解方面存在显著差距,尤其是在选择性注意、噪声鲁棒性和上下文适应方面。
🎯 应用场景
该研究成果可应用于语音识别、语音增强、智能助手、听觉辅助设备等领域。通过提高AI系统在复杂听觉场景下的感知能力,可以改善语音识别的准确率,提升智能助手的交互体验,并为听力受损人士提供更有效的辅助工具。此外,该研究提出的听觉图灵测试基准可以作为评估和改进AI系统听觉能力的通用框架。
📄 摘要(原文)
This research work demonstrates that current AI systems fail catastrophically on auditory tasks that humans perform effortlessly. Drawing inspiration from Moravec's paradox (i.e., tasks simple for humans often prove difficult for machines, and vice versa), we introduce an auditory Turing test comprising 917 challenges across seven categories: overlapping speech, speech in noise, temporal distortion, spatial audio, coffee-shop noise, phone distortion, and perceptual illusions. Our evaluation of state-of-the-art audio models including GPT-4's audio capabilities and OpenAI's Whisper reveals a striking failure rate exceeding 93%, with even the best-performing model achieving only 6.9% accuracy on tasks that humans solved at 7.5 times higher success (52%). These results expose focusing failures in how AI systems process complex auditory scenes, particularly in selective attention, noise robustness, and contextual adaptation. Our benchmark not only quantifies the human-machine auditory gap but also provides insights into why these failures occur, suggesting that current architectures lack fundamental mechanisms for human-like auditory scene analysis. The traditional design of audio CAPTCHAs highlights common filters that humans evolved but machines fail to select in multimodal language models. This work establishes a diagnostic framework for measuring progress toward human-level machine listening and highlights the need for novel approaches integrating selective attention, physics-based audio understanding, and context-aware perception into multimodal AI systems.