Your Multimodal Speech Model Says I Have a Face for Radio

作者: Maya K. Nachesa, Vlad Niculae, Vagrant Gautam

分类: cs.CL

发布日期: 2026-05-28

💡 一句话要点

评估多模态语音识别模型中的人脸偏见，揭示显著的性别和种族差异。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态语音识别 人脸偏见 模型评估 公平性 词错误率

📋 核心要点

现有语音识别模型扩展到多模态（如音视频）时，其偏见问题尚未得到充分研究。
该论文通过将不同人脸与相同音频配对，评估多模态语音识别模型在人脸偏见上的表现。
实验发现，mWhisper-Flamingo和Gemini模型在性别、种族等方面存在显著的识别准确率差异。

📝 摘要（中文）

随着大型神经模型在语言任务中表现越来越好，研究人员正日益构建能够处理更多数据模态的多模态和全模态模型。一个例子是将语音识别模型扩展到音视频数据，以用于噪声抑制和多模态字幕。虽然性能和偏见已经在单模态领域得到了广泛研究，但尚不清楚新的模态如何影响这一点，即使它们会在人类中产生偏见。因此，我们提出了第一个多模态语音识别的偏见评估，其中我们创建将不同面孔与相同音频配对的视频，并测量语音转录准确性的变化。我们发现 mWhisper-Flamingo 和 Gemini 模型存在显著的服务质量差异，在自我声明的性别、种族及其交叉方面，词错误率下降高达 4.05 个百分点。我们的研究结果表明，开发人员应优先评估、修复和沟通此类限制，因为通过额外模态提供更多信号不一定更好，甚至可能导致有偏见的结果。

🔬 方法详解

问题定义：论文旨在解决多模态语音识别模型中由于引入视觉信息（人脸）而产生的偏见问题。现有研究主要集中在单模态语音识别的偏见分析，忽略了多模态融合可能带来的新的偏见来源。这种偏见可能导致模型对不同性别、种族的人脸产生不同的识别准确率，从而影响用户体验和公平性。

核心思路：核心思路是通过控制音频内容不变，改变视频中的人脸，观察语音识别模型的转录准确率变化。如果模型对不同人脸的识别准确率存在显著差异，则表明模型存在人脸偏见。这种方法能够有效地隔离人脸信息对语音识别的影响，从而量化模型的人脸偏见程度。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 创建包含相同音频但不同人脸的视频数据集；2) 使用多模态语音识别模型（如 mWhisper-Flamingo 和 Gemini）对视频进行语音转录；3) 评估转录结果的准确率（如词错误率）；4) 分析不同人脸对应的转录准确率差异，从而量化模型的人脸偏见。

关键创新：该研究的关键创新在于首次提出了针对多模态语音识别模型的人脸偏见评估方法。通过控制音频内容不变，改变视频中的人脸，能够有效地隔离人脸信息对语音识别的影响，从而量化模型的人脸偏见程度。这种方法为多模态模型的偏见评估提供了一个新的思路。

关键设计：该研究的关键设计包括：1) 精心设计实验数据集，确保音频内容一致，人脸信息多样；2) 选择具有代表性的多模态语音识别模型进行评估；3) 使用标准的语音识别评估指标（如词错误率）来量化模型性能；4) 采用统计方法分析不同人脸对应的转录准确率差异，从而量化模型的人脸偏见。

📊 实验亮点

实验结果表明，mWhisper-Flamingo 和 Gemini 模型在不同性别、种族的人脸上的语音识别准确率存在显著差异，词错误率差异高达 4.05 个百分点。这表明多模态语音识别模型可能受到人脸信息的影响，从而产生偏见。该研究强调了在开发多模态模型时，需要重视偏见评估和消除，以确保模型的公平性和可靠性。

🎯 应用场景

该研究成果可应用于改进多模态语音识别系统的公平性和鲁棒性。通过识别和消除模型中的人脸偏见，可以提高模型在不同人群中的通用性和可靠性。此外，该研究也为其他多模态模型的偏见评估提供了借鉴，有助于构建更加公平和负责任的人工智能系统。

📄 摘要（原文）

As large neural models have become better at language tasks, researchers are increasingly building multi- and omnimodal models that handle more modalities of data. One example is the expansion of speech recognition models to audio-visual data for noise mitigation and multimodal subtitling. While performance and bias have been studied extensively in the single-modality regime, it is unknown how new modalities affect this, even though they produce biases in humans. We therefore propose the first bias evaluation of multimodal speech recognition, where we create videos pairing different faces with the same audio, and measure changes in speech transcription accuracy. We find large quality-of-service differences across mWhisper-Flamingo and Gemini models, with drops of up to 4.05 word error rate points, across self-declared gender, ethnicity, and their intersection. Our findings point to a priority for developers to evaluate, fix, and communicate such limitations, as providing more signals through additional modalities is not necessarily better, and may even lead to biased outcomes.

Your Multimodal Speech Model Says I Have a Face for Radio

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理