Evaluating Bias in Spoken Dialogue LLMs for Real-World Decisions and Recommendations

📄 arXiv: 2510.02352v1 📥 PDF

作者: Yihao Wu, Tianrui Wang, Yizhou Peng, Yi-Wen Chao, Xuyi Zhuang, Xinsheng Wang, Shunshun Yin, Ziyang Ma

分类: cs.CL, cs.AI

发布日期: 2025-09-27


💡 一句话要点

系统评估语音对话大模型在决策和推荐中的偏见,揭示多轮对话的影响。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音对话模型 偏见评估 公平性 多轮对话 群体不公平性得分 推荐系统 音调特征

📋 核心要点

  1. 现有研究较少关注语音对话模型中,音调特征(如年龄、性别、口音)引起的偏见,尤其是在多轮对话场景下。
  2. 本文提出一种系统性的评估方法,通过GUS和SNSR指标,量化语音对话模型在决策和推荐任务中的偏见程度。
  3. 实验结果表明,开源模型对年龄和性别更敏感,推荐任务更容易放大群体差异,且偏见决策可能在多轮对话中持续存在。

📝 摘要(中文)

本文系统性地评估了语音对话大模型(SDM)中的偏见,重点关注音频输入和输出场景下,年龄、性别和口音等音调特征对模型输出的影响。通过多轮对话和重复的负反馈,研究了偏见是否会加剧,以及对决策和推荐任务公平性的潜在影响。使用群体不公平性得分(GUS)和基于相似性的归一化统计率(SNSR)来衡量偏见。评估了Qwen2.5-Omni、GLM-4-Voice等开源模型,以及GPT-4o Audio和Gemini-2.5-Flash等闭源API。结果表明,闭源模型通常表现出较低的偏见,而开源模型对年龄和性别更敏感,推荐任务更容易放大群体差异。偏见决策可能在多轮对话中持续存在。本研究首次系统性地研究了端到端语音对话模型中的偏见,为构建公平可靠的音频交互系统提供了见解。同时发布了FairDialogue数据集和评估代码,以促进进一步研究。

🔬 方法详解

问题定义:现有的大语言模型偏见研究主要集中在文本领域,而忽略了语音对话模型中,由于音调特征(如年龄、性别、口音)引入的偏见。这些偏见可能在多轮对话中被放大,导致不公平的决策和推荐结果。现有方法缺乏针对语音对话模型的系统性偏见评估框架。

核心思路:本文的核心思路是构建一个系统性的评估框架,用于量化语音对话模型在决策和推荐任务中的偏见。通过设计特定的测试用例,模拟不同人群的语音输入,并使用群体不公平性得分(GUS)和基于相似性的归一化统计率(SNSR)等指标,来衡量模型对不同人群的差异化对待程度。通过分析多轮对话中偏见的变化,揭示偏见持续存在和放大的机制。

技术框架:该研究的技术框架主要包括以下几个阶段: 1. 数据准备:构建包含不同年龄、性别和口音的语音数据集,用于模拟真实场景下的用户输入。 2. 模型选择:选择具有代表性的开源和闭源语音对话模型,如Qwen2.5-Omni、GLM-4-Voice、GPT-4o Audio和Gemini-2.5-Flash。 3. 任务设计:设计决策和推荐两种任务,模拟真实应用场景,例如,根据用户语音信息推荐商品或服务。 4. 偏见评估:使用GUS和SNSR指标,量化模型在不同人群上的表现差异,评估偏见程度。 5. 多轮对话分析:通过模拟多轮对话,观察偏见是否会随着对话轮数的增加而加剧。

关键创新:该研究的主要创新点在于: 1. 首次系统性地评估了语音对话模型中的偏见,填补了该领域的研究空白。 2. 提出了针对语音对话模型的偏见评估框架,包括数据准备、任务设计和指标选择等环节。 3. 揭示了多轮对话中偏见持续存在和放大的机制,为构建公平可靠的语音交互系统提供了理论指导。

关键设计: * 群体不公平性得分(GUS):用于衡量决策任务中的偏见,计算不同人群的决策结果差异。 * 基于相似性的归一化统计率(SNSR):用于衡量推荐任务中的偏见,计算不同人群的推荐结果相似度。 * 多轮对话模拟:通过模拟用户与模型之间的多轮交互,观察偏见在对话过程中的变化。 * FairDialogue数据集:包含不同年龄、性别和口音的语音数据,用于评估语音对话模型的偏见。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,闭源模型(如GPT-4o Audio和Gemini-2.5-Flash)通常表现出较低的偏见,而开源模型(如Qwen2.5-Omni和GLM-4-Voice)对年龄和性别更敏感。推荐任务更容易放大群体差异。在多轮对话中,偏见决策可能持续存在。这些发现为语音对话模型的偏见缓解提供了重要参考。

🎯 应用场景

该研究成果可应用于开发更公平、更可靠的语音对话系统,例如智能客服、语音助手和个性化推荐系统。通过降低模型对特定人群的偏见,可以提升用户体验,避免歧视性行为,促进社会公平。未来的研究可以进一步探索如何消除语音对话模型中的偏见,并开发更有效的偏见缓解算法。

📄 摘要(原文)

While biases in large language models (LLMs), such as stereotypes and cultural tendencies in outputs, have been examined and identified, their presence and characteristics in spoken dialogue models (SDMs) with audio input and output remain largely unexplored. Paralinguistic features, such as age, gender, and accent, can affect model outputs; when compounded by multi-turn conversations, these effects may exacerbate biases, with potential implications for fairness in decision-making and recommendation tasks. In this paper, we systematically evaluate biases in speech LLMs and study the impact of multi-turn dialogues with repeated negative feedback. Bias is measured using Group Unfairness Score (GUS) for decisions and similarity-based normalized statistics rate (SNSR) for recommendations, across both open-source models like Qwen2.5-Omni and GLM-4-Voice, as well as closed-source APIs such as GPT-4o Audio and Gemini-2.5-Flash. Our analysis reveals that closed-source models generally exhibit lower bias, while open-source models are more sensitive to age and gender, and recommendation tasks tend to amplify cross-group disparities. We found that biased decisions may persist in multi-turn conversations. This work provides the first systematic study of biases in end-to-end spoken dialogue models, offering insights towards fair and reliable audio-based interactive systems. To facilitate further research, we release the FairDialogue dataset and evaluation code.