Towards Spoken Mathematical Reasoning: Benchmarking Speech-based Models over Multi-faceted Math Problems

📄 arXiv: 2505.15000v1 📥 PDF

作者: Chengwei Wei, Bin Wang, Jung-jae Kim, Nancy F. Chen

分类: cs.CL

发布日期: 2025-05-21


💡 一句话要点

提出Spoken-MQA基准,评估语音模型在多方面数学问题上的推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音数学推理 语音理解 数学问题求解 大型语言模型 多模态学习

📋 核心要点

  1. 现有语音模型在数学推理能力方面存在不足,尤其是在处理复杂数学问题时缺乏有效评估。
  2. 论文提出Spoken-MQA基准,旨在全面评估语音模型在不同类型数学问题上的推理能力。
  3. 实验表明,现有语音LLM在直接算术和知识推理方面表现不佳,对口语数学表达式的理解存在偏差。

📝 摘要(中文)

大型语言模型(LLMs)和多模态LLMs(MLLMs)的最新进展使其在各种任务中展现出强大的推理能力。然而,它们从语音输入执行数学推理的能力仍未得到充分探索。以往关于语音模态的研究主要集中在事实性语音理解或简单的音频推理任务上,对于逻辑性的逐步推理(如数学问题求解所需的那种推理)提供的见解有限。为了弥补这一差距,我们引入了Spoken Math Question Answering(Spoken-MQA),这是一个新的基准,旨在评估基于语音的模型的数学推理能力,包括级联模型(ASR + LLMs)和端到端语音LLMs。Spoken-MQA涵盖了各种数学问题,包括纯算术、单步和多步情境推理以及知识导向的推理问题,所有问题都以明确的自然口语呈现。通过大量的实验,我们发现:(1)虽然一些语音LLMs在涉及基本算术的情境推理任务中表现出竞争力,但它们仍然难以解决直接的算术问题;(2)当前的LLMs对以LaTex编写的符号数学表达式表现出强烈的偏见,并且难以解释口头表达的数学表达式;(3)当前语音LLMs的数学知识推理能力显著下降。

🔬 方法详解

问题定义:论文旨在解决语音模型在数学推理能力评估方面存在的空白。现有方法主要集中在文本或图像模态的数学推理,缺乏针对语音输入的全面评估基准。现有语音模型在处理数学问题时,尤其是在直接算术、知识推理以及理解口头数学表达式方面存在明显不足。

核心思路:论文的核心思路是构建一个包含多种类型数学问题的语音数据集(Spoken-MQA),并利用该数据集来系统地评估现有语音模型(包括级联模型和端到端模型)的数学推理能力。通过分析模型在不同类型问题上的表现,揭示其在语音数学推理方面的优势和局限性。

技术框架:Spoken-MQA基准包含以下几个关键组成部分:1) 多样化的数学问题集,涵盖纯算术、单步/多步情境推理和知识导向推理;2) 自然口语形式的问题描述,避免歧义;3) 评估指标,用于衡量模型在不同类型问题上的准确率。研究人员可以使用Spoken-MQA来评估各种语音模型,包括基于自动语音识别(ASR)的级联模型(ASR + LLM)和端到端语音LLM。

关键创新:该论文的主要创新在于提出了Spoken-MQA,这是首个专门用于评估语音模型在多方面数学问题上推理能力的基准。与以往侧重于事实性语音理解或简单音频推理的研究不同,Spoken-MQA关注逻辑性的逐步推理,更贴近实际数学问题求解的需求。

关键设计:Spoken-MQA数据集的设计考虑了以下关键因素:1) 问题类型的多样性,确保覆盖不同难度的数学推理任务;2) 口语表达的自然性,避免使用过于正式或复杂的语言;3) 问题的明确性,确保每个问题只有一个正确答案。此外,论文还分析了现有LLM对LaTeX数学表达式的偏好,并强调了口语数学表达式理解的重要性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,虽然一些语音LLM在情境推理任务中表现出竞争力,但它们在直接算术问题和知识推理问题上仍然存在显著差距。此外,实验还揭示了现有LLM对LaTeX数学表达式的强烈偏见,以及在理解口语数学表达式方面的困难。这些发现为未来语音数学推理模型的设计提供了重要的指导。

🎯 应用场景

该研究成果可应用于开发语音辅助数学学习工具,例如智能语音辅导系统,帮助学生通过口语交互解决数学问题。此外,该基准的提出将促进语音模型在数学推理领域的进一步发展,推动相关技术在教育、科研等领域的应用。

📄 摘要(原文)

Recent advances in large language models (LLMs) and multimodal LLMs (MLLMs) have led to strong reasoning ability across a wide range of tasks. However, their ability to perform mathematical reasoning from spoken input remains underexplored. Prior studies on speech modality have mostly focused on factual speech understanding or simple audio reasoning tasks, providing limited insight into logical step-by-step reasoning, such as that required for mathematical problem solving. To address this gap, we introduce Spoken Math Question Answering (Spoken-MQA), a new benchmark designed to evaluate the mathematical reasoning capabilities of speech-based models, including both cascade models (ASR + LLMs) and end-to-end speech LLMs. Spoken-MQA covers a diverse set of math problems, including pure arithmetic, single-step and multi-step contextual reasoning, and knowledge-oriented reasoning problems, all presented in unambiguous natural spoken language. Through extensive experiments, we find that: (1) while some speech LLMs perform competitively on contextual reasoning tasks involving basic arithmetic, they still struggle with direct arithmetic problems; (2) current LLMs exhibit a strong bias toward symbolic mathematical expressions written in LaTex and have difficulty interpreting verbalized mathematical expressions; and (3) mathematical knowledge reasoning abilities are significantly degraded in current speech LLMs.