Multiplication in Multimodal LLMs: Computation with Text, Image, and Audio Inputs
作者: Samuel G. Balter, Ethan Jerzak, Connor T. Jerzak
分类: cs.CL
发布日期: 2026-04-20
备注: To appear in ACL Findings (2026)
💡 一句话要点
提出多模态乘法基准测试,揭示多模态LLM在算术计算中的能力瓶颈。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态LLM 算术计算 基准测试 算术负载 感知与计算分解
📋 核心要点
- 现有基准测试缺乏跨模态的系统配对实例,难以评估多模态LLM的算术能力。
- 提出一个受控的多模态乘法基准测试,系统性地改变数字特征和模态,并定义算术负载C作为性能预测指标。
- 实验表明,模型性能随算术负载C增长而下降,且多模态退化主要是计算性的而非感知性的。
📝 摘要(中文)
多模态大型语言模型(LLM)能够准确感知跨模态的数值内容,但在以数字、数字词、图像或音频形式呈现相同的算术问题时,却无法执行精确的多位数乘法。由于现有的基准测试通常缺乏跨模态的系统配对实例,因此难以比较模型系列内部和之间的真实算术能力。因此,我们引入了一个受控的多模态乘法基准测试,该基准测试以阶乘方式改变数字长度、数字稀疏度、表示形式(例如,数字与数字词)和模态(文本、渲染图像、音频),并具有来自可重现生成器的配对实例。我们还将算术负载C定义为总位数和非零位数乘积,作为操作计数的紧凑且具有机械动机的代理。在评估中,准确率随着C的增长而急剧下降,通常在C > 100时接近于零。事实上,C仍然可以预测跨模态和模型的性能,R-squared通常> 0.5,接近于计算中间算术步骤数量的更复杂算术负载度量的值。一个单独的感知与计算分解表明,多模态退化主要是计算性的,而不是感知性的:在匹配感知检查中,模型在跨模态中接近完美(> 99%),即使乘法准确率下降。除了衡量模型何时失败之外,我们还询问它们倾向于遵循哪些程序。我们引入了一种强制完成损失探针,该探针对特定于启发式的推理前缀进行评分——包括纵向乘法、分配分解和舍入/补偿。在这里,分解在文本和视觉模态中都受到青睐;特定于启发式的LoRA适配器产生近乎正交的更新,但会降低准确率,表明基本模型保持了良好调整的内部路由器。
🔬 方法详解
问题定义:论文旨在解决多模态LLM在执行跨模态算术计算时表现出的能力不足问题,尤其是在多位数乘法方面。现有基准测试缺乏系统性的跨模态配对实例,难以准确评估和比较不同模型在算术能力上的差异。此外,现有方法难以区分模型在感知和计算方面的瓶颈。
核心思路:论文的核心思路是构建一个可控的多模态乘法基准测试,通过系统性地改变数字的长度、稀疏度、表示形式(数字、文字)和模态(文本、图像、音频),来精确评估模型在不同条件下的算术能力。同时,引入算术负载C作为性能预测指标,并设计实验来区分感知和计算瓶颈。
技术框架:该研究的技术框架主要包括以下几个部分:1) 多模态乘法基准测试生成器:用于生成包含不同数字特征和模态的乘法问题实例。2) 算术负载C的定义:C被定义为总位数和非零位数乘积,用于量化算术计算的复杂度。3) 感知与计算分解实验:通过匹配感知检查,区分模型在感知和计算方面的性能。4) 强制完成损失探针:用于评估模型倾向于使用的算术策略(如纵向乘法、分配分解等)。
关键创新:该论文的关键创新在于:1) 提出了一个可控的多模态乘法基准测试,能够系统性地评估多模态LLM的算术能力。2) 定义了算术负载C,作为一个简单有效的性能预测指标。3) 设计了感知与计算分解实验,能够区分模型在感知和计算方面的瓶颈。4) 利用强制完成损失探针,分析了模型倾向于使用的算术策略。
关键设计:在基准测试设计中,论文考虑了数字长度、数字稀疏度、表示形式(数字、文字)和模态(文本、图像、音频)等因素,并进行了阶乘式的组合,以生成多样化的测试用例。算术负载C的定义简洁明了,易于计算,并且能够有效预测模型性能。感知与计算分解实验通过控制感知难度,来区分模型在感知和计算方面的性能差异。强制完成损失探针通过评估不同算术策略的损失,来分析模型倾向于使用的策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,模型准确率随着算术负载C的增长而急剧下降,尤其是在C > 100时接近于零。算术负载C能够有效预测跨模态和模型的性能,R-squared通常> 0.5。感知与计算分解实验表明,多模态退化主要是计算性的而非感知性的。强制完成损失探针显示,分解策略在文本和视觉模态中更受青睐。
🎯 应用场景
该研究成果可应用于评估和提升多模态LLM在需要精确数值计算的场景中的性能,例如科学计算、金融分析、数据可视化等领域。通过分析模型的算术能力瓶颈,可以指导模型架构设计和训练策略优化,从而提高模型在实际应用中的可靠性和准确性。
📄 摘要(原文)
Multimodal LLMs can accurately perceive numerical content across modalities yet fail to perform exact multi-digit multiplication when the identical underlying arithmetic problem is presented as numerals, number words, images, or in audio form. Because existing benchmarks often lack systematically paired instances across modalities, it remains difficult to compare genuine arithmetic limits within and across model families. We therefore introduce a controlled multimodal multiplication benchmark that factorially varies digit length, digit sparsity, representation (e.g., numerals vs. number words), and modality (text, rendered images, audio), with paired instances from a reproducible generator. We also define arithmetic load, C, as the product of the total and non-zero digit count as a compact, mechanistically motivated proxy for operation count. Across evaluations, accuracy falls sharply as C grows, often nearing zero by C > 100. Indeed, C remains predictive of performance across modalities and models, with R-squared often > 0.5, nearing the value from more complex measures of arithmetic load that count the number of intermediate arithmetic steps. A separate perception-versus-computation decomposition shows that multimodal degradation is primarily computational rather than perceptual: on matched-perception checks, models are near-perfect (> 99%) across modalities, even when multiplication accuracy drops. Beyond measuring when models fail, we ask which procedures they are predisposed to follow. We introduce a forced-completion loss probe that scores heuristic-specific reasoning prefixes--including columnar multiplication, distributive decomposition, and rounding/compensation. Here, decomposition is favored in both text and vision modalities; heuristic-specific LoRA adapters produce near-orthogonal updates yet degrade accuracy, indicating the base model maintains a well-tuned internal router.