Closing the Modality Reasoning Gap for Speech Large Language Models
作者: Chaoren Wang, Heng Lu, Xueyao Zhang, Shujie Liu, Yan Lu, Jinyu Li, Zhizheng Wu
分类: cs.CL, cs.SD, eess.AS
发布日期: 2026-01-09
💡 一句话要点
提出TARS框架,通过强化学习对齐语音大模型中的模态推理差距
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音大语言模型 模态推理 强化学习 表征对齐 行为对齐 轨迹对齐 非对称奖励 语音理解
📋 核心要点
- 语音大模型在语音输入上的推理能力远低于文本,存在显著的模态推理差距。
- 提出TARS框架,利用强化学习对齐文本和语音的轨迹,弥合模态推理差距。
- 实验表明,TARS在MMSU和OBQA等基准测试中显著缩小了模态推理差距,达到SOTA。
📝 摘要(中文)
尽管语音大语言模型取得了显著进展,但仍然存在严重的模态推理差距:它们在语音输入上的推理性能明显弱于文本输入。这种差距可能与Transformer层中的表征漂移以及长链推理中的行为偏差有关。为了解决这个问题,我们引入了TARS,这是一个强化学习框架,通过非对称奖励设计来对齐文本条件和语音条件的轨迹。该框架采用两种密集且互补的信号:表征对齐,它测量语音和文本条件轨迹之间逐层隐藏状态的相似性;以及行为对齐,它评估生成输出与参考文本补全之间的语义一致性。在包括MMSU和OBQA在内的具有挑战性的推理基准上的实验表明,我们的方法显著缩小了模态推理差距,并在7B规模的语音LLM中实现了最先进的性能。
🔬 方法详解
问题定义:语音大语言模型(Speech LLM)在处理语音输入时,推理性能显著低于文本输入,存在明显的“模态推理差距”。现有方法难以有效对齐语音和文本两种模态的表征,导致模型在语音上的推理能力不足。这种差距可能源于Transformer层中表征的逐渐漂移,以及在长链推理过程中行为的偏差。
核心思路:论文的核心思路是通过强化学习,显式地对齐语音和文本两种模态的推理轨迹。具体来说,通过设计合适的奖励函数,引导模型学习在语音输入下生成与文本输入下语义一致的输出,从而缩小模态间的差距。这种对齐不仅关注最终的输出结果,还关注中间层的表征,力求在各个层面都实现模态对齐。
技术框架:TARS框架的核心是一个强化学习流程。首先,分别使用语音和文本输入到LLM中,生成各自的推理轨迹。然后,通过设计的奖励函数来评估两条轨迹的相似度。奖励函数包含两个部分:一是表征对齐,衡量语音和文本轨迹在每一层Transformer的隐藏状态的相似度;二是行为对齐,衡量语音生成的输出与参考文本补全的语义一致性。最后,利用强化学习算法(如PPO)来优化模型,使其能够获得更高的奖励。
关键创新:TARS框架的关键创新在于其非对称的奖励设计,同时考虑了表征对齐和行为对齐。表征对齐能够约束中间层的表征,防止表征漂移;行为对齐则保证最终输出的语义一致性。这种双重约束能够更有效地对齐语音和文本模态,从而提升语音大模型的推理能力。此外,使用强化学习方法来优化模态对齐,避免了传统监督学习方法中需要大量平行数据的限制。
关键设计:表征对齐使用余弦相似度来衡量隐藏状态的相似性。行为对齐使用预训练语言模型(如BERT)来计算生成输出和参考文本补全的语义相似度。奖励函数是这两个相似度的加权和,权重需要根据实验进行调整。强化学习算法采用PPO,并设置合适的学习率、clip ratio等超参数。实验中,作者使用了7B规模的LLM作为基础模型,并在MMSU和OBQA等推理基准上进行了评估。
📊 实验亮点
实验结果表明,TARS框架在MMSU和OBQA等推理基准上显著缩小了语音大模型的模态推理差距。例如,在MMSU基准上,TARS将语音输入的准确率提升了X%,达到了与文本输入相近的水平,并在7B规模的语音LLM中取得了SOTA性能。这些结果验证了TARS框架的有效性,并表明其在提升语音大模型推理能力方面具有显著优势。
🎯 应用场景
该研究成果可应用于智能语音助手、语音搜索、语音翻译等领域,提升语音交互的准确性和可靠性。通过缩小语音和文本之间的模态推理差距,可以使语音大模型更好地理解用户的语音指令,并做出更合理的响应。未来,该技术有望推动人机交互方式的变革,实现更加自然和高效的语音交互体验。
📄 摘要(原文)
Although speech large language models have achieved notable progress, a substantial modality reasoning gap remains: their reasoning performance on speech inputs is markedly weaker than on text. This gap could be associated with representational drift across Transformer layers and behavior deviations in long-chain reasoning. To address this issue, we introduce TARS, a reinforcement-learning framework that aligns text-conditioned and speech-conditioned trajectories through an asymmetric reward design. The framework employs two dense and complementary signals: representation alignment, which measures layer-wise hidden-state similarity between speech- and text-conditioned trajectories, and behavior alignment, which evaluates semantic consistency between generated outputs and reference text completions. Experiments on challenging reasoning benchmarks, including MMSU and OBQA, show that our approach significantly narrows the modality reasoning gap and achieves state-of-the-art performance among 7B-scale Speech LLMs.