Enhancing Speech Large Language Models through Reinforced Behavior Alignment

📄 arXiv: 2509.03526v1 📥 PDF

作者: Yansong Liu, Jiateng Li, Yuan Liu

分类: cs.CL, eess.AS

发布日期: 2025-08-25


💡 一句话要点

提出强化行为对齐框架以提升语音大语言模型性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音大语言模型 强化学习 行为对齐 自我合成 多模态任务 指令跟随 语音处理 智能助手

📋 核心要点

  1. 现有的语音大语言模型在指令跟随方面表现不如文本模型,尤其在处理动态用户语音时存在显著性能差距。
  2. 本文提出的强化行为对齐(RBA)框架,通过自我合成生成高质量对齐数据,利用强化学习对SpeechLMs进行行为对齐。
  3. 实验结果显示,RBA方法在指令跟随能力上超越传统蒸馏基线,并在口语问答和语音转文本任务中实现了最先进的性能。

📝 摘要(中文)

近年来,大语言模型(LLMs)的进展引发了将其语言能力扩展到其他模态的研究兴趣,催生了语音大语言模型(SpeechLMs)。然而,由于模态间的差异,这些模型在指令跟随方面仍存在显著性能差距。为了解决这一挑战,本文提出了强化行为对齐(RBA)框架,通过自我合成生成高保真对齐数据,并利用强化学习方法对SpeechLMs进行行为对齐。实验结果表明,该方法有效提升了SpeechLMs的指令跟随能力,超越了传统蒸馏基线,并可扩展至口语问答和语音转文本等任务,取得了在开放基准上的领先性能。

🔬 方法详解

问题定义:本文旨在解决语音大语言模型在指令跟随任务中由于模态差异导致的性能不足,现有方法依赖人工标注进行微调,效率低且效果有限。

核心思路:提出强化行为对齐(RBA)框架,通过自我合成生成高保真对齐数据,避免了对人工标注的依赖,利用强化学习对模型行为进行对齐,从而提升模型的语言生成能力。

技术框架:RBA框架主要包括两个阶段:第一阶段是通过强大的教师模型生成对齐数据,第二阶段是利用强化学习算法对SpeechLMs进行行为对齐,确保其输出与教师模型一致。

关键创新:RBA的核心创新在于自我合成数据生成和强化学习对齐策略的结合,这一方法与传统的监督微调方法本质上不同,能够有效提升模型在多模态任务中的表现。

关键设计:在实现过程中,采用了特定的损失函数来衡量模型输出与教师模型之间的差异,并设计了适应性学习率策略以优化训练过程,确保模型在动态环境中能够快速适应用户的语音输入。

📊 实验亮点

实验结果表明,RBA方法在指令跟随任务中显著提升了语音大语言模型的性能,超越了传统蒸馏基线,具体提升幅度达到了XX%。此外,该方法在口语问答和语音转文本任务中也取得了最先进的性能,展示了其广泛的适用性。

🎯 应用场景

该研究的潜在应用领域包括智能语音助手、自动语音识别系统和多模态交互平台等。通过提升语音大语言模型的指令跟随能力,能够显著改善用户体验,推动人机交互的智能化进程。未来,该技术还可能扩展到更多复杂的语音处理任务中,具有广泛的实际价值和影响力。

📄 摘要(原文)

The recent advancements of Large Language Models (LLMs) have spurred considerable research interest in extending their linguistic capabilities beyond text to other modalities, which leads to emergence of speech-based LLMs (SpeechLMs) with capability of processing user request in either speech or textual formats. However, owing to inter-modal discrepancies, these SpeechLMs still exhibit a significant performance gap compared to their text-based LLM counterparts in instruction-following, particularly when confronted with the dynamic and variable nature of user speech. To address this challenge, this paper introduces a framework termed Reinforced Behavior Alignment (RBA), designed to bolster the language generation proficiency of SpeechLMs. Instead of relying on supervised fine-tuning from human annotations, RBA employs a self-synthesis methodology to generate extensive, high-fidelity alignment data by a powerful teacher LLM. Then SpeechLMs is aligned its behavior with that of a teacher using a reinforcement learning-based approach. Experimental results demonstrate that this method effectively enhances the instruction-following capabilities of SpeechLMs that outperform conventional distillation baselines. Crucially, we demonstrate that RBA can be seamlessly extended to tasks such including spoken question answering and speech-to-text translation, attaining state-of-the-art performance on open benchmarks with only self-generated data.