Minimizing Modality Gap from the Input Side: Your Speech LLM Can Be a Prosody-Aware Text LLM

📄 arXiv: 2605.05927v2 📥 PDF

作者: Wenqian Cui, Xiao-Hui Li, Daxin Tan, Qiyong Zheng, Irwin King

分类: cs.CL, cs.SD, eess.AS

发布日期: 2026-05-07 (更新: 2026-05-08)

备注: Work in progress


💡 一句话要点

提出TextPro-SLM:通过输入端对齐策略缩小语音大模型模态鸿沟

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音大模型 模态鸿沟 韵律感知 多模态对齐 副语言理解 语音编码器

📋 核心要点

  1. 现有SLM主要关注输出端对齐,忽略了输入端语音特征与文本模型语义空间不匹配的本质矛盾,导致模态鸿沟难以消除。
  2. 提出TextPro-SLM架构,通过WhisperPro编码器将语音转化为同步的文本Token与韵律嵌入,使语音输入具备韵律感知能力。
  3. 实验证明该方法在3B和7B模型规模下均达到最低模态鸿沟,且在副语言理解任务中展现出极高的数据效率与性能优势。

📝 摘要(中文)

语音大语言模型(SLM)通常基于文本大语言模型(TLM)检查点构建,但仍面临显著的模态鸿沟问题。现有研究多侧重于输出端,试图使语音生成更接近文本,但效果有限。本文认为瓶颈在于输入端,并提出了TextPro-SLM。该模型通过WhisperPro编码器将语音输入转化为同步的文本Token与韵律嵌入,使语音输入更符合韵律感知文本大模型的处理范式。实验表明,TextPro-SLM在3B和7B规模下均实现了领先的模态鸿沟缩减,并在副语言理解任务中表现出色,且仅需约1,000小时的音频训练数据,证明了从输入端解决模态鸿沟的高效性。

🔬 方法详解

问题定义:现有SLM在将语音特征映射至文本LLM空间时存在严重的模态鸿沟。以往研究倾向于在输出端进行优化(如语音生成),但忽略了输入端语音信号缺乏韵律信息与文本语义解耦的问题,导致模型难以理解语音中的副语言特征。

核心思路:论文提出将语音输入“文本化”与“韵律化”。通过构建一个统一的语音编码器,使语音输入在进入LLM前即具备与文本模型兼容的语义表示,同时显式注入韵律嵌入,从而让语音模型像处理韵律感知文本一样处理语音。

技术框架:整体架构包含WhisperPro编码器和LLM主干。WhisperPro负责将原始语音转化为同步的文本Token序列和对应的韵律嵌入向量;LLM主干则在保持原有文本语义理解能力的基础上,通过微调学习如何融合这些韵律信息。

关键创新:核心创新在于将模态对齐的重心从输出端转移至输入端。通过引入韵律嵌入(Prosody Embeddings)作为语音的辅助输入,使得LLM能够直接感知语音中的情感、语调等副语言信息,而非仅仅依赖文本内容。

关键设计:模型设计上采用了轻量化的训练策略,仅需约1,000小时的音频数据即可完成对齐。通过特定的损失函数约束,确保韵律嵌入在保留副语言信息的同时,不会破坏LLM原有的语义理解能力,实现了语义与韵律的有效解耦与融合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TextPro-SLM在3B和7B参数规模下均实现了当前SLM领域最低的模态鸿沟指标。在副语言理解任务中,该模型展现了卓越的性能,且仅利用约1,000小时的音频数据进行训练,相比于需要海量数据的大规模预训练方法,其数据效率优势显著,验证了输入端对齐策略的有效性。

🎯 应用场景

该研究在智能语音助手、情感交互机器人及实时语音翻译领域具有重要价值。通过提升模型对语音中韵律、情感等副语言信息的理解能力,能够显著改善人机交互的自然度与共情能力,特别适用于需要精准捕捉说话人意图的复杂对话场景。

📄 摘要(原文)

Speech large language models (SLMs) are typically built from text large language model (TLM) checkpoints, yet they still suffer from a substantial modality gap. Prior work has mainly attempted to reduce this gap from the output side by making speech generation more text-like, but the gap remains. We argue that the key remaining bottleneck lies on the input side. We propose TextPro-SLM, an SLM that makes spoken input more closely resemble that of a prosody-aware text LLM. TextPro-SLM combines WhisperPro, a unified speech encoder that produces synchronized text tokens and prosody embeddings, with an LLM backbone trained to preserve the semantic capabilities of the original TLM while learning paralinguistic understanding. Experiments show that TextPro-SLM achieves the lowest modality gap among leading SLMs at both 3B and 7B scales, while also delivering strong overall performance on paralinguistic understanding tasks. These gains are achieved with only roughly 1,000 hours of LLM training audio, suggesting that reducing the modality gap from the input side is both effective and data-efficient.