Is Text All You Need? Text as a Universal Information Bottleneck for Speech LLMs
作者: Ming-Hao Hsu, Yuxuan Hu, Shujie Liu, Jinyu Li, Yan Lu, Zhizheng Wu
分类: cs.CL, eess.AS
发布日期: 2026-06-08
💡 一句话要点
提出Convex Gate以解决语音与语言模型的融合问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 语音识别 情感分析 多模态融合 大型语言模型 凸组合 信息流形 自回归解码
📋 核心要点
- 现有的语音到LLM接口在处理声学信号时面临标记对齐与连续表示之间的权衡,导致信息损失或性能下降。
- 本文提出的Convex Gate通过将语音表示约束在LLM的输入嵌入流形内,解决了信息丢失的问题,同时保持了连续性。
- C-Gate在ASR和情感识别任务中表现优异,LibriSpeech的字错误率相对提高了48.7%,展示了其强大的多任务性能。
📝 摘要(中文)
大型语言模型(LLMs)为语音理解提供了强大的推理基础,但将连续的声学信号整合到冻结的LLM中仍然面临挑战。现有的语音到LLM接口通常在两种极端之间运作:一种是强制近离散的标记对齐,虽然有利于转录,但会丢失副语言信息;另一种是学习不受约束的连续表示,可能偏离LLM的输入空间,降低自回归解码的效果。本文提出了Convex Gate(C-Gate),作为语音到LLM的桥梁,约束所有语音表示位于LLM的输入嵌入流形内。C-Gate在自动语音识别(ASR)和情感识别任务中表现出色,LibriSpeech的字错误率(WER)相对提高了48.7%,同时情感识别的准确率与单任务相当或更高。我们的分析揭示了一个关键见解:信息并不是由离散的标记身份携带,而是由嵌入空间中的时间分辨轨迹携带。
🔬 方法详解
问题定义:论文要解决的问题是如何有效地将连续的声学信号整合到大型语言模型中,现有方法在标记对齐和连续表示之间存在明显的不足,导致信息损失和性能下降。
核心思路:论文的核心解决思路是提出Convex Gate(C-Gate),通过将所有语音表示约束在LLM的输入嵌入流形内,确保兼容性并保持连续表达能力。
技术框架:整体架构包括一个C-Gate模块,该模块将每帧语音表示为标记嵌入的凸组合,确保与预训练LLM的兼容性。该框架能够有效地处理声学信号并进行多任务学习。
关键创新:最重要的技术创新点在于引入了凸组合的概念,使得语音表示不仅保持了连续性,还能在几何上与LLM的输入流形对齐,这与现有方法的离散标记身份截然不同。
关键设计:在设计中,C-Gate的参数设置和损失函数经过精心调整,以确保语音表示的几何结构与LLM的嵌入流形相匹配,优化了模型的性能。
🖼️ 关键图片
📊 实验亮点
在实验中,C-Gate在LibriSpeech数据集上实现了字错误率(WER)相对提高48.7%的显著提升,同时在情感识别任务中表现出色,准确率与单任务模型相当或更高。这些结果表明C-Gate在多任务学习中的有效性和潜力。
🎯 应用场景
该研究的潜在应用领域包括语音识别、情感分析和人机交互等。通过提高语音与语言模型的融合能力,C-Gate可以在多模态应用中发挥重要作用,提升用户体验和系统性能,未来可能推动智能助手和自动化客服等领域的发展。
📄 摘要(原文)
Large language models (LLMs) provide a powerful reasoning backbone for speech understanding, but integrating continuous acoustic signals into a frozen LLM remains challenging. Existing speech-to-LLM interfaces typically operate at two extremes: either enforcing near-discrete token alignment, which benefits transcription but loses paralinguistic information, or learning unconstrained continuous representations, which can drift away from the LLM's input space and degrade autoregressive decoding. In this work, we propose Convex Gate (C-Gate), a speech-to-LLM bridge that constrains all speech representations to lie within the LLM's input embedding manifold with an architectural convex-hull constraint. Concretely, each frame is represented as a convex combination of token embeddings, ensuring compatibility with the pretrained LLM while preserving continuous expressivity. Across automatic speech recognition (ASR) and emotion recognition, C-Gate achieves strong joint performance, improving LibriSpeech WER by up to 48.7% relative while matching or exceeding single-task emotion accuracy. Beyond performance, our analysis reveals a key insight: information is not carried by discrete token identities, but by time-resolved trajectories in the embedding space. Causal interventions confirm that both the trajectory structure and alignment to the pretrained embedding manifold are critical for performance. These results suggest that geometry, rather than token discreteness, is the fundamental design factor in speech-to-LLM interfaces, and provide a controlled regime for studying multimodal integration in frozen LLMs. We release the checkpoint, per-sample outputs, mechanism dumps, and intervention suite for replication.