Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback

作者: Guan-Ting Lin, Prashanth Gurunath Shivakumar, Aditya Gourav, Yile Gu, Ankur Gandhe, Hung-yi Lee, Ivan Bulyko

分类: cs.CL, eess.AS

发布日期: 2024-11-04 (更新: 2025-05-27)

备注: Accepted by ACL 2025

💡 一句话要点

Align-SLM：利用AI反馈强化学习提升无文本口语语言模型的语义一致性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 口语语言模型 无文本建模 强化学习 AI反馈 偏好优化 语义连贯性 直接偏好优化 语音生成

📋 核心要点

无文本口语语言模型在端到端语音到语音建模中展现潜力，但在语义连贯性和相关性方面落后于基于文本的大型语言模型。
Align-SLM框架利用AI反馈的强化学习，通过偏好优化来提升SLM的语义理解能力，从而生成更连贯的语音。
实验结果表明，Align-SLM在多个语音语义理解基准测试中取得了领先性能，验证了偏好优化对提升SLM语义的重要性。

📝 摘要（中文）

本文提出Align-SLM框架，利用受AI反馈强化学习(RLAIF)启发的偏好优化，增强无文本口语语言模型(SLM)的语义理解能力。该方法从给定的提示生成多个语音延续，并使用语义指标创建直接偏好优化(DPO)的偏好数据。在ZeroSpeech 2021基准测试（用于词汇和句法建模）、StoryCloze数据集的口语版本（用于语义连贯性）以及其他语音生成指标（包括GPT4-o评分和人工评估）上评估了该框架。实验结果表明，该方法在大多数基准测试中实现了SLM的最先进性能，突出了偏好优化在提高SLM语义方面的重要性。

🔬 方法详解

问题定义：现有的无文本口语语言模型(SLM)在语义连贯性和相关性方面表现不足，无法生成语义上合理且符合上下文的语音。现有方法缺乏有效的语义优化机制，导致生成的语音在语义层面与人类的预期存在差距。

核心思路：本文的核心思路是利用AI反馈的强化学习，通过偏好优化来提升SLM的语义理解能力。具体来说，通过生成多个语音延续，并基于语义指标构建偏好数据，然后使用直接偏好优化(DPO)来训练SLM，使其能够生成更符合人类偏好的语音。

技术框架：Align-SLM框架包含以下主要步骤：1) 给定一个语音提示，SLM生成多个可能的语音延续。2) 使用语义指标（例如，基于预训练语言模型的语义相似度）对这些延续进行评分。3) 基于这些评分构建偏好数据，即哪些延续更符合语义。4) 使用直接偏好优化(DPO)算法，根据偏好数据微调SLM，使其能够生成更符合人类偏好的语音。

关键创新：最重要的技术创新点在于将AI反馈的强化学习应用于无文本口语语言模型的语义优化。与传统的基于文本的语言模型不同，Align-SLM直接在语音空间进行优化，无需文本转录，从而避免了文本信息的损失。此外，使用DPO算法能够更有效地利用偏好数据来训练模型。

关键设计：在生成语音延续时，可以使用不同的采样策略来增加多样性。语义指标的选择至关重要，需要选择能够准确反映语义相似度和连贯性的指标。DPO算法中的超参数需要仔细调整，以平衡模型的探索和利用。此外，损失函数的设计也需要考虑如何更好地利用偏好数据来优化模型。

🖼️ 关键图片

📊 实验亮点

Align-SLM在ZeroSpeech 2021和StoryCloze数据集的口语版本上取得了最先进的性能。在StoryCloze数据集上，Align-SLM的准确率显著优于其他SLM模型，表明其在语义连贯性方面具有显著优势。此外，GPT4-o评分和人工评估也表明Align-SLM生成的语音在语义质量方面有所提升。

🎯 应用场景

Align-SLM框架可应用于语音助手、语音翻译、语音生成等领域。通过提升口语语言模型的语义理解能力，可以生成更自然、更流畅、更符合上下文的语音，从而改善人机交互体验。该研究还有助于开发更智能的语音对话系统和语音创作工具。

📄 摘要（原文）

While textless Spoken Language Models (SLMs) have shown potential in end-to-end speech-to-speech modeling, they still lag behind text-based Large Language Models (LLMs) in terms of semantic coherence and relevance. This work introduces the Align-SLM framework, which leverages preference optimization inspired by Reinforcement Learning with AI Feedback (RLAIF) to enhance the semantic understanding of SLMs. Our approach generates multiple speech continuations from a given prompt and uses semantic metrics to create preference data for Direct Preference Optimization (DPO). We evaluate the framework using ZeroSpeech 2021 benchmarks for lexical and syntactic modeling, the spoken version of the StoryCloze dataset for semantic coherence, and other speech generation metrics, including the GPT4-o score and human evaluation. Experimental results show that our method achieves state-of-the-art performance for SLMs on most benchmarks, highlighting the importance of preference optimization to improve the semantics of SLMs.

Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理