Human Speech Perception in Noise: Can Large Language Models Paraphrase to Improve It?

📄 arXiv: 2408.04029v1 📥 PDF

作者: Anupama Chingacham, Miaoran Zhang, Vera Demberg, Dietrich Klakow

分类: cs.CL

发布日期: 2024-08-07

备注: Accepted at HuCLLM @ ACL 2024


💡 一句话要点

提出Prompt-and-Select方法,利用大语言模型生成更易于噪声环境下理解的语音释义。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 语音感知 噪声环境 文本释义 Prompt工程

📋 核心要点

  1. 现有方法难以利用大语言模型生成在噪声环境下更易理解的语音释义,缺乏对非文本属性的有效控制。
  2. 提出Prompt-and-Select方法,解耦文本和非文本属性,先生成候选释义,再选择声学可理解性高的版本。
  3. 实验表明,该方法在-5dB信噪比下,使人类语音感知能力相对提高了40%,验证了其有效性。

📝 摘要(中文)

本文研究了大语言模型(LLMs)在生成声学可理解释义方面的能力,旨在改善噪声环境中的人类语音感知。尽管LLMs可以根据指令生成具有特定风格属性(如正式或非正式)的文本,但如何指示LLMs生成在声学困难环境中更易理解的文本,这一问题尚未得到充分探索。本文首次评估了LLMs在生成声学可理解释义这一新任务上的表现。实验表明,使用标准prompting方法时,LLMs难以控制非文本属性(即声学可理解性),但能有效捕捉语义等文本属性。为此,本文提出了一种简单的prompting方法,即prompt-and-select,通过解耦文本生成流程中所需的文本和非文本属性来生成释义。该方法在信噪比为-5 dB的babble噪声环境下,通过释义高度失真的语句,使人类语音感知能力相对提高了40%。这项研究揭示了LLMs在捕捉非文本属性方面的局限性,并展示了使用LLMs改善噪声环境下人类语音感知的潜力。

🔬 方法详解

问题定义:论文旨在解决噪声环境下人类语音感知困难的问题。现有方法难以利用大语言模型生成在噪声环境下更易理解的语音释义,因为标准prompting方法难以有效控制非文本属性,例如声学可理解性。直接让LLM生成“更易理解”的文本,效果不佳。

核心思路:论文的核心思路是将文本生成过程中的文本属性(如语义相似性)和非文本属性(如声学可理解性)解耦。先利用LLM生成多个语义相似的候选释义,然后通过某种方式(例如,通过语音识别模型预测的可理解性得分)选择声学可理解性最高的释义。这样可以将LLM擅长的文本生成能力和外部评估指标结合起来。

技术框架:整体流程包含两个主要阶段:1) Prompting阶段:使用LLM(例如,GPT-3)根据原始句子生成多个释义。Prompt的设计需要保证释义的语义与原始句子尽可能相似。2) 选择阶段:对生成的多个释义进行评估,选择声学可理解性最高的释义。评估方法可以是基于语音识别模型的预测,也可以是人工评估。论文中使用了基于语音识别模型的自动评估方法。

关键创新:关键创新在于Prompt-and-Select的解耦思想,将复杂的“生成易于理解的文本”任务分解为“生成语义相似的文本”和“选择易于理解的文本”两个子任务。这使得可以利用LLM强大的文本生成能力,同时通过外部评估指标来控制非文本属性。

关键设计:Prompt的设计至关重要,需要保证生成的释义在语义上与原始句子尽可能相似,同时在词汇、句法等方面有一定的变化,以便提高声学可理解性。选择阶段的评估指标也很重要,需要能够准确反映释义在噪声环境下的可理解程度。论文中使用语音识别模型的置信度作为评估指标。具体来说,使用预训练的语音识别模型对释义进行识别,并计算识别结果的置信度得分,选择置信度得分最高的释义。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用Prompt-and-Select方法,在-5dB信噪比的babble噪声环境下,人类语音感知能力相对提高了40%。这表明该方法能够有效改善噪声环境下的语音可理解性。此外,实验还分析了不同prompting策略对结果的影响,并验证了该方法在不同噪声类型下的泛化能力。

🎯 应用场景

该研究成果可应用于各种噪声环境下的语音通信场景,例如嘈杂的工厂、车辆内部、公共交通工具等。通过自动生成更易于理解的语音释义,可以提高语音通信的可靠性和效率,减少误解和错误。此外,该方法还可以应用于语音助手、智能客服等领域,提高其在噪声环境下的可用性。

📄 摘要(原文)

Large Language Models (LLMs) can generate text by transferring style attributes like formality resulting in formal or informal text. However, instructing LLMs to generate text that when spoken, is more intelligible in an acoustically difficult environment, is an under-explored topic. We conduct the first study to evaluate LLMs on a novel task of generating acoustically intelligible paraphrases for better human speech perception in noise. Our experiments in English demonstrated that with standard prompting, LLMs struggle to control the non-textual attribute, i.e., acoustic intelligibility, while efficiently capturing the desired textual attributes like semantic equivalence. To remedy this issue, we propose a simple prompting approach, prompt-and-select, which generates paraphrases by decoupling the desired textual and non-textual attributes in the text generation pipeline. Our approach resulted in a 40% relative improvement in human speech perception, by paraphrasing utterances that are highly distorted in a listening condition with babble noise at a signal-to-noise ratio (SNR) -5 dB. This study reveals the limitation of LLMs in capturing non-textual attributes, and our proposed method showcases the potential of using LLMs for better human speech perception in noise.