Improving Structural Diversity of Blackbox LLMs via Chain-of-Specification Prompting

📄 arXiv: 2408.06186v1 📥 PDF

作者: Halley Young, Yimeng Zeng, Jacob Gardner, Osbert Bastani

分类: cs.CL, cs.LG

发布日期: 2024-08-12


💡 一句话要点

提出链式规范提示(CoS),提升黑盒LLM生成文本的结构多样性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本生成 多样性 链式规范提示 结构多样性 黑盒模型 提示工程

📋 核心要点

  1. 现有LLM生成文本多样性不足,用户难以控制多样性的维度,例如诗歌的韵律和代码的表达式。
  2. 提出链式规范提示(CoS),先让LLM生成结构特征规范,再生成满足这些规范的文本,提升多样性。
  3. 实验表明,在诗歌和代码领域,CoS显著提升了结构多样性,优于现有基线方法,且适用于黑盒LLM。

📝 摘要(中文)

生成多样化文本是大型语言模型(LLM)面临的关键挑战。目前,多样性研究主要通过n-gram多样性或BERT嵌入的多样性等指标进行。然而,用户对这些多样性的控制维度有限。例如,在诗歌领域,可能需要韵律和格律的多样性,而在代码领域,可能需要解决问题的表达式的多样性。本文提出了一种名为结构多样性的度量标准,用户可以提供从生成文本到特征的映射,以捕捉他们关心的多样性类型。此外,我们提出了一种名为链式规范(CoS)提示的新策略,通过首先让LLM生成一个编码结构特征实例的规范,然后提示LLM生成满足这些特征的文本来提高多样性;值得注意的是,我们的策略适用于黑盒LLM。在我们的实验中,我们表明,对于诗歌和代码领域的结构多样性,与几种基线相比,CoS显著提高了多样性。

🔬 方法详解

问题定义:论文旨在解决黑盒大型语言模型(LLM)生成文本时结构多样性不足的问题。现有方法通常使用n-gram或BERT嵌入等指标来衡量多样性,但用户无法有效控制多样性的维度,例如在诗歌生成中控制韵律,或在代码生成中控制表达式类型。这限制了LLM在特定领域的应用。

核心思路:论文的核心思路是引入“结构多样性”的概念,允许用户自定义多样性的衡量标准,并通过“链式规范提示(CoS)”来引导LLM生成满足特定结构特征的文本。CoS的核心在于先让LLM生成一个规范,该规范描述了期望的结构特征,然后提示LLM生成符合该规范的文本。这种方法使得用户可以更精确地控制生成文本的多样性。

技术框架:CoS prompting包含两个主要阶段:1) 规范生成阶段:LLM被提示生成一个规范,该规范定义了期望的结构特征。用户需要提供一个从生成文本到特征的映射函数,用于衡量文本的结构特征。2) 文本生成阶段:LLM被提示生成符合第一阶段生成的规范的文本。整个过程可以迭代进行,生成多个具有不同结构特征的文本。

关键创新:论文的关键创新在于提出了结构多样性的概念和链式规范提示(CoS)方法。结构多样性允许用户自定义多样性的衡量标准,而CoS方法则提供了一种有效的方式来引导LLM生成满足这些标准的多样化文本。与现有方法相比,CoS方法更灵活,更可控,并且适用于黑盒LLM。

关键设计:CoS prompting的关键在于prompt的设计。在规范生成阶段,prompt需要引导LLM生成清晰、明确的规范,能够准确描述期望的结构特征。在文本生成阶段,prompt需要引导LLM生成符合规范的文本,同时保持文本的流畅性和可读性。论文中没有提及具体的参数设置、损失函数或网络结构,因为该方法主要关注prompt的设计和使用,适用于各种黑盒LLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在诗歌和代码生成任务中,CoS方法显著提高了生成文本的结构多样性。与基线方法相比,CoS方法在多样性指标上取得了显著提升,证明了其有效性。此外,该方法适用于黑盒LLM,无需对模型进行微调,具有很强的实用性。

🎯 应用场景

该研究成果可应用于多种需要生成多样化文本的场景,例如:诗歌创作(生成不同韵律风格的诗歌)、代码生成(生成不同算法思路的代码)、故事创作(生成不同情节走向的故事)等。通过控制生成文本的结构特征,可以提高LLM在特定领域的应用价值,并为用户提供更个性化的生成体验。

📄 摘要(原文)

The capability to generate diverse text is a key challenge facing large language models (LLMs). Thus far, diversity has been studied via metrics such as $n$-gram diversity or diversity of BERT embeddings. However, for these kinds of diversity, the user has little control over the dimensions along which diversity is considered. For example, in the poetry domain, one might desire diversity in terms of rhyme and meter, whereas in the code domain, one might desire diversity in terms of the kinds of expressions used to solve a problem. We propose a diversity metric called structural diversity, where the user provides a mapping from generated text to features capturing the kinds of diversity that they care about. In addition, we propose a novel strategy called chain-of-specification (CoS) prompting for improving diversity by first having the LLM generate a specification encoding one instance of structural features, and then prompting the LLM to generate text that satisfies these features; notably, our strategy works with blackbox LLMs. In our experiments, we show that for structural diversity in the poetry and code domains, CoS significantly improves diversity compared to several baselines.