Prompt-Based One-Shot Exact Length-Controlled Generation with LLMs

作者: Juncheng Xie, Hung-yi Lee

分类: cs.CL, cs.AI

发布日期: 2025-08-19

备注: 18 pages

💡 一句话要点

提出基于提示的一次性精确长度控制生成方法以解决LLMs文本生成问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文本生成 长度控制 提示工程 自然语言处理

📋 核心要点

现有方法在控制生成文本长度方面存在不足，模型常常无法准确遵循长度指令，导致生成结果不符合预期。
论文提出了一种基于提示的策略，通过附加倒计时标记和计数规则，使模型在生成文本时能够精确控制生成长度。
实验结果显示，使用倒计时提示后，GPT-4.1在严格长度合规性上显著提升，达到了95%以上，且保持了生成文本的质量。

📝 摘要（中文）

控制大型语言模型（LLMs）生成文本的长度仍然具有挑战性：模型常常无法准确遵循长度指令，导致生成的文本超出或不足预期长度。本文提出了一种基于提示的一次性策略，强制现成的LLM生成确切数量的标记（英文单词或中文字符），无需任何微调或迭代采样。该提示附加了倒计时标记和明确的计数规则，使模型在生成文本的同时进行计数。我们在四个设置上进行了评估：开放式生成（1-1000个标记）、XSUM摘要、MT-Bench-LI指令跟随和LIFEBENCH等长轨道。在MT-Bench-LI上，使用倒计时提示后，GPT-4.1的严格长度合规性从30%以下跃升至95%以上，超越了流行的草拟-再修订基线，同时保持了答案质量。这些结果表明，通过提示工程可以实现精确的长度控制，为训练或解码方法提供了一种轻量级替代方案。

🔬 方法详解

问题定义：本文旨在解决大型语言模型在生成文本时无法准确控制长度的问题。现有方法常常导致生成文本超出或不足预期长度，缺乏有效的内部计数机制。

核心思路：论文的核心思路是通过设计特定的提示，强制模型在生成文本的同时进行计数，从而实现精确的长度控制。这种方法不需要对模型进行微调或复杂的迭代采样。

技术框架：整体架构包括生成提示的设计和模型的调用。提示中包含倒计时标记和明确的计数规则，模型在生成过程中遵循这些规则进行文本生成。

关键创新：最重要的技术创新点在于通过提示工程实现精确的长度控制，这与现有的训练或解码方法有本质区别，提供了一种轻量级的解决方案。

关键设计：提示设计中包含倒计时标记和计数规则，这些设计使得模型能够在生成过程中实时进行长度计数，从而确保生成文本的长度符合预期。

📊 实验亮点

实验结果显示，使用倒计时提示后，GPT-4.1在MT-Bench-LI上的严格长度合规性从30%以下提升至95%以上，显著超越了传统的草拟-再修订基线，同时保持了生成文本的质量，展示了提示工程的有效性。

🎯 应用场景

该研究的潜在应用场景包括自动文本生成、摘要生成和指令遵循等领域。通过精确控制生成文本的长度，可以提高生成内容的质量和可用性，满足特定应用需求，具有重要的实际价值和未来影响。

📄 摘要（原文）

Controlling the length of text produced by large language models (LLMs) remains challenging: models frequently overshoot or undershoot explicit length instructions because they cannot reliably keep an internal token count. We present a prompt-based, one-shot strategy that compels an off-the-shelf LLM to generate exactly a desired number of tokens - words (English) or characters (Chinese) - without any fine-tuning or iterative sampling. The prompt appends countdown markers and explicit counting rules so that the model "writes while counting." We evaluate on four settings: open-ended generation (1-1000 tokens), XSUM summarization, MT-Bench-LI instruction following, and the LIFEBENCH equal-length track. On MT-Bench-LI, strict length compliance with GPT-4.1 leaps from below 30% under naive prompts to above 95% with our countdown prompt, surpassing the popular draft-then-revise baseline, while judged answer quality is preserved. These results show that precise length control can be achieved through prompt engineering alone, offering a lightweight alternative to training- or decoding-based methods.

Prompt-Based One-Shot Exact Length-Controlled Generation with LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册