TextReg: Mitigating Prompt Distributional Overfitting via Regularized Text-Space Optimization

作者: Lucheng Fu, Ye Yu, Yiyang Wang, Yiqiao Jin, Haibo Jin, B. Aditya Prakash, Haohan Wang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-20

备注: Code: https://github.com/luchengfu6/TextReg

💡 一句话要点

TextReg：通过正则化文本空间优化缓解提示分布过拟合

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 提示工程 分布外泛化 正则化 文本空间优化 大型语言模型

📋 核心要点

现有提示优化方法易导致提示过拟合训练数据，泛化能力差，尤其是在分布外数据上。
TextReg通过正则化文本空间优化，控制提示的表示效率，避免容量成本和范围狭窄性的耦合增长。
实验表明，TextReg在多个推理基准测试中显著提升了分布外泛化能力，性能提升显著。

📝 摘要（中文）

大型语言模型（LLMs）对用于指定任务目标和行为约束的提示非常敏感。许多最新的提示优化方法迭代地使用LLM生成的反馈来重写提示，但由此产生的提示通常变得更长，积累了狭窄的特定于样本的规则，并且在训练分布之外泛化能力较差。我们将这种失效模式研究为提示分布过拟合，并认为它反映了离散文本空间优化中缺乏表示控制。我们通过表示效率（一种双因素度量，将提示效率分解为容量成本和范围狭窄性）来形式化这一观点，将分布提示过拟合归因于它们在优化过程中的耦合增长。我们提出了TextReg，一个通过正则化文本梯度实现软惩罚目标的正则化框架，结合了双证据梯度净化、语义编辑正则化和正则化引导的提示更新。在多个推理基准测试中，TextReg显著提高了分布外（OOD）泛化能力，相对于TextGrad提高了高达+11.8%的准确率，相对于REVOLVE提高了+16.5%的准确率。

🔬 方法详解

问题定义：现有基于LLM反馈的提示优化方法，如TextGrad和REVOLVE，容易生成过长的、包含过多样本特定规则的提示，导致提示分布过拟合，在训练集之外的数据上表现不佳。这些方法缺乏对提示表示的有效控制，使得模型学习到的提示过于依赖训练数据，无法很好地泛化到新的场景。

核心思路：TextReg的核心思路是通过正则化文本空间优化来缓解提示分布过拟合。它认为提示的低效性体现在两个方面：容量成本（提示的长度和复杂度）和范围狭窄性（提示覆盖的样本范围）。通过对这两个方面进行正则化，可以避免提示在优化过程中过度增长，从而提高泛化能力。

技术框架：TextReg包含三个主要模块：双证据梯度净化（Dual-Evidence Gradient Purification）、语义编辑正则化（Semantic Edit Regularization）和正则化引导的提示更新（Regularization-Guided Prompt Update）。首先，双证据梯度净化用于过滤掉LLM反馈中的噪声，提高梯度估计的准确性。然后，语义编辑正则化通过限制提示的语义变化范围，防止提示过度适应训练数据。最后，正则化引导的提示更新结合了梯度信息和正则化项，以生成更有效和泛化的提示。

关键创新：TextReg的关键创新在于提出了一个正则化框架，用于控制提示的表示效率，从而缓解提示分布过拟合。与现有方法不同，TextReg不仅关注提示的性能，还关注提示的复杂度和泛化能力。通过引入双因素度量（容量成本和范围狭窄性），TextReg能够更全面地评估提示的质量，并指导提示的优化过程。

关键设计：TextReg的关键设计包括：1) 双证据梯度净化，利用多个LLM反馈来提高梯度估计的鲁棒性；2) 语义编辑正则化，通过计算提示之间的语义相似度来限制提示的变化范围；3) 正则化引导的提示更新，使用正则化项来惩罚提示的复杂度和范围狭窄性。具体的损失函数包括一个性能损失项和一个正则化损失项，其中正则化损失项由容量成本和范围狭窄性两部分组成。参数设置方面，需要调整正则化系数，以平衡性能和泛化能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TextReg在多个推理基准测试中显著提高了分布外泛化能力。例如，在某些任务上，TextReg相对于TextGrad提高了高达+11.8%的准确率，相对于REVOLVE提高了+16.5%的准确率。这些结果表明，TextReg能够有效地缓解提示分布过拟合，并提高LLM在实际应用中的性能。

🎯 应用场景

TextReg可应用于各种需要提示工程的自然语言处理任务，例如问答、文本生成和文本分类。该方法能够提高LLM在实际应用中的鲁棒性和可靠性，尤其是在面对分布外数据时。未来，TextReg可以扩展到其他类型的提示，例如视觉提示和多模态提示，从而进一步提高LLM的泛化能力。

📄 摘要（原文）

Large language models (LLMs) are highly sensitive to the prompts used to specify task objectives and behavioral constraints. Many recent prompt optimization methods iteratively rewrite prompts using LLM-generated feedback, but the resulting prompts often become longer, accumulate narrow sample-specific rules, and generalize poorly beyond the training distribution. We study this failure mode as prompt distributional overfitting and argue that it reflects a lack of representation control in discrete text-space optimization. We formalize this view through representational inefficiency, a dual-factor measure that decomposes prompt inefficiency into capacity cost and scope narrowness, attributing distributional prompt overfitting to their coupled growth during optimization. We propose TextReg, a regularization framework that realizes a soft-penalty objective through regularized textual gradients, combining Dual-Evidence Gradient Purification, Semantic Edit Regularization, and Regularization-Guided Prompt Update. Across multiple reasoning benchmarks, TextReg substantially improves out-of-distribution (OOD) generalization, with accuracy gains of up to +11.8% over TextGrad and +16.5% over REVOLVE.

TextReg: Mitigating Prompt Distributional Overfitting via Regularized Text-Space Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理