TextReg: Mitigating Prompt Distributional Overfitting via Regularized Text-Space Optimization

📄 arXiv: 2605.21318v1 📥 PDF

作者: Lucheng Fu, Ye Yu, Yiyang Wang, Yiqiao Jin, Haibo Jin, B. Aditya Prakash, Haohan Wang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-20

备注: Code: https://github.com/luchengfu6/TextReg


💡 一句话要点

TextReg:通过正则化文本空间优化缓解提示分布过拟合

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 提示工程 分布外泛化 正则化 文本空间优化 大型语言模型

📋 核心要点

  1. 现有提示优化方法易导致提示过拟合训练数据,泛化能力差,尤其是在分布外数据上。
  2. TextReg通过正则化文本空间优化,控制提示的表示效率,避免容量成本和范围狭窄性的耦合增长。
  3. 实验表明,TextReg在多个推理基准测试中显著提升了分布外泛化能力,性能提升显著。

📝 摘要(中文)

大型语言模型(LLMs)对用于指定任务目标和行为约束的提示非常敏感。许多最新的提示优化方法迭代地使用LLM生成的反馈来重写提示,但由此产生的提示通常变得更长,积累了狭窄的特定于样本的规则,并且在训练分布之外泛化能力较差。我们将这种失效模式研究为提示分布过拟合,并认为它反映了离散文本空间优化中缺乏表示控制。我们通过表示效率(一种双因素度量,将提示效率分解为容量成本和范围狭窄性)来形式化这一观点,将分布提示过拟合归因于它们在优化过程中的耦合增长。我们提出了TextReg,一个通过正则化文本梯度实现软惩罚目标的正则化框架,结合了双证据梯度净化、语义编辑正则化和正则化引导的提示更新。在多个推理基准测试中,TextReg显著提高了分布外(OOD)泛化能力,相对于TextGrad提高了高达+11.8%的准确率,相对于REVOLVE提高了+16.5%的准确率。

🔬 方法详解

问题定义:现有基于LLM反馈的提示优化方法,如TextGrad和REVOLVE,容易生成过长的、包含过多样本特定规则的提示,导致提示分布过拟合,在训练集之外的数据上表现不佳。这些方法缺乏对提示表示的有效控制,使得模型学习到的提示过于依赖训练数据,无法很好地泛化到新的场景。

核心思路:TextReg的核心思路是通过正则化文本空间优化来缓解提示分布过拟合。它认为提示的低效性体现在两个方面:容量成本(提示的长度和复杂度)和范围狭窄性(提示覆盖的样本范围)。通过对这两个方面进行正则化,可以避免提示在优化过程中过度增长,从而提高泛化能力。

技术框架:TextReg包含三个主要模块:双证据梯度净化(Dual-Evidence Gradient Purification)、语义编辑正则化(Semantic Edit Regularization)和正则化引导的提示更新(Regularization-Guided Prompt Update)。首先,双证据梯度净化用于过滤掉LLM反馈中的噪声,提高梯度估计的准确性。然后,语义编辑正则化通过限制提示的语义变化范围,防止提示过度适应训练数据。最后,正则化引导的提示更新结合了梯度信息和正则化项,以生成更有效和泛化的提示。

关键创新:TextReg的关键创新在于提出了一个正则化框架,用于控制提示的表示效率,从而缓解提示分布过拟合。与现有方法不同,TextReg不仅关注提示的性能,还关注提示的复杂度和泛化能力。通过引入双因素度量(容量成本和范围狭窄性),TextReg能够更全面地评估提示的质量,并指导提示的优化过程。

关键设计:TextReg的关键设计包括:1) 双证据梯度净化,利用多个LLM反馈来提高梯度估计的鲁棒性;2) 语义编辑正则化,通过计算提示之间的语义相似度来限制提示的变化范围;3) 正则化引导的提示更新,使用正则化项来惩罚提示的复杂度和范围狭窄性。具体的损失函数包括一个性能损失项和一个正则化损失项,其中正则化损失项由容量成本和范围狭窄性两部分组成。参数设置方面,需要调整正则化系数,以平衡性能和泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TextReg在多个推理基准测试中显著提高了分布外泛化能力。例如,在某些任务上,TextReg相对于TextGrad提高了高达+11.8%的准确率,相对于REVOLVE提高了+16.5%的准确率。这些结果表明,TextReg能够有效地缓解提示分布过拟合,并提高LLM在实际应用中的性能。

🎯 应用场景

TextReg可应用于各种需要提示工程的自然语言处理任务,例如问答、文本生成和文本分类。该方法能够提高LLM在实际应用中的鲁棒性和可靠性,尤其是在面对分布外数据时。未来,TextReg可以扩展到其他类型的提示,例如视觉提示和多模态提示,从而进一步提高LLM的泛化能力。

📄 摘要(原文)

Large language models (LLMs) are highly sensitive to the prompts used to specify task objectives and behavioral constraints. Many recent prompt optimization methods iteratively rewrite prompts using LLM-generated feedback, but the resulting prompts often become longer, accumulate narrow sample-specific rules, and generalize poorly beyond the training distribution. We study this failure mode as prompt distributional overfitting and argue that it reflects a lack of representation control in discrete text-space optimization. We formalize this view through representational inefficiency, a dual-factor measure that decomposes prompt inefficiency into capacity cost and scope narrowness, attributing distributional prompt overfitting to their coupled growth during optimization. We propose TextReg, a regularization framework that realizes a soft-penalty objective through regularized textual gradients, combining Dual-Evidence Gradient Purification, Semantic Edit Regularization, and Regularization-Guided Prompt Update. Across multiple reasoning benchmarks, TextReg substantially improves out-of-distribution (OOD) generalization, with accuracy gains of up to +11.8% over TextGrad and +16.5% over REVOLVE.