Beyond Magic Words: Sharpness-Aware Prompt Evolving for Robust Large Language Models with TARE
作者: Guancheng Wan, Lucheng Fu, Haoxin Liu, Yiqiao Jin, Hui Yi Leong, Eric Hanchen Jiang, Hejia Geng, Jinhe Bi, Yunpu Ma, Xiangru Tang, B. Aditya Prakash, Yizhou Sun, Wei Wang
分类: cs.CL
发布日期: 2025-09-28 (更新: 2025-12-15)
备注: We have identified a critical methodological error in Section 3 of the manuscript, which invalidates the main results; therefore, we request withdrawal for further revision
💡 一句话要点
提出TARE框架,通过文本锐度感知的Prompt演化,提升大语言模型在语义扰动下的鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 Prompt优化 鲁棒性 文本锐度 对抗搜索
📋 核心要点
- 现有Prompt优化方法缺乏释义不变性和搜索稳定性,导致大语言模型对语义扰动敏感,鲁棒性不足。
- TARE框架通过对抗搜索和鲁棒选择交替进行,优化Prompt的文本锐度,提升模型在语义邻域内的性能。
- ATARE进一步学习各向异性权重,自适应调整语义邻域,在探索和保真度之间取得平衡,提升Prompt的鲁棒性。
📝 摘要(中文)
大语言模型(LLMs)的性能取决于精心设计的Prompt。然而,现有的Prompt优化方法,从启发式编辑、强化学习到进化搜索,主要关注点是点精度。它们很少强制执行释义不变性或搜索稳定性,因此实际上无法弥补这种脆弱性。自动Prompt搜索仍然很脆弱:小的、语义上保持不变的释义通常会导致大的性能波动。我们将这种脆弱性定义为Prompt landscape的文本锐度。在这项工作中,我们首次对Prompt的离散语义空间中的文本锐度进行了正式处理,并提出了一个基于语义邻域的可操作鲁棒性标准;该设计是黑盒或仅API的,不需要梯度来更新模型的参数。然后,我们引入TARE(文本锐度感知演化),这是一个无导数框架,它在内部的、基于采样的对抗搜索(用硬释义来强调Prompt)和外部的、鲁棒的选择(倾向于邻域保持强大的候选者)之间交替进行。我们进一步提出了ATARE,它学习各向异性权重来塑造语义邻域,并随时间调整其半径,以平衡探索和保真度。多样化的任务评估了我们的方法,其最小化文本锐度差距的设计导致Prompt在释义下保持准确性,优于仅关注准确性的Prompt搜索,同时保持计算上的可行性。
🔬 方法详解
问题定义:现有Prompt优化方法主要关注点精度,忽略了Prompt的鲁棒性,即在语义相似的Prompt变体下,模型性能的稳定性。这种对释义不变性的忽视导致模型容易受到微小的语义扰动影响,实际应用中表现出脆弱性。现有方法无法有效衡量和优化Prompt的鲁棒性。
核心思路:论文的核心思路是通过最小化Prompt的文本锐度来提升其鲁棒性。文本锐度指的是Prompt在语义空间中性能变化的剧烈程度。通过寻找在语义邻域内性能更稳定的Prompt,可以提高模型对语义扰动的抵抗能力。TARE框架通过对抗搜索寻找对Prompt构成挑战的释义,并选择在这些挑战下仍能保持良好性能的Prompt。
技术框架:TARE框架包含两个主要阶段:内部的对抗搜索和外部的鲁棒选择。对抗搜索阶段,通过采样生成Prompt的语义变体(释义),并选择性能最差的变体作为对抗样本。鲁棒选择阶段,根据Prompt及其对抗样本的性能,选择在语义邻域内表现更稳定的Prompt。这两个阶段交替进行,不断优化Prompt的鲁棒性。ATARE在TARE的基础上,引入了各向异性权重,用于塑造语义邻域,并自适应调整邻域半径。
关键创新:论文的关键创新在于提出了文本锐度的概念,并将其应用于Prompt优化。通过显式地最小化文本锐度,TARE框架能够找到对语义扰动更鲁棒的Prompt。ATARE的各向异性权重和自适应邻域半径进一步提升了框架的性能。与现有方法相比,TARE框架不需要梯度信息,适用于黑盒或仅API的大语言模型。
关键设计:对抗搜索阶段,使用基于采样的策略生成Prompt的释义。鲁棒选择阶段,使用一个鲁棒性指标来评估Prompt在语义邻域内的性能。ATARE中,各向异性权重用于调整不同语义方向上的邻域大小,自适应邻域半径根据优化过程中的性能变化进行调整。具体的损失函数设计和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TARE框架在多个任务上优于现有的Prompt优化方法。在释义攻击下,TARE框架能够显著提高Prompt的鲁棒性,同时保持甚至提升模型的准确率。ATARE通过自适应调整语义邻域,进一步提升了性能。
🎯 应用场景
该研究成果可应用于各种需要大语言模型参与的场景,尤其是在对模型鲁棒性有较高要求的领域,如智能客服、机器翻译、文本摘要等。通过优化Prompt的鲁棒性,可以提高模型在实际应用中的稳定性和可靠性,减少因语义扰动导致的错误。
📄 摘要(原文)
The performance of Large Language Models (LLMs) hinges on carefully engineered prompts. However, prevailing prompt optimization methods, ranging from heuristic edits and reinforcement learning to evolutionary search, primarily target point-wise accuracy. They seldom enforce paraphrase invariance or searching stability, and therefore cannot remedy this brittleness in practice. Automated prompt search remains brittle: small, semantically preserving paraphrases often cause large performance swings. We identify this brittleness as the textual sharpness of the prompt landscape. In this work, we provide the first formal treatment of textual sharpness in the discrete, semantic space of prompts, together with an operational robustness criterion over a semantic neighborhood; the design is black-box or API-only, requiring no gradients to update the model's parameters. Then we introduce TARE (Textual Sharpness-Aware Evolving), a derivative-free framework that alternates between an inner, sampling-based adversarial search that stresses a prompt with hard paraphrases and an outer, robust selection that prefers candidates whose neighborhoods remain strong. We further propose ATARE, which learns anisotropic weights to shape the semantic neighborhood and adapts its radius over time to balance exploration and fidelity. Diverse tasks evaluate our methods, whose design for minimizing textual sharpness gap leads to prompts that preserve accuracy under paraphrasing, outperforming accuracy-only prompt search while remaining computationally practical.