DRO-InstructZero: Distributionally Robust Prompt Optimization for Large Language Models
作者: Yangyang Li
分类: cs.LG, cs.AI, cs.CL
发布日期: 2025-10-17
备注: Preprint. Under review at ICLR 2026. 11 pages, 2 figures
💡 一句话要点
DRO-InstructZero:面向大语言模型的分布鲁棒提示优化方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 提示学习 分布鲁棒优化 贝叶斯优化 零样本学习
📋 核心要点
- 现有提示搜索方法在分布偏移下性能下降,因为它们仅优化单一评估分布下的期望性能,缺乏鲁棒性。
- DRO-InstructZero将提示优化形式化为鲁棒贝叶斯优化,通过f-散度球定义模糊集,并最大化最坏情况下的期望效用。
- 实验表明,该方法在形式重写和代码调试等任务中显著提升了性能,同时在稳定任务中保持了原有水平。
📝 摘要(中文)
大语言模型对提示词的措辞高度敏感。然而,包括InstructZero在内的流行自动提示搜索方法,在分布偏移和对抗评估下性能通常会下降,因为它们优化的是单一评估分布下的期望性能。因此,在一个设置中有效的提示词经常无法迁移。为了解决这个问题,DRO-InstructZero将零样本提示优化形式化为鲁棒贝叶斯优化。具体来说,一个f-散度球定义了评估分布周围的一个模糊集,一个鲁棒的采集规则最大化了最坏情况下的期望效用,同时保留了贝叶斯搜索的查询效率。因此,搜索明确地针对分布偏移下的可靠性,而不是仅仅针对平均行为。实验遵循指令诱导协议,并在形式重写、代码调试和翻译中匹配查询预算。例如,在BIG-Bench的信息到正式重写任务中,准确率从61.3 +/- 0.7%提高到大约85-90%,绝对增益约为25-30个百分点。此外,自动调试在领域偏移下显示出约+25个百分点的增益。同时,因果关系等稳定任务保持在96%以上,表明在分布内的情况下没有损失。此外,改进在不同的散度选择和解码温度下是一致的。总的来说,DRO-InstructZero将分布鲁棒优化与提示学习联系起来,为真实世界不确定性下的可靠、可转移的提示对齐提供了一种即插即用的通用方法。
🔬 方法详解
问题定义:论文旨在解决大语言模型对提示词敏感,以及现有自动提示搜索方法在分布偏移下泛化能力差的问题。现有方法通常只关注在特定数据集上的平均性能,忽略了真实世界中数据分布的多样性和不确定性,导致提示词在新的、未知的分布上表现不佳。
核心思路:DRO-InstructZero的核心思路是将提示优化问题转化为一个分布鲁棒优化问题。它不是简单地优化在单个评估分布上的期望性能,而是考虑一个围绕评估分布的“模糊集”,并优化在这个模糊集下最坏情况的性能。这样可以提高提示词在不同分布上的鲁棒性和泛化能力。
技术框架:DRO-InstructZero采用鲁棒贝叶斯优化框架。首先,定义一个围绕评估分布的f-散度球,作为不确定性集合。然后,使用一个鲁棒的采集函数,该函数旨在最大化在不确定性集合中最坏情况下的期望效用。贝叶斯优化用于高效地搜索提示空间,找到能够抵抗分布偏移的提示词。整体流程包括:1) 定义评估分布和不确定性集合;2) 使用贝叶斯优化搜索提示词;3) 使用鲁棒采集函数评估提示词;4) 更新贝叶斯优化模型;5) 重复步骤2-4,直到达到查询预算。
关键创新:该方法最重要的创新点在于将分布鲁棒优化引入到提示学习中。与传统的提示搜索方法不同,DRO-InstructZero显式地考虑了分布偏移带来的不确定性,并优化了在最坏情况下的性能。这使得生成的提示词更加鲁棒,能够在不同的分布上保持良好的性能。
关键设计:关键设计包括:1) 使用f-散度来定义不确定性集合,可以选择不同的f-散度函数(如KL散度、JS散度等)来控制不确定性集合的大小和形状;2) 设计鲁棒采集函数,该函数需要能够有效地评估在不确定性集合中最坏情况下的性能;3) 使用贝叶斯优化来高效地搜索提示空间,减少查询次数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DRO-InstructZero在形式重写任务中,准确率从61.3%提升至85-90%,增益高达25-30个百分点。在自动代码调试任务中,领域偏移下的性能提升了约25个百分点。同时,在因果关系等稳定任务中,性能保持在96%以上,表明该方法在提升鲁棒性的同时,不会损害模型在原始分布上的性能。
🎯 应用场景
DRO-InstructZero可应用于各种需要大语言模型进行零样本或少样本学习的场景,尤其是在数据分布不稳定或存在领域偏移的情况下。例如,可以用于跨语言翻译、代码调试、文本生成等任务,提高模型在不同场景下的可靠性和泛化能力。该方法还有助于提升大语言模型在实际应用中的稳定性和安全性。
📄 摘要(原文)
Large language models are highly sensitive to prompt wording. However, popular automatic prompt search methods, including InstructZero, often degrade under distribution shift and adversarial evaluation because they optimize expected performance under a single evaluation distribution. Consequently, prompts that work in one setting frequently fail to transfer. To address this, DRO-InstructZero formulates zero-shot prompt optimization as robust Bayesian optimization. Specifically, an f-divergence ball defines an ambiguity set around the evaluation distribution, and a robust acquisition rule maximizes worst-case expected utility while retaining the query efficiency of Bayesian search. Therefore, the search explicitly targets reliability under distribution shift rather than average behavior alone. Experiments follow the instruction-induction protocol with matched query budgets across formality rewriting, code debugging, and translation. For example, on BIG-Bench informative-to-formal rewriting, accuracy improves from 61.3 +/- 0.7% to approximately 85-90%, yielding an absolute gain of about 25-30 points. Moreover, auto-debugging shows about +25-point gains under domain shift. Meanwhile, stable tasks such as cause-and-effect remain above 96%, indicating no loss on in-distribution cases. Furthermore, improvements are consistent across divergence choices and decoding temperatures. Overall, DRO-InstructZero connects distributionally robust optimization with prompt learning, offering a plug-and-play and general approach for reliable, transferable prompt alignment under real-world uncertainty.