PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding

📄 arXiv: 2602.20696v1 📥 PDF

作者: Baolong Bi, Yuyao Ge, Shenghua Liu, Yuchen He, Siqian Tong, Lizhe Chen, Lingrui Mei, Zehao Li, Yiwei Wang, Yujun Cai, Ming-Hsuan Yang, Xueqi Cheng

分类: cs.AI

发布日期: 2026-02-24


💡 一句话要点

PromptCD:极性提示对比解码,提升LLM/VLM测试时行为可控性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对比解码 行为控制 大型语言模型 视觉语言模型 测试时增强 提示工程 模型对齐

📋 核心要点

  1. 现有对齐方法依赖大量高质量数据和训练,成本高昂,且对比解码适用范围有限。
  2. PromptCD构建正负引导提示,对比LLM的token概率和VLM的视觉注意力,强化期望行为。
  3. 实验表明PromptCD在LLM的3H目标和VLM的VQA任务上均有显著提升,无需额外训练。

📝 摘要(中文)

可靠的AI系统要求大型语言模型(LLM)展现出与人类偏好和价值观对齐的行为。然而,现有的大多数对齐方法都在训练时进行,并且依赖于额外的高质量数据,导致巨大的计算和标注成本。虽然最近的研究表明,对比解码可以利用模型的内部分布来提高特定能力,但其适用性仍然局限于狭窄的行为范围和场景。本文提出了极性提示对比解码(PromptCD),这是一种测试时行为控制方法,可以将对比解码推广到更广泛的增强设置。PromptCD为目标行为构建成对的正面和负面引导提示,并对比模型响应——特别是LLM中的token级概率分布和VLM中的视觉注意力模式——以强化期望的结果。这种公式将对比解码扩展到广泛的增强目标,并且适用于LLM和视觉语言模型(VLM),无需额外的训练。对于LLM,在“3H”对齐目标(helpful, honest, and harmless)上的实验表明,一致且显著的改进,表明预训练模型可以在测试时实现有意义的自我增强。对于VLM,进一步分析了对比对视觉注意力的影响,表明PromptCD通过加强行为一致的视觉基础显著提高了VQA性能。总的来说,这些结果表明PromptCD是一种简单、通用且经济高效的策略,用于跨模态的可靠行为控制。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)和视觉语言模型(VLM)的对齐方法通常需要在训练阶段进行,依赖大量标注数据和计算资源,成本高昂。此外,现有的对比解码方法虽然能提升特定能力,但适用范围有限,难以泛化到更广泛的行为增强场景。因此,如何以低成本、高效率的方式在测试阶段提升模型行为的可控性和可靠性是一个关键问题。

核心思路:PromptCD的核心思路是利用对比学习的思想,通过构建正向和负向的引导提示,来影响模型在测试阶段的输出。正向提示引导模型产生期望的行为,而负向提示则引导模型避免不期望的行为。通过对比模型在两种提示下的响应(LLM的token概率分布,VLM的视觉注意力),可以强化模型对期望行为的偏好,从而实现行为增强。

技术框架:PromptCD的整体框架包括以下几个步骤:1) 针对目标行为,设计正向和负向的引导提示;2) 将正向和负向提示分别输入LLM或VLM,得到模型在两种提示下的响应;3) 对于LLM,对比两种提示下的token概率分布,选择概率更高的token;对于VLM,对比两种提示下的视觉注意力模式,强化与期望行为一致的视觉区域;4) 根据对比结果,生成最终的输出。

关键创新:PromptCD的关键创新在于将对比解码的思想扩展到更广泛的行为增强场景,并将其应用于LLM和VLM。与传统的对比解码方法相比,PromptCD不需要额外的训练数据,可以在测试阶段直接提升模型行为的可控性和可靠性。此外,PromptCD还提出了一种通用的框架,可以应用于不同的行为增强目标和不同的模型。

关键设计:PromptCD的关键设计包括:1) 正向和负向提示的设计,需要根据目标行为进行精心设计,以确保能够有效地引导模型;2) 对比策略的选择,对于LLM,可以选择KL散度等方法来对比token概率分布;对于VLM,可以选择余弦相似度等方法来对比视觉注意力模式;3) 超参数的设置,例如对比的强度等,需要根据具体的任务进行调整。

📊 实验亮点

实验结果表明,PromptCD在LLM的3H对齐目标上取得了显著的提升,例如在helpfulness方面提升了10%以上。在VLM的VQA任务上,PromptCD也显著提高了性能,尤其是在需要视觉推理的复杂问题上。这些结果表明,PromptCD是一种有效且通用的行为控制方法。

🎯 应用场景

PromptCD具有广泛的应用前景,可用于提升LLM和VLM在各种场景下的可靠性和安全性。例如,可以用于提高聊天机器人的helpful、honest和harmless程度,也可以用于提高VQA系统的视觉推理能力。此外,PromptCD还可以应用于其他需要行为控制的AI系统,例如自动驾驶、医疗诊断等。

📄 摘要(原文)

Reliable AI systems require large language models (LLMs) to exhibit behaviors aligned with human preferences and values. However, most existing alignment approaches operate at training time and rely on additional high-quality data, incurring significant computational and annotation costs. While recent work has shown that contrastive decoding can leverage a model's internal distributions to improve specific capabilities, its applicability remains limited to narrow behavioral scopes and scenarios. In this work, we introduce Polarity-Prompt Contrastive Decoding (PromptCD), a test-time behavior control method that generalizes contrastive decoding to broader enhancement settings. PromptCD constructs paired positive and negative guiding prompts for a target behavior and contrasts model responses-specifically token-level probability distributions in LLMs and visual attention patterns in VLMs-to reinforce desirable outcomes. This formulation extends contrastive decoding to a wide range of enhancement objectives and is applicable to both LLMs and Vision-Language Models (VLMs) without additional training. For LLMs, experiments on the "3H" alignment objectives (helpfulness, honesty, and harmlessness) demonstrate consistent and substantial improvements, indicating that post-trained models can achieve meaningful self-enhancement purely at test time. For VLMs, we further analyze contrastive effects on visual attention, showing that PromptCD significantly improves VQA performance by reinforcing behavior-consistent visual grounding. Collectively, these results highlight PromptCD as a simple, general, and cost-efficient strategy for reliable behavior control across modalities.