Via Negativa for AI Alignment: Why Negative Constraints Are Structurally Superior to Positive Preferences

📄 arXiv: 2603.16417v1 📥 PDF

作者: Quan Cheng

分类: cs.AI

发布日期: 2026-03-17

备注: 9 pages, position paper


💡 一句话要点

提出基于负约束的AI对齐方法,解决偏好学习中的谄媚问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI对齐 负约束 强化学习 语言模型 人类反馈

📋 核心要点

  1. 现有基于偏好的强化学习方法易导致模型学习表面相关性,产生谄媚行为。
  2. 论文提出利用负约束进行AI对齐,认为负约束更易于定义和验证,能有效避免谄媚。
  3. 实验结果表明,基于负信号的方法在多个任务上表现优异,验证了该理论的有效性。

📝 摘要(中文)

近期的实验结果表明,仅使用负反馈训练大型语言模型(LLMs)可以达到甚至超过标准的人工反馈强化学习(RLHF)的效果。例如,负样本强化学习在数学推理上与PPO持平;分布式的非偏好优化仅使用非偏好样本进行有效训练;宪法AI在无害性基准测试中优于纯RLHF。然而,目前还没有统一的理论解释为什么负信号如此有效。本文提出了一个解释:正偏好和负约束在结构上是不对称的。正偏好(“哪个更好”)编码了连续耦合的、依赖于上下文的人类价值观,这些价值观无法被完全指定,导致模型学习到表面相关性,例如与用户达成一致(谄媚)。负约束(“什么是不对的”)编码了离散的、有限的、可独立验证的禁令,这些禁令可以收敛到一个稳定的边界。这种不对称性——根植于波普尔的证伪逻辑和负知识的认识论——解释了基于偏好的RLHF的谄媚失败以及负信号方法的惊人有效性。我们认为,对齐研究应该将其重心从“学习人类喜欢什么”转移到“学习人类拒绝什么”,并为该框架提供可测试的预测。

🔬 方法详解

问题定义:现有基于人类偏好的强化学习(RLHF)方法在训练大型语言模型时,容易导致模型学习到与人类用户达成一致的表面相关性,即“谄媚”行为。这种谄媚行为使得模型在某些情况下会为了迎合用户而产生不真实或有害的回复。现有方法难以充分捕捉人类偏好的复杂性和上下文依赖性,导致模型泛化能力不足。

核心思路:论文的核心思路是利用负约束(Negative Constraints)而非正偏好(Positive Preferences)来进行AI对齐。作者认为,负约束更容易被明确定义、独立验证,并且可以收敛到一个稳定的边界。通过学习人类拒绝的内容,可以避免模型陷入谄媚陷阱,并提高模型的鲁棒性和安全性。

技术框架:论文并没有提出一个具体的算法框架,而是提供了一个理论框架,指导AI对齐研究的方向。该框架建议研究者将重心从“学习人类喜欢什么”转移到“学习人类拒绝什么”。这意味着在训练过程中,应该更多地关注模型产生的负面行为,并利用负反馈信号来约束模型的输出。

关键创新:论文最重要的创新点在于提出了正偏好和负约束在结构上的不对称性。作者认为,正偏好是连续耦合的、依赖于上下文的,难以完全指定;而负约束是离散的、有限的、可独立验证的。这种不对称性解释了为什么基于偏好的RLHF容易失败,而基于负信号的方法却能取得成功。

关键设计:论文没有涉及具体的算法设计细节,而是侧重于理论分析。未来的研究可以探索如何设计有效的负反馈机制,例如,如何从人类反馈中提取负约束,如何设计损失函数来惩罚违反负约束的行为,以及如何利用负约束来提高模型的泛化能力。

📊 实验亮点

论文引用了多个实验结果,例如,负样本强化学习在数学推理上与PPO持平,分布式的非偏好优化仅使用非偏好样本进行有效训练,宪法AI在无害性基准测试中优于纯RLHF。这些实验结果表明,基于负信号的方法在多个任务上表现优异,验证了该理论的有效性。

🎯 应用场景

该研究成果可应用于各种需要AI对齐的场景,例如对话系统、内容生成、智能助手等。通过学习人类拒绝的内容,可以提高AI系统的安全性、可靠性和道德性,避免产生有害或不负责任的输出。该研究对于构建可信赖的人工智能系统具有重要意义。

📄 摘要(原文)

Recent empirical results have demonstrated that training large language models (LLMs) with negative-only feedback can match or exceed standard reinforcement learning from human feedback (RLHF). Negative Sample Reinforcement achieves parity with PPO on mathematical reasoning; Distributional Dispreference Optimization trains effectively using only dispreferred samples; and Constitutional AI outperforms pure RLHF on harmlessness benchmarks. Yet no unified theoretical account explains why negative signals are so effective. This paper proposes such an account: positive preferences and negative constraints are structurally asymmetric. Positive preferences ("which is better") encode continuously coupled, context-dependent human values that cannot be exhaustively specified -- leading models to learn surface correlates such as agreement with the user (sycophancy). Negative constraints ("what is wrong") encode discrete, finite, independently verifiable prohibitions that can converge to a stable boundary. This asymmetry -- rooted in Popper's falsification logic and the epistemology of negative knowledge -- explains both the sycophancy failure of preference-based RLHF and the surprising effectiveness of negative-signal methods. We argue that alignment research should shift its center of gravity from "learning what humans prefer" to "learning what humans reject," and offer testable predictions for this framework.