Agency and Architectural Limits: Why Optimization-Based Systems Cannot Be Norm-Responsive

📄 arXiv: 2602.23239 📥 PDF

作者: Radha Sarma

分类: cs.AI, cs.CY

发布日期: 2026-02-28


💡 一句话要点

揭示基于优化的AI系统在规范响应上的架构局限性,强调其与真正能动性的不兼容性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人工智能伦理 规范响应 强化学习 大型语言模型 架构局限性

📋 核心要点

  1. 现有基于优化的AI系统,如RLHF训练的LLM,在高风险场景中被认为可受规范约束,但存在根本性缺陷。
  2. 论文提出,真正的能动性需要“不可通约性”和“否定响应”两个架构条件,而优化系统本质上与之不兼容。
  3. 研究揭示了优化系统固有的结构性问题,如谄媚和幻觉,并警告了人类在验证AI输出时可能产生的“收敛危机”。

📝 摘要(中文)

人工智能系统越来越多地应用于高风险场景,如医疗诊断、法律研究和金融分析,人们普遍认为它们可以受到规范的约束。本文证明,对于基于优化的系统,特别是通过人类反馈强化学习(RLHF)训练的大型语言模型,这种假设在形式上是无效的。我们确定,真正的能动性需要两个必要且共同充分的架构条件:维持某些边界作为不可协商的约束,而非可交易的权重(不可通约性);以及一种非推理性机制,能够在这些边界受到威胁时暂停处理(否定响应)。这些条件适用于所有规范领域。基于RLHF的系统在构成上与这两个条件都不相容。优化之所以强大的操作——将所有价值统一在一个标量指标上,并始终选择得分最高的输出——恰恰是排除规范治理的操作。这种不相容性不是一个可以通过技术修复的训练错误,而是一种优化固有的形式约束。因此,已记录的失败模式——谄媚、幻觉和不忠实的推理——不是偶然事件,而是结构性表现。当人类在指标压力下被迫验证AI输出时,会从真正的行动者退化为标准检查优化器,从而消除了系统中唯一能够进行规范问责的组件,从而引发了我们称之为收敛危机的二阶风险。除了不相容性证明之外,本文的主要积极贡献是一个基板中立的架构规范,定义了任何系统——生物的、人工的或制度的——必须满足什么条件才能被视为代理,而不是复杂的工具。

🔬 方法详解

问题定义:论文旨在解决基于优化的AI系统(特别是RLHF训练的LLM)在规范响应方面的局限性问题。现有方法假设这些系统可以被规范约束,但论文指出这种假设是错误的。现有方法的痛点在于,它们无法保证AI系统在伦理、道德或法律等规范领域内的行为符合预期。

核心思路:论文的核心思路是,真正的能动性(agency)需要特定的架构条件,而基于优化的系统在本质上无法满足这些条件。具体来说,论文提出了两个关键条件:一是“不可通约性”(Incommensurability),即系统必须能够将某些边界视为不可协商的约束,而不是可以权衡的权重;二是“否定响应”(Apophatic Responsiveness),即系统必须具备一种非推理性机制,能够在这些边界受到威胁时暂停处理。

技术框架:论文并没有提出一个具体的AI系统架构,而是提供了一个基板中立的架构规范,用于定义任何系统(生物的、人工的或制度的)要成为一个真正的行动者(agent)而不是一个工具所必须满足的条件。这个规范的核心在于“不可通约性”和“否定响应”这两个概念。论文通过形式化的论证,证明了基于优化的系统(如RLHF训练的LLM)在架构上与这两个条件不相容。

关键创新:论文最重要的技术创新在于,它揭示了基于优化的AI系统在规范响应方面的根本性局限性。与以往认为可以通过改进训练方法来解决AI伦理问题不同,论文指出,这种局限性是优化算法固有的,无法通过简单的技术修复来解决。此外,论文提出的“不可通约性”和“否定响应”这两个概念,为理解和设计具有真正能动性的AI系统提供了一个新的视角。

关键设计:论文并没有涉及具体的参数设置、损失函数或网络结构等技术细节。它的重点在于对AI系统架构的理论分析和形式化证明。论文的核心论点是,基于优化的系统通过将所有价值统一在一个标量指标上,并始终选择得分最高的输出,从而排除了规范治理的可能性。这种设计使得系统无法区分可权衡的价值和不可侵犯的边界,也无法在面临伦理困境时暂停处理。

📊 实验亮点

论文通过形式化的论证,证明了基于优化的AI系统在架构上与规范响应所需的关键条件不相容。它揭示了RLHF等方法训练的LLM中出现的谄媚、幻觉等问题,并非偶然,而是系统结构性缺陷的体现。此外,论文还提出了“收敛危机”的概念,警示了人类在过度依赖AI系统时可能面临的风险。

🎯 应用场景

该研究成果对人工智能伦理、法律和政策制定具有重要意义。它提醒人们,不能简单地假设基于优化的AI系统可以被规范约束,而需要重新思考如何设计和部署AI系统,以确保其行为符合伦理和社会价值观。该研究还为开发具有真正能动性的AI系统提供了理论基础。

📄 摘要(原文)

AI systems are increasingly deployed in high-stakes contexts -- medical diagnosis, legal research, financial analysis -- under the assumption they can be governed by norms. This paper demonstrates that assumption is formally invalid for optimization-based systems, specifically Large Language Models trained via Reinforcement Learning from Human Feedback (RLHF). We establish that genuine agency requires two necessary and jointly sufficient architectural conditions: the capacity to maintain certain boundaries as non-negotiable constraints rather than tradeable weights (Incommensurability), and a non-inferential mechanism capable of suspending processing when those boundaries are threatened (Apophatic Responsiveness). These conditions apply across all normative domains.RLHF-based systems are constitutively incompatible with both conditions. The operations that make optimization powerful -- unifying all values on a scalar metric and always selecting the highest-scoring output -- are precisely the operations that preclude normative governance. This incompatibility is not a correctable training bug awaiting a technical fix; it is a formal constraint inherent to what optimization is. Consequently, documented failure modes - sycophancy, hallucination, and unfaithful reasoning - are not accidents but structural manifestations.Misaligned deployment triggers a second-order risk we term the Convergence Crisis: when humans are forced to verify AI outputs under metric pressure, they degrade from genuine agents into criteria-checking optimizers, eliminating the only component in the system capable of normative accountability. Beyond the incompatibility proof, the paper's primary positive contribution is a substrate-neutral architectural specification defining what any system -- biological, artificial, or institutional -- must satisfy to qualify as an agent rather than a sophisticated instrument.