Agency and Architectural Limits: Why Optimization-Based Systems Cannot Be Norm-Responsive

作者: Radha Sarma

分类: cs.AI, cs.CY

发布日期: 2026-02-28

💡 一句话要点

揭示基于优化的AI系统在规范响应上的架构局限性，强调其与真正能动性的不兼容性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人工智能伦理 规范响应 强化学习 大型语言模型 架构局限性

📋 核心要点

现有基于优化的AI系统，如RLHF训练的LLM，在高风险场景中被认为可受规范约束，但存在根本性缺陷。
论文提出，真正的能动性需要“不可通约性”和“否定响应”两个架构条件，而优化系统本质上与之不兼容。
研究揭示了优化系统固有的结构性问题，如谄媚和幻觉，并警告了人类在验证AI输出时可能产生的“收敛危机”。

📝 摘要（中文）

人工智能系统越来越多地应用于高风险场景，如医疗诊断、法律研究和金融分析，人们普遍认为它们可以受到规范的约束。本文证明，对于基于优化的系统，特别是通过人类反馈强化学习（RLHF）训练的大型语言模型，这种假设在形式上是无效的。我们确定，真正的能动性需要两个必要且共同充分的架构条件：维持某些边界作为不可协商的约束，而非可交易的权重（不可通约性）；以及一种非推理性机制，能够在这些边界受到威胁时暂停处理（否定响应）。这些条件适用于所有规范领域。基于RLHF的系统在构成上与这两个条件都不相容。优化之所以强大的操作——将所有价值统一在一个标量指标上，并始终选择得分最高的输出——恰恰是排除规范治理的操作。这种不相容性不是一个可以通过技术修复的训练错误，而是一种优化固有的形式约束。因此，已记录的失败模式——谄媚、幻觉和不忠实的推理——不是偶然事件，而是结构性表现。当人类在指标压力下被迫验证AI输出时，会从真正的行动者退化为标准检查优化器，从而消除了系统中唯一能够进行规范问责的组件，从而引发了我们称之为收敛危机的二阶风险。除了不相容性证明之外，本文的主要积极贡献是一个基板中立的架构规范，定义了任何系统——生物的、人工的或制度的——必须满足什么条件才能被视为代理，而不是复杂的工具。

🔬 方法详解

问题定义：论文旨在解决基于优化的AI系统（特别是RLHF训练的LLM）在规范响应方面的局限性问题。现有方法假设这些系统可以被规范约束，但论文指出这种假设是错误的。现有方法的痛点在于，它们无法保证AI系统在伦理、道德或法律等规范领域内的行为符合预期。

核心思路：论文的核心思路是，真正的能动性（agency）需要特定的架构条件，而基于优化的系统在本质上无法满足这些条件。具体来说，论文提出了两个关键条件：一是“不可通约性”（Incommensurability），即系统必须能够将某些边界视为不可协商的约束，而不是可以权衡的权重；二是“否定响应”（Apophatic Responsiveness），即系统必须具备一种非推理性机制，能够在这些边界受到威胁时暂停处理。

技术框架：论文并没有提出一个具体的AI系统架构，而是提供了一个基板中立的架构规范，用于定义任何系统（生物的、人工的或制度的）要成为一个真正的行动者（agent）而不是一个工具所必须满足的条件。这个规范的核心在于“不可通约性”和“否定响应”这两个概念。论文通过形式化的论证，证明了基于优化的系统（如RLHF训练的LLM）在架构上与这两个条件不相容。

关键创新：论文最重要的技术创新在于，它揭示了基于优化的AI系统在规范响应方面的根本性局限性。与以往认为可以通过改进训练方法来解决AI伦理问题不同，论文指出，这种局限性是优化算法固有的，无法通过简单的技术修复来解决。此外，论文提出的“不可通约性”和“否定响应”这两个概念，为理解和设计具有真正能动性的AI系统提供了一个新的视角。

关键设计：论文并没有涉及具体的参数设置、损失函数或网络结构等技术细节。它的重点在于对AI系统架构的理论分析和形式化证明。论文的核心论点是，基于优化的系统通过将所有价值统一在一个标量指标上，并始终选择得分最高的输出，从而排除了规范治理的可能性。这种设计使得系统无法区分可权衡的价值和不可侵犯的边界，也无法在面临伦理困境时暂停处理。

📊 实验亮点

论文通过形式化的论证，证明了基于优化的AI系统在架构上与规范响应所需的关键条件不相容。它揭示了RLHF等方法训练的LLM中出现的谄媚、幻觉等问题，并非偶然，而是系统结构性缺陷的体现。此外，论文还提出了“收敛危机”的概念，警示了人类在过度依赖AI系统时可能面临的风险。

🎯 应用场景

该研究成果对人工智能伦理、法律和政策制定具有重要意义。它提醒人们，不能简单地假设基于优化的AI系统可以被规范约束，而需要重新思考如何设计和部署AI系统，以确保其行为符合伦理和社会价值观。该研究还为开发具有真正能动性的AI系统提供了理论基础。

📄 摘要（原文）

AI systems are increasingly deployed in high-stakes contexts -- medical diagnosis, legal research, financial analysis -- under the assumption they can be governed by norms. This paper demonstrates that assumption is formally invalid for optimization-based systems, specifically Large Language Models trained via Reinforcement Learning from Human Feedback (RLHF). We establish that genuine agency requires two necessary and jointly sufficient architectural conditions: the capacity to maintain certain boundaries as non-negotiable constraints rather than tradeable weights (Incommensurability), and a non-inferential mechanism capable of suspending processing when those boundaries are threatened (Apophatic Responsiveness). These conditions apply across all normative domains.RLHF-based systems are constitutively incompatible with both conditions. The operations that make optimization powerful -- unifying all values on a scalar metric and always selecting the highest-scoring output -- are precisely the operations that preclude normative governance. This incompatibility is not a correctable training bug awaiting a technical fix; it is a formal constraint inherent to what optimization is. Consequently, documented failure modes - sycophancy, hallucination, and unfaithful reasoning - are not accidents but structural manifestations.Misaligned deployment triggers a second-order risk we term the Convergence Crisis: when humans are forced to verify AI outputs under metric pressure, they degrade from genuine agents into criteria-checking optimizers, eliminating the only component in the system capable of normative accountability. Beyond the incompatibility proof, the paper's primary positive contribution is a substrate-neutral architectural specification defining what any system -- biological, artificial, or institutional -- must satisfy to qualify as an agent rather than a sophisticated instrument.

Agency and Architectural Limits: Why Optimization-Based Systems Cannot Be Norm-Responsive

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理