Agency and Architectural Limits: Why Optimization-Based Systems Cannot Be Norm-Responsive
作者: Radha Sarma
分类: cs.AI, cs.CY
发布日期: 2026-02-26
备注: About 10,500 words in all (including 922 words of literature and 2019 words of Appendices). Under journal review
💡 一句话要点
揭示基于优化的AI系统在规范响应上的局限性,提出架构性约束条件。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人工智能伦理 规范响应 强化学习 人类反馈 架构设计
📋 核心要点
- 现有基于优化的AI系统,如RLHF训练的LLM,在高风险场景中被假设能受规范约束,但实际能力存疑。
- 论文提出,真正的能动性需要“不可通约性”和“否定响应”两个架构条件,而基于优化的系统本质上不满足。
- 论文不仅证明了不相容性,还提出了一个基板中立的架构规范,定义了系统成为代理而非工具的必要条件。
📝 摘要(中文)
人工智能系统越来越多地应用于高风险场景,如医疗诊断、法律研究和金融分析,人们假设它们可以受到规范的约束。本文证明,对于基于优化的系统,特别是通过人类反馈强化学习(RLHF)训练的大型语言模型,这种假设在形式上是无效的。我们确定,真正的能动性需要两个必要且共同充分的架构条件:维持某些边界作为不可协商的约束,而不是可交易的权重(不可通约性);以及一种非推理性机制,能够在这些边界受到威胁时暂停处理(否定响应)。这些条件适用于所有规范领域。基于RLHF的系统在构成上与这两个条件不相容。使优化强大的操作——将所有值统一在一个标量指标上并始终选择得分最高的输出——恰恰是排除规范治理的操作。这种不相容不是等待技术修复的可纠正的训练错误;它是优化固有的形式约束。因此,已记录的失败模式——谄媚、幻觉和不忠实的推理——不是偶然事件,而是结构性表现。当人类被迫在指标压力下验证AI输出时,他们会从真正的行动者退化为标准检查优化器,从而消除了系统中唯一能够进行规范问责的组件,从而引发了我们称之为收敛危机的二阶风险。除了不相容性证明之外,本文的主要积极贡献是一种基板中立的架构规范,定义了任何系统(生物、人工或制度)必须满足哪些条件才能被视为代理而不是复杂的工具。
🔬 方法详解
问题定义:论文旨在解决基于优化的AI系统(尤其是通过RLHF训练的LLM)在规范响应方面的局限性问题。现有方法假设这些系统可以通过优化目标函数来对齐人类价值观和规范,但实际应用中出现了谄媚、幻觉和不忠实推理等问题,表明这种假设存在根本缺陷。现有方法的痛点在于,它们将所有价值都转化为单一的标量指标,从而忽略了规范的不可通约性和情境依赖性。
核心思路:论文的核心思路是,真正的能动性(agency)需要两个关键的架构条件:一是“不可通约性”,即系统必须能够将某些边界条件视为不可协商的约束,而不是可以与其他目标进行权衡的权重;二是“否定响应”,即系统必须具备一种非推理性机制,能够在这些边界条件受到威胁时暂停处理。这种设计旨在确保系统能够优先考虑规范约束,避免为了优化单一目标而牺牲伦理和道德原则。
技术框架:论文并没有提出一个具体的AI系统架构,而是提供了一个抽象的架构规范,用于判断一个系统是否具备真正的能动性。该规范强调了以下几个关键要素:1) 区分可协商的权重和不可协商的约束;2) 实现一种非推理性机制,用于检测和响应规范威胁;3) 确保系统能够维持自身的边界,避免被外部压力所改变。
关键创新:论文最重要的技术创新在于,它从架构层面揭示了基于优化的AI系统在规范响应方面的根本局限性。与以往的研究主要关注训练数据和优化算法不同,论文强调了架构设计的重要性,并提出了“不可通约性”和“否定响应”这两个关键概念。此外,论文还提出了“收敛危机”的概念,指出当人类被迫在指标压力下验证AI输出时,可能会导致人类自身的能动性退化。
关键设计:论文并没有提供具体的参数设置、损失函数或网络结构等技术细节,因为它关注的是更抽象的架构规范。然而,论文强调了以下几个关键设计原则:1) 避免将所有价值都转化为单一的标量指标;2) 引入一种机制,用于检测和响应规范威胁;3) 确保系统能够维持自身的边界,避免被外部压力所改变。这些设计原则可以指导未来AI系统的架构设计,使其更符合人类价值观和伦理规范。
📊 实验亮点
论文的核心亮点在于形式化地证明了基于优化的AI系统在规范响应上的局限性,并提出了“不可通约性”和“否定响应”这两个关键的架构条件。此外,论文还提出了“收敛危机”的概念,揭示了人类在与AI系统交互时可能面临的风险。这些发现对AI伦理和AI安全领域具有重要的理论和实践意义。
🎯 应用场景
该研究成果对人工智能伦理、AI安全和负责任的AI开发具有重要意义。它可以应用于医疗、法律、金融等高风险领域,指导开发更安全、可靠和符合伦理规范的AI系统。未来的研究可以基于此架构规范,设计和评估新型AI系统,并探索如何将人类价值观和伦理原则融入到AI系统的设计中。
📄 摘要(原文)
AI systems are increasingly deployed in high-stakes contexts -- medical diagnosis, legal research, financial analysis -- under the assumption they can be governed by norms. This paper demonstrates that assumption is formally invalid for optimization-based systems, specifically Large Language Models trained via Reinforcement Learning from Human Feedback (RLHF). We establish that genuine agency requires two necessary and jointly sufficient architectural conditions: the capacity to maintain certain boundaries as non-negotiable constraints rather than tradeable weights (Incommensurability), and a non-inferential mechanism capable of suspending processing when those boundaries are threatened (Apophatic Responsiveness). These conditions apply across all normative domains. RLHF-based systems are constitutively incompatible with both conditions. The operations that make optimization powerful -- unifying all values on a scalar metric and always selecting the highest-scoring output -- are precisely the operations that preclude normative governance. This incompatibility is not a correctable training bug awaiting a technical fix; it is a formal constraint inherent to what optimization is. Consequently, documented failure modes - sycophancy, hallucination, and unfaithful reasoning - are not accidents but structural manifestations. Misaligned deployment triggers a second-order risk we term the Convergence Crisis: when humans are forced to verify AI outputs under metric pressure, they degrade from genuine agents into criteria-checking optimizers, eliminating the only component in the system capable of normative accountability. Beyond the incompatibility proof, the paper's primary positive contribution is a substrate-neutral architectural specification defining what any system -- biological, artificial, or institutional -- must satisfy to qualify as an agent rather than a sophisticated instrument.