Black Box Deployed -- Functional Criteria for Artificial Moral Agents in the LLM Era

作者: Matthew E. Brophy

分类: cs.AI

发布日期: 2025-07-17 (更新: 2025-07-25)

备注: 42 pages. Supplementary material included at end of article

💡 一句话要点

针对LLM时代的道德AI，提出一套基于功能性的评估标准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人工智能道德 大型语言模型 伦理评估 功能性标准 道德代理

📋 核心要点

传统道德AI评估框架依赖透明架构，与LLM的不透明性相悖，导致评估标准在LLM时代失效。
论文提出一套新的功能性评估标准，包括道德一致性、情境敏感性等十个维度，用于评估基于LLM的道德AI。
通过自动驾驶公共汽车的假设场景，展示了新标准在实际道德问题中的应用，验证了其可行性。

📝 摘要（中文）

随着强大但又不透明的大型语言模型（LLM）的发展，评估人工智能道德主体（AMA）的哲学标准需要进行根本性的修订。在LLM出现之前的框架通常依赖于透明架构的假设，但LLM由于其随机输出和不透明的内部状态而违背了这一假设。本文认为，由于这种不匹配，传统的伦理标准在实践上对LLM来说已经过时。本文探讨了技术哲学中的核心主题，提出了一套修订后的十项功能性标准来评估基于LLM的人工智能道德主体：道德一致性、情境敏感性、规范完整性、元伦理意识、系统弹性、可信度、可纠正性、部分透明性、功能自主性和道德想象力。这些指导原则应用于我们所说的“SMA-LLS”（通过大型语言系统模拟道德代理），旨在引导AMA在未来几年朝着更大的对齐和有益的社会融合方向发展。我们使用涉及自动驾驶公共汽车（APB）的假设场景来说明这些标准，以证明它们在道德上显著的背景下的实际适用性。

🔬 方法详解

问题定义：现有的人工智能道德主体（AMA）评估框架，大多基于对系统内部机制的理解和透明性假设。然而，大型语言模型（LLM）的黑盒特性，使其内部状态难以理解，传统评估方法不再适用。因此，需要一套新的、适用于LLM时代的AMA评估标准，以确保其行为符合道德规范。

核心思路：论文的核心思路是从功能性的角度出发，不再关注LLM内部的运作机制，而是关注其外部表现和行为结果。通过定义一系列可观察、可评估的功能性指标，来判断LLM是否具备道德代理的能力。这种方法避免了对LLM内部结构的依赖，更具实用性和可操作性。

技术框架：论文没有提出具体的算法或模型，而是构建了一个评估框架。该框架包含十个关键的功能性标准，分别是：道德一致性、情境敏感性、规范完整性、元伦理意识、系统弹性、可信度、可纠正性、部分透明性、功能自主性和道德想象力。这些标准涵盖了道德代理的各个方面，可以用于指导LLM的设计和评估。

关键创新：论文的关键创新在于将AMA的评估视角从内部机制转向外部功能。这种转变适应了LLM的黑盒特性，使得AMA的评估成为可能。此外，论文提出的十个功能性标准，为LLM的道德对齐提供了一个具体的、可操作的框架。

关键设计：论文的关键设计在于这十个功能性标准的定义和解释。每个标准都对应着AMA在特定情境下的行为表现。例如，道德一致性要求AMA的行为与普遍接受的道德原则相符；情境敏感性要求AMA能够根据不同的情境调整其行为；可纠正性要求AMA能够接受反馈并改正错误。这些标准的具体定义，为AMA的评估提供了明确的指导。

📊 实验亮点

论文提出了十个功能性标准，为评估LLM驱动的道德AI提供了一个全面的框架。通过自动驾驶公共汽车的案例研究，展示了这些标准在实际场景中的应用，并验证了其可行性。虽然没有提供具体的性能数据，但该研究为LLM的道德对齐提供了一个重要的理论基础。

🎯 应用场景

该研究成果可应用于各种需要道德决策的人工智能系统，例如自动驾驶汽车、医疗诊断系统、金融风控系统等。通过使用论文提出的评估标准，可以确保这些系统在做出决策时考虑到道德因素，从而避免潜在的伦理风险，促进人工智能技术的健康发展。

📄 摘要（原文）

The advancement of powerful yet opaque large language models (LLMs) necessitates a fundamental revision of the philosophical criteria used to evaluate artificial moral agents (AMAs). Pre-LLM frameworks often relied on the assumption of transparent architectures, which LLMs defy due to their stochastic outputs and opaque internal states. This paper argues that traditional ethical criteria are pragmatically obsolete for LLMs due to this mismatch. Engaging with core themes in the philosophy of technology, this paper proffers a revised set of ten functional criteria to evaluate LLM-based artificial moral agents: moral concordance, context sensitivity, normative integrity, metaethical awareness, system resilience, trustworthiness, corrigibility, partial transparency, functional autonomy, and moral imagination. These guideposts, applied to what we term "SMA-LLS" (Simulating Moral Agency through Large Language Systems), aim to steer AMAs toward greater alignment and beneficial societal integration in the coming years. We illustrate these criteria using hypothetical scenarios involving an autonomous public bus (APB) to demonstrate their practical applicability in morally salient contexts.

Black Box Deployed -- Functional Criteria for Artificial Moral Agents in the LLM Era

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理