Morality in AI. A plea to embed morality in LLM architectures and frameworks

📄 arXiv: 2511.20689v1 📥 PDF

作者: Gunter Bombaerts, Bram Delisse, Uzay Kaymak

分类: q-bio.NC, cs.AI

发布日期: 2025-11-21


💡 一句话要点

提出将道德嵌入LLM架构与框架,提升AI伦理决策能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 道德推理 AI伦理 注意力机制 Transformer架构

📋 核心要点

  1. 现有LLM伦理方法依赖微调等自下而上策略,缺乏内生道德机制,导致伦理决策能力不足。
  2. 论文提出将道德意义处理直接嵌入LLM架构,借鉴人类认知和道德推理机制,实现内生道德。
  3. 论文探讨了修改训练目标、调整运行时权重和改进注意力机制等技术路径,以期提升LLM的道德推理能力。

📝 摘要(中文)

大型语言模型(LLM)越来越多地影响人类的决策和行为。确保LLM处理道德含义已成为一项关键挑战。目前的方法主要依赖于自下而上的方法,如微调和基于人类反馈的强化学习。我们提出了一种根本不同的方法:通过自上而下的设计原则,将道德含义处理直接嵌入到基于Transformer的模型的架构机制和框架中。我们首先勾勒出一个框架,将注意力概念化为在结构和处理之间进行调解的动态接口,这与心理学中现有的线性注意力框架形成对比。我们从神经架构设计中已建立的生物-人工注意力类比出发,以改善认知处理。我们将此分析扩展到道德处理,使用Iris Murdoch的爱之注意力理论(持续的、公正的观察,通过清晰和同情地重新看待他人来实现道德转变)来从哲学上讨论人类和LLM道德处理之间的功能类比。我们制定并评估了潜在的有希望的技术操作,以将道德嵌入LLM架构和框架中。我们承认我们探索的局限性,并给出了三个关键贡献。(1) 我们将注意力概念化为在结构和处理之间进行调解的动态系统机制。(2) 借鉴Murdoch的爱之注意力概念,我们概述了通过修改训练目标、运行时权重调整和对注意力的架构改进,将道德嵌入LLM的技术途径。(3) 我们认为,将道德整合到架构和框架中是对外部的、基于约束的方法的补充。最后,我们呼吁Transformer设计师和从事AI伦理的哲学家之间进行合作。

🔬 方法详解

问题定义:当前大型语言模型在伦理道德方面的处理能力不足,主要依赖于事后的微调或强化学习等方法。这些方法将伦理约束视为外部附加组件,无法从根本上提升模型的道德推理能力。现有方法的痛点在于缺乏内生的道德机制,难以应对复杂和动态的伦理场景。

核心思路:论文的核心思路是将道德意义处理直接嵌入到LLM的架构和框架中,而非仅仅依赖外部约束。借鉴人类认知和道德推理的机制,特别是Iris Murdoch的“爱之注意力”理论,将注意力机制视为结构和处理之间的动态接口,通过调整训练目标、运行时权重和注意力机制等方式,使模型能够更好地理解和处理道德含义。

技术框架:论文提出了一个将道德嵌入LLM的技术框架,该框架包含以下几个主要模块:1) 注意力机制重构:将注意力机制视为动态系统,使其能够更好地捕捉道德相关的细微差别。2) 训练目标修改:设计新的训练目标,鼓励模型学习和遵循道德原则。3) 运行时权重调整:在模型运行时,根据具体的伦理场景动态调整权重,以确保模型做出符合道德规范的决策。4) 架构改进:对Transformer架构进行改进,使其更适合处理道德相关的信息。

关键创新:论文最重要的技术创新点在于提出了将道德内生于LLM架构的思想,这与现有方法将伦理视为外部约束的思路截然不同。通过借鉴人类认知和道德推理的机制,论文试图从根本上提升LLM的道德推理能力,使其能够更好地理解和处理复杂的伦理场景。

关键设计:论文提出了几种关键的设计思路:1) 基于“爱之注意力”的注意力机制:借鉴Iris Murdoch的理论,设计一种能够持续、公正地观察和理解他人意图的注意力机制。2) 道德损失函数:设计一种能够衡量模型决策的道德价值的损失函数,鼓励模型学习和遵循道德原则。3) 动态权重调整机制:设计一种能够根据具体的伦理场景动态调整模型权重的机制,以确保模型做出符合道德规范的决策。

📊 实验亮点

由于是概念性论文,没有具体的实验结果。论文的主要亮点在于提出了将道德嵌入LLM架构的创新思路,并探讨了多种可能的技术路径,例如修改训练目标、调整运行时权重和改进注意力机制等。这些思路为未来的研究提供了有价值的参考。

🎯 应用场景

该研究成果可应用于开发更负责任和符合伦理规范的AI系统,例如在医疗、金融、法律等领域,辅助人类进行决策,避免潜在的伦理风险。此外,该研究还可以促进AI伦理领域的跨学科合作,推动AI技术的健康发展,并提升公众对AI的信任度。

📄 摘要(原文)

Large language models (LLMs) increasingly mediate human decision-making and behaviour. Ensuring LLM processing of moral meaning therefore has become a critical challenge. Current approaches rely predominantly on bottom-up methods such as fine-tuning and reinforcement learning from human feedback. We propose a fundamentally different approach: embedding moral meaning processing directly into the architectural mechanisms and frameworks of transformer-based models through top-down design principles. We first sketch a framework that conceptualizes attention as a dynamic interface mediating between structure and processing, contrasting with existing linear attention frameworks in psychology. We start from established biological-artificial attention analogies in neural architecture design to improve cognitive processing. We extend this analysis to moral processing, using Iris Murdoch's theory of loving attention (sustained, just observation that enables moral transformation by reseeing others with clarity and compassion) to philosophically discuss functional analogies between human and LLM moral processing. We formulate and evaluate potentially promising technical operationalizations to embed morality in LLM architectures and frameworks. We acknowledge the limitations of our exploration and give three key contributions. (1) We conceptualize attention as a dynamic system mechanism mediating between structure and processing. (2) Drawing on the Murdoch notion of loving attention, we outline technical pathways for embedding morality in LLMs, through modified training objectives, runtime weight adjustments, and architectural refinements to attention. (3) We argue that integrating morality into architectures and frameworks complements external, constraint-based methods. We conclude with a call for collaboration between transformer designers and philosophers engaged in AI ethics.