Transforming Agency. On the mode of existence of Large Language Models

📄 arXiv: 2407.10735v2 📥 PDF

作者: Xabier E. Barandiaran, Lola S. Almendros

分类: cs.AI, cs.CL, cs.CY, cs.LG

发布日期: 2024-07-15 (更新: 2024-07-16)


💡 一句话要点

分析大型语言模型(LLMs)的本体论特征,并探讨其作为智能体的存在模式

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 本体论 具身认知 自主智能体 人机交互 人工智能伦理 语言自动机

📋 核心要点

  1. 现有对LLM的认知存在分歧,本文旨在明确LLM的本体论地位,尤其关注其是否能被视为智能体。
  2. 通过分析LLM的架构、训练方式以及与环境的交互模式,评估其是否满足自主智能体的关键条件。
  3. 研究表明LLM不具备自主智能体的核心特征,并提出将其定义为“会说话的图书馆”或“语言自动机”的观点。

📝 摘要(中文)

本文探讨了诸如ChatGPT等大型语言模型(LLMs)的本体论特征。在膨胀式和紧缩式描述之间,我们特别关注它们作为智能体的地位。这需要详细解释LLMs的架构、处理和训练程序,这些使得LLMs能够展示其能力,以及将LLMs转化为类似智能体系统的扩展。经过系统的分析,我们得出结论:根据具身认知理论,LLM未能满足自主智能体的必要和充分条件:个体性条件(它不是其自身活动的产物,甚至没有直接受到其影响),规范性条件(它不产生自己的规范或目标),以及部分交互不对称性条件(它不是与环境交互的起源和持续来源)。如果不是智能体,那么LLMs是什么?我们认为,ChatGPT应该被描述为对话者或语言自动机,一个会说话的图书馆,缺乏(自主)能动性,但能够以非目的性但具有目的结构和目的界限的任务进行表演性互动。当与人类互动时,人机交互的“幽灵”成分使得与LLMs进行真正的对话体验成为可能。尽管它们缺乏感觉运动和生物具身性,但LLMs的文本具身性(训练语料库)和资源密集型计算具身性,显著地改变了现有的人类能动性形式。除了辅助和扩展的能动性之外,LLM-人类耦合可以产生中间形式的能动性,更接近于有意能动性的产生,而不是任何先前技术的扩展工具性。

🔬 方法详解

问题定义:当前对大型语言模型(LLMs)的定位存在争议,一种观点认为它们是具有自主意识的智能体,另一种观点则认为它们仅仅是复杂的统计模型。论文旨在通过深入分析LLMs的内在机制和外在表现,明确其本体论地位,从而避免对LLMs的能力产生不切实际的期望或担忧。现有方法主要集中在对LLMs输出结果的评估,缺乏对其内在运作机制的深入剖析。

核心思路:论文的核心思路是基于具身认知理论,从个体性、规范性和交互不对称性三个维度来评估LLMs是否具备自主智能体的特征。具身认知理论强调智能体的自主性、目标导向性和与环境的互动能力,这些是区分真智能体和简单自动化系统的关键。通过将LLMs与这些标准进行对比,可以更客观地评估其智能水平。

技术框架:论文采用了一种哲学分析的方法,而非传统的机器学习技术框架。其分析流程包括:1) 详细描述LLMs的架构、训练过程和推理机制;2) 阐述具身认知理论的核心概念和标准;3) 将LLMs的特性与具身认知理论的标准进行对比分析;4) 提出对LLMs的本体论定位,并探讨其对人类能动性的影响。

关键创新:论文的创新之处在于将具身认知理论引入到对LLMs的分析中,提供了一种新的视角来理解LLMs的本质。与以往主要关注LLMs的性能表现不同,论文更关注其内在的运作机制和与环境的互动模式,从而更深入地理解其智能水平和局限性。

关键设计:论文并没有涉及具体的参数设置或网络结构设计,而是侧重于概念分析和理论论证。其关键设计在于选择了具身认知理论作为评估LLMs智能水平的理论框架,并提出了个体性、规范性和交互不对称性三个关键维度作为评估标准。

📊 实验亮点

论文通过系统分析,论证了LLMs不满足自主智能体的关键条件,强调了LLMs缺乏自主性、目标导向性和与环境的真实互动。研究指出,LLMs更应被视为一种强大的语言工具,而非具有独立意识的智能体。LLM-人类耦合可以产生中间形式的能动性,更接近于有意能动性的产生。

🎯 应用场景

该研究成果可应用于伦理学、人工智能治理和人机交互等领域。通过更准确地理解LLMs的本质,可以避免对其能力产生不切实际的期望,从而制定更合理的伦理规范和治理策略。此外,该研究也有助于设计更有效的人机交互界面,充分发挥LLMs的辅助作用,同时避免过度依赖。

📄 摘要(原文)

This paper investigates the ontological characterization of Large Language Models (LLMs) like ChatGPT. Between inflationary and deflationary accounts, we pay special attention to their status as agents. This requires explaining in detail the architecture, processing, and training procedures that enable LLMs to display their capacities, and the extensions used to turn LLMs into agent-like systems. After a systematic analysis we conclude that a LLM fails to meet necessary and sufficient conditions for autonomous agency in the light of embodied theories of mind: the individuality condition (it is not the product of its own activity, it is not even directly affected by it), the normativity condition (it does not generate its own norms or goals), and, partially the interactional asymmetry condition (it is not the origin and sustained source of its interaction with the environment). If not agents, then ... what are LLMs? We argue that ChatGPT should be characterized as an interlocutor or linguistic automaton, a library-that-talks, devoid of (autonomous) agency, but capable to engage performatively on non-purposeful yet purpose-structured and purpose-bounded tasks. When interacting with humans, a "ghostly" component of the human-machine interaction makes it possible to enact genuine conversational experiences with LLMs. Despite their lack of sensorimotor and biological embodiment, LLMs textual embodiment (the training corpus) and resource-hungry computational embodiment, significantly transform existing forms of human agency. Beyond assisted and extended agency, the LLM-human coupling can produce midtended forms of agency, closer to the production of intentional agency than to the extended instrumentality of any previous technologies.