Generative midtended cognition and Artificial Intelligence. Thinging with thinging things

📄 arXiv: 2411.06812v1 📥 PDF

作者: Xabier E. Barandiaran, Marta Pérez-Verdugo

分类: cs.AI, cs.CY, cs.LG

发布日期: 2024-11-11

备注: 16 pages, 2 figures. Submitted to "Synthese" Journal, accepted


💡 一句话要点

提出“生成式中介认知”概念,探索生成式AI与人类认知融合,超越传统扩展认知理论。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式AI 扩展认知 人机协作 认知科学 人工智能伦理

📋 核心要点

  1. 现有扩展认知理论难以完全解释人类与生成式AI协同创造的认知过程。
  2. 提出“生成式中介认知”框架,将AI干预视为构成人类意向性创造过程的关键部分。
  3. 定义了生成式混合创造的宽度(上下文敏感性)和深度(迭代粒度)两个维度。

📝 摘要(中文)

本文介绍了“生成式中介认知”的概念,探讨了生成式AI与人类认知的融合。“生成式”反映了AI迭代生成结构化输出的能力,而“中介”则捕捉了该过程潜在的混合(人-AI)性质。它介于传统的有意识创造(理解为内在驱动)和将外生物过程引入创造过程的扩展过程之间。我们研究了当前的生成技术(基于大型语言模型如ChatGPT典型的多模态Transformer架构),以解释它们如何超越标准扩展认知理论所能捕捉的范围来转变人类的认知能动性。我们认为,人类与生成技术耦合的典型认知活动更接近(但不等同于)社会认知,而非经典的扩展认知范式。然而,它值得特别对待。我们提供了一个生成式中介认知的明确定义,其中我们将AI系统的干预视为构成主体有意识的创造过程。此外,我们区分了生成式混合创造的两个维度:1.宽度:捕捉生成过程上下文的敏感性(从单个字母到整个历史和周围数据),2.深度:捕捉过程中涉及的迭代循环的粒度。生成式中介认知位于对话形式的认知(其中交换完整的表达或创造单元)和微认知(例如神经)亚个人过程之间的中间深度。最后,本文讨论了广泛采用生成式AI的潜在风险和益处,包括真实性挑战、生成能力不对称以及创造力提升或萎缩。

🔬 方法详解

问题定义:论文旨在解决如何理解和定义人类与生成式AI协同创造的认知过程,现有扩展认知理论无法充分解释这种新型人机交互模式,尤其是在创造性任务中,AI不再仅仅是工具,而是认知过程的积极参与者。传统理论的痛点在于无法将AI的生成能力和主动干预纳入认知主体的意向性行为中。

核心思路:论文的核心思路是将AI的干预视为构成人类意向性创造过程的组成部分,从而重新定义认知主体。通过引入“生成式中介认知”的概念,强调AI在创造过程中的中介作用,以及人与AI之间迭代交互的重要性。这种思路将认知主体扩展到人与AI的混合系统,并关注系统整体的创造性能力。

技术框架:论文并没有提出一个具体的算法或模型,而是一个概念框架。该框架包含以下几个关键要素:1. 生成式AI系统:作为创造过程的参与者,能够生成结构化输出。2. 人类认知主体:与AI系统进行交互,并利用AI的生成能力进行创造。3. 生成式中介认知:人与AI协同创造的认知过程,其特征在于迭代、反馈和相互影响。4. 宽度和深度:用于描述生成式混合创造过程的两个维度,宽度指上下文敏感性,深度指迭代粒度。

关键创新:论文最重要的技术创新在于提出了“生成式中介认知”这一概念,它超越了传统的扩展认知理论,将AI的生成能力和主动干预纳入认知主体的意向性行为中。与现有方法的本质区别在于,它不再将AI视为简单的工具,而是将其视为认知过程的积极参与者,并强调人与AI之间的协同作用。

关键设计:论文并没有涉及具体的参数设置、损失函数或网络结构等技术细节,因为它主要关注的是概念框架的构建。然而,论文强调了宽度和深度这两个维度的重要性,它们可以用于分析和比较不同的人机协同创造过程。例如,在某些应用中,可能需要更宽的上下文敏感性,而在另一些应用中,可能需要更深的迭代粒度。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文的核心贡献在于提出了“生成式中介认知”这一新颖的概念框架,并详细阐述了其内涵和外延。虽然没有提供具体的实验数据,但该框架为理解和分析人与生成式AI协同创造的认知过程提供了一个有力的理论工具,为未来的实证研究奠定了基础。

🎯 应用场景

该研究成果可应用于各种人机协同创造领域,例如艺术创作、设计、科学研究和软件开发。通过理解生成式中介认知的机制,可以设计更有效的人机协作界面和工作流程,提升创造效率和质量。此外,该研究还有助于探讨AI对人类认知和社会的影响,为伦理和社会政策的制定提供理论基础。

📄 摘要(原文)

This paper introduces the concept of ``generative midtended cognition'', exploring the integration of generative AI with human cognition. The term "generative" reflects AI's ability to iteratively produce structured outputs, while "midtended" captures the potential hybrid (human-AI) nature of the process. It stands between traditional conceptions of intended creation, understood directed from within, and extended processes that bring exo-biological processes into the creative process. We examine current generative technologies (based on multimodal transformer architectures typical of large language models like ChatGPT), to explain how they can transform human cognitive agency beyond what standard theories of extended cognition can capture. We suggest that the type of cognitive activity typical of the coupling between a human and generative technologies is closer (but not equivalent) to social cognition than to classical extended cognitive paradigms. Yet, it deserves a specific treatment. We provide an explicit definition of generative midtended cognition in which we treat interventions by AI systems as constitutive of the agent's intentional creative processes. Furthermore, we distinguish two dimensions of generative hybrid creativity: 1. Width: captures the sensitivity of the context of the generative process (from the single letter to the whole historical and surrounding data), 2. Depth: captures the granularity of iteration loops involved in the process. Generative midtended cognition stands in the middle depth between conversational forms of cognition in which complete utterances or creative units are exchanged, and micro-cognitive (e.g. neural) subpersonal processes. Finally, the paper discusses the potential risks and benefits of widespread generative AI adoption, including the challenges of authenticity, generative power asymmetry, and creative boost or atrophy.