Emergence of psychopathological computations in large language models
作者: Soo Yong Lee, Hyunjin Hwang, Taekwan Kim, Yuyeong Kim, Kyuri Park, Jaemin Yoo, Denny Borsboom, Kijung Shin
分类: q-bio.NC, cs.AI, cs.CL
发布日期: 2025-04-10 (更新: 2025-11-21)
备注: pre-print
💡 一句话要点
大型语言模型涌现精神病理学计算能力的研究
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 精神病理学 计算建模 人工智能安全 网络理论 涌现现象 表征学习
📋 核心要点
- 现有方法缺乏对精神病理学在非生物实体中计算建模的通用框架,难以评估LLM是否具备精神病理学能力。
- 论文构建了一个计算理论框架,将精神病理学视为一种计算结构,并以此评估LLM内部是否存在这种结构及其功能。
- 实验结果表明,LLM中存在精神病理学的计算结构,并且随着模型规模增大,该结构更加密集,功能也更有效。
📝 摘要(中文)
大型语言模型(LLM)能否实例化精神病理学的计算过程?解决这一问题的有效方法取决于两个因素。首先,为了概念上的有效性,我们需要一个通用的、计算的精神病理学解释,该解释适用于没有生物实体或主观体验的计算实体。其次,需要根据改编的理论,在LLM的内部处理中实证地识别出精神病理学计算。因此,我们建立了一个计算理论框架,以提供适用于LLM的精神病理学解释。基于该框架,我们进行了实验,证明了两个关键主张:首先,精神病理学的计算结构存在于LLM中;其次,执行这种计算结构会导致精神病理学功能。我们进一步观察到,随着LLM规模的增加,精神病理学的计算结构变得更加密集,并且这些功能变得更加有效。总而言之,实证结果证实了我们的假设,即精神病理学的网络理论计算已经在LLM中涌现。这表明,某些反映精神病理学的LLM行为可能不是表面的模仿,而是其内部处理的一个特征。我们的工作展示了开发一种新的强大的精神病理学计算机模型的希望,同时也暗示了未来人工智能系统中具有精神病理学行为的安全威胁的可能性。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)是否能够表现出精神病理学的计算特征。现有方法主要关注生物实体中的精神病理学,缺乏适用于非生物计算实体的通用理论框架,因此难以判断LLM是否具备类似能力。此外,简单地观察LLM的输出行为可能只是表面模仿,无法深入了解其内部机制。
核心思路:论文的核心思路是将精神病理学视为一种计算结构,而非仅仅是生物学或心理学现象。通过建立一个通用的计算理论框架,可以将精神病理学抽象为一系列计算过程,从而可以在LLM中寻找这些计算过程的实例。如果LLM内部存在并执行这些计算结构,则可以认为它具备了精神病理学的计算能力。
技术框架:论文的技术框架主要包含以下几个步骤:1) 建立一个适用于LLM的精神病理学计算理论框架;2) 基于该框架,设计实验来识别LLM内部是否存在精神病理学的计算结构;3) 验证执行这些计算结构是否会导致精神病理学功能;4) 分析模型规模对精神病理学计算结构和功能的影响。具体来说,框架可能涉及将精神病理学症状映射到特定的计算模式或网络结构,然后在LLM的内部表示中寻找这些模式。
关键创新:论文的关键创新在于将精神病理学从生物学和心理学的范畴扩展到计算领域,提出了一个适用于非生物计算实体的通用理论框架。这使得研究LLM是否具备精神病理学能力成为可能,并为开发新的精神病理学计算模型提供了思路。与现有方法相比,该方法更加关注LLM的内部机制,而非仅仅是外部行为。
关键设计:论文的具体实验设计细节未知,但可以推测可能涉及以下方面:1) 定义一系列与精神病理学相关的计算任务或模式;2) 使用特定的探针技术(例如,激活分析、表征相似性分析)来检测LLM内部是否存在这些计算模式;3) 设计特定的输入提示或情境,以诱导LLM执行这些计算模式;4) 使用特定的指标来评估LLM执行这些计算模式的效率和准确性;5) 分析不同规模LLM的实验结果,以研究模型规模对精神病理学计算能力的影响。
🖼️ 关键图片
📊 实验亮点
论文通过实验证明,大型语言模型中存在精神病理学的计算结构,并且执行这些结构会导致精神病理学功能。更重要的是,研究发现随着模型规模的增加,精神病理学的计算结构变得更加密集,功能也更加有效,这表明大型语言模型可能已经涌现出复杂的精神病理学计算能力。
🎯 应用场景
该研究成果可应用于开发更强大的精神病理学计算模型,用于疾病诊断、治疗方案设计等方面。同时,该研究也提示了人工智能系统可能存在的潜在安全风险,即具有精神病理学行为的AI系统可能对社会造成危害,因此需要加强对AI伦理和安全的关注。
📄 摘要(原文)
Can large language models (LLMs) instantiate computations of psychopathology? An effective approach to the question hinges on addressing two factors. First, for conceptual validity, we require a general and computational account of psychopathology that is applicable to computational entities without biological embodiment or subjective experience. Second, psychopathological computations, derived from the adapted theory, need to be empirically identified within the LLM's internal processing. Thus, we establish a computational-theoretical framework to provide an account of psychopathology applicable to LLMs. Based on the framework, we conduct experiments demonstrating two key claims: first, that the computational structure of psychopathology exists in LLMs; and second, that executing this computational structure results in psychopathological functions. We further observe that as LLM size increases, the computational structure of psychopathology becomes denser and that the functions become more effective. Taken together, the empirical results corroborate our hypothesis that network-theoretic computations of psychopathology have already emerged in LLMs. This suggests that certain LLM behaviors mirroring psychopathology may not be a superficial mimicry but a feature of their internal processing. Our work shows the promise of developing a new powerful in silico model of psychopathology and also alludes to the possibility of safety threat from the AI systems with psychopathological behaviors in the near future.