Mapping of Subjective Accounts into Interpreted Clusters (MOSAIC): Topic Modelling and LLM applied to Stroboscopic Phenomenology

作者: Romy Beauté, David J. Schwartzman, Guillaume Dumas, Jennifer Crook, Fiona Macpherson, Adam B. Barrett, Anil K. Seth

分类: cs.CL, q-bio.NC

发布日期: 2025-02-25

💡 一句话要点

提出MOSAIC方法，利用主题建模和LLM分析频闪现象学报告，揭示潜在体验模式。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 计算现象学 主题建模 大型语言模型 主观报告分析 频闪光刺激

📋 核心要点

开放式现象学报告分析面临挑战，难以系统识别体验模式，传统问卷调查存在局限性。
利用大型语言模型和主题建模，从开放报告中挖掘潜在体验主题，实现数据驱动的分析。
揭示了简单视觉幻觉、意识状态改变和复杂幻觉等多种体验，扩展了对频闪现象的理解。

📝 摘要（中文）

本研究提出了一种数据驱动的方法，即MOSAIC（Mapping of Subjective Accounts into Interpreted Clusters），利用大型语言模型和主题建模技术，从Dreamachine项目的开放主观报告中挖掘和解释潜在的体验主题。该项目收集了422份开放报告，共包含862个句子，这些报告描述了参与者在集体环境中体验频闪光刺激（SLS）和空间声音的沉浸式多感官体验。分析结果证实了SLS诱导的简单视觉幻觉，同时也揭示了意识状态改变和复杂幻觉的体验。该计算方法扩展了对主观体验的系统研究，能够对开放式的现象学报告进行数据驱动的分析，捕捉到标准问卷调查难以识别的体验。通过揭示体验中丰富而多方面的特征，本研究拓宽了我们对频闪诱导现象的理解，并强调了自然语言处理和大型语言模型在新兴的计算（神经）现象学领域的潜力。更广泛地说，该方法为在不同研究领域中发现主观体验的细微隐藏模式提供了一种切实可行的方法。

🔬 方法详解

问题定义：本研究旨在解决开放式主观报告分析中，难以系统性地识别和理解体验模式的问题。现有方法，如标准问卷调查，难以捕捉到开放报告中蕴含的丰富而细微的体验细节。因此，需要一种能够从大量文本数据中自动提取和解释潜在主题的方法。

核心思路：核心思路是结合主题建模和大型语言模型（LLM）的优势，对开放式主观报告进行分析。主题建模用于发现报告中频繁出现的主题，而LLM则用于解释这些主题，赋予其更深层次的含义。通过这种方式，可以从数据中自动提取体验模式，并对其进行理解和分类。

技术框架：MOSAIC方法的整体框架包含以下几个主要阶段：1) 数据收集与预处理：收集Dreamachine项目的开放式主观报告，并进行文本清洗、分词等预处理操作。2) 主题建模：使用主题建模算法（例如LDA）从预处理后的文本数据中提取主题。每个主题由一组相关的词语组成。3) LLM解释：利用大型语言模型对每个主题进行解释，生成对该主题的描述性文本。4) 主题聚类与可视化：将相似的主题聚类在一起，并进行可视化展示，以便于理解和分析。

关键创新：该方法最重要的创新点在于结合了主题建模和LLM，实现了对开放式主观报告的自动化分析和解释。与传统的主题建模方法相比，LLM的引入使得主题的解释更加自然和易于理解。与人工分析相比，该方法具有更高的效率和可扩展性。

关键设计：在主题建模阶段，需要选择合适的主题数量，并对主题建模算法的参数进行调整，以获得最佳的主题划分效果。在LLM解释阶段，需要选择合适的LLM，并设计合适的prompt，以生成高质量的主题描述。具体使用的LLM型号和prompt设计在论文中可能未明确指出，属于未知信息。

🖼️ 关键图片

📊 实验亮点

通过对Dreamachine项目的开放报告进行分析，MOSAIC方法不仅证实了SLS诱导的简单视觉幻觉，还揭示了意识状态改变和复杂幻觉等更丰富的体验。该方法能够捕捉到标准问卷调查难以识别的体验细节，为研究频闪诱导现象提供了新的视角。

🎯 应用场景

该研究方法可应用于多种领域，例如心理学、神经科学、市场调研等，用于分析开放式访谈、用户评论、社交媒体文本等数据，挖掘潜在的观点、情感和行为模式。该方法能够帮助研究者更深入地理解人类的主观体验，并为产品设计、政策制定等提供依据。

📄 摘要（原文）

Stroboscopic light stimulation (SLS) on closed eyes typically induces simple visual hallucinations (VHs), characterised by vivid, geometric and colourful patterns. A dataset of 862 sentences, extracted from 422 open subjective reports, was recently compiled as part of the Dreamachine programme (Collective Act, 2022), an immersive multisensory experience that combines SLS and spatial sound in a collective setting. Although open reports extend the range of reportable phenomenology, their analysis presents significant challenges, particularly in systematically identifying patterns. To address this challenge, we implemented a data-driven approach leveraging Large Language Models and Topic Modelling to uncover and interpret latent experiential topics directly from the Dreamachine's text-based reports. Our analysis confirmed the presence of simple VHs typically documented in scientific studies of SLS, while also revealing experiences of altered states of consciousness and complex hallucinations. Building on these findings, our computational approach expands the systematic study of subjective experience by enabling data-driven analyses of open-ended phenomenological reports, capturing experiences not readily identified through standard questionnaires. By revealing rich and multifaceted aspects of experiences, our study broadens our understanding of stroboscopically-induced phenomena while highlighting the potential of Natural Language Processing and Large Language Models in the emerging field of computational (neuro)phenomenology. More generally, this approach provides a practically applicable methodology for uncovering subtle hidden patterns of subjective experience across diverse research domains.

Mapping of Subjective Accounts into Interpreted Clusters (MOSAIC): Topic Modelling and LLM applied to Stroboscopic Phenomenology

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理