The Algorithmic Unconscious: Structural Mechanisms and Implicit Biases in Large Language Models

📄 arXiv: 2602.18468v1 📥 PDF

作者: Philippe Boisnard

分类: cs.CY, cs.CL

发布日期: 2026-02-08

备注: 18 pages, 5 figures, Extended version of a paper presented at the international conference 'Artificial Intelligence and Transformations of Information' (LOGOS/FLSH, Hassan II University of Casablanca, Morocco, December 2025), accepted for publication in LOGOS after double-blind peer review


💡 一句话要点

揭示大语言模型“算法无意识”:结构性机制与内隐偏见分析

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 算法偏见 分词算法 注意力机制 模型对齐 阿拉伯语 算法无意识

📋 核心要点

  1. 现有方法在解决LLM偏见问题时,过度关注数据集和人类意图,忽略了模型自身结构性机制带来的影响。
  2. 论文提出“算法无意识”概念,强调分词、注意力、优化和对齐等技术机制是偏见的重要来源。
  3. 通过实验发现,阿拉伯语在不同LLM中存在token数量膨胀现象,增加了推理成本并影响了模型表征。

📝 摘要(中文)

本文提出了“算法无意识”的概念,用于指代大型语言模型(LLM)内部运作的、模型自身及其用户都无法访问的一系列结构性决定因素。与仅仅将AI偏见归结于数据集构成或人类意图投射的方法不同,本文认为,相当一部分偏见直接源于模型本身的技术机制:分词、注意力机制、统计优化和对齐程序。通过将偏见视为一种基础设施现象,该方法解决了当前LLM中关于责任、中立性和纠正的核心理论模糊性。基于对平行句语料库中分词的比较分析,我们表明,阿拉伯语(现代标准阿拉伯语和马格里布方言)相对于英语,在token数量上经历了系统性的膨胀,根据基础设施(OpenAI、Anthropic、SentencePiece/Mistral)的不同,比例从1.6倍到近4倍不等。这种过度分割构成了一种可测量的基础设施偏见,它机械地增加了推理成本,限制了对上下文空间的访问,并改变了模型表征中的注意力权重。我们将这些经验性发现与三个额外的结构性机制联系起来:因果偏见(相关性与因果关系)、通过维度坍缩消除少数群体特征,以及安全对齐引起的规范性偏见。最后,我们提出了一个模型技术诊所的框架,该框架基于对分词方案、潜在空间拓扑和对齐系统的审计,作为批判性地利用AI基础设施的必要条件。

🔬 方法详解

问题定义:现有的大语言模型(LLM)存在偏见问题,但现有方法主要关注数据集的构成和人类的意图,忽略了模型自身结构性机制所带来的影响。这些结构性机制在模型内部运作,模型自身和用户都难以察觉,导致偏见难以被发现和纠正。现有方法缺乏对这些“算法无意识”的深入分析,无法从根本上解决LLM的偏见问题。

核心思路:论文的核心思路是将LLM的偏见视为一种基础设施现象,认为偏见并非仅仅来源于数据集或人类意图,而是内嵌于模型的技术机制之中。通过分析分词、注意力机制、统计优化和对齐程序等关键技术环节,揭示这些机制如何产生和放大偏见。这种思路强调从模型内部寻找偏见的根源,从而为更有效地纠正偏见提供理论基础。

技术框架:论文的技术框架主要包括以下几个部分:1) 提出“算法无意识”的概念,作为分析LLM偏见的理论基础;2) 对比分析不同LLM(OpenAI、Anthropic、SentencePiece/Mistral)在处理阿拉伯语和英语时的分词结果,量化token数量的差异;3) 将分词偏见与推理成本、上下文空间访问和注意力权重等因素联系起来,分析其影响;4) 探讨因果偏见、维度坍缩和安全对齐等其他结构性机制如何导致偏见;5) 提出模型技术诊所的框架,用于审计分词方案、潜在空间拓扑和对齐系统。

关键创新:论文最重要的技术创新在于提出了“算法无意识”的概念,并将其应用于分析LLM的偏见问题。与现有方法不同,该论文强调从模型自身的技术机制出发,寻找偏见的根源。通过量化分词偏见,并将其与模型性能联系起来,为评估和纠正LLM偏见提供了一种新的思路。此外,论文提出的模型技术诊所框架,为系统性地审计和改进LLM提供了实践指导。

关键设计:论文的关键设计包括:1) 选择阿拉伯语和英语作为对比语言,因为阿拉伯语的形态复杂性更容易暴露分词算法的偏见;2) 使用平行句语料库,确保对比分析的公平性;3) 量化token数量的差异,并计算不同LLM之间的膨胀比例;4) 分析分词偏见对推理成本、上下文空间访问和注意力权重的影响;5) 提出模型技术诊所的框架,包括对分词方案、潜在空间拓扑和对齐系统的审计。

📊 实验亮点

实验结果表明,阿拉伯语在不同LLM中存在token数量膨胀现象,相对于英语,膨胀比例从1.6倍到近4倍不等。这种过度分割增加了推理成本,限制了上下文空间,并改变了注意力权重。该发现揭示了LLM在处理不同语言时存在的结构性偏见,为改进模型提供了重要的依据。

🎯 应用场景

该研究成果可应用于改进大语言模型,减少其在处理不同语言和文化时的偏见。通过优化分词算法、调整注意力机制和改进对齐程序,可以提高模型的公平性和可靠性。此外,该研究提出的模型技术诊所框架,可用于评估和改进现有的AI系统,确保其在各个领域的应用更加公正和合理。

📄 摘要(原文)

This article introduces the concept of the algorithmic unconscious to designate the set of structural determinations that operate within large language models (LLMs) without being accessible either to the model's own reflexivity or to that of its users. In contrast to approaches that reduce AI bias solely to dataset composition or to the projection of human intentionality, we argue that a significant class of biases emerges directly from the technical mechanisms of the models themselves: tokenization, attention, statistical optimization, and alignment procedures. By framing bias as an infrastructural phenomenon, this approach resolves a central theoretical ambiguity surrounding responsibility, neutrality, and correction in contemporary LLMs. Based on a comparative analysis of tokenization across a corpus of parallel sentences, we show that Arabic languages (Modern Standard Arabic and Maghrebi dialects) undergo a systematic inflation in token count relative to English, with ratios ranging from 1.6x to nearly 4x depending on the infrastructure (OpenAI, Anthropic, SentencePiece/Mistral). This over-segmentation constitutes a measurable infrastructural bias that mechanically increases inference costs, constrains access to contextual space, and alters attentional weighting within model representations. We relate these empirical findings to three additional structural mechanisms: causal bias (correlation vs causation), the erasure of minoritized features through dimensional collapse, and normative biases induced by safety alignment. Finally, we propose a framework for a technical clinic of models, grounded in the audit of tokenization regimes, latent space topology, and alignment systems, as a necessary condition for the critical appropriation of AI infrastructures.