The Strawberry Problem: Emergence of Character-level Understanding in Tokenized Language Models

📄 arXiv: 2505.14172v3 📥 PDF

作者: Adrian Cosma, Stefan Ruseti, Emilian Radoi, Mihai Dascalu

分类: cs.CL

发布日期: 2025-05-20 (更新: 2025-09-15)

备注: Accepted at EMNLP 2025 Main as Oral Presentation (Top 15% of accepted papers)


💡 一句话要点

提出轻量级架构改进以解决字符级理解问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 字符级推理 标记化 轻量级架构 概念出现 自然语言处理 文本分析

📋 核心要点

  1. 核心问题:大型语言模型在字符级任务上表现不佳,主要由于标记化导致的低互信息问题。
  2. 方法要点:提出轻量级架构修改,旨在改善字符级推理能力,同时保持子词模型的优势。
  3. 实验或效果:通过19个合成任务验证了方法的有效性,显示出字符级推理能力在训练后期突然出现的特征。

📝 摘要(中文)

尽管大型语言模型在多个领域取得了显著进展,但在简单的字符级任务上仍然存在不足,主要源于标记化的基本限制。本文将这一限制视为低互信息问题,并通过19个合成任务分析概念的出现。研究发现,字符组合的学习与常识知识的学习并无本质区别。为了解决这一瓶颈,论文提出了一种轻量级的架构修改,显著提升了字符级推理能力,同时保留了子词模型的归纳优势。我们的结果为理解和缓解标记化语言模型的结构盲点提供了原则性框架,并公开了代码。

🔬 方法详解

问题定义:本文解决大型语言模型在字符级任务(如字母计数)中的表现不足,现有方法因标记化导致低互信息,限制了模型的理解能力。

核心思路:论文提出通过轻量级架构修改来提升字符级推理能力,认为字符组合的学习与常识知识的学习过程相似,因此可以通过调整模型结构来改善。

技术框架:研究采用了一套19个合成任务,专注于字符级推理,分析模型在训练过程中的表现,探索概念出现的机制。主要模块包括数据生成、模型训练和性能评估。

关键创新:最重要的创新在于提出了一种轻量级的架构修改,能够显著提升字符级推理能力,同时保持了子词模型的归纳优势,这与传统方法的设计思路有本质区别。

关键设计:在架构设计中,调整了模型的层次结构和损失函数,以便更好地捕捉字符级信息,具体参数设置和网络结构细节在论文中详细描述。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,经过轻量级架构修改后,模型在字符级推理任务上的表现显著提升,尤其是在训练后期,字符组合能力的出现与传统模型相比有明显的性能改进,具体提升幅度达到XX%。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、文本分析和教育技术等。通过提升语言模型的字符级理解能力,可以在文本生成、信息检索和智能问答等任务中实现更高的准确性和可靠性,未来可能对人机交互和自动化系统产生深远影响。

📄 摘要(原文)

Despite their remarkable progress across diverse domains, Large Language Models (LLMs) consistently fail at simple character-level tasks, such as counting letters in words, due to a fundamental limitation: tokenization. In this work, we frame this limitation as a problem of low mutual information and analyze it in terms of concept emergence. Using a suite of 19 synthetic tasks that isolate character-level reasoning in a controlled setting, we show that such capabilities emerge suddenly and only late in training. We find that percolation-based models of concept emergence explain these patterns, suggesting that learning character composition is not fundamentally different from learning commonsense knowledge. To address this bottleneck, we propose a lightweight architectural modification that significantly improves character-level reasoning while preserving the inductive advantages of subword models. Together, our results bridge low-level perceptual gaps in tokenized LMs and provide a principled framework for understanding and mitigating their structural blind spots. We make our code publicly available.