Improving Self Consistency in LLMs through Probabilistic Tokenization

📄 arXiv: 2407.03678v1 📥 PDF

作者: Ashutosh Sathe, Divyanshu Aggarwal, Sunayana Sitaram

分类: cs.CL, cs.LG

发布日期: 2024-07-04

备注: ICML 2024 Workshop on LLMs and Cognition


💡 一句话要点

利用概率分词提升大型语言模型在推理任务中的自洽性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 概率分词 自洽性 推理任务 自然语言处理

📋 核心要点

  1. 现有大型语言模型的分词器具备多重分词能力,但未被充分利用,限制了模型在推理任务中的自洽性。
  2. 该论文提出一种新方法,利用LLM分词器的多重分词能力,生成逻辑上更多样的推理路径,提升自洽性。
  3. 实验结果表明,使用概率分词能够显著提升LLM在推理任务中的自洽性,并提供了相关原理的深入见解。

📝 摘要(中文)

先前的研究表明,在语言模型的训练阶段,采用概率分词(即对同一输入字符串使用多种分词方式)能够显著提升性能。尽管如此,目前的大型语言模型(LLM)尚未采用概率分词进行训练。有趣的是,这些LLM的分词器虽然具备生成多种分词的能力,但这一特性却未得到充分利用。本文提出了一种新方法,旨在利用现代LLM分词器的多重分词能力,从而增强LLM在推理任务中的自洽性。实验结果表明,使用概率分词时,LLM能够生成逻辑上更加多样的推理路径,而不仅仅是表面上的语言多样性。我们通过对5个LLM家族和4个推理基准进行广泛的实验,深入研究了概率分词,并提供了关于其如何提升自洽性的见解。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在推理任务中自洽性不足的问题。现有方法虽然利用了分词技术,但未能充分利用LLM分词器本身具备的多重分词能力,导致模型推理路径单一,缺乏逻辑多样性。

核心思路:论文的核心思路是利用LLM分词器生成多种可能的分词结果(即概率分词),并将这些不同的分词结果作为模型的输入,从而鼓励模型探索不同的推理路径。通过增加推理路径的多样性,提高模型在推理任务中的自洽性。

技术框架:该方法主要包含以下步骤:1) 使用LLM的分词器对输入文本进行概率分词,生成多个不同的token序列。2) 将每个token序列作为LLM的输入,进行推理。3) 对不同token序列的推理结果进行整合,得到最终的推理结果。整个框架旨在利用分词的多样性来提升推理的鲁棒性和自洽性。

关键创新:该方法最重要的创新点在于,它充分挖掘了现有LLM分词器的潜力,无需修改模型结构或训练方式,即可有效提升推理性能。与现有方法相比,该方法更加轻量级,易于部署和应用。

关键设计:论文中关键的设计包括:1) 如何选择合适的分词策略,以生成具有代表性的token序列。2) 如何有效地整合不同token序列的推理结果,以获得最终的、自洽的推理结果。具体的参数设置和损失函数等技术细节在论文中进行了详细描述(未知)。

📊 实验亮点

实验结果表明,该方法在多个推理基准测试中均取得了显著的性能提升。具体而言,在使用了概率分词后,LLM的自洽性得到了明显改善,生成的推理路径更加多样化,逻辑更加严谨。具体的性能数据和提升幅度在论文中进行了详细展示(未知)。

🎯 应用场景

该研究成果可广泛应用于需要高可靠性和自洽性的自然语言处理任务中,例如问答系统、对话系统、机器翻译等。通过提升LLM的推理能力,可以提高这些应用在实际场景中的表现,并减少错误或矛盾的输出。此外,该方法还可以应用于其他类型的语言模型,具有广泛的适用性。

📄 摘要(原文)

Prior research has demonstrated noticeable performance gains through the use of probabilistic tokenizations, an approach that involves employing multiple tokenizations of the same input string during the training phase of a language model. Despite these promising findings, modern large language models (LLMs) have yet to be trained using probabilistic tokenizations. Interestingly, while the tokenizers of these contemporary LLMs have the capability to generate multiple tokenizations, this property remains underutilized. In this work, we propose a novel method to leverage the multiple tokenization capabilities of modern LLM tokenizers, aiming to enhance the self-consistency of LLMs in reasoning tasks. Our experiments indicate that when utilizing probabilistic tokenizations, LLMs generate logically diverse reasoning paths, moving beyond mere surface-level linguistic diversity.We carefully study probabilistic tokenization and offer insights to explain the self consistency improvements it brings through extensive experimentation on 5 LLM families and 4 reasoning benchmarks.