CharED: Character-wise Ensemble Decoding for Large Language Models

📄 arXiv: 2407.11009v1 📥 PDF

作者: Kevin Gu, Eva Tuecke, Dmitriy Katz, Raya Horesh, David Alvarez-Melis, Mikhail Yurochkin

分类: cs.CL, cs.LG

发布日期: 2024-06-25

备注: 9 pages, 4 figures


💡 一句话要点

提出CharED,一种字符级集成解码方法,提升大语言模型在多领域的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 模型集成 字符级解码 推理优化 知识融合

📋 核心要点

  1. 现有大语言模型集成方法依赖共享词汇表和分词,或需要耗时的领域微调,限制了其应用。
  2. CharED通过字符级加权平均多个模型的输出,实现无需共享词汇表和分词器的模型集成。
  3. 实验表明,CharED在编码、数学和毒性检测等任务上,能够有效结合不同LLM的优势,提升性能。

📝 摘要(中文)

大型语言模型(LLM)在解决问题方面展现了卓越的潜力,开源模型在逻辑推理到数学能力等领域的基准测试中取得了越来越令人印象深刻的性能。集成模型可以进一步提高各个领域的能力。然而,传统的模型集成方法,如浅层融合,需要在推理时共享词汇表和分词器,而针对特定领域性能进行微调既耗时又耗费计算资源。因此,我们提出了一种推理时集成算法,旨在“平均”多个LLM的输出,并展示了其在多个领域中相对于其组成模型的改进性能。字符级集成解码(CharED)找到单个模型中每个字符的边际分布,并执行加权平均以逐字符生成输出。在编码、数学和毒性基准测试中,我们发现我们提出的模型能够结合多个LLM的互补优势,而无需考虑词汇表、分词或模型大小。

🔬 方法详解

问题定义:现有的大语言模型集成方法,如浅层融合,通常要求所有模型共享相同的词汇表和分词器。这限制了集成不同架构或训练数据的模型。此外,针对特定领域进行微调虽然可以提升性能,但计算成本高昂且耗时。因此,需要一种更灵活、高效的模型集成方法,能够利用不同模型的优势,而无需进行额外的训练或对模型架构进行修改。

核心思路:CharED的核心思想是在字符级别上对多个模型的输出进行集成。具体来说,对于每个字符位置,CharED首先计算每个模型生成该字符的概率分布,然后对这些概率分布进行加权平均,得到最终的字符概率分布。最后,选择概率最高的字符作为该位置的输出。这种方法的关键在于,它不需要模型共享词汇表或分词器,因为字符是所有模型都通用的基本单元。

技术框架:CharED的整体流程如下:1. 给定输入文本,分别使用多个大语言模型生成输出文本。2. 对于每个模型,计算每个字符位置的字符概率分布。这可以通过对模型的softmax输出进行归一化得到。3. 对所有模型的字符概率分布进行加权平均,得到最终的字符概率分布。权重可以根据模型的性能或置信度进行调整。4. 从最终的字符概率分布中选择概率最高的字符作为该位置的输出。5. 将所有位置的输出字符组合成最终的输出文本。

关键创新:CharED最重要的创新点在于其字符级别的集成方式。与传统的token级别集成方法相比,CharED不需要模型共享词汇表或分词器,因此可以更灵活地集成不同架构或训练数据的模型。此外,CharED还可以更好地处理未登录词(OOV)问题,因为字符是所有模型都通用的基本单元。

关键设计:CharED的关键设计包括:1. 字符概率分布的计算方法:可以使用模型的softmax输出直接计算,也可以使用其他更复杂的概率估计方法。2. 权重分配策略:可以根据模型的性能或置信度进行调整,例如,可以使用验证集上的性能作为权重。3. 解码策略:可以选择概率最高的字符作为输出,也可以使用其他更复杂的解码策略,例如,beam search。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CharED在编码、数学和毒性检测等基准测试中,能够有效结合多个LLM的互补优势,提升性能。例如,在某些任务上,CharED能够将模型的准确率提高5%-10%,同时显著降低生成文本的毒性。

🎯 应用场景

CharED可应用于各种需要集成多个大语言模型的场景,例如机器翻译、文本生成、对话系统等。它尤其适用于集成具有不同词汇表或分词器的模型,以及在计算资源有限的情况下进行模型集成。该方法能够提升模型在编码、数学推理和降低生成文本毒性等方面的能力,具有广泛的应用前景。

📄 摘要(原文)

Large language models (LLMs) have shown remarkable potential for problem solving, with open source models achieving increasingly impressive performance on benchmarks measuring areas from logical reasoning to mathematical ability. Ensembling models can further improve capabilities across a variety of domains. However, conventional methods of combining models at inference time such as shallow fusion necessitate a shared vocabulary and tokenization, and alternatives like fine-tuning for domain-specific performance are both time consuming and computationally expensive. We therefore present an inference-time ensembling algorithm aimed at "averaging" outputs from multiple LLMs and illustrate its improved performance across multiple domains compared to its constituent models alone. Character-wise ensemble decoding, CharED, finds the marginal distribution of each character for an individual model and performs a weighted average to generate an output, character by character. In coding, math, and toxicity benchmarks, we find our proposed model able to combine complimentary strengths of multiple LLMs, regardless of vocabulary, tokenization, or model size.