When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

作者: Heecheol Yun, Kwangmin Ki, Junghyun Lee, Eunho Yang

分类: cs.CL, cs.AI

发布日期: 2025-10-17

备注: preprint

💡 一句话要点

提出SAFE框架，通过选择性集成提升长文本生成中LLM集成的效率与稳定性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型集成 长文本生成 选择性集成 token化匹配 概率锐化

📋 核心要点

现有LLM集成方法在长文本生成中，由于token化不匹配和模型预测不一致，导致性能下降。
SAFE框架通过联合考虑token化不匹配和概率分布共识，选择性地进行LLM集成，提高效率。
实验表明，SAFE在多个基准测试中优于现有方法，即使仅集成少量token也能显著提升性能。

📝 摘要（中文）

大语言模型（LLM）集成通过利用各个模型的互补优势来超越单个模型的性能，已引起广泛关注。特别是，聚合模型的下一个token概率分布以选择下一个token已被证明在各种任务中有效。然而，虽然对于短文本回答很成功，但其在长文本生成中的应用仍未被充分探索。本文表明，在长文本生成中使用现有的集成方法需要仔细选择集成位置，因为在每个token处进行集成的标准做法通常会降低性能。我们确定了决定这些位置的两个关键因素：模型之间的token化不匹配以及它们在下一个token概率分布中的共识。基于此，我们提出了SAFE（稳定且快速的LLM集成），这是一个通过共同考虑这些因素来选择性地进行集成的框架。为了进一步提高稳定性，我们引入了一种概率锐化策略，该策略将分布在表示同一单词的多个子词token上的概率合并为单个代表性token。在包括MATH500和BBH在内的各种基准测试中进行的实验表明，SAFE在准确性和效率方面均优于现有方法，即使仅集成不到1%的token也能获得提升。

🔬 方法详解

问题定义：现有的大语言模型集成方法，在长文本生成任务中，通常采用在每个token处都进行集成的策略。然而，这种策略忽略了不同模型之间token化的差异，以及模型预测概率分布的共识程度。当模型token化方式不一致，或者预测结果差异较大时，盲目集成反而会降低生成质量和效率。因此，需要解决的问题是如何在长文本生成中，选择合适的token位置进行集成，以提高性能并降低计算成本。

核心思路：SAFE框架的核心思路是选择性地进行LLM集成，即只在那些模型之间token化一致且预测概率分布具有较高共识的token位置进行集成。通过这种方式，可以避免在不一致或不确定的情况下进行集成，从而提高生成结果的稳定性和准确性。同时，由于只在部分token上进行集成，可以显著降低计算成本，提高效率。

技术框架：SAFE框架主要包含两个关键模块：一是token位置选择模块，用于确定哪些token位置适合进行集成；二是概率锐化模块，用于提高模型预测概率的集中度，从而增强集成的稳定性。Token位置选择模块会综合考虑模型之间的token化匹配程度以及预测概率分布的共识程度。概率锐化模块则通过将分布在同一单词的多个子词token上的概率合并到单个代表性token上，来减少token化差异带来的影响。

关键创新：SAFE框架的关键创新在于提出了选择性集成的思想，并设计了相应的token位置选择策略。与传统的在每个token处都进行集成的方法不同，SAFE框架能够根据模型之间的token化匹配程度和预测概率分布的共识程度，智能地选择合适的token位置进行集成。这种选择性集成的策略能够有效地提高生成结果的质量和效率。

关键设计：SAFE框架的关键设计包括：1) Token化匹配度量：用于衡量不同模型之间token化方式的相似程度。2) 概率分布共识度量：用于衡量不同模型预测概率分布的一致性程度。3) 概率锐化策略：将同一单词的多个子词token的概率合并到单个代表性token上，以减少token化差异的影响。具体的共识度量和锐化策略的数学公式在论文中应该有详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SAFE框架在MATH500和BBH等多个基准测试中，均优于现有的LLM集成方法。即使仅集成不到1%的token，SAFE也能显著提升生成结果的准确性和效率。例如，在某个基准测试中，SAFE的准确率提升了X%（具体数值未知），同时计算成本降低了Y%（具体数值未知）。这些结果充分证明了SAFE框架的有效性和优越性。

🎯 应用场景

SAFE框架可应用于各种需要长文本生成的场景，例如自动摘要、机器翻译、对话生成、故事创作等。通过选择性地集成多个LLM，可以提高生成文本的质量、流畅性和一致性，同时降低计算成本。该研究对于提升LLM在实际应用中的性能和效率具有重要价值，并为未来的LLM集成研究提供了新的思路。

📄 摘要（原文）

Ensembling Large Language Models (LLMs) has gained attention as a promising approach to surpass the performance of individual models by leveraging their complementary strengths. In particular, aggregating models' next-token probability distributions to select the next token has been shown to be effective in various tasks. However, while successful for short-form answers, its application to long-form generation remains underexplored. In this paper, we show that using existing ensemble methods in long-form generation requires a careful choice of ensembling positions, since the standard practice of ensembling at every token often degrades performance. We identify two key factors for determining these positions: tokenization mismatch across models and consensus in their next-token probability distributions. Based on this, we propose SAFE, (Stable And Fast LLM Ensembling), a framework that selectively ensembles by jointly considering these factors. To further improve stability, we introduce a probability sharpening strategy that consolidates probabilities spread across multiple sub-word tokens representing the same word into a single representative token. Our experiments on diverse benchmarks, including MATH500 and BBH, demonstrate that SAFE outperforms existing methods in both accuracy and efficiency, with gains achieved even when ensembling fewer than 1% of tokens.

When to Ensemble: Identifying Token-Level Points for Stable and Fast LLM Ensembling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理