Escaping Mode Collapse in LLM Generation via Geometric Regulation
作者: Xin Du, Kumiko Tanaka-Ishii
分类: cs.CL, cond-mat.dis-nn, cs.AI, nlin.CD
发布日期: 2026-05-01
备注: Accepted to ICML 2026
💡 一句话要点
提出RMR几何调控方法,解决LLM生成中模式崩塌问题,提升生成质量。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 模式崩塌 大型语言模型 文本生成 几何调控 状态空间 Transformer 自回归模型
📋 核心要点
- 大型语言模型生成时易出现模式崩塌,导致生成文本质量下降,多样性不足,现有方法难以有效解决。
- 论文提出强化模式调控(RMR)方法,通过调节Transformer值缓存中的自增强方向,干预模型状态空间。
- 实验表明,RMR能显著减少模式崩塌,在极低熵率下实现稳定高质量生成,优于标准解码方法。
📝 摘要(中文)
模式崩塌是生成模型中一个长期存在的挑战,在自回归文本生成中表现为显式循环、多样性逐渐丧失和轨迹过早收敛等行为。本文从动态系统的角度出发,将模式崩塌重新解释为由几何崩塌导致的状态空间可达性降低:在生成过程中,模型内部轨迹被限制在其表征空间的低维区域。这意味着模式崩塌不仅仅是token级别上的现象,不能通过符号约束或仅基于概率的解码启发式方法可靠地解决。基于此,我们提出强化模式调控(RMR),这是一种轻量级的在线状态空间干预方法,用于调节Transformer值缓存中的主要自增强方向(实现为低秩阻尼)。在多个大型语言模型上,RMR显著减少了模式崩塌,并能够在极低的熵率(低至0.8 nats/step)下实现稳定、高质量的生成,而标准解码通常在接近2.0 nats/step时发生崩塌。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在自回归文本生成过程中出现的模式崩塌问题。现有方法,如符号约束或仅基于概率的解码启发式方法,无法有效解决该问题,因为模式崩塌不仅仅是token级别上的现象,而是模型内部状态空间几何结构的坍塌。
核心思路:论文的核心思路是将模式崩塌视为模型内部状态空间可达性降低的现象,即模型在生成过程中,其内部轨迹被限制在表征空间的低维区域。通过调节模型的状态空间,增加其可达性,从而避免模式崩塌。
技术框架:论文提出的强化模式调控(RMR)是一种在线状态空间干预方法。它主要针对Transformer模型的值缓存进行操作,通过调节其中的主要自增强方向来影响模型的生成过程。RMR可以被视为一种低秩阻尼方法,它在不引入过多计算开销的情况下,有效地控制了模型的状态空间。
关键创新:RMR的关键创新在于它从动态系统的角度重新审视了模式崩塌问题,并将其与模型内部状态空间的几何结构联系起来。与传统的token级别或概率级别的干预方法不同,RMR直接作用于模型的状态空间,从而更有效地避免了模式崩塌。
关键设计:RMR通过低秩分解来识别Transformer值缓存中的主要自增强方向,并对这些方向进行阻尼。具体的实现细节包括如何选择低秩分解的秩、如何计算阻尼系数等。这些参数需要根据具体的模型和任务进行调整,以达到最佳的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RMR在多个大型语言模型上显著减少了模式崩塌,并能够在极低的熵率(低至0.8 nats/step)下实现稳定、高质量的生成。相比之下,标准解码方法通常在接近2.0 nats/step时发生崩塌。这表明RMR能够显著提升LLM的生成能力和稳定性。
🎯 应用场景
该研究成果可应用于各种需要高质量、多样性文本生成的场景,例如对话系统、文本摘要、机器翻译、创意写作等。通过减少模式崩塌,可以提升生成文本的流畅性、连贯性和创造性,从而改善用户体验并拓展LLM的应用范围。未来,该方法有望进一步推广到其他生成模型和模态。
📄 摘要(原文)
Mode collapse is a persistent challenge in generative modeling and appears in autoregressive text generation as behaviors ranging from explicit looping to gradual loss of diversity and premature trajectory convergence. We take a dynamical-systems view and reinterpret mode collapse as reduced state-space accessibility caused by geometric collapse: during generation, the model's internal trajectory becomes confined to a low-dimensional region of its representation space. This implies mode collapse is not purely a token-level phenomenon and cannot be reliably solved by symbolic constraints or probability-only decoding heuristics. Guided by this perspective, we propose Reinforced Mode Regulation (RMR), a lightweight, online state-space intervention that regulates dominant self-reinforcing directions in the Transformer value cache (implemented as low-rank damping). Across multiple large language models, RMR substantially reduces mode collapse and enables stable, high-quality generation at extremely low entropy rates (down to 0.8 nats/step), whereas standard decoding typically collapses near 2.0 nats/step.