Dual-Dimensional Consistency: Balancing Budget and Quality in Adaptive Inference-Time Scaling
作者: Rongman Xu, Yifei Li, Tianzhe Zhao, Yanrui Wu, Bo Li, Hang Yan
分类: cs.AI
发布日期: 2026-05-14
💡 一句话要点
提出双维度一致性(DDC)框架,平衡LLM推理加速中的预算与质量。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理加速 自适应推理 置信度加权 分层剪枝
📋 核心要点
- 现有LLM推理加速方法在宽度和深度上存在缺陷,宽度共识易产生幻觉,深度剪枝可能过早终止有效推理。
- DDC框架通过置信度加权贝叶斯协议和趋势感知分层剪枝,将计算资源集中于高质量推理路径。
- 实验表明,DDC在保持或提升准确率的同时,显著降低了token消耗,最高可达10倍以上。
📝 摘要(中文)
大型语言模型(LLM)在推理方面表现出卓越的能力。然而,通过推理时缩放来最大化其潜力面临着采样预算和推理质量之间权衡的挑战。当前的策略效率低下,因为它们通常将采样宽度和深度视为正交目标,其中宽度共识方法有强化幻觉的风险,而深度剪枝机制过早地截断了复杂但有效的推理链。因此,我们提出了双维度一致性(DDC),一个统一的框架,将路径质量与自适应终止联系起来。通过将置信度加权贝叶斯协议与趋势感知分层剪枝相结合,我们的方法确保计算资源集中于高质量的推理路径,过滤幻觉,同时加速共识。在五个基准上的评估表明,这种方法减少了超过10倍的token消耗,同时保持或超过了各种LLM上强基线的准确性。
🔬 方法详解
问题定义:现有的大型语言模型推理加速方法,通常将采样宽度(width)和深度(depth)视为相互独立的优化目标。宽度共识方法,例如对多个采样结果进行投票,容易受到幻觉的影响,因为错误的答案可能因为数量多而被采纳。深度剪枝方法,例如提前终止推理过程,可能过早地截断了复杂但有效的推理链,导致性能下降。因此,如何在保证推理质量的前提下,有效地降低计算成本,是一个亟待解决的问题。
核心思路:DDC的核心思路是将推理路径的质量与自适应终止机制相结合。具体来说,它通过置信度加权贝叶斯协议来评估每个推理路径的质量,并根据路径质量动态地调整采样宽度和深度。高质量的路径会被赋予更高的权重,从而减少幻觉的风险。同时,通过趋势感知分层剪枝,可以避免过早地终止有潜力的推理链,从而提高推理的准确性。
技术框架:DDC框架主要包含两个核心模块:置信度加权贝叶斯协议(Confidence-Weighted Bayesian protocol)和趋势感知分层剪枝(Trend-Aware Stratified Pruning)。首先,置信度加权贝叶斯协议用于评估每个推理路径的质量,并为每个路径分配一个置信度权重。然后,趋势感知分层剪枝根据路径的置信度权重和推理趋势,动态地调整采样宽度和深度。该框架可以与各种LLM集成,实现自适应的推理加速。
关键创新:DDC的关键创新在于它将推理路径的质量与自适应终止机制相结合,从而实现了在保证推理质量的前提下,有效地降低计算成本。与现有的方法相比,DDC能够更准确地评估推理路径的质量,并根据路径质量动态地调整采样宽度和深度,从而避免了幻觉和过早终止的问题。
关键设计:置信度加权贝叶斯协议使用贝叶斯公式来更新每个推理路径的置信度,其中先验概率可以根据经验或领域知识进行设置。趋势感知分层剪枝使用分层抽样的方法,根据路径的置信度权重,动态地调整每个层次的采样数量。此外,还可以使用一些启发式规则来判断推理趋势,例如,如果路径的置信度在持续上升,则可以增加采样深度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DDC在五个基准测试中,能够在保持或超过现有强基线模型准确率的同时,将token消耗降低超过10倍。例如,在某个基准测试中,DDC在保持准确率不变的情况下,将token消耗降低了12倍。这些结果表明,DDC是一种高效且有效的LLM推理加速方法。
🎯 应用场景
DDC框架可广泛应用于对计算资源敏感的大型语言模型推理场景,例如移动设备、边缘计算等。通过自适应地调整采样宽度和深度,DDC可以在保证推理质量的前提下,显著降低计算成本,从而使得LLM能够在资源受限的环境中高效运行。此外,DDC还可以应用于对话系统、机器翻译等领域,提高推理效率和用户体验。
📄 摘要(原文)
Large Language Models (LLMs) have demonstrated remarkable abilities in reasoning. However, maximizing their potential through inference-time scaling faces challenges in trade-off between sampling budget and reasoning quality. Current strategies remain inefficient as they typically treat sampling width and depth as orthogonal objectives, where width consensus methods risk reinforcing hallucinations, while depth pruning mechanisms prematurely truncate complex yet valid reasoning chains. Therefore, we propose Dual-Dimensional Consistency (DDC), a unified framework that bridges path quality with adaptive termination. By coupling Confidence-Weighted Bayesian protocol with a Trend-Aware Stratified Pruning, our method ensures that computational resources are concentrated on high quality reasoning paths, filtering hallucinations while accelerating consensus. Evaluations across five benchmarks demonstrate that this approach reduces token consumption by over 10 times while maintaining or exceeding the accuracy of strong baselines across various LLMs.