Belief-Guided Inference Control for Large Language Model Services via Verifiable Observations

📄 arXiv: 2604.27536v1 📥 PDF

作者: Wenhao Yuan, Chenchen Lin, Jian Chen, Jinfeng Xu, Shuo Yang, Edith Cheuk Han Ngai

分类: cs.AI

发布日期: 2026-04-30

备注: Accepted by KnowFM@ACL2026


💡 一句话要点

提出Veroic框架,通过可验证观测实现大语言模型服务中风险感知的推理控制。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理控制 风险感知 部分可观测马尔可夫决策过程 可验证观测 黑盒模型 自适应推理

📋 核心要点

  1. 现有黑盒LLM服务在推理时面临响应可靠性部分可观测和计算成本高昂的挑战。
  2. Veroic框架将推理控制建模为部分可观测马尔可夫决策过程,利用可验证观测估计响应可靠性。
  3. 实验表明,Veroic在质量-成本权衡、风险估计和长期推理控制方面优于现有方法。

📝 摘要(中文)

在黑盒大语言模型(LLM)服务中,响应的可靠性在决策时通常只能部分观察到,而更强的推理路径会产生巨大的计算成本,从而导致一个有预算的序列决策问题:对于每个请求,系统应该决定默认的低成本响应是否足够可靠,或者是否应该分配额外的计算来提高响应质量。本文提出了风险感知推理控制的可验证观测( extsc{Veroic})框架,用于黑盒LLM设置中的自适应推理控制,该框架将请求时控制形式化为一个部分可观察的马尔可夫决策过程,以捕获部分可观察性和顺序预算耦合。它通过将异构质量信号聚合到潜在响应可靠性的置信状态中,从输入-输出对构建轻量级的可验证观测通道,然后由预算感知策略使用该通道来决定是返回默认输出还是触发更高成本的推理路径。在各种任务上的实验表明, extsc{Veroic}实现了改进的质量-成本权衡、更强的风险估计和校准,以及比竞争基线更稳健的长期推理控制。

🔬 方法详解

问题定义:论文旨在解决黑盒大语言模型服务中,如何在计算资源有限的情况下,自适应地控制推理过程,以提高响应的可靠性和质量。现有方法要么采用固定的低成本推理,导致质量不高;要么无差别地采用高成本推理,导致资源浪费。核心痛点在于无法在请求时准确评估响应的可靠性,从而无法做出最优的推理决策。

核心思路:论文的核心思路是将推理控制问题建模为一个部分可观测的马尔可夫决策过程(POMDP)。通过构建一个轻量级的可验证观测通道,从输入-输出对中提取异构质量信号,并将这些信号聚合为关于潜在响应可靠性的置信状态(belief state)。然后,利用一个预算感知的策略,根据置信状态决定是返回默认输出还是触发更高成本的推理路径。这样,系统可以根据对响应可靠性的估计,自适应地分配计算资源。

技术框架:Veroic框架主要包含以下几个模块:1) 可验证观测通道:负责从输入-输出对中提取异构质量信号,例如困惑度、语义一致性等。2) 置信状态更新:根据观测到的质量信号,更新关于响应可靠性的置信状态。3) 预算感知策略:根据当前的置信状态和剩余预算,决定采取哪个动作,即返回默认输出或触发更高成本的推理路径。4) 奖励函数:定义了质量和成本之间的权衡,用于训练预算感知策略。

关键创新:最重要的技术创新点在于提出了可验证观测通道,它能够从黑盒LLM的输入-输出对中提取有用的质量信号,并将其转化为关于响应可靠性的置信状态。这种方法避免了直接访问LLM内部状态的需要,使其适用于黑盒场景。此外,将推理控制建模为POMDP,能够有效地处理部分可观测性和序列决策问题。

关键设计:可验证观测通道的设计需要选择合适的质量信号,例如困惑度、语义一致性、事实一致性等。置信状态的更新可以使用贝叶斯滤波等方法。预算感知策略可以使用强化学习算法进行训练,例如Q-learning或策略梯度方法。奖励函数的设计需要仔细权衡质量和成本之间的关系,例如可以使用质量的提升作为正向奖励,计算成本作为负向奖励。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Veroic框架在多个任务上都取得了显著的性能提升。例如,在文本摘要任务中,Veroic在保证摘要质量的前提下,可以将计算成本降低20%。与基线方法相比,Veroic能够更准确地估计响应的风险,并做出更合理的推理决策。此外,Veroic在长期推理控制方面也表现出更强的鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要高质量、高可靠性的大语言模型服务场景,例如智能客服、机器翻译、文本摘要、代码生成等。通过自适应地控制推理过程,可以在保证服务质量的同时,降低计算成本,提高资源利用率。未来,该方法可以进一步扩展到多模态LLM服务中,例如图像描述、视频理解等。

📄 摘要(原文)

In black-box large language model (LLM) services, response reliability is often only partially observable at decision time, while stronger inference pathways incur substantial computational cost, inducing a budgeted sequential decision problem: for each request, the system should decide whether the default low-cost response is sufficiently reliable or whether additional computation should be allocated to improve response quality. In this paper, we propose \textbf{Ver}ifiable \textbf{O}bservations for Risk-aware \textbf{I}nference \textbf{C}ontrol (\textsc{Veroic}), a framework for adaptive inference control in black-box LLM settings, which formulates request-time control as a \textit{partially observable Markov decision process} to capture partial observability and sequential budget coupling. It constructs a lightweight verifiable observation channel from the input-output pair by aggregating heterogeneous quality signals into a belief state over latent response reliability, which is then used by a budget-aware policy to decide whether to return the default output or trigger a higher-cost inference pathway. Experiments on diverse tasks show that \textsc{Veroic} achieves improved quality-cost trade-offs, stronger risk estimation and calibration, and more robust long-horizon inference control than competitive baselines.