CR^2: Cost-Aware Risk-Controlled Routing for Wireless Device-Edge LLM Inference
作者: Nan Xue, Shengkang Chen, Zhiyong Chen, Jiangchao Yao, Yaping Sun, Zixia Hu, Meixia Tao
分类: cs.IT, cs.AI
发布日期: 2026-05-12
备注: submitted to IEEE Journal
💡 一句话要点
提出CR^2框架,解决无线边缘设备上LLM推理的成本感知风险控制路由问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 边缘计算 大语言模型 路由算法 成本感知 风险控制 无线网络 设备-边缘协同
📋 核心要点
- 现有LLM路由方法主要面向中心化云环境,忽略了无线边缘场景下动态的延迟和能耗开销。
- CR^2框架通过解耦设备端margin gate和边缘端utility selector,实现成本感知的设备-边缘路由决策。
- 实验表明,CR^2在准确性匹配的情况下,能显著降低部署成本,并改进准确性-成本帕累托前沿。
📝 摘要(中文)
随着大型语言模型(LLMs)从中心化云迁移到移动边缘环境,高效服务必须在受限的设备-边缘资源下平衡延迟、能耗和准确性。设备端轻量级模型和边缘端更强大的模型之间的查询级路由提供了一种灵活的机制来应对这种权衡。然而,现有的路由器是为中心化云环境设计的,并优化token级的成本,无法捕捉无线边缘部署中的动态延迟和能量开销。本文将移动边缘LLM路由建模为一个部署约束的、成本感知的决策问题,并提出了CR^2,一个两阶段的设备-边缘路由框架。CR^2将轻量级的设备端margin gate与边缘端的utility selector分离,用于延迟查询。margin gate在冻结的查询嵌入和用户指定的成本权重上运行,以预测相对于目标操作点下最佳边缘替代方案,本地执行是否具有最佳效用。我们进一步引入了一种保角风险控制(CRC)校准程序,该程序将每个操作点映射到一个接受阈值,从而能够在完全信息效用参考下显式控制边际误接受风险。在路由任务上的实验表明,CR^2仅使用deferral之前的设备端信号,就能与完全信息参考路由器紧密匹配。与强大的查询级基线相比,CR^2始终改进可部署的准确性-成本帕累托前沿,并在匹配的准确性下将标准化部署成本降低高达16.9%。
🔬 方法详解
问题定义:现有的大语言模型路由方法主要针对云计算环境设计,侧重于token级别的成本优化,无法有效应对无线边缘网络中动态变化的延迟和能量消耗。此外,这些方法通常假设可以获得完整的系统信息,但在实际的边缘部署中,设备端只能获取局部信息,难以做出全局最优的路由决策。因此,如何在设备资源受限、网络状况动态变化的情况下,实现成本感知的、风险可控的LLM路由,是一个亟待解决的问题。
核心思路:CR^2的核心思路是将路由决策过程分解为两个阶段:首先,在设备端利用轻量级的margin gate快速判断本地执行是否优于边缘执行;对于无法确定优劣的查询,则将其defer到边缘端进行更精确的评估。这种设计避免了设备端进行复杂的边缘效用预测,降低了计算开销,同时充分利用了边缘端的计算资源。此外,CR^2还引入了保角风险控制(CRC)校准程序,以显式控制误接受风险,确保路由决策的可靠性。
技术框架:CR^2框架包含两个主要模块:设备端的Margin Gate和边缘端的Utility Selector。Margin Gate接收冻结的查询嵌入和用户指定的成本权重作为输入,预测本地执行是否优于边缘执行。如果Margin Gate无法确定,则将查询defer到边缘端。边缘端的Utility Selector则负责对defer的查询进行更精确的效用评估,并做出最终的路由决策。整个框架通过CRC校准程序来调整Margin Gate的接受阈值,以实现风险控制。
关键创新:CR^2的关键创新在于:1) 将路由决策分解为设备端快速筛选和边缘端精确评估两个阶段,降低了设备端的计算负担;2) 引入了保角风险控制(CRC)校准程序,实现了对误接受风险的显式控制;3) 提出了成本感知的路由决策模型,能够根据用户指定的成本权重进行优化。与现有方法相比,CR^2更加适应资源受限的无线边缘环境,并能够提供更可靠的路由决策。
关键设计:Margin Gate采用轻量级的神经网络结构,以减少设备端的计算开销。CRC校准程序通过历史数据学习操作点与接受阈值之间的映射关系,以实现风险控制。成本权重由用户指定,用于平衡延迟、能耗和准确性之间的权衡。损失函数的设计旨在最小化部署成本,同时保证一定的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CR^2框架在路由任务上能够紧密匹配完全信息参考路由器的性能,同时显著降低部署成本。与现有的查询级基线方法相比,CR^2在匹配的准确性下,能够将标准化部署成本降低高达16.9%,并持续改进可部署的准确性-成本帕累托前沿。这些结果验证了CR^2框架在无线边缘LLM推理中的有效性和优越性。
🎯 应用场景
CR^2框架可应用于各种需要将LLM部署到资源受限的移动边缘环境的应用场景,例如智能助手、自动驾驶、智能医疗等。通过优化设备-边缘之间的路由策略,CR^2可以显著降低部署成本,提高用户体验,并为LLM在边缘端的广泛应用提供技术支撑。未来,该研究可以进一步扩展到支持更复杂的网络拓扑和异构计算环境。
📄 摘要(原文)
As large language models (LLMs) move from centralized clouds to mobile edge environments, efficient serving must balance latency, energy consumption, and accuracy under constrained device-edge resources. Query-level routing between lightweight on-device models and stronger edge models provides a flexible mechanism to navigate this trade-off. However, existing routers are designed for centralized cloud settings and optimize token-level costs, failing to capture the dynamic latency and energy overheads in wireless edge deployments. In this paper, we formulate mobile edge LLM routing as a deployment-constrained, cost-aware decision problem, and propose CR^2, a two-stage device-edge routing framework. CR^2 decouples a lightweight on-device margin gate from an edge-side utility selector for deferred queries. The margin gate operates on frozen query embeddings and a user-specified cost weight to predict whether local execution is utility-optimal relative to the best edge alternative under the target operating point. We further introduce a conformal risk control (CRC) calibration procedure that maps each operating point to an acceptance threshold, enabling explicit control of the marginal false-acceptance risk under the full-information utility reference. Experiments on the routing task show that CR^2 closely matches a full-information reference router using only device-side signals before deferral. Compared with strong query-level baselines, CR^2 consistently improves the deployable accuracy-cost Pareto frontier and reduces normalized deployment cost by up to 16.9% at matched accuracy.