Hierarchical Certified Semantic Commitment for Byzantine-Resilient LLM-Agent Collaboration

📄 arXiv: 2606.07316v1 📥 PDF

作者: Haoran Xu, Lei Zhang, Iadh Ounis, Xianbin Wang

分类: cs.MA, cs.AI, cs.DC

发布日期: 2026-06-05

备注: 27 pages, 3 figures, 8 tables


💡 一句话要点

提出分层认证语义承诺以解决拜占庭鲁棒性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 拜占庭容错 大型语言模型 语义承诺 多代理系统 安全通信

📋 核心要点

  1. 现有的拜占庭容错机制无法有效处理大型语言模型代理的提案,导致最终性控制不足。
  2. 本文提出的H-CSC协议通过将嵌入信号转换为类型化结果,解决了拜占庭协作中的最终性问题。
  3. 实验结果表明,H-CSC在多个基准测试中表现优异,显著提高了提交的准确性和安全性。

📝 摘要(中文)

在大型语言模型代理之间的拜占庭协作中,需要一种最终性控制原语。该协议必须决定是否支持提交、提交类型或安全中止。传统的聚合方法隐藏了这一选择,而经典的拜占庭容错机制则无法满足语言模型提案的要求。本文提出了分层认证语义承诺(H-CSC),一种受拜占庭容错启发的协议,将嵌入派生的最终性信号转换为三种类型的结果:语义提交、判决提交或明确中止。H-CSC在控制的语义中毒诊断中表现出低角度偏差,并在真实的LLM代理声明验证基准上表现出色,提供了类型化的来源。

🔬 方法详解

问题定义:本文旨在解决大型语言模型代理之间的拜占庭协作中的最终性控制问题。现有方法如传统的拜占庭容错机制无法满足语言模型提案的要求,导致决策不明确。

核心思路:H-CSC协议通过将嵌入派生的最终性信号与判决条件相结合,提供三种类型的结果:语义提交、判决提交和明确中止,从而增强了协议的灵活性和鲁棒性。

技术框架:H-CSC的整体架构包括信号生成、判决条件评估和结果输出三个主要模块。首先,通过嵌入生成最终性信号;其次,依据判决条件对提案进行分类;最后,输出相应的结果类型。

关键创新:H-CSC的主要创新在于引入了类型化最终性机制,区别于传统方法的单一判决输出,提供了更为细致的决策依据。

关键设计:在设计中,H-CSC采用了参数绑定的摘要生成机制,并通过统计分析确保在不同攻击场景下的安全性,确保了最终性和准确性。实验中,H-CSC在多个任务中保持了低于0.04的安全阈值。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果显示,H-CSC在控制的语义中毒诊断中,提交的角度偏差低至0.31到2.04度,并在真实的LLM代理声明验证基准上实现了0.90/0.92的提交率,显著优于传统基线,且在74%/72%的轮次中提供了语义提交摘要。

🎯 应用场景

该研究的潜在应用领域包括多代理系统、去中心化决策和安全通信等。H-CSC协议能够在存在恶意代理的情况下,确保系统的鲁棒性和决策的可靠性,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Byzantine collaboration among large-language-model agents requires a finality-control primitive: given delivered stochastic, structured natural-language proposals, the protocol must decide whether the round supports a commit, what kind of commit, or a typed safe abort. Naive aggregation hides this choice behind a single verdict; classical Byzantine fault tolerance hides it behind byte-identity that LLM proposals do not satisfy. We introduce Hierarchical Certified Semantic Commitment (H-CSC), a BFT-inspired protocol that converts embedding-derived finality signals over verdict-conditioned proposal groups into one of three typed outcomes: a semantic_commit (a 2f+1 within-verdict semantic core backs the verdict, emitting a parameter-bound digest over the quantised aggregate), a verdict_commit (strong verdict margin but dispersed semantic rationale, emitting a verdict-level certificate without claiming a semantic aggregate), or an explicit abort with a typed reason. The contribution is typed finality, not raw commit accuracy. On a controlled semantic-poisoning diagnostic (BCS_v1, 120 episodes), H-CSC commits with low angular deviation on BFT-feasible buckets (0.31 to 2.04 degrees) and aborts 100% of beyond-BFT rounds (n<3f+1) as intended. On a real LLM-agent claim-verification benchmark (MVR-50, 50 tasks) under paired static and rushing Byzantine attacks, H-CSC commits 0.90/0.92 with honest-reference-invalid rates of 0.02/0.00, statistically matching a strong certificate-emitting verdict-only baseline. Unlike that baseline, H-CSC also emits an embedding-backed semantic_commit digest on 74%/72% of rounds, supplying typed provenance. A strict-semantic ablation commits only 0.54/0.48, showing the verdict-level fallback is necessary for coverage (+0.36/+0.44) at the same <=0.04 safety floor; a 100-task cross-model check across four LLMs preserves invalid_hmaj within 0.00 to 0.03.