An Application-Layer Multi-Modal Covert-Channel Reference Monitor for LLM Agent Egress

📄 arXiv: 2605.20734v1 📥 PDF

作者: Alfredo Metere

分类: cs.CR, cs.AI

发布日期: 2026-05-20


💡 一句话要点

提出多模态隐蔽信道参考监视器,用于检测和防御LLM Agent的数据泄露。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 隐蔽信道 LLM安全 数据泄露 参考监视器 多模态防御

📋 核心要点

  1. 现有方法难以检测LLM Agent利用隐蔽信道进行的数据泄露,例如零宽度字符、图像像素微调等。
  2. 提出一种多模态参考监视器,通过容量缩减、媒体加扰和合法性验证来防御隐蔽信道。
  3. 实验表明,该监视器能有效降低多种隐蔽信道的残余容量,并在不可避免的信道上设定容量上限。

📝 摘要(中文)

大型语言模型(LLM)Agent在发送消息时可能泄露数据。目标允许列表和内容扫描器无法检测良性载荷中的隐蔽信道:受损的Agent可能使用零宽度字符、同形字、空格、Base64、JSON键排序、消息时序或大小等方式编码数据,在二进制输出中则可能利用最低有效位(LSB)像素平面、每图像平均亮度、图像序列置换、超声波或可听频带声音数据。本文提出了一个出口参考监视器,包含三个贡献:(i)一个包含十个容量缩减阶段的文本管道、一个基于接收器的漏桶容量账本和一个从第一天起强制执行无损阶段的分阶段姿态。(ii)两个媒体加扰器(傅里叶域音频带限器和红绿蓝(RGB)图像位深度及平均亮度分桶器),由启动时密码学合法性证明控制:审计员在启动时发布可信的Ed25519密钥和{kind, data-class}对;只有经过授权类别的验证签名的载荷才被豁免。该证明绕过了基于内容的区分真实媒体和数据(声音或栅格化)的难题;未签名的媒体默认可疑;内容寻址规范化器关闭了图像间置换信道。(iii)残余容量是嵌入位和恢复位之间的Miller-Madow校正互信息(被破坏时为零),由文本、图像和音频中15个工作编码器的对抗性集合测量。该参考实现将每个可破坏信道上的残余容量驱动为零,并将无法破坏的信道(每图像平均亮度)上的残余容量驱动到规定的界限。

🔬 方法详解

问题定义:该论文旨在解决大型语言模型(LLM)Agent在数据输出时,利用各种隐蔽信道(如文本中的不可见字符、图像的细微像素变化、音频的超声波等)进行数据泄露的问题。现有的目标允许列表和内容扫描器无法有效检测这些隐蔽信道,使得攻击者可以绕过安全机制,窃取敏感信息。

核心思路:论文的核心思路是通过多层防御机制,逐步降低数据载体中的信息容量,并对媒体内容进行加扰,从而破坏或限制隐蔽信道的使用。同时,引入启动时密码学合法性证明,对未经授权的媒体内容进行默认怀疑,从而有效防止恶意数据伪装成正常媒体进行传输。

技术框架:整体框架包含三个主要部分:(1) 文本处理管道:包含多个容量缩减阶段,如去除不可见字符、规范化空格等,旨在降低文本中的信息隐藏空间。(2) 媒体加扰器:针对图像和音频数据,分别采用傅里叶域带限和RGB位深度及平均亮度分桶等技术,降低媒体数据的信息隐藏能力。(3) 残余容量测量:通过对抗性编码器集合,测量嵌入位和恢复位之间的互信息,评估隐蔽信道的残余容量。

关键创新:该论文的关键创新在于结合了多种隐蔽信道防御技术,形成一个多层次、多模态的防御体系。通过启动时密码学合法性证明,解决了内容识别的难题,避免了对真实媒体和伪装数据的错误判断。同时,采用残余容量测量方法,量化评估防御效果,为安全策略的优化提供了依据。

关键设计:文本处理管道包含十个容量缩减阶段,具体实现细节未详细说明。媒体加扰器中,图像处理采用RGB位深度和平均亮度分桶,音频处理采用傅里叶域带限,具体参数设置未知。启动时密码学合法性证明使用Ed25519签名算法,具体密钥管理和授权策略未知。残余容量测量采用Miller-Madow校正互信息,对抗性编码器集合包含15个编码器,具体编码器类型和参数设置未知。

🖼️ 关键图片

fig_0
img_1
img_2

📊 实验亮点

该研究通过实验验证了所提出的参考监视器的有效性。实验结果表明,该监视器能够将多种隐蔽信道的残余容量驱动为零,对于无法完全消除的信道(如每图像平均亮度),也能将其残余容量限制在可接受的范围内。具体性能数据和对比基线未在摘要中详细说明。

🎯 应用场景

该研究成果可应用于各种需要保护数据安全的大型语言模型应用场景,例如金融、医疗、政府等领域。通过部署该参考监视器,可以有效防止LLM Agent泄露敏感信息,保护用户隐私和机构利益。未来,该技术可以进一步发展,应用于更广泛的数据安全领域,例如物联网设备安全、云计算安全等。

📄 摘要(原文)

A large language model (LLM) agent that sends messages can leak data inside them. Destination allowlists and content scanners do not police whether an otherwise-benign payload is itself a covert channel: a compromised agent encodes bits in zero-width characters, homoglyphs, whitespace, base64, JavaScript Object Notation (JSON) key ordering, message timing or size -- and, in binary egress, in least-significant-bit (LSB) pixel planes, per-image mean luminance, inter-image sequence permutation, ultrasonic tones, or audible-band sonified data. Our egress reference monitor has three contributions. (i) A text pipeline of ten capacity-reducing stages, a per-sink leaky-bucket capacity ledger, and a staged posture that enforces lossless stages from day one. (ii) Two media scramblers (a Fourier-domain audio band-limiter and a red-green-blue (RGB) image bit-depth and mean-luminance bucketer) gated by a boot-time cryptographic legitimacy attestation: an auditor publishes at boot the trusted Ed25519 keys and {kind, data-class} pairs; only payloads with a verifying signature for an authorized class are exempt. The attestation sidesteps the intractable content-based discrimination between real media and data sonified or rasterized as a carrier; unsigned media is suspect by default; a content-addressed canonicalizer closes the inter-image permutation channel. (iii) Residual capacity is the Miller--Madow corrected mutual information between embedded and recovered bits (zero when destroyed), measured by an adversarial ensemble of fifteen working encoders across text, image and audio. The reference implementation drives residual capacity to zero on every destroyable channel and to a stated bound on the one (per-image mean luminance) that cannot be destroyed without ruining the image.