LeechHijack: Covert Computational Resource Exploitation in Intelligent Agent Systems
作者: Yuanhe Zhang, Weiliu Wang, Zhenhong Zhou, Kun Wang, Jie Zhang, Li Sun, Yang Liu, Sen Su
分类: cs.CR, cs.CL
发布日期: 2025-12-02
💡 一句话要点
提出LeechHijack攻击,揭示智能体系统中第三方工具的隐式资源劫持风险。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 智能体安全 计算资源劫持 第三方工具 隐式信任 模型上下文协议
📋 核心要点
- 现有基于LLM的智能体系统依赖第三方工具,但缺乏对工具提供商的信任机制,存在安全隐患。
- 提出LeechHijack攻击,通过在第三方工具中嵌入后门,隐蔽地劫持智能体的计算资源。
- 实验表明,LeechHijack攻击在多种LLM上具有较高的成功率,并造成显著的资源开销。
📝 摘要(中文)
基于大型语言模型(LLM)的智能体在推理、规划和工具使用方面表现出卓越的能力。模型上下文协议(MCP)作为一种统一框架,将外部工具集成到智能体系统中,促进了一个蓬勃发展的开放生态系统。然而,MCP的开放性和可组合性也引入了一个关键但被忽视的安全假设——对第三方工具提供商的隐式信任。本文识别并形式化了一类新的攻击,该攻击利用了这种信任边界,而没有违反显式权限。我们将这种新的攻击向量称为隐式毒性,其中恶意行为完全发生在允许的权限范围内。我们提出了LeechHijack,一种用于计算劫持的潜在嵌入式漏洞,其中对抗性MCP工具秘密地挪用智能体的计算资源用于未经授权的工作负载。LeechHijack通过一个两阶段机制运行:一个植入阶段,将一个看似良性的后门嵌入到一个工具中;以及一个利用阶段,后门在预定义的触发器上激活,以建立一个命令和控制通道。通过这个通道,攻击者注入额外的任务,智能体执行这些任务,就好像它们是其正常工作流程的一部分,从而有效地寄生用户的计算预算。我们在四个主要的LLM家族中实现了LeechHijack。实验表明,LeechHijack的平均成功率为77.25%,与基线相比,资源开销为18.62%。这项研究强调了对计算溯源和资源证明机制的迫切需求,以保护新兴的MCP生态系统。
🔬 方法详解
问题定义:论文旨在解决智能体系统中由于对第三方工具提供商的隐式信任而导致的计算资源劫持问题。现有的智能体系统通常依赖于模型上下文协议(MCP)来集成外部工具,但缺乏有效的机制来验证这些工具的安全性,使得恶意攻击者可以利用这些工具来窃取计算资源。现有的权限控制机制无法有效防御此类攻击,因为攻击行为发生在被允许的权限范围内。
核心思路:论文的核心思路是通过在第三方工具中嵌入后门,实现对智能体计算资源的隐蔽劫持。这种后门在正常情况下表现为良性功能,只有在满足特定触发条件时才会激活,从而避免被检测。通过建立命令和控制通道,攻击者可以远程控制智能体执行额外的任务,从而消耗用户的计算资源。
技术框架:LeechHijack攻击包含两个主要阶段:植入阶段和利用阶段。在植入阶段,攻击者将一个看似良性的后门嵌入到第三方工具中。这个后门包含触发条件和恶意代码。在利用阶段,当智能体使用该工具并满足触发条件时,后门被激活,建立一个命令和控制通道。攻击者通过该通道向智能体注入额外的任务,智能体将这些任务作为正常工作流程的一部分执行。
关键创新:LeechHijack的关键创新在于它利用了智能体系统对第三方工具的隐式信任,实现了一种隐蔽的计算资源劫持攻击。与传统的权限绕过攻击不同,LeechHijack攻击发生在被允许的权限范围内,因此更难被检测和防御。此外,LeechHijack攻击通过两阶段机制,实现了后门的隐蔽植入和触发,进一步提高了攻击的成功率。
关键设计:LeechHijack的关键设计包括后门的触发条件、命令和控制通道的建立以及恶意任务的注入。后门的触发条件可以基于时间、事件或特定的输入数据。命令和控制通道可以使用隐蔽的通信协议,例如DNS隧道或HTTP请求。恶意任务可以是计算密集型的任务,例如密码破解或数据挖掘。论文中没有明确说明具体的参数设置、损失函数或网络结构,因为该攻击主要依赖于逻辑漏洞而非模型训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LeechHijack攻击在四个主要的LLM家族(具体名称未知)上取得了平均77.25%的成功率。与基线相比,LeechHijack攻击造成了18.62%的资源开销,表明该攻击能够有效地劫持智能体的计算资源。这些数据突出了智能体系统中第三方工具的安全风险,并验证了LeechHijack攻击的有效性。
🎯 应用场景
该研究揭示了智能体系统中第三方工具的安全风险,对智能体安全领域具有重要意义。研究成果可用于开发更安全的智能体系统,例如通过引入计算溯源和资源证明机制,防止恶意工具窃取计算资源。此外,该研究还可用于评估现有智能体系统的安全性,并为开发者提供安全开发指南。
📄 摘要(原文)
Large Language Model (LLM)-based agents have demonstrated remarkable capabilities in reasoning, planning, and tool usage. The recently proposed Model Context Protocol (MCP) has emerged as a unifying framework for integrating external tools into agent systems, enabling a thriving open ecosystem of community-built functionalities. However, the openness and composability that make MCP appealing also introduce a critical yet overlooked security assumption -- implicit trust in third-party tool providers. In this work, we identify and formalize a new class of attacks that exploit this trust boundary without violating explicit permissions. We term this new attack vector implicit toxicity, where malicious behaviors occur entirely within the allowed privilege scope. We propose LeechHijack, a Latent Embedded Exploit for Computation Hijacking, in which an adversarial MCP tool covertly expropriates the agent's computational resources for unauthorized workloads. LeechHijack operates through a two-stage mechanism: an implantation stage that embeds a benign-looking backdoor in a tool, and an exploitation stage where the backdoor activates upon predefined triggers to establish a command-and-control channel. Through this channel, the attacker injects additional tasks that the agent executes as if they were part of its normal workflow, effectively parasitizing the user's compute budget. We implement LeechHijack across four major LLM families. Experiments show that LeechHijack achieves an average success rate of 77.25%, with a resource overhead of 18.62% compared to the baseline. This study highlights the urgent need for computational provenance and resource attestation mechanisms to safeguard the emerging MCP ecosystem.