GRAIL: A Deep-Granularity Hybrid Resonance Framework for Real-Time Agent Discovery via SLM-Enhanced Indexing
作者: Jinliang Xu
分类: cs.AI, cs.CL, cs.IR
发布日期: 2026-05-04
备注: 8 pages, 5 figures
💡 一句话要点
GRAIL:通过SLM增强索引实现实时Agent发现的深度粒度混合共振框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agent发现 大型语言模型 小型语言模型 实时检索 语义检索 伪文档扩展 多Agent协作
📋 核心要点
- 现有Agent发现方法依赖重型LLM意图解析,延迟高,或使用单体向量检索,精度不足,难以满足实时性需求。
- GRAIL框架利用SLM增强预测、伪文档扩展和MaxSim共振,在保证精度的前提下,显著降低Agent发现的延迟。
- 在AgentTaxo-9K数据集上,GRAIL相比LLM解析基线延迟降低79倍以上,且Recall@10优于传统向量搜索。
📝 摘要(中文)
随着基于大型语言模型(LLM)的Agent生态系统迅速扩展,高效准确的Agent发现成为大规模多Agent协作的关键瓶颈。现有方法通常面临两难选择:要么依赖重量级LLM进行意图解析,导致过高的延迟(通常超过30秒),要么使用牺牲语义精度以换取速度的单体向量检索。为了弥合这一差距,我们提出了GRAIL(基于粒度共振的Agent/AI链接),这是一个新颖的框架,可在不影响准确性的前提下实现低于400毫秒的发现延迟。GRAIL引入了三个关键创新:(1)SLM增强预测,用专门的、微调的小型语言模型(SLM)代替通用的LLM解析器,以实现毫秒级的能力标签预测;(2)伪文档扩展,通过合成查询来增强Agent描述,以提高语义密度,从而实现鲁棒的密集检索;(3)MaxSim共振,一种细粒度的匹配机制,计算用户查询和离散Agent使用示例之间的最大相似度,从而有效缓解语义稀释。在AgentTaxo-9K(我们新的包含9240个Agent的大规模数据集)上验证,与LLM解析基线相比,GRAIL将端到端发现延迟降低了超过79倍,同时在Recall@10方面显著优于传统的向量搜索。该框架为实时“Agent互联网”提供了一种可扩展的工业级解决方案。
🔬 方法详解
问题定义:论文旨在解决大规模Agent生态系统中实时Agent发现的问题。现有方法要么依赖大型语言模型进行意图解析,导致延迟过高,无法满足实时性要求;要么使用单体向量检索,虽然速度快,但牺牲了语义精度,导致检索结果不准确。因此,如何在保证精度的前提下,实现低延迟的Agent发现是本论文要解决的核心问题。
核心思路:论文的核心思路是利用小型语言模型(SLM)进行快速能力标签预测,并结合伪文档扩展和细粒度的MaxSim共振匹配机制,从而在速度和精度之间取得平衡。通过将复杂的意图解析任务转移到专门训练的SLM上,可以显著降低延迟。同时,通过伪文档扩展增加Agent描述的语义密度,提高检索的鲁棒性。MaxSim共振则通过匹配用户查询和Agent使用示例,缓解语义稀释问题。
技术框架:GRAIL框架主要包含三个模块:SLM增强预测模块、伪文档扩展模块和MaxSim共振模块。首先,SLM增强预测模块使用微调的SLM对Agent的能力标签进行预测,生成Agent的能力表示。然后,伪文档扩展模块通过合成查询来增强Agent的描述,增加语义密度。最后,MaxSim共振模块计算用户查询和Agent使用示例之间的最大相似度,从而实现细粒度的匹配。整体流程是:用户输入查询,系统利用SLM预测Agent能力,通过伪文档扩展增强Agent描述,最后使用MaxSim共振进行匹配,返回最相关的Agent。
关键创新:GRAIL框架的关键创新在于以下三点:(1) 使用SLM代替大型LLM进行能力标签预测,显著降低了延迟;(2) 提出伪文档扩展方法,增强了Agent描述的语义密度,提高了检索的鲁棒性;(3) 引入MaxSim共振机制,通过匹配用户查询和Agent使用示例,缓解了语义稀释问题。与现有方法相比,GRAIL在保证精度的前提下,实现了更低的延迟,更适合实时Agent发现场景。
关键设计:在SLM增强预测模块中,使用了微调的BERT模型作为SLM,并使用交叉熵损失函数进行训练。伪文档扩展模块中,使用了基于LLM的查询生成模型,根据Agent的描述生成多个合成查询。MaxSim共振模块中,使用了余弦相似度作为相似度度量函数,并选择最大相似度作为最终的匹配得分。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GRAIL框架在AgentTaxo-9K数据集上取得了显著的性能提升。与基于LLM解析的基线方法相比,GRAIL将端到端发现延迟降低了超过79倍,达到了亚秒级的响应速度。同时,GRAIL在Recall@10指标上显著优于传统的向量搜索方法,表明其在保证精度的前提下,实现了更低的延迟。
🎯 应用场景
GRAIL框架可广泛应用于各种Agent生态系统,例如智能助手、自动化工作流程、AI应用商店等。它能够帮助用户快速发现和选择合适的Agent,从而提高工作效率和用户体验。该研究为构建大规模、实时的“Agent互联网”奠定了基础,并有望推动多Agent协作和AI应用的发展。
📄 摘要(原文)
As the ecosystem of Large Language Model (LLM)-based agents expands rapidly, efficient and accurate Agent Discovery becomes a critical bottleneck for large-scale multi-agent collaboration. Existing approaches typically face a dichotomy: either relying on heavy-weight LLMs for intent parsing, leading to prohibitive latency (often exceeding 30 seconds), or using monolithic vector retrieval that sacrifices semantic precision for speed. To bridge this gap, we propose \textbf{GRAIL} (Granular Resonance-based Agent/AI Link), a novel framework achieving sub-400ms discovery latency without compromising accuracy. GRAIL introduces three key innovations: (1) \textbf{SLM-Enhanced Prediction}, replacing the generalized LLM parser with a specialized, fine-tuned Small Language Model (SLM) for millisecond-level capability tag prediction; (2) \textbf{Pseudo-Document Expansion}, augmenting agent descriptions with synthetic queries to enhance semantic density for robust dense retrieval; and (3) \textbf{MaxSim Resonance}, a fine-grained matching mechanism computing maximum similarity between user queries and discrete agent usage examples, effectively mitigating semantic dilution. Validated on \textbf{AgentTaxo-9K}, our new large-scale dataset of 9,240 agents, GRAIL reduces end-to-end discovery latency by over \textbf{79$\times$} compared to LLM-parsing baselines, while significantly outperforming traditional vector search in Recall@10. This framework offers a scalable, industrial-grade solution for the real-time ``Internet of Agents."