Modality-Native Routing in Agent-to-Agent Networks: A Multimodal A2A Protocol Extension

📄 arXiv: 2604.12213v1 📥 PDF

作者: Vasundra Srinivasan

分类: cs.AI

发布日期: 2026-04-14

备注: 14 pages, 4 figures (TikZ). PDFLaTeX. Supplementary code and experiment artifacts: https://github.com/vasundras/modality-native-routing-a2a-protocol


💡 一句话要点

提出MMA2A,通过模态原生路由提升多智能体系统跨模态推理任务准确率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 跨模态推理 模态原生路由 Agent-to-Agent网络 信息路由

📋 核心要点

  1. 现有Agent-to-Agent网络在跨模态推理中存在信息瓶颈,通常依赖文本模态进行路由,损失了其他模态的丰富信息。
  2. 提出MMA2A架构,通过检查Agent Card能力声明,实现语音、图像和文本等模态的原生路由,保留更多上下文信息。
  3. 在CrossModal-CS基准测试中,MMA2A相比文本瓶颈基线,任务完成准确率提升了20个百分点,尤其在视觉依赖型任务上提升显著。

📝 摘要(中文)

为了准确的跨模态推理,在智能体间网络中保留多模态信号是必要的,但还不够充分。本文表明,在Agent-to-Agent (A2A)网络中使用模态原生路由,相比于文本瓶颈基线,能够将任务准确率提高20个百分点,但这只有在下游推理智能体能够利用原生路由保留的更丰富的上下文时才能实现。通过将LLM支持的推理替换为关键词匹配,完全消除了准确率差距(36% vs. 36%),这确立了一个双层要求:协议级别的路由必须与有能力的智能体级别推理相结合,才能使收益实现。本文提出了MMA2A,一个位于A2A之上的架构层,它检查Agent Card能力声明,以其原生模态路由语音、图像和文本部分。在CrossModal-CS上,一个具有相同LLM后端、相同任务且仅路由路径不同的受控50任务基准测试中,MMA2A实现了52%的任务完成准确率,而文本瓶颈基线为32%(95% bootstrap CI on $Δ$TCA: [8, 32] pp; McNemar's exact $p = 0.006$)。收益集中在视觉依赖型任务上:产品缺陷报告提高了+38.5 pp,视觉故障排除提高了+16.7 pp。这种准确率的提高伴随着来自原生多模态处理的$1.8 imes$延迟成本。这些结果表明,路由是多智能体系统中的一个首要设计变量,因为它决定了下游推理可用的信息。

🔬 方法详解

问题定义:论文旨在解决多智能体系统中跨模态推理时,由于信息路由方式的限制,导致下游智能体无法充分利用多模态信息的问题。现有方法通常采用文本作为信息传递的唯一媒介,造成了其他模态信息的损失,限制了跨模态推理的准确性。

核心思路:论文的核心思路是实现模态原生路由,即根据智能体的能力声明,直接以其原始模态(如图像、语音)路由信息,避免信息在传递过程中被压缩或转换成文本,从而保留更丰富的上下文信息。这样,下游智能体可以根据自身能力选择利用哪些模态的信息进行推理。

技术框架:MMA2A架构构建在现有的Agent-to-Agent (A2A)网络之上,主要包含以下几个模块:1) Agent Card:每个智能体声明自身支持的模态类型和处理能力。2) 路由决策模块:根据Agent Card的信息,决定以何种模态路由信息。3) 模态原生路由:根据路由决策,将信息以其原始模态传递给下游智能体。4) 推理模块:下游智能体根据接收到的多模态信息进行推理,完成任务。

关键创新:最重要的技术创新点在于模态原生路由机制。与传统的文本瓶颈方法不同,MMA2A允许信息以其原始模态在智能体之间传递,从而保留了更多的信息,提高了跨模态推理的准确性。此外,Agent Card机制使得路由决策更加灵活,可以根据智能体的能力动态调整路由策略。

关键设计:MMA2A的关键设计在于Agent Card的定义和路由决策算法。Agent Card需要清晰地描述智能体的模态处理能力,例如支持的图像格式、语音编码方式等。路由决策算法需要综合考虑智能体的能力、任务需求和网络拓扑结构,选择最优的路由路径。论文中没有详细说明具体的路由决策算法,这部分可能需要根据实际应用场景进行定制。

📊 实验亮点

实验结果表明,在CrossModal-CS基准测试中,MMA2A相比文本瓶颈基线,任务完成准确率提升了20个百分点(52% vs. 32%)。尤其在视觉依赖型任务上,产品缺陷报告的准确率提升了38.5个百分点,视觉故障排除的准确率提升了16.7个百分点。虽然准确率提升带来了1.8倍的延迟成本,但证明了模态原生路由在多智能体系统中的重要性。

🎯 应用场景

该研究成果可应用于需要多模态信息融合的智能体协作场景,例如:智能客服、智能家居、自动驾驶、医疗诊断等。通过模态原生路由,可以提升智能体之间的协作效率和任务完成质量,实现更智能、更可靠的多智能体系统。

📄 摘要(原文)

Preserving multimodal signals across agent boundaries is necessary for accurate cross-modal reasoning, but it is not sufficient. We show that modality-native routing in Agent-to-Agent (A2A) networks improves task accuracy by 20 percentage points over text-bottleneck baselines, but only when the downstream reasoning agent can exploit the richer context that native routing preserves. An ablation replacing LLM-backed reasoning with keyword matching eliminates the accuracy gap entirely (36% vs. 36%), establishing a two-layer requirement: protocol-level routing must be paired with capable agent-level reasoning for the benefit to materialize. We present MMA2A, an architecture layer atop A2A that inspects Agent Card capability declarations to route voice, image, and text parts in their native modality. On CrossModal-CS, a controlled 50-task benchmark with the same LLM backend, same tasks, and only the routing path varying, MMA2A achieves 52% task completion accuracy versus 32% for the text-bottleneck baseline (95% bootstrap CI on $Δ$TCA: [8, 32] pp; McNemar's exact $p = 0.006$). Gains concentrate on vision-dependent tasks: product defect reports improve by +38.5 pp and visual troubleshooting by +16.7 pp. This accuracy gain comes at a $1.8\times$ latency cost from native multimodal processing. These results suggest that routing is a first-order design variable in multi-agent systems, as it determines the information available for downstream reasoning.