Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs

📄 arXiv: 2601.05851v1 📥 PDF

作者: Sandeep Mishra, Devichand Budagam, Anubhab Mandal, Bishal Santra, Pawan Goyal, Manish Gupta

分类: cs.CL, cs.AI, cs.CV

发布日期: 2026-01-09

备注: Accepted to EACL 2026 Industry Track, 12 pages, 6 figures


💡 一句话要点

提出Router-Suggest,用于视觉对话中多模态自动补全的动态路由。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态自动补全 视觉对话 动态路由 视觉-语言模型 上下文感知 用户满意度 实时性

📋 核心要点

  1. 现有文本自动补全方法在视觉对话场景中无法有效捕捉用户意图,忽略了重要的视觉上下文信息。
  2. Router-Suggest框架通过动态路由,根据对话上下文自适应地选择文本模型或视觉-语言模型进行自动补全。
  3. 实验表明,Router-Suggest在保证用户满意度的前提下,显著提升了自动补全的速度,尤其是在资源受限的环境中。

📝 摘要(中文)

本文提出了多模态自动补全(MAC)任务,该任务利用部分输入的文本和视觉线索,预测实时聊天中即将出现的字符。与传统的文本自动补全(TAC)不同,MAC将预测建立在多模态上下文的基础上,以更好地捕捉用户意图。为了支持该任务,本文对MMDialog和ImageChat进行了适配,创建了基准数据集。论文评估了领先的视觉-语言模型(VLM)与强大的文本基线,突出了准确性和效率之间的权衡。提出了Router-Suggest,一个基于对话上下文动态选择文本模型和VLM的路由框架,以及一个用于资源受限环境的轻量级变体。Router-Suggest比性能最佳的VLM实现了2.3倍至10倍的加速。用户研究表明,VLM在用户满意度方面明显优于文本模型,尤其是在节省用户打字工作量和提高多轮对话中补全质量方面。这些发现强调了多模态上下文在自动补全中的必要性,从而实现了更智能、用户感知的助手。

🔬 方法详解

问题定义:论文旨在解决视觉对话场景下的多模态自动补全问题。传统的文本自动补全方法(TAC)仅依赖于已输入的文本,无法利用对话中存在的视觉信息,导致在需要视觉上下文理解的场景下表现不佳。现有视觉-语言模型(VLM)虽然可以利用视觉信息,但计算成本高昂,难以满足实时性要求。

核心思路:论文的核心思路是设计一个动态路由框架,根据对话上下文的重要性,自适应地选择使用轻量级的文本模型或更强大的视觉-语言模型。当视觉信息对预测结果影响不大时,选择文本模型以提高效率;当视觉信息至关重要时,选择VLM以提高准确性。

技术框架:Router-Suggest框架包含以下主要模块:1) 上下文分析器:分析对话历史和当前输入,判断视觉信息的重要性。2) 路由选择器:根据上下文分析器的结果,动态选择文本模型或VLM。3) 自动补全模块:使用选定的模型生成自动补全建议。4) 轻量级变体:针对资源受限的环境,设计了更高效的上下文分析器和路由选择器。

关键创新:Router-Suggest的关键创新在于其动态路由机制,它能够根据对话上下文自适应地选择合适的模型,从而在准确性和效率之间取得平衡。与静态地使用单一模型相比,Router-Suggest能够更好地适应不同的对话场景,并提供更优质的自动补全服务。

关键设计:上下文分析器使用预训练的语言模型(如BERT)对对话历史和当前输入进行编码,并使用一个分类器来预测视觉信息的重要性。路由选择器基于上下文分析器的输出,使用一个阈值来决定选择文本模型还是VLM。轻量级变体通过知识蒸馏等技术,减小了上下文分析器和路由选择器的模型大小,从而降低了计算成本。

📊 实验亮点

实验结果表明,Router-Suggest在准确性和效率之间取得了良好的平衡。与性能最佳的VLM相比,Router-Suggest实现了2.3倍至10倍的加速。用户研究表明,VLM在用户满意度方面明显优于文本模型,尤其是在节省用户打字工作量和提高多轮对话中补全质量方面。这些结果验证了多模态上下文在自动补全中的重要性,并证明了Router-Suggest的有效性。

🎯 应用场景

该研究成果可应用于各种需要视觉上下文理解的对话系统,例如数字助手、聊天机器人、设计工具和远程医疗咨询等。通过提供更准确、更高效的自动补全建议,可以显著提升用户体验,减少用户输入工作量,并提高对话效率。未来,该技术有望进一步扩展到其他多模态交互场景,例如虚拟现实和增强现实。

📄 摘要(原文)

Real-time multimodal auto-completion is essential for digital assistants, chatbots, design tools, and healthcare consultations, where user inputs rely on shared visual context. We introduce Multimodal Auto-Completion (MAC), a task that predicts upcoming characters in live chats using partially typed text and visual cues. Unlike traditional text-only auto-completion (TAC), MAC grounds predictions in multimodal context to better capture user intent. To enable this task, we adapt MMDialog and ImageChat to create benchmark datasets. We evaluate leading vision-language models (VLMs) against strong textual baselines, highlighting trade-offs in accuracy and efficiency. We present Router-Suggest, a router framework that dynamically selects between textual models and VLMs based on dialog context, along with a lightweight variant for resource-constrained environments. Router-Suggest achieves a 2.3x to 10x speedup over the best-performing VLM. A user study shows that VLMs significantly excel over textual models on user satisfaction, notably saving user typing effort and improving the quality of completions in multi-turn conversations. These findings underscore the need for multimodal context in auto-completions, leading to smarter, user-aware assistants.