Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs

作者: Sandeep Mishra, Devichand Budagam, Anubhab Mandal, Bishal Santra, Pawan Goyal, Manish Gupta

分类: cs.CL, cs.AI, cs.CV

发布日期: 2026-01-09

备注: Accepted to EACL 2026 Industry Track, 12 pages, 6 figures

💡 一句话要点

提出Router-Suggest，用于视觉对话中多模态自动补全的动态路由。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态自动补全 视觉对话 动态路由 视觉-语言模型 上下文感知 用户满意度 实时性

📋 核心要点

现有文本自动补全方法在视觉对话场景中无法有效捕捉用户意图，忽略了重要的视觉上下文信息。
Router-Suggest框架通过动态路由，根据对话上下文自适应地选择文本模型或视觉-语言模型进行自动补全。
实验表明，Router-Suggest在保证用户满意度的前提下，显著提升了自动补全的速度，尤其是在资源受限的环境中。

📝 摘要（中文）

本文提出了多模态自动补全（MAC）任务，该任务利用部分输入的文本和视觉线索，预测实时聊天中即将出现的字符。与传统的文本自动补全（TAC）不同，MAC将预测建立在多模态上下文的基础上，以更好地捕捉用户意图。为了支持该任务，本文对MMDialog和ImageChat进行了适配，创建了基准数据集。论文评估了领先的视觉-语言模型（VLM）与强大的文本基线，突出了准确性和效率之间的权衡。提出了Router-Suggest，一个基于对话上下文动态选择文本模型和VLM的路由框架，以及一个用于资源受限环境的轻量级变体。Router-Suggest比性能最佳的VLM实现了2.3倍至10倍的加速。用户研究表明，VLM在用户满意度方面明显优于文本模型，尤其是在节省用户打字工作量和提高多轮对话中补全质量方面。这些发现强调了多模态上下文在自动补全中的必要性，从而实现了更智能、用户感知的助手。

🔬 方法详解

问题定义：论文旨在解决视觉对话场景下的多模态自动补全问题。传统的文本自动补全方法（TAC）仅依赖于已输入的文本，无法利用对话中存在的视觉信息，导致在需要视觉上下文理解的场景下表现不佳。现有视觉-语言模型（VLM）虽然可以利用视觉信息，但计算成本高昂，难以满足实时性要求。

核心思路：论文的核心思路是设计一个动态路由框架，根据对话上下文的重要性，自适应地选择使用轻量级的文本模型或更强大的视觉-语言模型。当视觉信息对预测结果影响不大时，选择文本模型以提高效率；当视觉信息至关重要时，选择VLM以提高准确性。

技术框架：Router-Suggest框架包含以下主要模块：1) 上下文分析器：分析对话历史和当前输入，判断视觉信息的重要性。2) 路由选择器：根据上下文分析器的结果，动态选择文本模型或VLM。3) 自动补全模块：使用选定的模型生成自动补全建议。4) 轻量级变体：针对资源受限的环境，设计了更高效的上下文分析器和路由选择器。

关键创新：Router-Suggest的关键创新在于其动态路由机制，它能够根据对话上下文自适应地选择合适的模型，从而在准确性和效率之间取得平衡。与静态地使用单一模型相比，Router-Suggest能够更好地适应不同的对话场景，并提供更优质的自动补全服务。

关键设计：上下文分析器使用预训练的语言模型（如BERT）对对话历史和当前输入进行编码，并使用一个分类器来预测视觉信息的重要性。路由选择器基于上下文分析器的输出，使用一个阈值来决定选择文本模型还是VLM。轻量级变体通过知识蒸馏等技术，减小了上下文分析器和路由选择器的模型大小，从而降低了计算成本。

📊 实验亮点

实验结果表明，Router-Suggest在准确性和效率之间取得了良好的平衡。与性能最佳的VLM相比，Router-Suggest实现了2.3倍至10倍的加速。用户研究表明，VLM在用户满意度方面明显优于文本模型，尤其是在节省用户打字工作量和提高多轮对话中补全质量方面。这些结果验证了多模态上下文在自动补全中的重要性，并证明了Router-Suggest的有效性。

🎯 应用场景

该研究成果可应用于各种需要视觉上下文理解的对话系统，例如数字助手、聊天机器人、设计工具和远程医疗咨询等。通过提供更准确、更高效的自动补全建议，可以显著提升用户体验，减少用户输入工作量，并提高对话效率。未来，该技术有望进一步扩展到其他多模态交互场景，例如虚拟现实和增强现实。

📄 摘要（原文）

Real-time multimodal auto-completion is essential for digital assistants, chatbots, design tools, and healthcare consultations, where user inputs rely on shared visual context. We introduce Multimodal Auto-Completion (MAC), a task that predicts upcoming characters in live chats using partially typed text and visual cues. Unlike traditional text-only auto-completion (TAC), MAC grounds predictions in multimodal context to better capture user intent. To enable this task, we adapt MMDialog and ImageChat to create benchmark datasets. We evaluate leading vision-language models (VLMs) against strong textual baselines, highlighting trade-offs in accuracy and efficiency. We present Router-Suggest, a router framework that dynamically selects between textual models and VLMs based on dialog context, along with a lightweight variant for resource-constrained environments. Router-Suggest achieves a 2.3x to 10x speedup over the best-performing VLM. A user study shows that VLMs significantly excel over textual models on user satisfaction, notably saving user typing effort and improving the quality of completions in multi-turn conversations. These findings underscore the need for multimodal context in auto-completions, leading to smarter, user-aware assistants.

Router-Suggest: Dynamic Routing for Multimodal Auto-Completion in Visually-Grounded Dialogs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理