OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants
作者: Xudong Lu, Xueying Li, Annan Wang, Yang Bo, Jinpeng Chen, Zengliang Li, Nianzu Yang, Rui Liu, Xue Yang, Jingwen Hou, Hongsheng Li
分类: cs.CV, cs.CL
发布日期: 2026-05-26
🔗 代码/项目: GITHUB
💡 一句话要点
OmniInteract:面向实时全模态助手的真实世界流式交互评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 流式交互 全模态助手 实时推理 多模态学习 评测基准
📋 核心要点
- 现有方法难以处理真实世界中音视频流的实时交互,缺乏对多模态触发和上下文连续性的有效建模。
- OmniInteract基准通过模拟真实场景,要求模型在音视频流中实时检测触发、响应用户,并保持上下文。
- 实验表明,现有模型在OmniInteract基准上表现不佳,尤其是在连续任务监控和步骤指导方面,性能亟待提升。
📝 摘要(中文)
本文提出了OmniInteract,一个流式基准,用于评估实时全模态大语言模型,通过在音视频流上的原生在线推理进行评估。与离线视频理解或文本提示的流式问答不同,OmniInteract保留了原始的音视频流,并要求模型在线处理,无法访问未来的内容。用户查询和环境声音嵌入在音轨中,要求模型检测多模态触发器,决定何时响应,并在流展开时回答。OmniInteract包含250个视频,具有1430个时间对齐的响应槽:1062个1Q1A槽,涵盖实时、主动和嵌套场景,以及368个1QnA槽,用于连续任务监控和步骤指导。每个槽包括一个触发器、响应窗口和目标答案。我们使用交互感知质量-及时性F1(Interaction-Aware Quality-Timeliness F1)、中断诊断套件(Interruption Diagnostic Suite)和嵌套链完成分数(Nested Chain Completion Score)来评估响应的正确性、时间、无效输出、中断处理和上下文连续性。实验表明,当前模型在流式交互方面仍然很弱,最佳整体IA-QTF1仅达到0.368,最佳1QnA IA-QTF1仅达到0.052。对全双工环境中数学推理的进一步研究表明,离线能力不一定能转移到在线交互。
🔬 方法详解
问题定义:现有的大语言模型在离线视频理解和文本提示的流式问答任务上取得了显著进展,但缺乏在真实世界场景中,对音视频流进行实时交互的能力。现有的方法无法有效处理嵌入在音轨中的用户查询和环境声音,难以准确检测多模态触发器,并做出及时的响应。此外,上下文的连续性以及对中断的处理也是现有方法的痛点。
核心思路:OmniInteract的核心思路是构建一个更贴近真实世界的流式交互评测基准,通过模拟真实场景中的音视频流,要求模型在没有未来信息的情况下,实时地理解、推理和响应。该基准旨在评估模型在多模态触发检测、响应时机选择、上下文维护和中断处理等方面的能力。
技术框架:OmniInteract基准包含250个视频,共计1430个时间对齐的响应槽,分为1Q1A和1QnA两种类型。1Q1A槽涵盖实时、主动和嵌套三种场景,用于评估模型的单轮交互能力;1QnA槽用于评估模型在连续任务监控和步骤指导方面的能力。每个槽都包含一个触发器、响应窗口和目标答案。评估指标包括交互感知质量-及时性F1(IA-QTF1)、中断诊断套件(IDS)和嵌套链完成分数(NCCS)。
关键创新:OmniInteract的关键创新在于其真实性和流式特性。与以往的离线视频理解或文本提示的流式问答不同,OmniInteract保留了原始的音视频流,并要求模型在线处理,无法访问未来的内容。此外,该基准还考虑了用户查询和环境声音的嵌入,以及中断处理和上下文连续性等因素,更贴近真实世界的交互场景。
关键设计:OmniInteract在数据收集和标注方面进行了精心的设计。视频内容涵盖了各种真实世界的场景,例如烹饪、维修等。标注人员对每个视频进行了详细的标注,包括触发器、响应窗口和目标答案。评估指标IA-QTF1综合考虑了响应的正确性和及时性,IDS用于诊断模型在中断处理方面的能力,NCCS用于评估模型在嵌套链完成方面的能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有模型在OmniInteract基准上表现不佳,最佳整体IA-QTF1仅为0.368,最佳1QnA IA-QTF1仅为0.052。这表明现有模型在流式交互方面仍然存在很大的提升空间,尤其是在连续任务监控和步骤指导方面。此外,对全双工环境中数学推理的进一步研究表明,离线能力不一定能转移到在线交互。
🎯 应用场景
OmniInteract的研究成果可应用于开发更智能、更自然的实时全模态助手,例如智能家居控制、远程协作、教育辅导等。通过提升模型在流式交互方面的能力,可以实现更流畅、更高效的人机交互体验,并为未来的智能助手发展奠定基础。
📄 摘要(原文)
We introduce OmniInteract, a streaming benchmark for real-time omnimodal large language models evaluated through native online inference over audio-visual streams. Unlike offline video understanding or text-prompted streaming QA, OmniInteract preserves the original audio-visual stream and requires models to process it online, without access to future content. User queries and ambient sounds are embedded in the audio track, requiring models to detect multimodal triggers, decide when to respond, and answer while the stream unfolds. OmniInteract contains 250 videos with 1,430 temporally grounded response slots: 1,062 1Q1A slots across real-time, proactive, and nested scenarios, and 368 1QnA slots for continuous task monitoring and step guidance. Each slot includes a trigger, response window, and target answer. We evaluate response correctness, timing, invalid outputs, interruption handling, and context continuity using Interaction-Aware Quality-Timeliness F1, Interruption Diagnostic Suite, and Nested Chain Completion Score. Experiments show that current models remain weak in streaming interaction, with the best overall IA-QTF1 reaching only 0.368 and the best 1QnA IA-QTF1 only 0.052. Further study on mathematical reasoning in full-duplex settings shows that offline capability does not necessarily transfer to online interaction. Code and datasets will be made publicly accessible at https://github.com/Lucky-Lance/OmniInteract.