PhoStream: Benchmarking Real-World Streaming for Omnimodal Assistants in Mobile Scenarios
作者: Xudong Lu, Huankang Guan, Yang Bo, Jinpeng Chen, Xintong Guo, Shuhan Li, Fang Liu, Peiwen Sun, Xueying Li, Wei Zhang, Xue Yang, Rui Liu, Hongsheng Li
分类: cs.CV, cs.CL
发布日期: 2026-01-30
备注: 18 pages
🔗 代码/项目: GITHUB
💡 一句话要点
PhoStream:面向移动场景全模态助手,评估真实世界流式理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 流式理解 多模态学习 移动助手 基准测试 时间推理
📋 核心要点
- 现有基准测试在评估MLLM作为移动助手的流式理解能力方面存在不足,主要体现在场景单一和任务类型受限。
- PhoStream通过统一屏幕内外场景,构建包含视频、音频和时间推理的流式基准,更贴近真实移动应用。
- 实验表明,现有MLLM在前向推理任务中表现不佳,主要原因是无法准确判断响应的最佳时机。
📝 摘要(中文)
多模态大型语言模型(MLLM)在离线音视频理解方面表现出色,但它们在连续真实世界流中作为移动助手的潜力尚未得到充分探索。在日常手机使用中,移动助手必须跟踪流式音视频输入并在适当的时间做出响应,但现有的基准测试通常仅限于多项选择题或使用较短的视频。本文提出了PhoStream,这是第一个以移动为中心的流式基准,它统一了屏幕上和屏幕外的场景,以评估视频、音频和时间推理。PhoStream包含来自578个视频的5,572个开放式问答对,涵盖4个场景和10个能力。我们构建了一个由严格的人工验证支持的自动化生成流程,并使用真实的在线推理流程和LLM-as-a-Judge评估开放式响应。实验揭示了LLM判断分数(0-100)的时间不对称性:模型在即时和后向任务中表现良好(Gemini 3 Pro超过80),但在前向任务中急剧下降(16.40),这主要是由于在所需的视觉和音频线索出现之前过早响应。这突出了一个根本的局限性:当前的MLLM难以决定何时说话,而不仅仅是说什么。本文使用的代码和数据集将在https://github.com/Lucky-Lance/PhoStream上公开。
🔬 方法详解
问题定义:论文旨在解决多模态大型语言模型(MLLM)在真实移动场景下,作为流式助手时表现不佳的问题。现有基准测试通常关注离线或短视频理解,无法有效评估模型在连续、实时的音视频流中进行推理和决策的能力。现有方法的痛点在于无法准确判断何时响应,导致过早或过晚的回答,影响用户体验。
核心思路:论文的核心思路是构建一个更贴近真实移动应用场景的流式基准测试数据集PhoStream,并设计相应的评估流程,从而更全面地评估MLLM在流式环境下的性能。通过分析模型在不同时间推理任务中的表现,揭示模型在时间推理方面的局限性,并为未来的模型改进提供指导。
技术框架:PhoStream的整体框架包含三个主要部分:1) 数据集构建:使用自动化生成流程,结合人工验证,构建包含屏幕内外场景、多种能力和开放式问答对的数据集。2) 在线推理流程:模拟真实的流式推理环境,模型接收连续的音视频输入,并实时生成响应。3) LLM-as-a-Judge评估:使用大型语言模型作为裁判,评估模型生成的开放式响应的质量。
关键创新:PhoStream的关键创新在于:1) 首次提出了以移动为中心的流式基准测试,更贴近真实应用场景。2) 统一了屏幕上和屏幕外的场景,更全面地评估模型的理解能力。3) 使用LLM-as-a-Judge评估开放式响应,更客观地评估模型的生成质量。4) 揭示了模型在时间推理方面的局限性,特别是前向推理任务中的表现不佳。
关键设计:数据集构建方面,采用了自动化生成流程,以提高数据生成效率,并结合人工验证,以保证数据质量。在线推理流程方面,模拟真实的流式环境,模型需要实时处理音视频输入并生成响应。LLM-as-a-Judge评估方面,使用了先进的大型语言模型作为裁判,并设计了合理的评估指标。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有MLLM在PhoStream基准测试中表现出明显的时间不对称性。在即时和后向任务中,Gemini 3 Pro表现良好,得分超过80。但在前向任务中,得分急剧下降至16.40。这表明现有模型在判断响应的最佳时机方面存在明显不足,需要在时间推理能力方面进行改进。
🎯 应用场景
该研究成果可应用于开发更智能、更自然的移动助手,例如智能家居控制、实时翻译、智能客服等。通过提高模型在流式环境下的理解和推理能力,可以提升用户体验,并为移动设备带来更多创新应用。未来,该研究还可以扩展到其他领域,例如自动驾驶、机器人等。
📄 摘要(原文)
Multimodal Large Language Models excel at offline audio-visual understanding, but their ability to serve as mobile assistants in continuous real-world streams remains underexplored. In daily phone use, mobile assistants must track streaming audio-visual inputs and respond at the right time, yet existing benchmarks are often restricted to multiple-choice questions or use shorter videos. In this paper, we introduce PhoStream, the first mobile-centric streaming benchmark that unifies on-screen and off-screen scenarios to evaluate video, audio, and temporal reasoning. PhoStream contains 5,572 open-ended QA pairs from 578 videos across 4 scenarios and 10 capabilities. We build it with an Automated Generative Pipeline backed by rigorous human verification, and evaluate models using a realistic Online Inference Pipeline and LLM-as-a-Judge evaluation for open-ended responses. Experiments reveal a temporal asymmetry in LLM-judged scores (0-100): models perform well on Instant and Backward tasks (Gemini 3 Pro exceeds 80), but drop sharply on Forward tasks (16.40), largely due to early responses before the required visual and audio cues appear. This highlights a fundamental limitation: current MLLMs struggle to decide when to speak, not just what to say. Code and datasets used in this work will be made publicly accessible at https://github.com/Lucky-Lance/PhoStream.