FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

📄 arXiv: 2601.13836v1 📥 PDF

作者: Qian Chen, Jinlan Fu, Changsong Li, See-Kiong Ng, Xipeng Qiu

分类: cs.CL, cs.CV, cs.MM

发布日期: 2026-01-20

备注: https://openmoss.github.io/FutureOmni

🔗 代码/项目: GITHUB | HUGGINGFACE


💡 一句话要点

FutureOmni:首个面向多模态LLM的、评估全模态上下文未来预测能力的基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 未来预测 视听理解 大型语言模型 基准测试

📋 核心要点

  1. 现有基准侧重于回顾性理解,缺乏对多模态LLM从视听信息中预测未来事件能力的评估。
  2. FutureOmni基准通过LLM辅助和人工参与流程构建,包含视听数据和多项选择问答,用于评估模型的未来预测能力。
  3. 实验表明现有模型在视听未来预测方面表现不佳,作者提出的OFF训练策略能有效提升未来预测和泛化能力。

📝 摘要(中文)

多模态大型语言模型(MLLM)展现了强大的全模态感知能力,但它们从视听线索预测未来事件的能力在很大程度上未被探索,因为现有的基准主要关注回顾性理解。为了弥补这一差距,我们推出了FutureOmni,这是第一个旨在评估来自视听环境的全模态未来预测的基准。被评估的模型需要执行跨模态因果和时间推理,并有效利用内部知识来预测未来事件。FutureOmni是通过可扩展的LLM辅助、人工参与的流程构建的,包含919个视频和1,034个多项选择QA对,涵盖8个主要领域。对13个全模态和7个仅视频模型的评估表明,当前的系统在视听未来预测方面存在困难,尤其是在语音密集型场景中,Gemini 3 Flash的最佳准确率为64.8%。为了缓解这一限制,我们整理了一个包含7K样本的指令调优数据集,并提出了一种全模态未来预测(OFF)训练策略。在FutureOmni和流行的视听和仅视频基准上的评估表明,OFF增强了未来预测和泛化能力。我们公开发布所有代码和数据集。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在视听环境下的未来预测能力评估问题。现有基准测试主要集中在回顾性理解,缺乏对模型利用视听信息进行未来事件预测能力的有效评估。这导致我们无法充分了解MLLM在理解和预测动态环境方面的潜力。

核心思路:论文的核心思路是构建一个专门用于评估MLLM在视听环境中进行未来预测能力的基准数据集FutureOmni。通过设计包含跨模态因果和时间推理的问答对,以及利用内部知识进行预测的任务,来考察模型对未来事件的理解和预测能力。此外,论文还提出了全模态未来预测(OFF)训练策略,以提升模型的未来预测性能。

技术框架:FutureOmni的构建流程包括:1) 数据收集:收集来自不同领域的视频数据;2) 问题生成:利用LLM生成候选问题,并进行人工筛选和修改;3) 答案生成:人工标注正确答案。OFF训练策略包括:1) 构建指令调优数据集;2) 使用该数据集对MLLM进行微调。整体流程旨在创建一个高质量的、具有挑战性的未来预测基准,并提供一种有效的训练方法来提升模型性能。

关键创新:论文的关键创新点在于:1) 提出了FutureOmni,这是首个专门用于评估MLLM在视听环境中进行未来预测能力的基准;2) 设计了包含跨模态因果和时间推理的问答对,更全面地评估模型的未来预测能力;3) 提出了全模态未来预测(OFF)训练策略,有效提升了模型的未来预测性能和泛化能力。与现有方法相比,FutureOmni更侧重于未来预测,而非回顾性理解。

关键设计:FutureOmni数据集包含919个视频和1,034个多项选择QA对,涵盖8个主要领域。OFF训练策略使用包含7K样本的指令调优数据集。实验中,作者使用了多种全模态和仅视频模型作为基线,并评估了OFF训练策略对模型性能的影响。具体参数设置和网络结构细节在论文中未详细描述,属于模型本身的固有参数。

📊 实验亮点

实验结果表明,现有模型在FutureOmni基准上的表现不佳,Gemini 3 Flash的最佳准确率仅为64.8%。通过使用作者提出的OFF训练策略,模型在FutureOmni以及其他视听和仅视频基准上的性能得到了显著提升,证明了OFF训练策略的有效性。这表明,专门针对未来预测进行训练可以显著提高模型的性能。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、机器人导航等领域。通过提升模型对未来事件的预测能力,可以使系统更智能、更安全。例如,在自动驾驶中,模型可以预测行人的行为,从而避免交通事故。在智能监控中,模型可以预测潜在的犯罪行为,从而提前预警。

📄 摘要(原文)

Although Multimodal Large Language Models (MLLMs) demonstrate strong omni-modal perception, their ability to forecast future events from audio-visual cues remains largely unexplored, as existing benchmarks focus mainly on retrospective understanding. To bridge this gap, we introduce FutureOmni, the first benchmark designed to evaluate omni-modal future forecasting from audio-visual environments. The evaluated models are required to perform cross-modal causal and temporal reasoning, as well as effectively leverage internal knowledge to predict future events. FutureOmni is constructed via a scalable LLM-assisted, human-in-the-loop pipeline and contains 919 videos and 1,034 multiple-choice QA pairs across 8 primary domains. Evaluations on 13 omni-modal and 7 video-only models show that current systems struggle with audio-visual future prediction, particularly in speech-heavy scenarios, with the best accuracy of 64.8% achieved by Gemini 3 Flash. To mitigate this limitation, we curate a 7K-sample instruction-tuning dataset and propose an Omni-Modal Future Forecasting (OFF) training strategy. Evaluations on FutureOmni and popular audio-visual and video-only benchmarks demonstrate that OFF enhances future forecasting and generalization. We publicly release all code (https://github.com/OpenMOSS/FutureOmni) and datasets (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).