FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

作者: Qian Chen, Jinlan Fu, Changsong Li, See-Kiong Ng, Xipeng Qiu

分类: cs.CL, cs.CV, cs.MM

发布日期: 2026-01-20

备注: https://openmoss.github.io/FutureOmni

🔗 代码/项目: GITHUB | HUGGINGFACE

💡 一句话要点

FutureOmni：首个面向多模态LLM的、评估全模态上下文未来预测能力的基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 未来预测 视听理解 大型语言模型 基准测试

📋 核心要点

现有基准侧重于回顾性理解，缺乏对多模态LLM从视听信息中预测未来事件能力的评估。
FutureOmni基准通过LLM辅助和人工参与流程构建，包含视听数据和多项选择问答，用于评估模型的未来预测能力。
实验表明现有模型在视听未来预测方面表现不佳，作者提出的OFF训练策略能有效提升未来预测和泛化能力。

📝 摘要（中文）

多模态大型语言模型（MLLM）展现了强大的全模态感知能力，但它们从视听线索预测未来事件的能力在很大程度上未被探索，因为现有的基准主要关注回顾性理解。为了弥补这一差距，我们推出了FutureOmni，这是第一个旨在评估来自视听环境的全模态未来预测的基准。被评估的模型需要执行跨模态因果和时间推理，并有效利用内部知识来预测未来事件。FutureOmni是通过可扩展的LLM辅助、人工参与的流程构建的，包含919个视频和1,034个多项选择QA对，涵盖8个主要领域。对13个全模态和7个仅视频模型的评估表明，当前的系统在视听未来预测方面存在困难，尤其是在语音密集型场景中，Gemini 3 Flash的最佳准确率为64.8%。为了缓解这一限制，我们整理了一个包含7K样本的指令调优数据集，并提出了一种全模态未来预测（OFF）训练策略。在FutureOmni和流行的视听和仅视频基准上的评估表明，OFF增强了未来预测和泛化能力。我们公开发布所有代码和数据集。

🔬 方法详解

问题定义：论文旨在解决多模态大型语言模型（MLLM）在视听环境下的未来预测能力评估问题。现有基准测试主要集中在回顾性理解，缺乏对模型利用视听信息进行未来事件预测能力的有效评估。这导致我们无法充分了解MLLM在理解和预测动态环境方面的潜力。

核心思路：论文的核心思路是构建一个专门用于评估MLLM在视听环境中进行未来预测能力的基准数据集FutureOmni。通过设计包含跨模态因果和时间推理的问答对，以及利用内部知识进行预测的任务，来考察模型对未来事件的理解和预测能力。此外，论文还提出了全模态未来预测（OFF）训练策略，以提升模型的未来预测性能。

技术框架：FutureOmni的构建流程包括：1) 数据收集：收集来自不同领域的视频数据；2) 问题生成：利用LLM生成候选问题，并进行人工筛选和修改；3) 答案生成：人工标注正确答案。OFF训练策略包括：1) 构建指令调优数据集；2) 使用该数据集对MLLM进行微调。整体流程旨在创建一个高质量的、具有挑战性的未来预测基准，并提供一种有效的训练方法来提升模型性能。

关键创新：论文的关键创新点在于：1) 提出了FutureOmni，这是首个专门用于评估MLLM在视听环境中进行未来预测能力的基准；2) 设计了包含跨模态因果和时间推理的问答对，更全面地评估模型的未来预测能力；3) 提出了全模态未来预测（OFF）训练策略，有效提升了模型的未来预测性能和泛化能力。与现有方法相比，FutureOmni更侧重于未来预测，而非回顾性理解。

关键设计：FutureOmni数据集包含919个视频和1,034个多项选择QA对，涵盖8个主要领域。OFF训练策略使用包含7K样本的指令调优数据集。实验中，作者使用了多种全模态和仅视频模型作为基线，并评估了OFF训练策略对模型性能的影响。具体参数设置和网络结构细节在论文中未详细描述，属于模型本身的固有参数。

📊 实验亮点

实验结果表明，现有模型在FutureOmni基准上的表现不佳，Gemini 3 Flash的最佳准确率仅为64.8%。通过使用作者提出的OFF训练策略，模型在FutureOmni以及其他视听和仅视频基准上的性能得到了显著提升，证明了OFF训练策略的有效性。这表明，专门针对未来预测进行训练可以显著提高模型的性能。

🎯 应用场景

该研究成果可应用于智能监控、自动驾驶、机器人导航等领域。通过提升模型对未来事件的预测能力，可以使系统更智能、更安全。例如，在自动驾驶中，模型可以预测行人的行为，从而避免交通事故。在智能监控中，模型可以预测潜在的犯罪行为，从而提前预警。

📄 摘要（原文）

Although Multimodal Large Language Models (MLLMs) demonstrate strong omni-modal perception, their ability to forecast future events from audio-visual cues remains largely unexplored, as existing benchmarks focus mainly on retrospective understanding. To bridge this gap, we introduce FutureOmni, the first benchmark designed to evaluate omni-modal future forecasting from audio-visual environments. The evaluated models are required to perform cross-modal causal and temporal reasoning, as well as effectively leverage internal knowledge to predict future events. FutureOmni is constructed via a scalable LLM-assisted, human-in-the-loop pipeline and contains 919 videos and 1,034 multiple-choice QA pairs across 8 primary domains. Evaluations on 13 omni-modal and 7 video-only models show that current systems struggle with audio-visual future prediction, particularly in speech-heavy scenarios, with the best accuracy of 64.8% achieved by Gemini 3 Flash. To mitigate this limitation, we curate a 7K-sample instruction-tuning dataset and propose an Omni-Modal Future Forecasting (OFF) training strategy. Evaluations on FutureOmni and popular audio-visual and video-only benchmarks demonstrate that OFF enhances future forecasting and generalization. We publicly release all code (https://github.com/OpenMOSS/FutureOmni) and datasets (https://huggingface.co/datasets/OpenMOSS-Team/FutureOmni).

FutureOmni: Evaluating Future Forecasting from Omni-Modal Context for Multimodal LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理