PaSBench-Video: A Streaming Video Benchmark for Proactive Safety Warning

作者: Yusong Zhao, Yuejin Xie, Youliang Yuan, Junjie Hu, Jitian Guo, Yujiu Yang, Pinjia He

分类: cs.CL, cs.AI, cs.CV

发布日期: 2026-06-01

💡 一句话要点

PaSBench-Video：用于主动安全预警的流视频基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 主动安全预警 流视频理解 多模态大语言模型 基准测试 时间精度

📋 核心要点

现有基准测试依赖静态输入，忽略时间精度，且缺乏对安全场景的误报测量，无法有效评估模型的主动安全预警能力。
PaSBench-Video通过提供包含风险起始和事故边界标注的流视频，要求模型以因果方式观察并生成时序精确的预警。
实验结果表明，现有MLLM在PaSBench-Video上表现不佳，尤其是在驾驶等复杂场景中，表明模型缺乏对潜在危害的推理能力。

📝 摘要（中文）

本文提出了PaSBench-Video，一个包含740个视频的基准测试，其中481个为风险视频，259个为无风险视频，涵盖驾驶、医疗、日常生活和工业生产四个领域。风险视频标注了帧级别的风险起始和事故边界。该基准测试旨在评估视频多模态大语言模型（MLLM）作为安全监控器，在危险出现到事故发生的时间窗口内发出预警的能力。模型需要以因果方式观察视频，并生成时间校准和内容正确的警告。对13个MLLM的测试表明，没有模型的严格指标超过20.0%，召回率与假阳性率紧密相关，皮尔逊相关系数为0.64。性能因领域而异：模型在日常生活领域实现了适度的召回率和较低的假阳性率，但在驾驶领域则表现不佳。结果表明，当前模型依赖于场景级别的活动线索，而不是推理潜在的危害。

🔬 方法详解

问题定义：现有视频理解基准测试无法有效评估模型在真实场景中主动安全预警的能力。它们通常使用静态输入，忽略时间精度，并且缺乏对安全场景的误报评估。这使得模型难以在危险发生前及时发出警告，从而错失干预机会。

核心思路：PaSBench-Video的核心思路是提供一个更贴近真实场景的流视频基准测试，其中包含标注了风险起始和事故边界的风险视频，以及相应的无风险视频。通过要求模型以因果方式观察视频并生成时序精确的预警，可以更全面地评估模型的主动安全预警能力。

技术框架：PaSBench-Video包含四个领域（驾驶、医疗、日常生活和工业生产）的740个视频。风险视频标注了帧级别的风险起始和事故边界。评估指标包括召回率、假阳性率以及其他时间相关的指标，用于衡量模型预警的准确性和及时性。该基准测试提供了一个统一的平台，用于比较不同MLLM在主动安全预警任务上的性能。

关键创新：PaSBench-Video的关键创新在于其对流视频的处理方式和对时间精度的关注。与传统的静态图像或视频片段不同，PaSBench-Video要求模型以因果方式观察视频，并根据观察到的信息动态地生成预警。此外，该基准测试还提供了帧级别的风险起始和事故边界标注，使得可以更精确地评估模型预警的时间精度。

关键设计：PaSBench-Video的关键设计包括视频的选择和标注策略。视频的选择涵盖了多个领域，以确保基准测试的通用性。标注策略则采用了帧级别的标注，以提供更精确的时间信息。此外，该基准测试还提供了多种评估指标，以全面评估模型在主动安全预警任务上的性能。

🖼️ 关键图片

📊 实验亮点

在PaSBench-Video上对13个MLLM的测试表明，没有模型的严格指标超过20.0%，召回率与假阳性率紧密相关（皮尔逊相关系数为0.64）。模型在日常生活领域表现相对较好，但在驾驶领域表现不佳，表明现有模型依赖于场景级别的活动线索，而不是推理潜在的危害。这些结果突出了现有模型在主动安全预警方面的局限性，并为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于开发更智能、更可靠的主动安全系统，例如自动驾驶辅助系统、医疗监护系统、工业安全监控系统等。通过提高模型对潜在风险的早期识别能力，可以有效减少事故发生，保障人身安全和财产安全。未来，该基准测试可以促进视频理解和多模态学习领域的发展，推动更安全、更智能的人工智能应用。

📄 摘要（原文）

Between the first visible sign of danger and the moment an accident occurs, there is often a window where intervention remains possible. Video-capable multimodal large language models (MLLMs) could serve as always-on safety monitors that issue warnings during this window. Yet current benchmarks do not test this ability: they rely on static inputs, ignore timing precision, and omit false-positive measurement on safe scenes. We present PaSBench-Video, a 740-video benchmark with 481 risk and 259 no-risk videos across four domains: driving, healthcare, daily life, and industrial production. Risk videos are annotated with frame-level risk onset and accident boundaries. A model must observe the video causally and produce a warning that is both temporally calibrated and content-correct. Testing 13 MLLMs, we find that no model exceeds 20.0% on our strictest metric, and recall is tightly coupled with false-positive rate, with Pearson correlation 0.64: higher detection comes only at the cost of triggering warnings on the majority of safe clips. Performance splits sharply by domain: models achieve moderate recall at low false-positive rates in daily life, where risks are inherently anomalous, yet fire indiscriminately in driving, where routine and hazardous scenes look alike. These results indicate that current models rely on scene-level activity cues rather than reasoning about emerging harm.

PaSBench-Video: A Streaming Video Benchmark for Proactive Safety Warning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理