From Big Data to Fast Data: Towards High-Quality Datasets for Machine Learning Applications from Closed-Loop Data Collection
作者: Philipp Reis, Jacqueline Henle, Stefan Otten, Eric Sax
分类: eess.SY, cs.LG
发布日期: 2026-03-31
备注: Submitted to IEEE ISSE 2026
💡 一句话要点
提出Fast Data方法,解决汽车系统工程中机器学习高质量数据集构建问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Fast Data 汽车系统工程 机器学习 数据采集 闭环数据收集
📋 核心要点
- 传统大数据方法和智能数据方法在汽车系统工程中构建高质量机器学习数据集方面存在局限性,无法满足实时性和数据相关性的需求。
- Fast Data方法将数据选择和记录转移到车辆端,实现实时、上下文感知的数据采集,从而提高数据质量和信息密度。
- 该方法旨在为汽车系统工程中的机器学习算法提供高效的数据采集策略,并降低不相关数据带来的成本。
📝 摘要(中文)
随着视觉-语言和多模态语言模型等机器学习模型能力的增强,汽车系统工程对数据的需求日益增长,数据质量和相关性成为此类系统开发和验证的关键。传统的大数据方法侧重于大规模数据收集和离线处理,而智能数据方法改进了数据选择策略,但仍然依赖于集中式和离线后处理。本文介绍了汽车系统工程的Fast Data概念。该方法将数据选择和记录转移到作为数据源的车辆上。通过在闭环内对是否以及应记录哪些数据进行实时、上下文感知的决策,数据收集可以直接与数据质量目标和收集策略对齐。这产生了具有更高相关性、改进的关键场景覆盖率和增加的信息密度的数据集,同时减少了不相关的数据和相关成本。所提出的方法为设计与现代机器学习算法需求相一致的数据收集策略提供了结构化的基础。它支持高效的数据采集,并有助于汽车系统工程中可扩展且经济高效的ML开发过程。
🔬 方法详解
问题定义:汽车系统工程中,机器学习模型对高质量数据集的需求日益增长。传统的大数据方法侧重于大规模收集,但数据质量和相关性难以保证。智能数据方法虽然改进了数据选择,但仍依赖离线处理,无法满足实时性要求。因此,如何高效地收集高质量、与特定场景相关的数据,成为一个关键问题。
核心思路:Fast Data的核心思路是将数据选择和记录过程转移到车辆端,实现实时、上下文感知的数据采集。通过在车辆上进行实时决策,可以根据当前场景和数据质量目标,有选择地记录数据,从而提高数据集的相关性和信息密度,并减少不必要的数据量。
技术框架:Fast Data方法构建了一个闭环数据收集系统。该系统包含以下主要模块:1) 车辆端的数据感知模块,负责收集车辆传感器数据和环境信息;2) 实时决策模块,根据预定义的规则和数据质量指标,判断是否需要记录当前数据;3) 数据记录模块,负责将选定的数据存储到本地或上传到云端;4) 数据管理模块,负责对收集到的数据进行组织、标注和管理。
关键创新:Fast Data最重要的创新在于将数据选择过程前移到车辆端,实现了实时、上下文感知的数据采集。与传统方法相比,Fast Data能够更有效地收集与特定场景相关的高质量数据,并减少不必要的数据量,从而降低数据存储和处理成本。
关键设计:Fast Data的关键设计包括:1) 定义清晰的数据质量指标,例如数据完整性、准确性和代表性;2) 设计高效的实时决策算法,能够在有限的计算资源下快速判断是否需要记录数据;3) 构建灵活的数据记录模块,支持多种数据格式和存储方式;4) 建立完善的数据管理流程,确保数据的可追溯性和可复用性。
🖼️ 关键图片
📊 实验亮点
论文提出了Fast Data的概念,并阐述了其在汽车系统工程中的应用。与传统大数据方法相比,Fast Data能够更有效地收集高质量、与特定场景相关的数据,并减少不必要的数据量,从而降低数据存储和处理成本。虽然论文中没有提供具体的性能数据,但其提出的方法为构建高质量机器学习数据集提供了一种新的思路。
🎯 应用场景
Fast Data方法可广泛应用于自动驾驶、高级驾驶辅助系统(ADAS)等汽车系统工程领域。通过高效地收集高质量数据,可以加速机器学习模型的开发和验证,提高系统的安全性和可靠性。此外,该方法还可以应用于其他需要实时数据采集和处理的领域,例如机器人、智能制造等。
📄 摘要(原文)
The increasing capabilities of machine learning models, such as vision-language and multimodal language models, are placing growing demands on data in automotive systems engineering, making the quality and relevance of collected data enablers for the development and validation of such systems. Traditional Big Data approaches focus on large-scale data collection and offline processing, while Smart Data approaches improve data selection strategies but still rely on centralized and offline post-processing. This paper introduces the concept of Fast Data for automotive systems engineering. The approach shifts data selection and recording onto the vehicle as the data source. By enabling real-time, context-aware decisions on whether and which data should be recorded, data collection can be directly aligned with data quality objectives and collection strategies within a closed-loop. This results in datasets with higher relevance, improved coverage of critical scenarios, and increased information density, while at the same time reducing irrelevant data and associated costs. The proposed approach provides a structured foundation for designing data collection strategies that are aligned with the needs of modern machine learning algorithms. It supports efficient data acquisition and contributes to scalable and cost-effective ML development processes in automotive systems engineering.