Featurising Pixels from Dynamic 3D Scenes with Linear In-Context Learners

作者: Nikita Araslanov, Martin Sundermeyer, Hidenobu Matsuki, David Joseph Tan, Federico Tombari

分类: cs.CV, cs.LG

发布日期: 2026-04-29

备注: To appear at CVPR 2026 (oral). Project website: https://lila-pixels.github.io

💡 一句话要点

提出LILA，利用线性上下文学习从动态3D场景中学习像素级特征

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 像素级特征学习 线性上下文学习 动态3D场景 视频理解 时空一致性 深度估计 运动估计

📋 核心要点

现有视觉模型缺乏有效嵌入动态场景时空属性的像素级表示，限制了像素级推理能力。
LILA框架利用线性上下文学习，从视频中学习像素级特征描述符，有效嵌入语义和几何属性。
实验表明，LILA在视频对象分割、表面法线估计和语义分割等任务中表现出显著优势。

📝 摘要（中文）

本文提出了一种名为LILA的框架，用于从视频中学习像素级精确的特征描述符。尽管视觉基础模型很多，但我们仍然缺乏能够有效嵌入视觉场景时空属性的像素级表示。现有框架要么在基于图像的预训练任务上训练，这没有考虑动态元素，要么在视频序列上进行动作级推理，这无法扩展到密集的像素级预测。LILA利用现成的网络估计的时空线索图（深度和运动），通过线性上下文学习进行训练。尽管这些线索具有噪声，LILA仍能在未标注的视频数据集上有效地训练，以时间一致的方式嵌入语义和几何属性。在视频对象分割、表面法线估计和语义分割等多种视觉任务中，展示了所学表示的显著经验优势。

🔬 方法详解

问题定义：现有方法在学习像素级特征时，要么忽略了视频中的动态信息，要么只关注动作级别的推理，无法有效地提取像素级别的时空信息，导致在需要精细像素级理解的任务中表现不佳。因此，如何从动态3D场景中学习具有时空一致性的像素级特征是一个关键问题。

核心思路：LILA的核心思路是利用线性上下文学习，从包含噪声的时空线索（深度和运动）中学习像素级特征。通过线性上下文学习，模型能够从周围像素的特征中推断出目标像素的特征，从而增强特征的鲁棒性和泛化能力。这种方法避免了直接在像素级别进行监督学习，降低了对标注数据的依赖。

技术框架：LILA框架主要包含以下几个阶段：1) 使用现成的网络（off-the-shelf networks）估计视频帧的深度和运动信息，生成时空线索图；2) 利用线性上下文学习模块，将时空线索图作为输入，学习像素级的特征描述符；3) 将学习到的特征描述符应用于各种视觉任务，如视频对象分割、表面法线估计和语义分割。整个框架采用端到端的方式进行训练。

关键创新：LILA的关键创新在于使用线性上下文学习来处理带有噪声的时空线索。与传统的监督学习方法不同，LILA不需要精确的像素级标注，而是通过学习像素之间的关系来提取特征。此外，LILA能够有效地利用现成的深度和运动估计网络，降低了对特定数据集的依赖。

关键设计：LILA使用线性模型作为上下文学习器，这降低了模型的复杂度，提高了训练效率。损失函数的设计旨在鼓励模型学习具有时空一致性的特征表示。具体的网络结构和参数设置取决于所使用的深度和运动估计网络，以及具体的视觉任务。线性上下文学习器的具体实现细节（例如，上下文窗口的大小、线性模型的类型）也会影响最终的性能。

🖼️ 关键图片

📊 实验亮点

LILA在多个视觉任务上取得了显著的性能提升。在视频对象分割任务中，LILA相比于现有方法取得了X%的提升（具体数据未知）。在表面法线估计和语义分割任务中，LILA也表现出优越的性能，表明其学习到的特征具有良好的泛化能力和鲁棒性。这些实验结果验证了LILA框架的有效性。

🎯 应用场景

LILA框架学习到的像素级特征描述符具有广泛的应用前景，例如在自动驾驶领域，可以用于感知周围环境中的动态物体，提高驾驶安全性；在机器人领域，可以用于理解和操作复杂的3D场景；在视频编辑和特效制作领域，可以用于实现更精细的像素级操作。此外，该方法还可以应用于增强现实、虚拟现实等领域。

📄 摘要（原文）

One of the most exciting applications of vision models involve pixel-level reasoning. Despite the abundance of vision foundation models, we still lack representations that effectively embed spatio-temporal properties of visual scenes at the pixel level. Existing frameworks either train on image-based pretext tasks, which do not account for dynamic elements, or on video sequences for action-level reasoning, which does not scale to dense pixel-level prediction. We present a framework that learns pixel-accurate feature descriptors from videos, LILA. The core element of our training framework is linear in-context learning. LILA leverages spatio-temporal cue maps -- depth and motion -- estimated with off-the-shelf networks. Despite the noisy nature of those cues, LILA trains effectively on uncurated video datasets, embedding semantic and geometric properties in a temporally consistent manner. We demonstrate compelling empirical benefits of the learned representation across a diverse suite of vision tasks: video object segmentation, surface normal estimation and semantic segmentation.

Featurising Pixels from Dynamic 3D Scenes with Linear In-Context Learners

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理