LaRI: Layered Ray Intersections for Single-view 3D Geometric Reasoning
作者: Rui Li, Biao Zhang, Zhenyu Li, Federico Tombari, Peter Wonka
分类: cs.CV
发布日期: 2025-04-25
备注: Project page: https://ruili3.github.io/lari
💡 一句话要点
提出LaRI:一种用于单视图3D几何推理的分层射线相交方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单视图几何推理 分层射线相交 遮挡几何推理 深度估计 三维重建
📋 核心要点
- 现有单视图几何推理方法通常局限于可见表面,难以推断遮挡区域的几何信息。
- LaRI通过分层射线相交建模多个表面,实现完整、高效且视图对齐的几何推理,统一对象级和场景级任务。
- 实验表明,LaRI在对象级和场景级几何推理任务上均表现出色,且训练数据需求量小。
📝 摘要(中文)
本文提出了一种新的单图像几何推理方法:分层射线相交(LaRI)。与仅限于可见表面的传统深度估计不同,LaRI使用分层点图对相机射线相交的多个表面进行建模。受益于紧凑的分层表示,LaRI能够实现完整、高效且视图对齐的几何推理,从而统一对象级和场景级任务。我们进一步提出预测射线停止索引,该索引从LaRI的输出中识别有效的相交像素和层。我们构建了一个完整的训练数据生成流程,用于合成和真实世界数据,包括3D对象和场景,并进行必要的数据清理步骤和渲染引擎之间的协调。作为一个通用方法,LaRI的性能在两种场景中得到验证:它使用大型生成模型4%的训练数据和17%的参数,获得了可比的对象级结果。同时,它仅通过一次前向传播即可实现场景级遮挡几何推理。
🔬 方法详解
问题定义:论文旨在解决单视图图像中遮挡几何体的推理问题。现有深度估计方法通常只能预测可见表面的深度,无法推断被遮挡区域的几何信息,限制了3D场景理解的完整性。
核心思路:论文的核心思路是利用分层射线相交(Layered Ray Intersections, LaRI)来表示场景中的多个表面。通过模拟相机射线与场景中不同深度的表面的相交,LaRI能够捕捉到被遮挡的几何信息,从而实现更完整的3D场景理解。这种分层表示方法能够有效地编码场景的几何结构,并允许进行高效的推理。
技术框架:LaRI的整体框架包括以下几个主要步骤:1) 输入单张图像;2) 使用神经网络预测分层点图,其中每个像素对应多个深度值,表示相机射线与不同表面的交点;3) 预测射线停止索引,用于确定有效的相交像素和层;4) 利用分层点图进行对象级或场景级的几何推理任务。整个过程是端到端可训练的。
关键创新:LaRI的关键创新在于其分层射线相交的表示方法。与传统的深度图表示不同,LaRI能够表示相机射线与多个表面的交点,从而捕捉到被遮挡的几何信息。此外,射线停止索引的预测能够有效地过滤掉无效的相交点,提高了几何推理的准确性。这种表示方法具有紧凑、高效和视图对齐的优点。
关键设计:LaRI的关键设计包括:1) 使用神经网络预测分层点图,网络结构的选择需要根据具体的任务进行调整;2) 设计合适的损失函数来训练网络,例如,可以使用深度监督损失和射线停止索引预测损失;3) 数据生成流程的设计,包括合成数据和真实数据的生成,以及数据清洗和渲染引擎之间的协调。
🖼️ 关键图片
📊 实验亮点
LaRI在对象级几何推理任务上,使用大型生成模型4%的训练数据和17%的参数,获得了可比的结果。在场景级几何推理任务中,LaRI仅通过一次前向传播即可实现遮挡几何推理。这些结果表明,LaRI是一种高效且有效的单视图3D几何推理方法。
🎯 应用场景
LaRI具有广泛的应用前景,例如机器人导航、自动驾驶、场景重建、虚拟现实和增强现实等领域。它可以帮助机器人更好地理解周围环境,从而实现更安全、更智能的导航。在自动驾驶领域,LaRI可以用于预测车辆周围的遮挡区域,提高驾驶安全性。此外,LaRI还可以用于生成更逼真的虚拟现实和增强现实体验。
📄 摘要(原文)
We present layered ray intersections (LaRI), a new method for unseen geometry reasoning from a single image. Unlike conventional depth estimation that is limited to the visible surface, LaRI models multiple surfaces intersected by the camera rays using layered point maps. Benefiting from the compact and layered representation, LaRI enables complete, efficient, and view-aligned geometric reasoning to unify object- and scene-level tasks. We further propose to predict the ray stopping index, which identifies valid intersecting pixels and layers from LaRI's output. We build a complete training data generation pipeline for synthetic and real-world data, including 3D objects and scenes, with necessary data cleaning steps and coordination between rendering engines. As a generic method, LaRI's performance is validated in two scenarios: It yields comparable object-level results to the recent large generative model using 4% of its training data and 17% of its parameters. Meanwhile, it achieves scene-level occluded geometry reasoning in only one feed-forward.