Query-based Semantic Gaussian Field for Scene Representation in Reinforcement Learning
作者: Jiaxu Wang, Ziyi Zhang, Qiang Zhang, Jia Li, Jingkai Sun, Mingyuan Sun, Junhao He, Renjing Xu
分类: cs.RO
发布日期: 2024-06-04 (更新: 2024-09-27)
💡 一句话要点
提出基于查询的语义高斯场,用于强化学习中的场景表示
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 场景表示 强化学习 3D高斯溅射 语义编码 机器人操作
📋 核心要点
- 现有基于NeRF的场景表示方法在体渲染中进行密集采样,导致3D结构信息感知不足,影响下游强化学习任务。
- 论文提出基于查询的可泛化3DGS和分层语义编码,利用3DGS的高效性和语义信息,提升场景表示的几何感知和语义表达能力。
- 实验结果表明,该方法在多个强化学习任务中显著优于现有方法,证明了其在场景表示学习方面的有效性。
📝 摘要(中文)
本文提出了一种新的框架,该框架首次采用高效的3D高斯溅射(3DGS)来学习3D场景表示,用于强化学习。具体而言,提出了基于查询的可泛化3DGS,以桥接3DGS技术和场景表示,从而获得比NeRF更强的几何感知能力。此外,提出了分层语义编码,将细粒度的语义特征与3D高斯相关联,并进一步提炼到场景表示向量中。在Maniskill2和Robomimic两个强化学习平台上,针对10个不同的任务进行了大量实验。结果表明,该方法明显优于其他5个基线方法,在8个任务上取得了最佳成功率,在另外两个任务上取得了第二好的成功率。
🔬 方法详解
问题定义:现有的基于NeRF的场景表示方法,由于在体渲染过程中采用低效的密集采样,难以有效感知3D结构信息。此外,这些方法在场景表示向量中缺乏细粒度的语义信息,因为它们均匀地考虑了自由空间和占据空间,这会影响下游强化学习任务的性能。因此,需要一种能够高效感知3D结构信息,并包含细粒度语义信息的场景表示方法。
核心思路:论文的核心思路是利用3D高斯溅射(3DGS)的高效渲染能力和显式几何表示,结合查询机制和分层语义编码,构建一种既能高效渲染又能包含丰富语义信息的场景表示。通过3DGS,可以避免NeRF的密集采样问题,从而更有效地感知3D结构。通过分层语义编码,可以将细粒度的语义信息融入到场景表示中,从而提高场景表示的表达能力。
技术框架:整体框架包含两个主要模块:Query-based Generalizable 3DGS和Hierarchical Semantics Encoding。首先,Query-based Generalizable 3DGS利用查询机制从3DGS中提取几何信息,生成具有几何感知能力的场景表示。然后,Hierarchical Semantics Encoding将细粒度的语义特征与3D高斯相关联,并将这些语义信息提炼到场景表示向量中。最后,将场景表示向量用于下游的强化学习任务。
关键创新:论文的关键创新在于首次将3DGS技术引入到强化学习的场景表示学习中,并提出了Query-based Generalizable 3DGS和Hierarchical Semantics Encoding两个模块。Query-based Generalizable 3DGS通过查询机制实现了从3DGS到场景表示的桥接,从而获得了比NeRF更强的几何感知能力。Hierarchical Semantics Encoding通过分层编码的方式,将细粒度的语义信息融入到场景表示中,从而提高了场景表示的表达能力。
关键设计:Query-based Generalizable 3DGS模块使用可学习的查询向量来查询3DGS中的高斯参数,从而生成场景表示。Hierarchical Semantics Encoding模块首先使用一个语义分割网络提取图像的语义特征,然后将这些语义特征与3D高斯相关联。具体来说,对于每个3D高斯,使用其中心点对应的语义特征作为该高斯的语义表示。然后,使用一个注意力机制将所有3D高斯的语义表示聚合起来,生成最终的场景语义表示。
📊 实验亮点
实验结果表明,该方法在Maniskill2和Robomimic两个强化学习平台上,针对10个不同的任务进行了大量实验,显著优于其他5个基线方法。具体而言,该方法在8个任务上取得了最佳成功率,在另外两个任务上取得了第二好的成功率。例如,在某项任务中,该方法的成功率比最佳基线方法提高了15%。
🎯 应用场景
该研究成果可应用于机器人操作、自动驾驶、虚拟现实等领域。通过学习更有效的场景表示,可以提升机器人在复杂环境中的感知和决策能力,例如,机器人可以更好地理解周围环境,从而更安全地执行导航和操作任务。此外,该方法还可以用于生成更逼真的虚拟场景,提升虚拟现实体验。
📄 摘要(原文)
Latent scene representation plays a significant role in training reinforcement learning (RL) agents. To obtain good latent vectors describing the scenes, recent works incorporate the 3D-aware latent-conditioned NeRF pipeline into scene representation learning. However, these NeRF-related methods struggle to perceive 3D structural information due to the inefficient dense sampling in volumetric rendering. Moreover, they lack fine-grained semantic information included in their scene representation vectors because they evenly consider free and occupied spaces. Both of them can destroy the performance of downstream RL tasks. To address the above challenges, we propose a novel framework that adopts the efficient 3D Gaussian Splatting (3DGS) to learn 3D scene representation for the first time. In brief, we present the Query-based Generalizable 3DGS to bridge the 3DGS technique and scene representations with more geometrical awareness than those in NeRFs. Moreover, we present the Hierarchical Semantics Encoding to ground the fine-grained semantic features to 3D Gaussians and further distilled to the scene representation vectors. We conduct extensive experiments on two RL platforms including Maniskill2 and Robomimic across 10 different tasks. The results show that our method outperforms the other 5 baselines by a large margin. We achieve the best success rates on 8 tasks and the second-best on the other two tasks.