cs.CV(2024-06-15)
📊 共 4 篇论文 | 🔗 1 篇有代码
🎯 兴趣领域导航
支柱九:具身大模型 (Embodied Foundation Models) (2 🔗1)
支柱二:RL算法与架构 (RL & Architecture) (1)
支柱三:空间感知与语义 (Perception & Semantics) (1)
🔬 支柱九:具身大模型 (Embodied Foundation Models) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation | CoMM:一个用于多模态理解和生成的一致性交错图像-文本数据集 | large language model multimodal | ||
| 2 | Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model | 提出EditVid-QA基准,用于评估大型多模态模型在理解社交媒体编辑视频方面的能力。 | multimodal | ✅ |
🔬 支柱二:RL算法与架构 (RL & Architecture) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 3 | Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection | 提出Voxel Mamba,一种用于点云三维目标检测的无组状态空间模型,提升精度和效率。 | Mamba SSM state space model |
🔬 支柱三:空间感知与语义 (Perception & Semantics) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 4 | fNeRF: High Quality Radiance Fields from Practical Cameras | fNeRF:利用实用相机光学特性提升神经辐射场重建质量 | neural radiance field scene reconstruction |