cs.CV(2024-06-04)
📊 共 9 篇论文 | 🔗 2 篇有代码
🎯 兴趣领域导航
支柱三:空间感知与语义 (Perception & Semantics) (4 🔗1)
支柱九:具身大模型 (Embodied Foundation Models) (4 🔗1)
支柱一:机器人控制 (Robot Control) (1)
🔬 支柱三:空间感知与语义 (Perception & Semantics) (4 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding | OpenGaussian:提出基于3D高斯点云的开放词汇三维理解方法 | 3D gaussian splatting 3DGS gaussian splatting | ✅ | |
| 2 | 3D-HGS: 3D Half-Gaussian Splatting | 提出3D半高斯溅射(3D-HGS)以解决3D高斯溅射在形状和颜色不连续性上的问题。 | 3D gaussian splatting gaussian splatting splatting | ||
| 3 | Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation | 提出Open-YOLO 3D,利用2D检测加速开放词汇3D实例分割。 | open-vocabulary open vocabulary foundation model | ||
| 4 | VHS: High-Resolution Iterative Stereo Matching with Visual Hull Priors | 提出基于Visual Hull先验的高分辨率迭代立体匹配方法,用于体绘制系统。 | depth estimation |
🔬 支柱九:具身大模型 (Embodied Foundation Models) (4 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 5 | Multi-layer Learnable Attention Mask for Multimodal Tasks | 提出多层可学习注意力掩码(LAM),提升Transformer在多模态任务中的性能。 | multimodal | ||
| 6 | Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning | 提出VisInContext,利用视觉 tokens 有效扩展多模态学习中的文本上下文长度 | large language model multimodal | ||
| 7 | Parrot: Multilingual Visual Instruction Tuning | PARROT:提出一种多语言视觉指令调优方法,解决多语言token对齐问题。 | large language model multimodal | ✅ | |
| 8 | Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts | 提出VLN-MP,通过多模态提示增强视觉语言导航任务性能 | VLN |
🔬 支柱一:机器人控制 (Robot Control) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 9 | CoNav: A Benchmark for Human-Centered Collaborative Navigation | CoNav:提出一个以人为中心的协作导航基准,解决现有方法忽略人类意图的问题。 | humanoid |