cs.CV(2024-06-04)

📊 共 9 篇论文 | 🔗 2 篇有代码

🎯 兴趣领域导航

支柱三:空间感知与语义 (Perception & Semantics) (4 🔗1) 支柱九:具身大模型 (Embodied Foundation Models) (4 🔗1) 支柱一:机器人控制 (Robot Control) (1)

🔬 支柱三:空间感知与语义 (Perception & Semantics) (4 篇)

#题目一句话要点标签🔗
1 OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding OpenGaussian:提出基于3D高斯点云的开放词汇三维理解方法 3D gaussian splatting 3DGS gaussian splatting
2 3D-HGS: 3D Half-Gaussian Splatting 提出3D半高斯溅射(3D-HGS)以解决3D高斯溅射在形状和颜色不连续性上的问题。 3D gaussian splatting gaussian splatting splatting
3 Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation 提出Open-YOLO 3D,利用2D检测加速开放词汇3D实例分割。 open-vocabulary open vocabulary foundation model
4 VHS: High-Resolution Iterative Stereo Matching with Visual Hull Priors 提出基于Visual Hull先验的高分辨率迭代立体匹配方法,用于体绘制系统。 depth estimation

🔬 支柱九:具身大模型 (Embodied Foundation Models) (4 篇)

#题目一句话要点标签🔗
5 Multi-layer Learnable Attention Mask for Multimodal Tasks 提出多层可学习注意力掩码(LAM),提升Transformer在多模态任务中的性能。 multimodal
6 Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning 提出VisInContext,利用视觉 tokens 有效扩展多模态学习中的文本上下文长度 large language model multimodal
7 Parrot: Multilingual Visual Instruction Tuning PARROT:提出一种多语言视觉指令调优方法,解决多语言token对齐问题。 large language model multimodal
8 Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts 提出VLN-MP,通过多模态提示增强视觉语言导航任务性能 VLN

🔬 支柱一:机器人控制 (Robot Control) (1 篇)

#题目一句话要点标签🔗
9 CoNav: A Benchmark for Human-Centered Collaborative Navigation CoNav:提出一个以人为中心的协作导航基准,解决现有方法忽略人类意图的问题。 humanoid

⬅️ 返回 cs.CV 首页 · 🏠 返回主页