cs.CV（2024-06-04）

📊 共 9 篇论文 | 🔗 2 篇有代码

🎯 兴趣领域导航

支柱三：空间感知与语义 (Perception & Semantics) (4 🔗1) 支柱九：具身大模型 (Embodied Foundation Models) (4 🔗1) 支柱一：机器人控制 (Robot Control) (1)

🔬 支柱三：空间感知与语义 (Perception & Semantics) (4 篇)

#	题目	一句话要点	标签	🔗	⭐
1	OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding	OpenGaussian：提出基于3D高斯点云的开放词汇三维理解方法	3D gaussian splatting 3DGS gaussian splatting	✅
2	3D-HGS: 3D Half-Gaussian Splatting	提出3D半高斯溅射（3D-HGS）以解决3D高斯溅射在形状和颜色不连续性上的问题。	3D gaussian splatting gaussian splatting splatting
3	Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation	提出Open-YOLO 3D，利用2D检测加速开放词汇3D实例分割。	open-vocabulary open vocabulary foundation model
4	VHS: High-Resolution Iterative Stereo Matching with Visual Hull Priors	提出基于Visual Hull先验的高分辨率迭代立体匹配方法，用于体绘制系统。	depth estimation

🔬 支柱九：具身大模型 (Embodied Foundation Models) (4 篇)

#	题目	一句话要点	标签	🔗	⭐
5	Multi-layer Learnable Attention Mask for Multimodal Tasks	提出多层可学习注意力掩码（LAM），提升Transformer在多模态任务中的性能。	multimodal
6	Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning	提出VisInContext，利用视觉 tokens 有效扩展多模态学习中的文本上下文长度	large language model multimodal
7	Parrot: Multilingual Visual Instruction Tuning	PARROT：提出一种多语言视觉指令调优方法，解决多语言token对齐问题。	large language model multimodal	✅
8	Why Only Text: Empowering Vision-and-Language Navigation with Multi-modal Prompts	提出VLN-MP，通过多模态提示增强视觉语言导航任务性能	VLN

🔬 支柱一：机器人控制 (Robot Control) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
9	CoNav: A Benchmark for Human-Centered Collaborative Navigation	CoNav：提出一个以人为中心的协作导航基准，解决现有方法忽略人类意图的问题。	humanoid

⬅️ 返回 cs.CV 首页 · 🏠 返回主页