cs.CV（2024-06-15）

📊 共 4 篇论文 | 🔗 1 篇有代码

🎯 兴趣领域导航

支柱九：具身大模型 (Embodied Foundation Models) (2 🔗1) 支柱二：RL算法与架构 (RL & Architecture) (1) 支柱三：空间感知与语义 (Perception & Semantics) (1)

🔬 支柱九：具身大模型 (Embodied Foundation Models) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
1	CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation	CoMM：一个用于多模态理解和生成的一致性交错图像-文本数据集	large language model multimodal
2	Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model	提出EditVid-QA基准，用于评估大型多模态模型在理解社交媒体编辑视频方面的能力。	multimodal	✅

🔬 支柱二：RL算法与架构 (RL & Architecture) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
3	Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection	提出Voxel Mamba，一种用于点云三维目标检测的无组状态空间模型，提升精度和效率。	Mamba SSM state space model

🔬 支柱三：空间感知与语义 (Perception & Semantics) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
4	fNeRF: High Quality Radiance Fields from Practical Cameras	fNeRF：利用实用相机光学特性提升神经辐射场重建质量	neural radiance field scene reconstruction

⬅️ 返回 cs.CV 首页 · 🏠 返回主页