cs.CV（2025-08-01）

📊 共 7 篇论文 | 🔗 2 篇有代码

🎯 兴趣领域导航

支柱三：空间感知与语义 (Perception & Semantics) (3 🔗1) 支柱九：具身大模型 (Embodied Foundation Models) (2 🔗1) 支柱二：RL算法与架构 (RL & Architecture) (1) 支柱七：动作重定向 (Motion Retargeting) (1)

🔬 支柱三：空间感知与语义 (Perception & Semantics) (3 篇)

#	题目	一句话要点	标签	🔗	⭐
1	PointGauss: Point Cloud-Guided Multi-Object Segmentation for Gaussian Splatting	PointGauss：点云引导的高斯溅射多对象分割，实现实时高效的3D场景理解	gaussian splatting splatting
2	Context-based Motion Retrieval using Open Vocabulary Methods for Autonomous Driving	提出基于上下文的运动检索框架以解决自动驾驶中的边缘案例问题	open-vocabulary open vocabulary SMPL
3	IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation	提出IGL-Nav以解决图像目标导航中的3D定位问题	3DGS	✅

🔬 支柱九：具身大模型 (Embodied Foundation Models) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
4	Multimodal Referring Segmentation: A Survey	多模态指代分割综述：全面回顾图像、视频和3D场景中的方法与应用	large language model multimodal	✅
5	Instruction-Grounded Visual Projectors for Continual Learning of Generative Vision-Language Models	提出指令引导的视觉投影器，用于生成式视觉-语言模型的持续学习	large language model instruction following

🔬 支柱二：RL算法与架构 (RL & Architecture) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
6	Guided Depth Map Super-Resolution via Multi-Scale Fusion U-shaped Mamba Network	提出MSF-UM模型，利用多尺度融合U型Mamba网络实现引导深度图超分辨率	Mamba state space model

🔬 支柱七：动作重定向 (Motion Retargeting) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
7	TITAN-Guide: Taming Inference-Time AligNment for Guided Text-to-Video Diffusion Models	TITAN-Guide：通过推理时对齐优化，实现对文本到视频扩散模型的引导。	latent optimization

⬅️ 返回 cs.CV 首页 · 🏠 返回主页