cs.CV(2025-08-01)

📊 共 7 篇论文 | 🔗 2 篇有代码

🎯 兴趣领域导航

支柱三:空间感知与语义 (Perception & Semantics) (3 🔗1) 支柱九:具身大模型 (Embodied Foundation Models) (2 🔗1) 支柱二:RL算法与架构 (RL & Architecture) (1) 支柱七:动作重定向 (Motion Retargeting) (1)

🔬 支柱三:空间感知与语义 (Perception & Semantics) (3 篇)

#题目一句话要点标签🔗
1 PointGauss: Point Cloud-Guided Multi-Object Segmentation for Gaussian Splatting PointGauss:点云引导的高斯溅射多对象分割,实现实时高效的3D场景理解 gaussian splatting splatting
2 Context-based Motion Retrieval using Open Vocabulary Methods for Autonomous Driving 提出基于上下文的运动检索框架以解决自动驾驶中的边缘案例问题 open-vocabulary open vocabulary SMPL
3 IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation 提出IGL-Nav以解决图像目标导航中的3D定位问题 3DGS

🔬 支柱九:具身大模型 (Embodied Foundation Models) (2 篇)

#题目一句话要点标签🔗
4 Multimodal Referring Segmentation: A Survey 多模态指代分割综述:全面回顾图像、视频和3D场景中的方法与应用 large language model multimodal
5 Instruction-Grounded Visual Projectors for Continual Learning of Generative Vision-Language Models 提出指令引导的视觉投影器,用于生成式视觉-语言模型的持续学习 large language model instruction following

🔬 支柱二:RL算法与架构 (RL & Architecture) (1 篇)

#题目一句话要点标签🔗
6 Guided Depth Map Super-Resolution via Multi-Scale Fusion U-shaped Mamba Network 提出MSF-UM模型,利用多尺度融合U型Mamba网络实现引导深度图超分辨率 Mamba state space model

🔬 支柱七:动作重定向 (Motion Retargeting) (1 篇)

#题目一句话要点标签🔗
7 TITAN-Guide: Taming Inference-Time AligNment for Guided Text-to-Video Diffusion Models TITAN-Guide:通过推理时对齐优化,实现对文本到视频扩散模型的引导。 latent optimization

⬅️ 返回 cs.CV 首页 · 🏠 返回主页