cs.CV(2025-08-01)
📊 共 7 篇论文 | 🔗 2 篇有代码
🎯 兴趣领域导航
支柱三:空间感知与语义 (Perception & Semantics) (3 🔗1)
支柱九:具身大模型 (Embodied Foundation Models) (2 🔗1)
支柱二:RL算法与架构 (RL & Architecture) (1)
支柱七:动作重定向 (Motion Retargeting) (1)
🔬 支柱三:空间感知与语义 (Perception & Semantics) (3 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | PointGauss: Point Cloud-Guided Multi-Object Segmentation for Gaussian Splatting | PointGauss:点云引导的高斯溅射多对象分割,实现实时高效的3D场景理解 | gaussian splatting splatting | ||
| 2 | Context-based Motion Retrieval using Open Vocabulary Methods for Autonomous Driving | 提出基于上下文的运动检索框架以解决自动驾驶中的边缘案例问题 | open-vocabulary open vocabulary SMPL | ||
| 3 | IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation | 提出IGL-Nav以解决图像目标导航中的3D定位问题 | 3DGS | ✅ |
🔬 支柱九:具身大模型 (Embodied Foundation Models) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 4 | Multimodal Referring Segmentation: A Survey | 多模态指代分割综述:全面回顾图像、视频和3D场景中的方法与应用 | large language model multimodal | ✅ | |
| 5 | Instruction-Grounded Visual Projectors for Continual Learning of Generative Vision-Language Models | 提出指令引导的视觉投影器,用于生成式视觉-语言模型的持续学习 | large language model instruction following |
🔬 支柱二:RL算法与架构 (RL & Architecture) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 6 | Guided Depth Map Super-Resolution via Multi-Scale Fusion U-shaped Mamba Network | 提出MSF-UM模型,利用多尺度融合U型Mamba网络实现引导深度图超分辨率 | Mamba state space model |
🔬 支柱七:动作重定向 (Motion Retargeting) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 7 | TITAN-Guide: Taming Inference-Time AligNment for Guided Text-to-Video Diffusion Models | TITAN-Guide:通过推理时对齐优化,实现对文本到视频扩散模型的引导。 | latent optimization |