cs.CV(2024-05-29)
📊 共 27 篇论文 | 🔗 9 篇有代码
🎯 兴趣领域导航
支柱九:具身大模型 (Embodied Foundation Models) (10 🔗4)
支柱三:空间感知与语义 (Perception & Semantics) (4)
支柱二:RL算法与架构 (RL & Architecture) (4 🔗2)
支柱一:机器人控制 (Robot Control) (3 🔗1)
支柱六:视频提取与匹配 (Video Extraction) (3 🔗2)
支柱七:动作重定向 (Motion Retargeting) (1)
支柱四:生成式动作 (Generative Motion) (1)
支柱八:物理动画 (Physics-based Animation) (1)
🔬 支柱九:具身大模型 (Embodied Foundation Models) (10 篇)
🔬 支柱三:空间感知与语义 (Perception & Semantics) (4 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 11 | Parameter-efficient Fine-tuning in Hyperspherical Space for Open-vocabulary Semantic Segmentation | 提出H-CLIP,一种在超球面空间进行参数高效微调的开放词汇语义分割方法 | open-vocabulary open vocabulary foundation model | ||
| 12 | NeRF On-the-go: Exploiting Uncertainty for Distractor-free NeRFs in the Wild | NeRF On-the-go:利用不确定性消除干扰,实现复杂场景下鲁棒的NeRF重建 | NeRF neural radiance field | ||
| 13 | Neural Radiance Fields for Novel View Synthesis in Monocular Gastroscopy | 提出基于几何先验的神经辐射场方法,用于单目胃镜图像的新视角合成 | NeRF neural radiance field | ||
| 14 | NPGA: Neural Parametric Gaussian Avatars | 提出神经参数高斯头像(NPGA),用于高保真、可控人头数字重建与实时渲染。 | 3D gaussian splatting gaussian splatting splatting |
🔬 支柱二:RL算法与架构 (RL & Architecture) (4 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 15 | Vim-F: Visual State Space Model Benefiting from Learning in the Frequency Domain | 提出Vim-F,利用频域学习增强视觉状态空间模型,提升图像建模能力。 | Mamba SSM state space model | ✅ | |
| 16 | FourierMamba: Fourier Learning Integration with State Space Models for Image Deraining | 提出FourierMamba,利用傅里叶空间的状态空间模型进行图像去雨 | Mamba state space model | ||
| 17 | LetsMap: Unsupervised Representation Learning for Semantic BEV Mapping | 提出LetsMap,一种无监督语义BEV地图表示学习方法,解决自动驾驶场景中标注数据依赖问题。 | representation learning masked autoencoder | ||
| 18 | DGD: Dynamic 3D Gaussians Distillation | 提出DGD,通过动态3D高斯蒸馏实现单目视频动态语义辐射场学习。 | distillation | ✅ |
🔬 支柱一:机器人控制 (Robot Control) (3 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 19 | Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models | 提出 Reasoning3D,通过大型视觉-语言模型实现细粒度零样本开放词汇3D推理分割。 | manipulation open-vocabulary open vocabulary | ✅ | |
| 20 | Diffusion Policy Attacker: Crafting Adversarial Attacks for Diffusion-based Policies | 提出DP-Attacker,针对扩散策略的离线、在线、全局和局部对抗攻击方法 | manipulation behavior cloning diffusion policy | ||
| 21 | Evaluating Vision-Language Models on Bistable Images | 利用双稳态图像评估视觉-语言模型对歧义感知的鲁棒性 | manipulation |
🔬 支柱六:视频提取与匹配 (Video Extraction) (3 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 22 | MEGA: Masked Generative Autoencoder for Human Mesh Recovery | 提出MEGA:用于人体网格恢复的掩码生成自编码器,实现确定性和随机性模式下的SOTA性能。 | human mesh recovery HMR | ||
| 23 | Single image super-resolution based on trainable feature matching attention network | 提出可训练特征匹配注意力网络TFMAN,用于提升单图像超分辨率重建性能。 | feature matching | ✅ | |
| 24 | $E^{3}$Gen: Efficient, Expressive and Editable Avatars Generation | 提出E³Gen,实现高效、富有表现力且可编辑的3D头像生成 | SMPL SMPL-X | ✅ |
🔬 支柱七:动作重定向 (Motion Retargeting) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 25 | Multi-Condition Latent Diffusion Network for Scene-Aware Neural Human Motion Prediction | 提出多条件潜在扩散网络MCLD,用于场景感知的神经人体运动预测。 | human motion human motion prediction motion prediction |
🔬 支柱四:生成式动作 (Generative Motion) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 26 | Programmable Motion Generation for Open-Set Motion Control Tasks | 提出可编程运动生成框架,解决开放场景下可定制的角色动画控制问题 | motion generation character animation large language model |
🔬 支柱八:物理动画 (Physics-based Animation) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 27 | SFANet: Spatial-Frequency Attention Network for Weather Forecasting | 提出SFANet,利用空间-频率注意力机制提升天气预报精度。 | spatiotemporal |