cs.CV(2024-10-06)
📊 共 9 篇论文 | 🔗 4 篇有代码
🎯 兴趣领域导航
支柱九:具身大模型 (Embodied Foundation Models) (3 🔗1)
支柱三:空间感知与语义 (Perception & Semantics) (2)
支柱二:RL算法与架构 (RL & Architecture) (2 🔗1)
支柱一:机器人控制 (Robot Control) (1 🔗1)
支柱四:生成式动作 (Generative Motion) (1 🔗1)
🔬 支柱九:具身大模型 (Embodied Foundation Models) (3 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | VISTA: A Visual and Textual Attention Dataset for Interpreting Multimodal Models | 提出VISTA数据集,用于解释多模态模型中的视觉与文本关联 | multimodal | ||
| 2 | MC-CoT: A Modular Collaborative CoT Framework for Zero-shot Medical-VQA with LLM and MLLM Integration | 提出MC-CoT框架,提升LLM和MLLM在零样本医学VQA任务中的性能 | large language model multimodal chain-of-thought | ||
| 3 | MVP-Bench: Can Large Vision--Language Models Conduct Multi-level Visual Perception Like Humans? | MVP-Bench:评估大型视觉语言模型多层次视觉感知能力 | multimodal | ✅ |
🔬 支柱三:空间感知与语义 (Perception & Semantics) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 4 | Mode-GS: Monocular Depth Guided Anchored 3D Gaussian Splatting for Robust Ground-View Scene Rendering | Mode-GS:单目深度引导的锚定3D高斯溅射,用于稳健的地面视角场景渲染 | monocular depth 3D gaussian splatting gaussian splatting | ||
| 5 | StreetSurfGS: Scalable Urban Street Surface Reconstruction with Planar-based Gaussian Splatting | StreetSurfGS:提出基于平面的高斯溅射方法,用于可扩展的城市街道表面重建 | gaussian splatting splatting |
🔬 支柱二:RL算法与架构 (RL & Architecture) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 6 | In-Place Panoptic Radiance Field Segmentation with Perceptual Prior for 3D Scene Understanding | 提出基于感知先验的In-Place全景辐射场分割方法,用于3D场景理解 | distillation neural radiance field scene understanding | ||
| 7 | CAPEEN: Image Captioning with Early Exits and Knowledge Distillation | 提出CAPEEN,利用早退机制和知识蒸馏加速图像描述生成并提升鲁棒性 | distillation | ✅ |
🔬 支柱一:机器人控制 (Robot Control) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 8 | Deformable NeRF using Recursively Subdivided Tetrahedra | 提出DeformRF,利用递归细分四面体实现可变形NeRF,提升操控性和渲染质量。 | manipulation NeRF neural radiance field | ✅ |
🔬 支柱四:生成式动作 (Generative Motion) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 9 | UniMuMo: Unified Text, Music and Motion Generation | UniMuMo:统一文本、音乐和动作生成的多模态模型 | motion generation multimodal | ✅ |