cs.CV(2024-10-12)
📊 共 14 篇论文 | 🔗 2 篇有代码
🎯 兴趣领域导航
支柱九:具身大模型 (Embodied Foundation Models) (6 🔗1)
支柱一:机器人控制 (Robot Control) (2)
支柱二:RL算法与架构 (RL & Architecture) (2)
支柱三:空间感知与语义 (Perception & Semantics) (2)
支柱四:生成式动作 (Generative Motion) (1 🔗1)
支柱六:视频提取与匹配 (Video Extraction) (1)
🔬 支柱九:具身大模型 (Embodied Foundation Models) (6 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | Skipping Computations in Multimodal LLMs | 提出多模态LLM计算跳过方法,降低推理计算成本,适用于视觉问答等任务。 | large language model multimodal | ✅ | |
| 2 | Prompting Video-Language Foundation Models with Domain-specific Fine-grained Heuristics for Video Question Answering | 提出HeurVidQA框架,利用领域知识增强视频问答模型推理能力 | foundation model | ||
| 3 | GEM-VPC: A dual Graph-Enhanced Multimodal integration for Video Paragraph Captioning | 提出GEM-VPC,利用双图增强多模态融合解决视频段落描述生成问题 | multimodal | ||
| 4 | Learning the Bitter Lesson: Empirical Evidence from 20 Years of CVPR Proceedings | 通过分析CVPR论文,评估计算机视觉领域对“苦涩的教训”原则的采纳程度 | large language model | ||
| 5 | Reconstructive Visual Instruction Tuning | 提出ROSS:一种利用视觉重建进行视觉指令调优的大型多模态模型 | multimodal | ||
| 6 | Debiasing Vison-Language Models with Text-Only Training | 提出TOD:一种基于纯文本训练的视觉-语言模型去偏方法 | large language model |
🔬 支柱一:机器人控制 (Robot Control) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 7 | Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors | 提出基于高斯溅射和混合扩散先验的单图到3D生成方法,提升几何一致性和纹理细节。 | manipulation distillation gaussian splatting | ||
| 8 | ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance | ExpGest:提出一种基于扩散模型和混合音文引导的富有表现力的说话人姿态生成框架 | locomotion text-driven motion |
🔬 支柱二:RL算法与架构 (RL & Architecture) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 9 | Bridging Text and Image for Artist Style Transfer via Contrastive Learning | 提出基于对比学习的CLAST模型,实现文本驱动的艺术风格迁移。 | state space model contrastive learning | ||
| 10 | Improving 3D Finger Traits Recognition via Generalizable Neural Rendering | 提出FingerNeRF,通过可泛化的神经渲染提升3D手指特征识别性能 | distillation NeRF neural radiance field |
🔬 支柱三:空间感知与语义 (Perception & Semantics) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 11 | Robust Optical Flow Computation: A Higher-Order Differential Approach | 提出基于二阶泰勒展开的高阶微分光流算法,提升复杂运动场景下的光流估计精度。 | optical flow | ||
| 12 | ESVO2: Direct Visual-Inertial Odometry with Stereo Event Cameras | ESVO2:一种利用立体事件相机和IMU的直接法视觉惯性里程计 | visual odometry feature matching |
🔬 支柱四:生成式动作 (Generative Motion) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 13 | Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment | 提出条件对比对齐(CCA),实现无引导的自回归视觉生成,提升生成质量。 | classifier-free guidance | ✅ |
🔬 支柱六:视频提取与匹配 (Video Extraction) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 14 | Leveraging Semantic Cues from Foundation Vision Models for Enhanced Local Feature Correspondence | 利用视觉基础模型的语义线索增强局部特征匹配 | feature matching |