cs.CV(2023-12-17)
📊 共 15 篇论文 | 🔗 4 篇有代码
🎯 兴趣领域导航
支柱二:RL算法与架构 (RL & Architecture) (4 🔗2)
支柱三:空间感知与语义 (Perception & Semantics) (3 🔗1)
支柱九:具身大模型 (Embodied Foundation Models) (3 🔗1)
支柱五:交互与反应 (Interaction & Reaction) (2)
支柱一:机器人控制 (Robot Control) (2)
支柱四:生成式动作 (Generative Motion) (1)
🔬 支柱二:RL算法与架构 (RL & Architecture) (4 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | Silkie: Preference Distillation for Large Visual Language Models | Silkie:面向大型视觉语言模型的偏好蒸馏,提升视觉上下文理解能力 | DPO direct preference optimization distillation | ||
| 2 | Your Student is Better Than Expected: Adaptive Teacher-Student Collaboration for Text-Conditional Diffusion Models | 提出自适应师生协作框架,提升文本条件扩散模型的生成质量与效率。 | teacher-student distillation | ||
| 3 | Towards Compact 3D Representations via Point Feature Enhancement Masked Autoencoders | 提出Point-FEMAE,通过点特征增强的掩码自编码器实现紧凑的3D点云表示学习。 | masked autoencoder MAE | ✅ | |
| 4 | DistilVPR: Cross-Modal Knowledge Distillation for Visual Place Recognition | 提出DistilVPR,利用跨模态知识蒸馏提升视觉定位的单模态性能。 | distillation | ✅ |
🔬 支柱三:空间感知与语义 (Perception & Semantics) (3 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 5 | Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance | Open3DIS:利用2D Mask引导的开放词汇3D实例分割 | scene understanding open-vocabulary open vocabulary | ||
| 6 | PNeRFLoc: Visual Localization with Point-based Neural Radiance Fields | PNeRFLoc:基于点云NeRF的视觉定位方法,提升几何约束与渲染优化。 | NeRF neural radiance field | ||
| 7 | SAI3D: Segment Any Instance in 3D Scenes | SAI3D:利用几何先验和SAM语义信息进行零样本3D场景实例分割 | open-vocabulary open vocabulary | ✅ |
🔬 支柱九:具身大模型 (Embodied Foundation Models) (3 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 8 | M3DBench: Let's Instruct Large Models with Multi-modal 3D Prompts | M3DBench:提出多模态3D提示指令数据集,用于评估大模型在3D理解任务中的性能 | large language model multimodal instruction following | ||
| 9 | StarVector: Generating Scalable Vector Graphics Code from Images and Text | StarVector:提出一种基于多模态大语言模型的图像和文本生成可缩放矢量图形代码的方法 | large language model multimodal | ||
| 10 | Bi-directional Adapter for Multi-modal Tracking | 提出基于双向Adapter的多模态视觉提示跟踪模型,解决复杂环境下多模态信息动态融合问题。 | foundation model | ✅ |
🔬 支柱五:交互与反应 (Interaction & Reaction) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 11 | Few-Shot Learning from Augmented Label-Uncertain Queries in Bongard-HOI | 针对Bongard-HOI,提出基于增强标签不确定查询的少样本学习方法 | human-object interaction HOI | ||
| 12 | Primitive-based 3D Human-Object Interaction Modelling and Programming | 提出基于几何图元的3D人-物交互建模与编程方法 | human-object interaction |
🔬 支柱一:机器人控制 (Robot Control) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 13 | Latent Space Editing in Transformer-Based Flow Matching | 探索Transformer Flow Matching的图像编辑能力,提出可控、累积、可组合的u空间编辑方法。 | manipulation flow matching | ||
| 14 | CEIR: Concept-based Explainable Image Representation Learning | 提出CEIR:一种基于概念的可解释图像表示学习方法,提升无监督聚类性能。 | manipulation representation learning |
🔬 支柱四:生成式动作 (Generative Motion) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 15 | T2M-HiFiGPT: Generating High Quality Human Motion from Textual Descriptions with Residual Discrete Representations | T2M-HiFiGPT:利用残差离散表示,从文本描述生成高质量人体运动 | VQ-VAE T2M-GPT |