cs.CV(2026-05-25)
📊 共 4 篇论文 | 🔗 1 篇有代码
🎯 兴趣领域导航
支柱九:具身大模型 (Embodied Foundation Models) (2)
支柱一:机器人控制 (Robot Control) (1)
支柱三:空间感知与语义 (Perception & Semantics) (1 🔗1)
🔬 支柱九:具身大模型 (Embodied Foundation Models) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | MAGIC: Multimodal Alignment & Grounding-aware Instruction Coreset for Vision-Language Models | 提出MAGIC,一种免训练的coreset选择方法,用于提升视觉-语言模型的多模态指令调优效果。 | multimodal | ||
| 2 | STORM: Internalized Modeling for Spatial-Temporal Reasoning in Video-Language Models | 提出STORMS以解决视频语言模型中的时空推理问题 | chain-of-thought |
🔬 支柱一:机器人控制 (Robot Control) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 3 | MIND: Multi-Scale Intent Diffusion for Text-Driven Physics-Based Humanoid Control | MIND:提出多尺度意图扩散模型,用于文本驱动的物理仿真人形控制 | humanoid humanoid control imitation learning |
🔬 支柱三:空间感知与语义 (Perception & Semantics) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 4 | AgentGrounder: Zero-Shot 3D Visual Pointcloud Grounding using Multimodal Language Models | AgentGrounder:利用多模态语言模型实现零样本3D点云视觉定位 | open-vocabulary open vocabulary embodied AI | ✅ |