cs.CV（2026-05-25）

📊 共 4 篇论文 | 🔗 1 篇有代码

🎯 兴趣领域导航

支柱九：具身大模型 (Embodied Foundation Models) (2) 支柱一：机器人控制 (Robot Control) (1) 支柱三：空间感知与语义 (Perception & Semantics) (1 🔗1)

🔬 支柱九：具身大模型 (Embodied Foundation Models) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
1	MAGIC: Multimodal Alignment & Grounding-aware Instruction Coreset for Vision-Language Models	提出MAGIC，一种免训练的coreset选择方法，用于提升视觉-语言模型的多模态指令调优效果。	multimodal
2	STORM: Internalized Modeling for Spatial-Temporal Reasoning in Video-Language Models	提出STORMS以解决视频语言模型中的时空推理问题	chain-of-thought

🔬 支柱一：机器人控制 (Robot Control) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
3	MIND: Multi-Scale Intent Diffusion for Text-Driven Physics-Based Humanoid Control	MIND：提出多尺度意图扩散模型，用于文本驱动的物理仿真人形控制	humanoid humanoid control imitation learning

🔬 支柱三：空间感知与语义 (Perception & Semantics) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
4	AgentGrounder: Zero-Shot 3D Visual Pointcloud Grounding using Multimodal Language Models	AgentGrounder：利用多模态语言模型实现零样本3D点云视觉定位	open-vocabulary open vocabulary embodied AI	✅

⬅️ 返回 cs.CV 首页 · 🏠 返回主页