cs.CV(2025-10-24)
📊 共 6 篇论文 | 🔗 1 篇有代码
🎯 兴趣领域导航
支柱二:RL算法与架构 (RL & Architecture) (2)
支柱三:空间感知与语义 (Perception & Semantics) (1)
支柱九:具身大模型 (Embodied Foundation Models) (1)
支柱一:机器人控制 (Robot Control) (1)
支柱七:动作重定向 (Motion Retargeting) (1 🔗1)
🔬 支柱二:RL算法与架构 (RL & Architecture) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis | PhysWorld:通过物理感知演示合成,从真实视频构建可变形对象的交互式世界模型 | world model physically plausible | ||
| 2 | WorldGrow: Generating Infinite 3D World | 提出WorldGrow以解决无限扩展3D世界生成问题 | world model implicit representation foundation model |
🔬 支柱三:空间感知与语义 (Perception & Semantics) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 3 | ZING-3D: Zero-shot Incremental 3D Scene Graphs via Vision-Language Models | ZING-3D:利用视觉-语言模型实现零样本增量式3D场景图构建 | open-vocabulary open vocabulary spatial relationship |
🔬 支柱九:具身大模型 (Embodied Foundation Models) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 4 | Head Pursuit: Probing Attention Specialization in Multimodal Transformers | 通过探究注意力头专业化,理解和控制多模态Transformer模型 | multimodal |
🔬 支柱一:机器人控制 (Robot Control) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 5 | ArtiLatent: Realistic Articulated 3D Object Generation via Structured Latents | ArtiLatent:通过结构化隐空间生成逼真可动3D物体 | manipulation physically plausible geometric consistency |
🔬 支柱七:动作重定向 (Motion Retargeting) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 6 | Group Inertial Poser: Multi-Person Pose and Global Translation from Sparse Inertial Sensors and Ultra-Wideband Ranging | Group Inertial Poser:融合稀疏IMU与UWB的多人姿态与全局位姿估计 | human motion | ✅ |