cs.CV(2025-05-08)
📊 共 4 篇论文 | 🔗 1 篇有代码
🎯 兴趣领域导航
支柱九:具身大模型 (Embodied Foundation Models) (2 🔗1)
支柱三:空间感知与语义 (Perception & Semantics) (1)
支柱七:动作重定向 (Motion Retargeting) (1)
🔬 支柱九:具身大模型 (Embodied Foundation Models) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | StreamBridge: Turning Your Offline Video Large Language Model into a Proactive Streaming Assistant | StreamBridge:将离线视频大语言模型转化为主动流式助理 | large language model | ||
| 2 | TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation | TokLIP通过语义化视觉tokens并融合CLIP语义,提升多模态理解与生成能力。 | multimodal | ✅ |
🔬 支柱三:空间感知与语义 (Perception & Semantics) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 3 | Visual Affordance Prediction: Survey and Reproducibility | 统一视觉可供性预测框架,解决定义不一致和可复现性问题 | affordance |
🔬 支柱七:动作重定向 (Motion Retargeting) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 4 | Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding | 提出自适应标记语言生成方法,用于上下文感知的视觉文档理解。 | spatial relationship instruction following |