cs.CV(2025-08-25)
📊 共 34 篇论文 | 🔗 5 篇有代码
🎯 兴趣领域导航
支柱三:空间感知与语义 (Perception & Semantics) (12 🔗1)
支柱九:具身大模型 (Embodied Foundation Models) (11 🔗3)
支柱二:RL算法与架构 (RL & Architecture) (8 🔗1)
支柱一:机器人控制 (Robot Control) (2)
支柱七:动作重定向 (Motion Retargeting) (1)
🔬 支柱三:空间感知与语义 (Perception & Semantics) (12 篇)
🔬 支柱九:具身大模型 (Embodied Foundation Models) (11 篇)
🔬 支柱二:RL算法与架构 (RL & Architecture) (8 篇)
🔬 支柱一:机器人控制 (Robot Control) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 32 | Why Relational Graphs Will Save the Next Generation of Vision Foundation Models? | 提出动态关系图以提升视觉基础模型的推理能力 | manipulation egocentric foundation model | ||
| 33 | Propose and Rectify: A Forensics-Driven MLLM Framework for Image Manipulation Localization | 提出Propose-Rectify框架以解决图像篡改定位问题 | manipulation large language model multimodal |
🔬 支柱七:动作重定向 (Motion Retargeting) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 34 | TinyGiantVLM: A Lightweight Vision-Language Architecture for Spatial Reasoning under Resource Constraints | 提出TinyGiantVLM以解决工业环境中的空间推理问题 | spatial relationship multimodal |