cs.CV(2025-12-03)
📊 共 6 篇论文 | 🔗 3 篇有代码
🎯 兴趣领域导航
支柱一:机器人控制 (Robot Control) (3 🔗2)
支柱三:空间感知与语义 (Perception & Semantics) (1)
支柱九:具身大模型 (Embodied Foundation Models) (1)
支柱二:RL算法与架构 (RL & Architecture) (1 🔗1)
🔬 支柱一:机器人控制 (Robot Control) (3 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | PosA-VLA: Enhancing Action Generation via Pose-Conditioned Anchor Attention | PosA-VLA:通过姿态条件锚点注意力增强具身任务中的动作生成 | manipulation vision-language-action VLA | ||
| 2 | VAT: Vision Action Transformer by Unlocking Full Representation of ViT | 提出Vision Action Transformer (VAT),充分利用ViT各层特征进行机器人动作学习。 | manipulation imitation learning OpenVLA | ✅ | |
| 3 | SpaceTools: Tool-Augmented Spatial Reasoning via Double Interactive RL | 提出SpaceTools,通过双重交互强化学习增强视觉语言模型在具身任务中的空间推理能力。 | manipulation reinforcement learning | ✅ |
🔬 支柱三:空间感知与语义 (Perception & Semantics) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 4 | CSMapping: Scalable Crowdsourced Semantic Mapping and Topology Inference for Autonomous Driving | 提出CSMapping以解决低成本传感器噪声影响的地图构建问题 | semantic mapping semantic map |
🔬 支柱九:具身大模型 (Embodied Foundation Models) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 5 | NAS-LoRA: Empowering Parameter-Efficient Fine-Tuning for Visual Foundation Models with Searchable Adaptation | NAS-LoRA:通过可搜索的适配增强视觉基础模型的参数高效微调 | foundation model |
🔬 支柱二:RL算法与架构 (RL & Architecture) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 6 | Thinking with Programming Vision: Towards a Unified View for Thinking with Images | CodeVision:提出基于代码的通用图像操作框架,提升多模态大模型视觉推理的鲁棒性。 | reinforcement learning large language model multimodal | ✅ |