cs.CV(2025-08-15)
📊 共 5 篇论文
🎯 兴趣领域导航
支柱二:RL算法与架构 (RL & Architecture) (2)
支柱一:机器人控制 (Robot Control) (1)
支柱九:具身大模型 (Embodied Foundation Models) (1)
支柱六:视频提取与匹配 (Video Extraction) (1)
🔬 支柱二:RL算法与架构 (RL & Architecture) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 1 | Recent Advances in Transformer and Large Language Models for UAV Applications | 系统评估Transformer模型在无人机应用中的进展与挑战 | reinforcement learning large language model | ||
| 2 | Ovis2.5 Technical Report | 提出Ovis2.5以解决多模态推理与视觉感知问题 | DPO multimodal chain-of-thought |
🔬 支柱一:机器人控制 (Robot Control) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 3 | TTF-VLA: Temporal Token Fusion via Pixel-Attention Integration for Vision-Language-Action Models | 提出TTF以解决视觉语言动作模型中的时间信息缺失问题 | manipulation vision-language-action VLA |
🔬 支柱九:具身大模型 (Embodied Foundation Models) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 4 | Controlling Multimodal LLMs via Reward-guided Decoding | 提出奖励引导解码方法以提升多模态大语言模型的可控性 | large language model multimodal visual grounding |
🔬 支柱六:视频提取与匹配 (Video Extraction) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 5 | Labels or Input? Rethinking Augmentation in Multimodal Hate Detection | 提出双重方法以提升多模态仇恨检测的准确性 | HuMoR multimodal |