cs.CV(2024-10-30)
📊 共 23 篇论文 | 🔗 5 篇有代码
🎯 兴趣领域导航
支柱三:空间感知与语义 (Perception & Semantics) (7 🔗2)
支柱九:具身大模型 (Embodied Foundation Models) (5)
支柱二:RL算法与架构 (RL & Architecture) (4 🔗1)
支柱八:物理动画 (Physics-based Animation) (3 🔗1)
支柱六:视频提取与匹配 (Video Extraction) (2 🔗1)
支柱一:机器人控制 (Robot Control) (1)
支柱七:动作重定向 (Motion Retargeting) (1)
🔬 支柱三:空间感知与语义 (Perception & Semantics) (7 篇)
🔬 支柱九:具身大模型 (Embodied Foundation Models) (5 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 8 | TOMATO: Assessing Visual Temporal Reasoning Capabilities in Multimodal Foundation Models | 提出TOMATO基准,用于评估多模态模型在视频理解中的视觉时序推理能力 | foundation model multimodal | ||
| 9 | CrossEarth: Geospatial Vision Foundation Model for Domain Generalizable Remote Sensing Semantic Segmentation | CrossEarth:面向领域泛化遥感语义分割的地理空间视觉基础模型 | foundation model | ||
| 10 | PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures | PIP-MM:通过预集成提示信息到视觉编码中,提升多模态大语言模型性能 | large language model multimodal | ||
| 11 | PV-VTT: A Privacy-Centric Dataset for Mission-Specific Anomaly Detection and Natural Language Interpretation | 提出PV-VTT数据集,用于隐私侵犯异常检测和自然语言理解任务。 | large language model multimodal | ||
| 12 | CLIPErase: Efficient Unlearning of Visual-Textual Associations in CLIP | 提出CLIPErase,高效实现CLIP模型中视觉-文本关联的不可学习。 | multimodal |
🔬 支柱二:RL算法与架构 (RL & Architecture) (4 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 13 | EchoFM: Foundation Model for Generalizable Echocardiogram Analysis | 提出EchoFM,用于可泛化的超声心动图分析的基础模型 | contrastive learning foundation model | ||
| 14 | LoFLAT: Local Feature Matching using Focused Linear Attention Transformer | 提出LoFLAT:利用聚焦线性注意力Transformer进行局部特征匹配 | linear attention feature matching | ||
| 15 | Adaptive Multi Scale Document Binarisation Using Vision Mamba | 提出基于Vision Mamba的自适应多尺度文档二值化方法,提升历史文档图像的可读性。 | Mamba | ||
| 16 | AdaptiveISP: Learning an Adaptive Image Signal Processor for Object Detection | 提出AdaptiveISP,一种任务驱动、场景自适应的图像信号处理器,提升目标检测性能。 | reinforcement learning deep reinforcement learning | ✅ |
🔬 支柱八:物理动画 (Physics-based Animation) (3 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 17 | First Place Solution to the ECCV 2024 ROAD++ Challenge @ ROAD++ Spatiotemporal Agent Detection 2024 | 针对ROAD++时空Agent检测挑战赛,提出多分支双流模型,显著提升小目标和低光照场景下的检测性能。 | spatiotemporal | ||
| 18 | bit2bit: 1-bit quanta video reconstruction via self-supervised photon prediction | 提出bit2bit以解决稀疏二进制量子图像重建问题 | spatiotemporal | ||
| 19 | Fourier Amplitude and Correlation Loss: Beyond Using L2 Loss for Skillful Precipitation Nowcasting | 提出FACL损失函数,提升降水临近预报的感知质量和气象技能评分 | spatiotemporal | ✅ |
🔬 支柱六:视频提取与匹配 (Video Extraction) (2 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 20 | ETO:Efficient Transformer-based Local Feature Matching by Organizing Multiple Homography Hypotheses | ETO:通过组织多重单应性假设实现高效的Transformer局部特征匹配 | feature matching | ||
| 21 | PointRecon: Online Point-based 3D Reconstruction via Ray-based 2D-3D Matching | 提出基于射线的2D-3D匹配在线点云重建方法,解决单目RGB视频的实时三维重建问题。 | feature matching | ✅ |
🔬 支柱一:机器人控制 (Robot Control) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 22 | EMMA: End-to-End Multimodal Model for Autonomous Driving | EMMA:用于自动驾驶的端到端多模态模型,实现规划、感知和道路图构建的统一。 | motion planning large language model multimodal |
🔬 支柱七:动作重定向 (Motion Retargeting) (1 篇)
| # | 题目 | 一句话要点 | 标签 | 🔗 | ⭐ |
|---|---|---|---|---|---|
| 23 | Automated Image-Based Identification and Consistent Classification of Fire Patterns with Quantitative Shape Analysis and Spatial Location Identification | 提出一种基于图像的火灾模式自动识别与分类框架,提升火灾调查的客观性和准确性。 | spatial relationship |