cs.CV(2024-10-27)

📊 共 15 篇论文 | 🔗 5 篇有代码

🎯 兴趣领域导航

支柱三:空间感知与语义 (Perception & Semantics) (7 🔗2) 支柱九:具身大模型 (Embodied Foundation Models) (2 🔗1) 支柱二:RL算法与架构 (RL & Architecture) (2 🔗2) 支柱四:生成式动作 (Generative Motion) (2) 支柱六:视频提取与匹配 (Video Extraction) (1) 支柱一:机器人控制 (Robot Control) (1)

🔬 支柱三:空间感知与语义 (Perception & Semantics) (7 篇)

#题目一句话要点标签🔗
1 Normal-GS: 3D Gaussian Splatting with Normal-Involved Rendering Normal-GS:通过法线参与渲染的3D高斯溅射,提升几何精度与渲染质量 3D gaussian splatting 3DGS gaussian splatting
2 BlinkVision: A Benchmark for Optical Flow, Scene Flow and Point Tracking Estimation using RGB Frames and Events BlinkVision:提出一个使用RGB图像和事件数据的大规模光流、场景流和点跟踪估计基准。 optical flow scene flow
3 Open-Vocabulary Object Detection via Language Hierarchy 提出语言层级自训练方法,解决弱监督开放词汇目标检测中的标签不匹配问题。 open-vocabulary open vocabulary
4 GUMBEL-NERF: Representing Unseen Objects as Part-Compositional Neural Radiance Fields Gumbel-NeRF:提出一种基于部件组合的神经辐射场,用于合成未见物体的 novel views。 NeRF neural radiance field
5 Depth Attention for Robust RGB Tracking 提出深度注意力机制,增强RGB跟踪在运动模糊和遮挡下的鲁棒性 depth estimation monocular depth
6 Neural rendering enables dynamic tomography 利用神经渲染实现动态断层扫描,突破传统X-CT在动态实验中的3D重建限制 neural radiance field
7 Unlocking Comics: The AI4VA Dataset for Visual Understanding AI4VA:用于视觉理解的漫画数据集,支持深度估计、语义分割等任务。 depth estimation

🔬 支柱九:具身大模型 (Embodied Foundation Models) (2 篇)

#题目一句话要点标签🔗
8 Historical Test-time Prompt Tuning for Vision Foundation Models 提出HisTPT以解决测试时提示调优性能下降问题 foundation model
9 Referring Human Pose and Mask Estimation in the Wild 提出RefHuman数据集和UniPHD模型,用于解决野外环境下基于文本或位置提示的人体姿态和掩码估计问题。 multimodal

🔬 支柱二:RL算法与架构 (RL & Architecture) (2 篇)

#题目一句话要点标签🔗
10 Idempotent Unsupervised Representation Learning for Skeleton-Based Action Recognition 提出基于骨骼的幂等生成模型,用于无监督动作表征学习,提升识别性能。 representation learning contrastive learning
11 Wavelet-based Mamba with Fourier Adjustment for Low-light Image Enhancement 提出基于小波变换Mamba和傅里叶调整的WalMaFa模型,用于低光照图像增强。 Mamba

🔬 支柱四:生成式动作 (Generative Motion) (2 篇)

#题目一句话要点标签🔗
12 ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation ARLON:利用自回归模型增强扩散Transformer,实现长视频生成 VQ-VAE
13 Lodge++: High-quality and Long Dance Generation with Vivid Choreography Patterns Lodge++:提出高质量、超长舞蹈生成框架,具备生动编舞模式 penetration

🔬 支柱六:视频提取与匹配 (Video Extraction) (1 篇)

#题目一句话要点标签🔗
14 Egocentric and Exocentric Methods: A Short Survey 综述结合第一人称与第三人称视觉方法,促进下一代AI智能体发展 egocentric egocentric vision

🔬 支柱一:机器人控制 (Robot Control) (1 篇)

#题目一句话要点标签🔗
15 Deep Learning, Machine Learning -- Digital Signal and Image Processing: From Theory to Application 融合机器学习的数字信号与图像处理理论与应用研究 manipulation

⬅️ 返回 cs.CV 首页 · 🏠 返回主页