cs.CV（2025-12-05）

📊 共 31 篇论文 | 🔗 6 篇有代码

🎯 兴趣领域导航

支柱二：RL算法与架构 (RL & Architecture) (11 🔗4) 支柱三：空间感知与语义 (Perception & Semantics) (9 🔗1) 支柱九：具身大模型 (Embodied Foundation Models) (5) 支柱八：物理动画 (Physics-based Animation) (2) 支柱一：机器人控制 (Robot Control) (1) 支柱六：视频提取与匹配 (Video Extraction) (1 🔗1) 支柱七：动作重定向 (Motion Retargeting) (1) 支柱四：生成式动作 (Generative Motion) (1)

🔬 支柱二：RL算法与架构 (RL & Architecture) (11 篇)

#	题目	一句话要点	标签	🔗	⭐
1	LoC-Path: Learning to Compress for Pathology Multimodal Large Language Models	提出LoC-Path，通过压缩冗余信息提升病理多模态大语言模型的效率。	MAE large language model multimodal
2	SpectraIrisPAD: Leveraging Vision Foundation Models for Spectrally Conditioned Multispectral Iris Presentation Attack Detection	SpectraIrisPAD：利用视觉基础模型进行光谱条件下的多光谱虹膜呈现攻击检测	contrastive learning foundation model
3	DashFusion: Dual-stream Alignment with Hierarchical Bottleneck Fusion for Multimodal Sentiment Analysis	提出DashFusion，通过双流对齐和分层瓶颈融合解决多模态情感分析中的对齐与融合问题。	contrastive learning multimodal	✅
4	ParaUni: Enhance Generation in Unified Multimodal Model with Reinforcement-driven Hierarchical Parallel Information Interaction	ParaUni：利用强化学习驱动的分层并行信息交互增强统一多模态模型的生成能力	reinforcement learning multimodal	✅
5	Distilling Expert Surgical Knowledge: How to train local surgical VLMs for anatomy explanation in Complete Mesocolic Excision	提出一种隐私保护的知识蒸馏框架，用于训练局部手术VLM以解释完全结肠系膜切除术中的解剖结构。	DPO direct preference optimization scene understanding
6	EditThinker: Unlocking Iterative Reasoning for Any Image Editor	EditThinker：解锁任意图像编辑器迭代推理能力，提升指令遵循性	reinforcement learning foundation model instruction following
7	World Models That Know When They Don't Know: Controllable Video Generation with Calibrated Uncertainty	提出C3方法，用于训练可控视频生成模型，使其具备校准的不确定性估计能力。	world model
8	Probing the effectiveness of World Models for Spatial Reasoning through Test-time Scaling	提出ViSA框架，通过空间断言改进世界模型在空间推理中的测试时缩放效果	world model	✅
9	LeAD-M3D: Leveraging Asymmetric Distillation for Real-time Monocular 3D Detection	LeAD-M3D：利用非对称蒸馏实现实时单目3D目标检测	distillation
10	Training Multi-Image Vision Agents via End2End Reinforcement Learning	提出IMAgent，通过端到端强化学习训练多图视觉Agent，解决复杂多图QA任务。	reinforcement learning
11	Rethinking Infrared Small Target Detection: A Foundation-Driven Efficient Paradigm	提出基于视觉基础模型的红外小目标检测高效框架，显著提升检测精度。	distillation foundation model	✅

🔬 支柱三：空间感知与语义 (Perception & Semantics) (9 篇)

#	题目	一句话要点	标签	🔗	⭐
12	See in Depth: Training-Free Surgical Scene Segmentation with Monocular Depth Priors	提出基于单目深度先验的无训练手术场景分割方法DepSeg	depth estimation monocular depth foundation model
13	BeLLA: End-to-End Birds Eye View Large Language Assistant for Autonomous Driving	BeLLA：用于自动驾驶的端到端鸟瞰图大语言助手	scene understanding large language model multimodal
14	TED-4DGS: Temporally Activated and Embedding-based Deformation for 4DGS Compression	TED-4DGS：提出时序激活和嵌入式形变的4DGS压缩方法，实现高效动态场景表示。	3D gaussian splatting 3DGS gaussian splatting
15	Curvature-Regularized Variational Autoencoder for 3D Scene Reconstruction from Sparse Depth	提出曲率正则化变分自编码器，用于从稀疏深度数据重建3D场景	scene reconstruction	✅
16	YOLO and SGBM Integration for Autonomous Tree Branch Detection and Depth Estimation in Radiata Pine Pruning Applications	提出YOLO与SGBM集成的树枝检测与深度估计方法，用于辐射松自主修剪	depth estimation
17	SplatPainter: Interactive Authoring of 3D Gaussians from 2D Edits via Test-Time Training	SplatPainter：基于测试时训练，通过2D编辑交互式创作3D高斯模型	3D gaussian splatting gaussian splatting splatting
18	Tracking-Guided 4D Generation: Foundation-Tracker Motion Priors for 3D Model Animation	提出Track4DGen，通过跟踪引导的4D生成实现高质量3D模型动画	gaussian splatting splatting
19	Physics-Grounded Attached Shadow Detection Using Approximate 3D Geometry and Light Direction	提出基于近似3D几何和光照方向的物理约束阴影检测方法	scene understanding
20	Shoot-Bounce-3D: Single-Shot Occlusion-Aware 3D from Lidar by Decomposing Two-Bounce Light	Shoot-Bounce-3D：利用单光子激光雷达和双次反射光实现遮挡感知的三维重建	scene reconstruction

🔬 支柱九：具身大模型 (Embodied Foundation Models) (5 篇)

#	题目	一句话要点	标签	🔗	⭐
21	VRSA: Jailbreaking Multimodal Large Language Models through Visual Reasoning Sequential Attack	提出VRSA：通过视觉推理序列攻击破解多模态大语言模型	large language model multimodal
22	ShaRP: SHAllow-LayeR Pruning for Video Large Language Models Acceleration	提出ShaRP框架，加速视频大语言模型浅层推理，提升高压缩率下的性能。	large language model
23	What Happens When: Learning Temporal Orders of Events in Videos	提出MECOT，通过多事件指令微调和思维链提示增强VLMMs的视频时序理解能力	multimodal chain-of-thought
24	Learning High-Fidelity Cloth Animation via Skinning-Free Image Transfer	提出一种无蒙皮图像迁移方法，用于生成高保真服装动画。	multimodal
25	Conscious Gaze: Adaptive Attention Mechanisms for Hallucination Mitigation in Vision-Language Models	提出Conscious Gaze，通过自适应注意力机制缓解视觉-语言模型中的幻觉问题	visual grounding

🔬 支柱八：物理动画 (Physics-based Animation) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
26	SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations	SCAIL：通过3D一致姿态表示的上下文学习实现工作室级角色动画	character animation
27	Fast SceneScript: Accurate and Efficient Structured Language Model via Multi-Token Prediction	Fast SceneScript：通过多Token预测实现精确高效的结构化语言模型，用于3D场景布局估计。	ASE

🔬 支柱一：机器人控制 (Robot Control) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
28	Explainable Adversarial-Robust Vision-Language-Action Model for Robotic Manipulation	提出可解释的对抗鲁棒视觉-语言-动作模型，提升机器人操作在智能农业中的鲁棒性。	manipulation vision-language-action OpenVLA

🔬 支柱六：视频提取与匹配 (Video Extraction) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
29	EgoEdit: Dataset, Real-Time Streaming Model, and Benchmark for Egocentric Video Editing	EgoEdit：用于第一人称视频编辑的数据集、实时模型与评测基准	egocentric instruction following	✅

🔬 支柱七：动作重定向 (Motion Retargeting) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
30	Manifold-Aware Point Cloud Completion via Geodesic-Attentive Hierarchical Feature Learning	提出一种流形感知的点云补全框架，通过测地线注意力分层特征学习提升几何一致性。	geometric consistency

🔬 支柱四：生成式动作 (Generative Motion) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
31	FNOPT: Resolution-Agnostic, Self-Supervised Cloth Simulation using Meta-Optimization with Fourier Neural Operators	FNOpt：基于傅里叶神经算子元优化的分辨率无关自监督cloth模拟	physically plausible

⬅️ 返回 cs.CV 首页 · 🏠 返回主页