cs.CV（2025-08-12）

📊 共 29 篇论文 | 🔗 5 篇有代码

🎯 兴趣领域导航

支柱九：具身大模型 (Embodied Foundation Models) (9 🔗2) 支柱三：空间感知与语义 (Perception & Semantics) (8) 支柱二：RL算法与架构 (RL & Architecture) (4 🔗1) 支柱八：物理动画 (Physics-based Animation) (3 🔗2) 支柱四：生成式动作 (Generative Motion) (3) 支柱五：交互与反应 (Interaction & Reaction) (1) 支柱一：机器人控制 (Robot Control) (1)

🔬 支柱九：具身大模型 (Embodied Foundation Models) (9 篇)

#	题目	一句话要点	标签	🔗	⭐
1	ColorGPT: Leveraging Large Language Models for Multimodal Color Recommendation	提出ColorGPT以解决多模态颜色推荐问题	large language model multimodal
2	Spatial Traces: Enhancing VLA Models with Spatial-Temporal Understanding	提出空间轨迹方法以增强VLA模型的时空理解能力	vision-language-action VLA	✅
3	3DFroMLLM: 3D Prototype Generation only from Pretrained Multimodal LLMs	提出3DFroMLLM以解决多模态大语言模型空间推理不足问题	large language model multimodal
4	DiffPose-Animal: A Language-Conditioned Diffusion Framework for Animal Pose Estimation	提出DiffPose-Animal以解决动物姿态估计问题	large language model language conditioned
5	Harnessing Input-Adaptive Inference for Efficient VLN	提出输入自适应推理方法以提升视觉语言导航效率	VLN	✅
6	MMIF-AMIN: Adaptive Loss-Driven Multi-Scale Invertible Dense Network for Multimodal Medical Image Fusion	提出MMIF-AMIN以解决多模态医学图像融合问题	multimodal
7	MADPromptS: Unlocking Zero-Shot Morphing Attack Detection with Multiple Prompt Aggregation	提出MADPromptS以解决零-shot人脸变形攻击检测问题	foundation model multimodal
8	Scaling Learned Image Compression Models up to 1 Billion	提出大规模学习图像压缩模型以提升压缩性能	large language model
9	TaoCache: Structure-Maintained Video Generation Acceleration	提出TaoCache以解决视频生成加速中的结构一致性问题	instruction following

🔬 支柱三：空间感知与语义 (Perception & Semantics) (8 篇)

#	题目	一句话要点	标签	🔗	⭐
10	Gradient-Direction-Aware Density Control for 3D Gaussian Splatting	提出梯度方向感知密度控制以解决3D高斯点云渲染问题	3D gaussian splatting 3DGS gaussian splatting
11	GaussianUpdate: Continual 3D Gaussian Splatting Update for Changing Environments	提出GaussianUpdate以解决动态环境下的3D场景更新问题	3D gaussian splatting gaussian splatting splatting
12	Vision-Only Gaussian Splatting for Collaborative Semantic Occupancy Prediction	提出稀疏3D语义高斯点云以解决协作语义占用预测问题	depth estimation gaussian splatting splatting
13	A new dataset and comparison for multi-camera frame synthesis	提出多摄像头数据集以解决帧合成方法比较问题	depth estimation 3D gaussian splatting gaussian splatting
14	MonoPartNeRF:Human Reconstruction from Monocular Video via Part-Based Neural Radiance Fields	提出MonoPartNeRF以解决单目视频中人类重建问题	NeRF neural radiance field
15	HQ-OV3D: A High Box Quality Open-World 3D Detection Framework based on Diffision Model	提出HQ-OV3D以解决开放世界3D检测中的伪标签质量问题	open-vocabulary open vocabulary geometric consistency
16	ViPE: Video Pose Engine for 3D Geometric Perception	提出ViPE以解决3D几何感知中的视频标注挑战	metric depth
17	Revisiting Efficient Semantic Segmentation: Learning Offsets for Better Spatial and Class Feature Alignment	提出偏移学习方法以解决语义分割中的特征对齐问题	scene understanding

🔬 支柱二：RL算法与架构 (RL & Architecture) (4 篇)

#	题目	一句话要点	标签	🔗	⭐
18	DocThinker: Explainable Multimodal Large Language Models with Rule-based Reinforcement Learning for Document Understanding	提出DocThinker以解决多模态大语言模型的可解释性与适应性问题	reinforcement learning policy learning large language model	✅
19	UltraLight Med-Vision Mamba for Classification of Neoplastic Progression in Tubular Adenomas	提出Ultralight Med-Vision Mamba以解决肠道腺瘤分类问题	Mamba SSM
20	Addressing Bias in VLMs for Glaucoma Detection Without Protected Attribute Supervision	提出无监督属性去偏见方法以改善青光眼检测	contrastive learning multimodal
21	AME: Aligned Manifold Entropy for Robust Vision-Language Distillation	提出AME以解决视觉-语言蒸馏中的不确定性问题	distillation

🔬 支柱八：物理动画 (Physics-based Animation) (3 篇)

#	题目	一句话要点	标签	🔗	⭐
22	FusionEnsemble-Net: An Attention-Based Ensemble of Spatiotemporal Networks for Multimodal Sign Language Recognition	提出FusionEnsemble-Net以解决多模态手语识别问题	spatiotemporal multimodal	✅
23	KFFocus: Highlighting Keyframes for Enhanced Video Understanding	提出KFFocus以解决视频理解中的关键帧压缩问题	spatiotemporal large language model multimodal
24	UniConvNet: Expanding Effective Receptive Field while Maintaining Asymptotically Gaussian Distribution for ConvNets of Any Scale	提出UniConvNet以扩展有效感受野并保持高斯分布	UniCon	✅

🔬 支柱四：生成式动作 (Generative Motion) (3 篇)

#	题目	一句话要点	标签	🔗	⭐
25	X-UniMotion: Animating Human Images with Expressive, Unified and Identity-Agnostic Motion Latents	提出X-UniMotion以实现高保真、身份无关的人体动画	motion latent
26	Spatial-Temporal Multi-Scale Quantization for Flexible Motion Generation	提出多尺度量化方法以解决人类动作生成的灵活性问题	motion generation
27	RealisMotion: Decomposed Human Motion Control and Video Generation in the World Space	提出RealisMotion以解决人类运动控制与视频生成的挑战	text-to-motion

🔬 支柱五：交互与反应 (Interaction & Reaction) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
28	QueryCraft: Transformer-Guided Query Initialization for Enhanced Human-Object Interaction Detection	提出QueryCraft以解决HOI检测中查询初始化不足问题	human-object interaction HOI

🔬 支柱一：机器人控制 (Robot Control) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
29	SegDAC: Improving Visual Reinforcement Learning by Extracting Dynamic Objectc-Centric Representations from Pretrained Vision Models	提出SegDAC以解决视觉强化学习中的动态对象表示问题	manipulation reinforcement learning

⬅️ 返回 cs.CV 首页 · 🏠 返回主页