cs.CV（2025-09-10）

📊 共 26 篇论文 | 🔗 8 篇有代码

🎯 兴趣领域导航

支柱九：具身大模型 (Embodied Foundation Models) (9 🔗2) 支柱二：RL算法与架构 (RL & Architecture) (8 🔗2) 支柱三：空间感知与语义 (Perception & Semantics) (4 🔗1) 支柱六：视频提取与匹配 (Video Extraction) (2 🔗1) 支柱一：机器人控制 (Robot Control) (2 🔗1) 支柱四：生成式动作 (Generative Motion) (1 🔗1)

🔬 支柱九：具身大模型 (Embodied Foundation Models) (9 篇)

#	题目	一句话要点	标签	🔗	⭐
1	COCO-Urdu: A Large-Scale Urdu Image-Caption Dataset with Multimodal Quality Estimation	COCO-Urdu：构建大规模乌尔都语图像描述数据集，促进多模态研究	large language model multimodal visual grounding
2	Calibrating MLLM-as-a-judge via Multimodal Bayesian Prompt Ensembles	提出MMB方法，通过多模态贝叶斯提示集成校准MLLM在文图生成评判中的偏差。	large language model multimodal
3	Vision-Language Semantic Aggregation Leveraging Foundation Model for Generalizable Medical Image Segmentation	提出基于EM聚合和文本引导解码的医学图像分割方法，提升模型泛化性	foundation model multimodal
4	MITS: A Large-Scale Multimodal Benchmark Dataset for Intelligent Traffic Surveillance	提出MITS大规模多模态数据集，提升智能交通监控领域LMM性能	multimodal instruction following
5	An Open Benchmark Dataset for GeoAI Foundation Models for Oil Palm Mapping in Indonesia	发布印尼油棕种植区GeoAI基础模型开放基准数据集，助力森林砍伐监测。	foundation model PaLM-E
6	Recurrence Meets Transformers for Universal Multimodal Retrieval	提出ReT-2以解决多模态检索任务的复杂性问题	multimodal	✅
7	Retrieval-Augmented VLMs for Multimodal Melanoma Diagnosis	提出检索增强的视觉语言模型，用于提升多模态黑色素瘤诊断的准确性。	multimodal
8	BcQLM: Efficient Vision-Language Understanding with Distilled Q-Gated Cross-Modal Fusion	提出BcQLM：一种轻量级、高效的视觉-语言理解框架，适用于资源受限环境。	large language model multimodal	✅
9	AdsQA: Towards Advertisement Video Understanding	提出AdsQA广告视频问答基准，并设计ReAd-R模型提升LLM在广告理解上的能力。	large language model

🔬 支柱二：RL算法与架构 (RL & Architecture) (8 篇)

#	题目	一句话要点	标签	🔗	⭐
10	Bitrate-Controlled Diffusion for Disentangling Motion and Content in Video	提出一种基于码率控制扩散模型的视频解耦框架，用于分离视频中的运动和内容。	representation learning motion generation
11	PromptGuard: An Orchestrated Prompting Framework for Principled Synthetic Text Generation for Vulnerable Populations using LLMs with Enhanced Safety, Fairness, and Controllability	PromptGuard：针对弱势群体，通过编排式Prompting框架提升LLM生成文本的安全性、公平性和可控性	contrastive learning large language model chain-of-thought
12	First-order State Space Model for Lightweight Image Super-resolution	提出一阶状态空间模型(FSSM)，提升轻量级图像超分辨率性能	Mamba SSM state space model
13	SimCroP: Radiograph Representation Learning with Similarity-driven Cross-granularity Pre-training	SimCroP：基于相似性驱动的跨粒度预训练提升胸部CT影像表征学习	representation learning multimodal	✅
14	World Modeling with Probabilistic Structure Integration	提出概率结构集成（PSI），用于学习可控且灵活提示的世界模型。	world model optical flow
15	RewardDance: Reward Scaling in Visual Generation	RewardDance：通过生成式奖励建模解决视觉生成中的奖励缩放和奖励利用问题	reinforcement learning RLHF chain-of-thought
16	Hyperspectral Mamba for Hyperspectral Object Tracking	提出基于Mamba的HyMamba网络，用于高光谱目标跟踪，提升复杂场景下的跟踪精度。	Mamba SSM	✅
17	Chirality in Action: Time-Aware Video Representation Learning by Latent Straightening	提出基于潜在空间矫正的时间感知视频表征学习方法，用于手性动作识别。	representation learning

🔬 支柱三：空间感知与语义 (Perception & Semantics) (4 篇)

#	题目	一句话要点	标签	🔗	⭐
18	Prompt-Driven Image Analysis with Multimodal Generative AI: Detection, Segmentation, Inpainting, and Interpretation	提出基于提示的多模态生成AI图像分析流程，实现检测、分割、修复与描述	open-vocabulary open vocabulary multimodal
19	FractalPINN-Flow: A Fractal-Inspired Network for Unsupervised Optical Flow Estimation with Total Variation Regularization	提出FractalPINN-Flow，一种基于分形网络的无监督光流估计方法。	optical flow
20	UltrON: Ultrasound Occupancy Networks	UltrON：利用声学特征的超声图像占据网络，解决弱监督下的三维重建问题	implicit representation geometric consistency	✅
21	Semantic Causality-Aware Vision-Based 3D Occupancy Prediction	提出语义因果感知方法以解决3D占用预测问题	semantic mapping semantic map

🔬 支柱六：视频提取与匹配 (Video Extraction) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
22	iMatcher: Improve matching in point cloud registration via local-to-global geometric consistency learning	iMatcher：通过局部到全局几何一致性学习改进点云配准中的特征匹配	feature matching geometric consistency
23	Diffusion-Based Action Recognition Generalizes to Untrained Domains	提出基于扩散模型的动作识别方法，提升模型在未训练域上的泛化能力	egocentric	✅

🔬 支柱一：机器人控制 (Robot Control) (2 篇)

#	题目	一句话要点	标签	🔗	⭐
24	EfficientIML: Efficient High-Resolution Image Manipulation Localization	提出EfficientIML模型，用于高效高分辨率图像篡改定位，并构建了高分辨率SIF数据集。	manipulation
25	ArgoTweak: Towards Self-Updating HD Maps through Structured Priors	ArgoTweak：通过结构化先验实现高精地图的自更新	sim2real	✅

🔬 支柱四：生成式动作 (Generative Motion) (1 篇)

#	题目	一句话要点	标签	🔗	⭐
26	HuMo: Human-Centric Video Generation via Collaborative Multi-Modal Conditioning	HuMo：通过协同多模态条件控制实现以人为中心的视频生成	classifier-free guidance foundation model multimodal	✅

⬅️ 返回 cs.CV 首页 · 🏠 返回主页