Computer Vision

Papers on image recognition, object detection, video analysis, and visual understanding.

cs.CV · 703 papers

Guide, Think, Act: Interactive Embodied Reasoning in Vision-Language-Action Models

GTA-VLA is an interactive Vision-Language-Action framework that uses user-provided spatial guidance to improve robot reasoning and robustness in embodied tasks.

2605.13632May 13, 2026Yiran Ling, Qing Lian, Jinghang Li +6

LoREnc: Low-Rank Encryption for Securing Foundation Models and LoRA Adapters

LoREnc is a training-free framework that secures foundation models and LoRA adapters against IP leakage and model recovery attacks with minimal overhead.

2605.13163May 13, 2026Beomjin Ahn, Jungmin Kwon, Chanyong Jung +1

SenseNova-U1: Unifying Multimodal Understanding and Generation with NEO-unify Architecture

SenseNova-U1 introduces a unified architecture (NEO-unify) that seamlessly integrates multimodal understanding and generation, outperforming specialized VLMs.

2605.12500May 12, 2026Haiwen Diao, Penghao Wu, Hanming Deng +55

Covering Human Action Space for Computer Use: Data Synthesis and Benchmark

This paper introduces CUActSpot, a new benchmark and data synthesis method to improve computer-use agents' reliability on complex, diverse interactions.

2605.12501May 12, 2026Miaosen Zhang, Xiaohan Zhao, Zhihong Tan +14

EgoForce: Forearm-Guided Camera-Space 3D Hand Pose from a Monocular Egocentric Camera

EgoForce reconstructs absolute 3D hand pose from a single egocentric camera, robustly handling diverse head-mounted device configurations.

2605.12498May 12, 2026Christen Millerdurai, Shaoxiang Wang, Yaxu Xie +3

CausalCine: Real-Time Autoregressive Generation for Multi-Shot Video Narratives

CausalCine is a real-time autoregressive framework for generating multi-shot video narratives, enabling interactive, coherent storytelling across shot changes.

2605.12496May 12, 2026Yihao Meng, Zichen Liu, Hao Ouyang +11

From Web to Pixels: Bringing Agentic Search into Visual Perception

This paper introduces WebEye, a benchmark, and Pixel-Searcher, a model, for visual perception tasks requiring external knowledge and agentic search.

2605.12497May 12, 2026Bokang Yang, Xinyi Sun, Kaituo Feng +3

Revisiting Photometric Ambiguity for Accurate Gaussian-Splatting Surface Reconstruction

AmbiSuR improves Gaussian Splatting surface reconstruction by addressing photometric ambiguities with a novel disambiguation and self-indication module.

2605.12494May 12, 2026Jiahe Li, Jiawei Zhang, Xiao Bai +4

AlphaGRPO: Unlocking Self-Reflective Multimodal Generation in UMMs via Decompositional Verifiable Reward

AlphaGRPO enhances multimodal generation in UMMs using GRPO and a novel Decompositional Verifiable Reward for self-reflection and reasoning.

2605.12495May 12, 2026Runhui Huang, Jie Wu, Rui Yang +2

Elastic Attention Cores for Scalable Vision Transformers

VECA introduces elastic core-periphery attention for Vision Transformers, achieving linear-time complexity and competitive performance with learned core tokens.

2605.12491May 12, 2026Alan Z. Song, Yinjie Chen, Mu Nan +8

OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation

OmniNFT proposes a novel diffusion RL framework to improve joint audio-video generation by addressing multi-modal challenges like gradient imbalance.

2605.12480May 12, 2026Guohui Zhang, XiaoXiao Ma, Jie Huang +9

FuTCR: Future-Targeted Contrast and Repulsion for Continual Panoptic Segmentation

FuTCR improves continual panoptic segmentation by pre-structuring representations for future classes, boosting new-class performance.

2605.12451May 12, 2026Nicholas Ikechukwu, Keanu Nichols, Deepti Ghadiyaram +1

LychSim: A Controllable and Interactive Simulation Framework for Vision Research

LychSim is an interactive, controllable simulation framework built on Unreal Engine 5, simplifying complex simulation for vision research and LLM agents.

2605.12449May 12, 2026Wufei Ma, Chloe Wang, Siyi Chen +3

3D Gaussian Splatting for Efficient Retrospective Dynamic Scene Novel View Synthesis with a Standardized Benchmark

This paper achieves efficient retrospective dynamic scene novel view synthesis using 3D Gaussian Splatting in synchronized multi-view settings.

2605.12437May 12, 2026Yunxiao Zhang, Suryansh Kumar

GaitProtector: Impersonation-Driven Gait De-Identification via Training-Free Diffusion Latent Optimization

GaitProtector uses a training-free diffusion method to de-identify gait by impersonating a target identity, balancing privacy with motion quality.

2605.12431May 12, 2026Huiran Duan, Qian Zhou, Zhongliang Guo +4

AOI-SSL: Self-Supervised Framework for Efficient Segmentation of Wire-bonded Semiconductors In Optical Inspection

AOI-SSL is a self-supervised framework for efficient semantic segmentation of wire-bonded semiconductors, reducing labeled data needs and improving adaptation.

2605.12430May 12, 2026Joaquín Figueira, Rob Van Gastel, Giacomo D'Amicantonio +4

Beyond Localization: A Comprehensive Diagnosis of Perspective-Conditioned Spatial Reasoning in MLLMs from Omnidirectional Images

MLLMs struggle with viewpoint-dependent spatial reasoning; a new benchmark, PCSR-Bench, reveals a significant perception-reasoning gap.

2605.12413May 12, 2026Yuangong Chen, Wai Keung Wong, Jiaxing Li +2

PreviousPage 2 of 36Next

📬 Weekly AI Paper Digest

Get the top 10 AI/ML arXiv papers from the week — summarized, scored, and delivered to your inbox every Monday.