Cs-Cv

ObjEmbed: Towards Universal Multimodal Object Embeddings

Computer Vision 3 JAN, 2026

ObjEmbed: Towards Universal Multimodal Object Embeddings

By Shenghao Fu

One Size, Many Fits: Aligning Diverse Group-Wise Click Preferences in Large-Scale Advertising Image Generation

Artificial Intelligence 2 JAN, 2026

One Size, Many Fits: Aligning Diverse Group-Wise Click Preferences in Large-Scale Advertising Image Generation

By Shuo Lu

CIEC: Coupling Implicit and Explicit Cues for Multimodal Weakly Supervised Manipulation Localization

Computer Vision 3 JAN, 2026

CIEC: Coupling Implicit and Explicit Cues for Multimodal Weakly Supervised Manipulation Localization

By Xinquan Yu

Data Augmentation for High-Fidelity Generation of CAR-T/NK Immunological Synapse Images

Computer Vision 3 JAN, 2026

Data Augmentation for High-Fidelity Generation of CAR-T/NK Immunological Synapse Images

By Xiang Zhang

Can 3D point cloud data improve automated body condition score prediction in dairy cattle?

Computer Vision 3 JAN, 2026

Can 3D point cloud data improve automated body condition score prediction in dairy cattle?

By Zhou Tang

How Much Information Can a Vision Token Hold? A Scaling Law for Recognition Limits in VLMs

Machine Learning 28 JAN, 2026

How Much Information Can a Vision Token Hold? A Scaling Law for Recognition Limits in VLMs

By Shuxin Zhuang

Beyond Translation: Cross-Cultural Meme Transcreation with Vision-Language Models

Artificial Intelligence 23 JAN, 2026

Beyond Translation: Cross-Cultural Meme Transcreation with Vision-Language Models

By Yuming Zhao

Creative Image Generation with Diffusion Models

Computer Vision 2 JAN, 2026

Creative Image Generation with Diffusion Models

By Kunpeng Song

SyNeT: Synthetic Negatives for Traversability Learning

Robotics 3 JAN, 2026

SyNeT: Synthetic Negatives for Traversability Learning

By Bomena Kim

EEO-TFV: Escape-Explore Optimizer for Web-Scale Time-Series Forecasting and Vision Analysis

Artificial Intelligence 30 JAN, 2026

EEO-TFV: Escape-Explore Optimizer for Web-Scale Time-Series Forecasting and Vision Analysis

By Hua Wang

From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation

Artificial Intelligence 28 JAN, 2026

From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation

By Tianle Gu

DuoGen: Towards General Purpose Interleaved Multimodal Generation

Computer Vision 3 JAN, 2026

DuoGen: Towards General Purpose Interleaved Multimodal Generation

By Min Shi

TFFM: Topology-Aware Feature Fusion Module via Latent Graph Reasoning for Retinal Vessel Segmentation

Computer Vision 3 JAN, 2026

TFFM: Topology-Aware Feature Fusion Module via Latent Graph Reasoning for Retinal Vessel Segmentation

By Iftekhar Ahmed

WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models

Machine Learning 28 JAN, 2026

WorldVQA: Measuring Atomic World Knowledge in Multimodal Large Language Models

By Runjie Zhou

ToolTok: Tool Tokenization for Efficient and Generalizable GUI Agents

Artificial Intelligence 30 JAN, 2026

ToolTok: Tool Tokenization for Efficient and Generalizable GUI Agents

By Xiaoce Wang

Enhancing Post-Training Quantization via Future Activation Awareness

Machine Learning 28 JAN, 2026

Enhancing Post-Training Quantization via Future Activation Awareness

By Zheqi Lv

Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars

Artificial Intelligence 2 JAN, 2026

Making Avatars Interact: Towards Text-Driven Human-Object Interaction for Controllable Talking Avatars

By Youliang Zhang

Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion

Computer Vision 27 JAN, 2026

Shuffle Mamba: State Space Models with Random Shuffle for Multi-Modal Image Fusion

By Ke Cao

Helios 2.0: A Robust, Ultra-Low Power Gesture Recognition System Optimised for Event-Sensor based Wearables

Machine Learning 2 JAN, 2026

Helios 2.0: A Robust, Ultra-Low Power Gesture Recognition System Optimised for Event-Sensor based Wearables

By Prarthana Bhattacharyya

HI-SLAM2: Geometry-Aware Gaussian SLAM for Fast Monocular Scene Reconstruction

Robotics 2 JAN, 2026

HI-SLAM2: Geometry-Aware Gaussian SLAM for Fast Monocular Scene Reconstruction

By Wei Zhang

Transferring Visual Explainability of Self-Explaining Models to Prediction-Only Models without Additional Training

Artificial Intelligence 2 JAN, 2026

Transferring Visual Explainability of Self-Explaining Models to Prediction-Only Models without Additional Training

By Yuya Yoshikawa

CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos

Computer Vision 2 JAN, 2026

CoT-RVS: Zero-Shot Chain-of-Thought Reasoning Segmentation for Videos

By Shiu-hong Kao

Entropy-Lens: Uncovering Decision Strategies in LLMs

Artificial Intelligence 2 JAN, 2026

Entropy-Lens: Uncovering Decision Strategies in LLMs

By Riccardo Ali

Future frame prediction in chest and liver cine MRI using the PCA respiratory motion model: comparing transformers and dynamically trained recurrent neural networks

Neural and Evolutionary Computing 2 JAN, 2026

Future frame prediction in chest and liver cine MRI using the PCA respiratory motion model: comparing transformers and dynamically trained recurrent neural networks

By Michel Pohl